Ë
    ´ãUhP~  ã                   óà  — d Z ddlmZmZmZ ddlZddlZddlmZ ddl	m
Z
mZmZ ddlmZ ddlmZmZmZ dd	lmZ dd
lmZmZmZ ddlmZmZ ddlmZ  ej<                  e«      Z d„ Z!d„ Z"d"d„Z# G d„ dejH                  «      Z%d„ Z& G d„ dejH                  «      Z'e G d„ de«      «       Z(e G d„ de(«      «       Z) ed¬«       G d„ de(e«      «       Z* ed¬«       G d„ d e(«      «       Z+g d!¢Z,y)#zPyTorch CTRL model.é    )ÚOptionalÚTupleÚUnionN)Únn)ÚBCEWithLogitsLossÚCrossEntropyLossÚMSELossé   )ÚGenerationMixin)ÚBaseModelOutputWithPastÚCausalLMOutputWithPastÚSequenceClassifierOutput)ÚPreTrainedModel)ÚConv1DÚ find_pruneable_heads_and_indicesÚprune_linear_layer)Úauto_docstringÚloggingé   )Ú
CTRLConfigc                 óP   — dt        j                  dd|dz  z  |z  «      z  }| |z  S )Nr   i'  é   )ÚtorchÚpow)ÚposÚiÚd_model_sizeÚangle_ratess       úx/var/www/catia.catastroantioquia-mas.com/valormas/lib/python3.12/site-packages/transformers/models/ctrl/modeling_ctrl.pyÚ
angle_defnr    '   s/   € Ø”e—i‘i ¨¨Q°!©V©¸Ñ'DÓEÑE€KØÑÐó    c                 óÒ  — t        t        j                  | t        j                  ¬«      j	                  |«      j                  d«      t        j                  |t        j                  ¬«      j	                  |«      j                  d«      |«      }t        j                  |d d …dd d…f   «      }t        j                  |d d …dd d…f   «      }t        j                  ||gd¬«      }|S )N©Údtyper   r   r   éÿÿÿÿ©Údim)	r    r   ÚarangeÚint64ÚtoÚ	unsqueezeÚsinÚcosÚcat)Úpositionr   r$   Ú
angle_radsÚsinesÚcosinesÚpos_encodings          r   Úpositional_encodingr4   ,   s¶   € äÜ‰X¤U§[¡[Ô1×4Ñ4°UÓ;×EÑEÀaÓHÜ‰\¬¯©Ô5×8Ñ8¸Ó?×IÑIÈ!ÓLØó€Jô I‰Ij¢ A D q D Ñ)Ó*€EÜi‰i˜
¢1 a d¨ d 7Ñ+Ó,€Gä—9‘9˜e WÐ-°2Ô6€LØÐr!   c           	      óŽ  — t        j                  | |j                  dddd«      «      }|j                  d   }|t	        j
                  |«      z  }|6|j                  d«      |j                  d«      }
}	|||
|	z
  |
…d |
…f   dz  z  }|||z   }t        j                  |d¬«      }|||z  }t        j                  ||«      }||fS )	Nr   r   r
   r   r%   éþÿÿÿg     ˆÃÀr&   )r   ÚmatmulÚpermuteÚshapeÚnpÚsqrtÚsizeÚsoftmax)ÚqÚkÚvÚmaskÚattention_maskÚ	head_maskÚ	matmul_qkÚdkÚscaled_attention_logitsÚndÚnsÚattention_weightsÚoutputs                r   Úscaled_dot_product_attentionrK   ;   sá   € ä—‘˜Q §	¡	¨!¨Q°°1Ó 5Ó6€Ià	
‰‰€BØ'¬"¯'©'°"«+Ñ5ÐàÐØ(×-Ñ-¨bÓ1Ð3J×3OÑ3OÐPRÓ3SˆBˆØ 4¨¨R©°"¨°c°r°cÐ(9Ñ#:¸TÑ#AÑAÐàÐ!à"9¸NÑ"JÐäŸ™Ð&=À2ÔFÐð ÐØ-°	Ñ9Ðä\‰\Ð+¨QÓ/€FàÐ$Ð$Ð$r!   c                   ó<   ‡ — e Zd Zˆ fd„Zd„ Zd„ Z	 	 	 	 	 dd„Zˆ xZS )ÚMultiHeadAttentionc                 ón  •— t         ‰|   «        || _        || _        t	        || j                  z  «      | _        t        j                  ||«      | _        t        j                  ||«      | _	        t        j                  ||«      | _
        t        j                  ||«      | _        t        «       | _        y ©N)ÚsuperÚ__init__Ú	num_headsr   ÚintÚdepthr   ÚLinearÚWqÚWkÚWvÚdenseÚsetÚpruned_heads)Úselfr   rR   Ú	__class__s      €r   rQ   zMultiHeadAttention.__init__V   s„   ø€ Ü‰ÑÔØ"ˆŒØ(ˆÔä˜¨¯©Ñ6Ó7ˆŒ
ä—)‘)˜L¨,Ó7ˆŒÜ—)‘)˜L¨,Ó7ˆŒÜ—)‘)˜L¨,Ó7ˆŒä—Y‘Y˜|¨\Ó:ˆŒ
Ü›EˆÕr!   c                 ó  — | j                   | j                  z  }t        |«      dk(  ry t        || j                  || j                  «      \  }}t        | j                  |«      | _        t        | j                  |«      | _        t        | j                  |«      | _        t        | j                  |d¬«      | _	        | j                  t        |«      z
  | _        || j                  z  | _         | j                  j                  |«      | _        y )Nr   r   r&   )r   rR   Úlenr   r[   r   rV   rW   rX   rY   Úunion)r\   ÚheadsÚattention_head_sizeÚindexs       r   Úprune_headszMultiHeadAttention.prune_headsd   sÑ   € Ø"×/Ñ/°4·>±>ÑAÐÜˆu‹:˜Š?ØÜ7¸¸t¿~¹~ÐObÐdh×duÑduÓv‰ˆˆuô % T§W¡W¨eÓ4ˆŒÜ$ T§W¡W¨eÓ4ˆŒÜ$ T§W¡W¨eÓ4ˆŒÜ'¨¯
©
°E¸qÔAˆŒ
ð Ÿ™¬#¨e«*Ñ4ˆŒØ/°$·.±.Ñ@ˆÔØ ×-Ñ-×3Ñ3°EÓ:ˆÕr!   c                 óx   — |j                  |d| j                  | j                  «      }|j                  g d¢«      S )Nr%   ©r   r   r   r
   )ÚreshaperR   rT   r8   )r\   ÚxÚ
batch_sizes      r   Úsplit_into_headsz#MultiHeadAttention.split_into_headsu   s-   € ØI‰Ij " d§n¡n°d·j±jÓAˆØy‰yšÓ&Ð&r!   c
                 óx  — |j                   d   }
| j                  |«      }| j                  |«      }| j                  |«      }| j	                  ||
«      }| j	                  ||
«      }| j	                  ||
«      }|<|d   |d   }}t        j                  ||fd¬«      }t        j                  ||fd¬«      }|du rt        j                  ||f«      }nd}t        ||||||«      }|d   j                  g d¢«      }|d   }|j                  |
d| j                  «      }| j                  |«      }||f}|	r||fz   }|S )	Nr   r   r6   r&   TrO   rf   r%   )r9   rV   rW   rX   rj   r   r.   ÚstackrK   r8   rg   r   rY   )r\   r@   r?   r>   rA   Ú
layer_pastrB   rC   Ú	use_cacheÚoutput_attentionsri   Úpast_keyÚ
past_valueÚpresentrJ   Úscaled_attentionÚattnÚoriginal_size_attentionÚoutputss                      r   ÚforwardzMultiHeadAttention.forwardy   sF  € ð —W‘W˜Q‘Zˆ
àG‰GA‹JˆØG‰GA‹JˆØG‰GA‹Jˆà×!Ñ! ! ZÓ0ˆØ×!Ñ! ! ZÓ0ˆØ×!Ñ! ! ZÓ0ˆØÐ!Ø#-¨a¡=°*¸Q±-jˆHÜ—	‘	˜8 Q˜-¨RÔ0ˆAÜ—	‘	˜: q˜/¨rÔ2ˆAà˜ÑÜ—k‘k 1 a &Ó)‰GàˆGä-¨a°°A°t¸^ÈYÓWˆØ! !™9×,Ñ,ª\Ó:ÐØa‰yˆØ"2×":Ñ":¸:ÀrÈ4×K\ÑK\Ó"]ÐØ—‘Ð3Ó4ˆà˜7Ð#ˆÙØ  Ñ'ˆGØˆr!   ©NNNFF)Ú__name__Ú
__module__Ú__qualname__rQ   rd   rj   rw   Ú__classcell__©r]   s   @r   rM   rM   U   s(   ø„ ô"ò;ò"'ð ØØØØ÷(r!   rM   c                 ó¤   — t        j                  t        j                  | |«      t        j                  «       t        j                  || «      «      S rO   )r   Ú
SequentialrU   ÚReLU)r   Údffs     r   Úpoint_wise_feed_forward_networkr‚   ¤   s2   € Ü=‰=œŸ™ <°Ó5´r·w±w³yÄ"Ç)Á)ÈCÐQ]ÓB^Ó_Ð_r!   c                   ó*   ‡ — e Zd Zdˆ fd„	Z	 dd„Zˆ xZS )ÚEncoderLayerc                 ó>  •— t         ‰|   «        t        ||«      | _        t	        ||«      | _        t        j                  |d¬«      | _        t        j                  |d¬«      | _	        t        j                  |«      | _        t        j                  |«      | _        y )Ngíµ ÷Æ°>©Úeps)rP   rQ   rM   Úmulti_head_attentionr‚   Úffnr   Ú	LayerNormÚ
layernorm1Ú
layernorm2ÚDropoutÚdropout1Údropout2)r\   r   rR   r   Úrater]   s        €r   rQ   zEncoderLayer.__init__©   so   ø€ Ü‰ÑÔä$6°|ÀYÓ$OˆÔ!Ü2°<ÀÓEˆŒäŸ,™, |¸Ô>ˆŒÜŸ,™, |¸Ô>ˆŒäŸ
™
 4Ó(ˆŒÜŸ
™
 4Ó(ˆr!   c                 ó  — | j                  |«      }| j                  |||||||||¬«	      }	|	d   }
| j                  |
«      }
||
z   }| j                  |«      }| j	                  |«      }| j                  |«      }||z   }|f|	dd  z   }|S )N©rm   rB   rC   rn   ro   r   r   )r‹   rˆ   rŽ   rŒ   r‰   r   )r\   rh   rA   rm   rB   rC   rn   ro   ÚnormedÚattn_outputsÚattn_outputÚout1Úout2Ú
ffn_outputrv   s                  r   rw   zEncoderLayer.forwardµ   s¯   € ð —‘ Ó#ˆØ×0Ñ0ØØØØØ!Ø)ØØØ/ð 1ó 

ˆð # 1‘oˆØ—m‘m KÓ0ˆØ;‰ˆà‰˜tÓ$ˆØ—X‘X˜d“^ˆ
Ø—]‘] :Ó.ˆ
ØjÑ ˆà'˜L¨¨Ð,Ñ,ˆØˆr!   )gš™™™™™¹?rx   )ry   rz   r{   rQ   rw   r|   r}   s   @r   r„   r„   ¨   s   ø„ õ
)ð qv÷r!   r„   c                   ó   — e Zd ZeZdZd„ Zy)ÚCTRLPreTrainedModelÚtransformerc                 ó  — t        |t        j                  t        f«      rm|j                  j
                  j                  d| j                  j                  ¬«       |j                  %|j                  j
                  j                  «        yyt        |t        j                  «      rz|j                  j
                  j                  d| j                  j                  ¬«       |j                  2|j                  j
                  |j                     j                  «        yyt        |t        j                  «      rJ|j                  j
                  j                  «        |j                  j
                  j                  d«       yy)zInitialize the weights.g        )ÚmeanÚstdNç      ð?)Ú
isinstancer   rU   r   ÚweightÚdataÚnormal_ÚconfigÚinitializer_rangeÚbiasÚzero_Ú	EmbeddingÚpadding_idxrŠ   Úfill_)r\   Úmodules     r   Ú_init_weightsz!CTRLPreTrainedModel._init_weightsÖ   s  € äfœrŸy™y¬&Ð1Ô2ð M‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÔSØ{‰{Ð&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡Ô-ØM‰M×Ñ×&Ñ&¨C°T·[±[×5RÑ5RÐ&ÔSØ×!Ñ!Ð-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ä˜¤§¡Ô-ØK‰K×Ñ×"Ñ"Ô$ØM‰M×Ñ×$Ñ$ SÕ)ð .r!   N)ry   rz   r{   r   Úconfig_classÚbase_model_prefixr¬   © r!   r   rš   rš   Ñ   s   „ à€LØ%Ðó*r!   rš   c                   óˆ  ‡ — e Zd Zˆ fd„Zd„ Zd„ Zd„ Ze	 	 	 	 	 	 	 	 	 	 	 ddee	j                     deeee	j                           dee	j                     dee	j                     d	ee	j                     d
ee	j                     dee	j                     dee   dee   dee   dee   deee	j                     ef   fd„«       Zˆ xZS )Ú	CTRLModelc                 óÞ  •— t         ‰|   |«       |j                  | _        |j                  | _        t        |j                  | j                  t        j                  «      | _
        t        j                  |j                  |j                  «      | _        t        j                  |j                   «      | _        t        j$                  t'        |j                  «      D cg c]8  }t)        |j                  |j*                  |j,                  |j.                  «      ‘Œ: c}«      | _        t        j2                  |j                  |j4                  ¬«      | _        | j9                  «        y c c}w )Nr†   )rP   rQ   Ún_embdr   Ún_layerÚ
num_layersr4   Ún_positionsr   Úfloatr3   r   r¨   Ú
vocab_sizeÚwr   Ú
embd_pdropÚdropoutÚ
ModuleListÚranger„   Ún_headr   Úresid_pdropÚhrŠ   Úlayer_norm_epsilonÚ	layernormÚ	post_init)r\   r¤   Ú_r]   s      €r   rQ   zCTRLModel.__init__é   sõ   ø€ Ü‰Ñ˜Ô à"ŸM™MˆÔØ Ÿ.™.ˆŒä/°×0BÑ0BÀD×DUÑDUÔW\×WbÑWbÓcˆÔä—‘˜f×/Ñ/°·±Ó?ˆŒä—z‘z &×"3Ñ"3Ó4ˆŒÜ—‘ÜafÐgm×guÑguÓavÖwÐ\]Œ\˜&Ÿ-™-¨¯©¸¿
¹
ÀF×DVÑDVÕWÒwó
ˆŒô Ÿ™ f§m¡m¸×9RÑ9RÔSˆŒð 	‰Õùò xs   Ã =E*c                 ó   — | j                   S rO   ©r¹   ©r\   s    r   Úget_input_embeddingszCTRLModel.get_input_embeddingsü   s   € Øv‰vˆr!   c                 ó   — || _         y rO   rÆ   ©r\   Únew_embeddingss     r   Úset_input_embeddingszCTRLModel.set_input_embeddingsÿ   s	   € Øˆr!   c                 ó„   — |j                  «       D ]-  \  }}| j                  |   j                  j                  |«       Œ/ y)zv
        Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer}
        N)ÚitemsrÀ   rˆ   rd   )r\   Úheads_to_pruneÚlayerra   s       r   Ú_prune_headszCTRLModel._prune_heads  s>   € ð +×0Ñ0Ó2ò 	B‰LˆE5ØF‰F5‰M×.Ñ.×:Ñ:¸5ÕAñ	Br!   Ú	input_idsÚpast_key_valuesrB   Útoken_type_idsÚposition_idsrC   Úinputs_embedsrn   ro   Úoutput_hidden_statesÚreturn_dictÚreturnc           
      ó  — |	|	n| j                   j                  }	||n| j                   j                  }|
|
n| j                   j                  }
||n| j                   j                  }||t        d«      ‚|G| j                  ||«       |j                  «       }|j                  d|d   «      }|j                  d   }n0|#|j                  «       dd }|j                  d   }nt        d«      ‚||j                  n|j                  }|€%d}t        dgt        | j                  «      z  «      }n|d   d   j                  d«      }|€>t        j                  ||d   |z   t        j                   |¬«      }|j#                  d«      }||dk  rt        d«      ‚|j                  |d«      }|j#                  d	«      j#                  d
«      }|j%                  | j&                  ¬«      }d|z
  t        j(                  | j&                  «      j*                  z  }| j-                  || j                   j.                  «      }|I|j                  d|d   «      }| j1                  |«      }|t3        j4                  | j6                  «      z  }nd}|€| j1                  |«      }|d   }t        j8                  t        j:                  ||z   ||z   «      d	«      j%                  |«      }|t3        j4                  | j6                  «      z  }| j<                  j%                  |«      | _        | j<                  |dd…f   }||z   |z   }| j?                  |«      }|rdnd}|
rdnd}|	rdnd}tA        tC        | j                  |«      «      D ]@  \  }\  }}|
r||fz   } |||||||   ||	¬«      }|dd
 \  }}|du r||fz   }|	sŒ8||d
   fz  }ŒB | jE                  |«      }|
r||fz   }|st        d„ ||||fD «       «      S tG        ||||¬«      S )aE  
        input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
            `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
            (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

            If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
            `input_ids`.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
            [`PreTrainedTokenizer.encode`] for details.

            [What are input IDs?](../glossary#input-ids)

        Example:

        ```python
        >>> from transformers import AutoTokenizer, CTRLModel
        >>> import torch

        >>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
        >>> model = CTRLModel.from_pretrained("Salesforce/ctrl")

        >>> # CTRL was trained with control codes as the first token
        >>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
        >>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

        >>> outputs = model(**inputs)

        >>> last_hidden_states = outputs.last_hidden_state
        >>> list(last_hidden_states.shape)
        [1, 5, 1280]
        ```NzDYou cannot specify both input_ids and inputs_embeds at the same timer%   r   z5You have to specify either input_ids or inputs_embedsr6   )r$   Údevicez$batch_size has to be defined and > 0r   r   r#   rŸ   r¯   r’   Tc              3   ó&   K  — | ]	  }|€Œ|–— Œ y ­wrO   r¯   )Ú.0r@   s     r   ú	<genexpr>z$CTRLModel.forward.<locals>.<genexpr>¡  s   è ø€ Òr˜qÐdeÑdqœÑrùs   ‚Š)Úlast_hidden_staterÓ   Úhidden_statesÚ
attentions)$r¤   ro   rn   r×   Úuse_return_dictÚ
ValueErrorÚ%warn_if_padding_and_no_attention_maskr<   Úviewr9   rÛ   Útupler_   rÀ   r   r(   Úlongr+   r*   r$   ÚfinfoÚminÚget_head_maskr´   r¹   r:   r;   r   ÚtriuÚonesr3   r»   Ú	enumerateÚziprÂ   r   )r\   rÒ   rÓ   rB   rÔ   rÕ   rC   rÖ   rn   ro   r×   rØ   ÚkwargsÚinput_shaperi   rÛ   Úpast_lengthÚtoken_type_embedsÚseq_lenrA   Ú
pos_embedsrà   ÚpresentsÚall_hidden_statesÚall_attentionsr   rÀ   rm   rv   rr   s                                 r   rw   zCTRLModel.forward	  s9  € ð` 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐØ!*Ð!6‘I¸D¿K¹K×<QÑ<Qˆ	à$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆàÐ  ]Ð%>ÜÐcÓdÐdØÐ"Ø×6Ñ6°yÀ.ÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;ˆIØ"Ÿ™¨Ñ+‰JØÐ&Ø'×,Ñ,Ó.¨s°Ð3ˆKØ&×,Ñ,¨QÑ/‰JäÐTÓUÐUà%.Ð%:×!Ò!À×@TÑ@TˆàÐ"ØˆKÜ# T F¬S°·±«[Ñ$8Ó9‰Oà)¨!Ñ,¨QÑ/×4Ñ4°RÓ8ˆKØÐÜ Ÿ<™<¨°[À±_À{Ñ5RÔZ_×ZdÑZdÐmsÔtˆLØ'×1Ñ1°!Ó4ˆLð Ð%Ø˜QŠÜ Ð!GÓHÐHØ+×0Ñ0°¸RÓ@ˆNð ,×5Ñ5°aÓ8×BÑBÀ1ÓEˆNð ,×.Ñ.°T·Z±ZÐ.Ó@ˆNØ! NÑ2´e·k±kÀ$Ç*Á*Ó6M×6QÑ6QÑQˆNð ×&Ñ& y°$·+±+×2EÑ2EÓFˆ	àÐ%Ø+×0Ñ0°°[À±_ÓEˆNØ $§¡ ~Ó 6ÐØ¤§¡¨×):Ñ):Ó!;Ñ;Ñà !ÐàÐ Ø ŸF™F 9Ó-ˆMà˜b‘/ˆÜz‰zœ%Ÿ*™* W¨{Ñ%:¸GÀkÑ<QÓRÐTUÓV×YÑYÐZ`ÓaˆàœŸ™ ×!2Ñ!2Ó3Ñ3ˆð !×-Ñ-×0Ñ0°Ó8ˆÔØ×&Ñ& |²Q Ñ7ˆ
à%¨
Ñ2Ð5FÑFˆàŸ™ ]Ó3ˆá"‘2¨ˆÙ"6™B¸DÐÙ0™°dˆÜ"+¬C°·±¸Ó,HÓ"Iò 	0ÑˆA‰:Ù#Ø$5¸Ð8HÑ$HÐ!ÙØØØ%Ø-Ø# A™,Ø#Ø"3ôˆGð &-¨R¨a [Ñ"ˆM˜7Ø˜DÑ Ø# w jÑ0â Ø 7¨1¡: -Ñ/‘ð#	0ð& Ÿ™ }Ó5ˆÙØ 1°]Ð4DÑ DÐáÜÑr ]°HÐ>OÐQ_Ð$`ÔrÓrÐrä&Ø+Ø$Ø+Ø%ô	
ð 	
r!   )NNNNNNNNNNN)ry   rz   r{   rQ   rÈ   rÌ   rÑ   r   r   r   Ú
LongTensorr   ÚFloatTensorÚboolr   ÚTensorr   rw   r|   r}   s   @r   r±   r±   ç   sN  ø„ ôò&ò òBð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø$(Ø,0Ø/3Ø&*ñ^
à˜E×,Ñ,Ñ-ð^
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBð^
ð ! ×!2Ñ!2Ñ3ð	^
ð
 ! ×!1Ñ!1Ñ2ð^
ð ˜u×/Ñ/Ñ0ð^
ð ˜E×-Ñ-Ñ.ð^
ð   × 1Ñ 1Ñ2ð^
ð ˜D‘>ð^
ð $ D™>ð^
ð ' t™nð^
ð ˜d‘^ð^
ð 
ˆuU—\‘\Ñ"Ð$;Ð;Ñ	<ò^
ó ô^
r!   r±   z‡
    The CTRL Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc                   ó"  ‡ — e Zd ZdgZˆ fd„Zd„ Zd„ Ze	 	 	 	 	 	 	 	 	 	 	 	 ddee	j                     deeee	j                           dee	j                     dee	j                     d	ee	j                     d
ee	j                     dee	j                     dee	j                     dee   dee   dee   dee   deee	j                     ef   fd„«       Zdd„Zedeee	j                        de	j                  deee	j                        fd„«       Zˆ xZS )ÚCTRLLMHeadModelzlm_head.weightc                 óÆ   •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  |j                  d¬«      | _        | j                  «        y )NT©r¦   )
rP   rQ   r±   r›   r   rU   r³   r¸   Úlm_headrÃ   ©r\   r¤   r]   s     €r   rQ   zCTRLLMHeadModel.__init__´  sG   ø€ Ü‰Ñ˜Ô Ü$ VÓ,ˆÔÜ—y‘y §¡°×0AÑ0AÈÔMˆŒð 	‰Õr!   c                 ó   — | j                   S rO   ©r  rÇ   s    r   Úget_output_embeddingsz%CTRLLMHeadModel.get_output_embeddings¼  s   € Ø|‰|Ðr!   c                 ó   — || _         y rO   r  rÊ   s     r   Úset_output_embeddingsz%CTRLLMHeadModel.set_output_embeddings¿  s	   € Ø%ˆr!   rÒ   rÓ   rB   rÔ   rÕ   rC   rÖ   Úlabelsrn   ro   r×   rØ   rÙ   c                 ó|  — ||n| j                   j                  }| j                  ||||||||	|
||¬«      }|d   }| j                  |«      }d}|* | j                  ||fd| j                   j
                  i|¤Ž}|s|f|dd z   }||f|z   S |S t        |||j                  |j                  |j                  ¬«      S )a
  
        input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
            `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
            (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

            If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
            `input_ids`.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
            [`PreTrainedTokenizer.encode`] for details.

            [What are input IDs?](../glossary#input-ids)
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for language modeling. Note that the labels **are shifted** inside the model, i.e. you can set
            `labels = input_ids` Indices are selected in `[-100, 0, ..., config.vocab_size]` All labels set to `-100`
            are ignored (masked), the loss is only computed for labels in `[0, ..., config.vocab_size]`

        Example:

        ```python
        >>> import torch
        >>> from transformers import AutoTokenizer, CTRLLMHeadModel

        >>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
        >>> model = CTRLLMHeadModel.from_pretrained("Salesforce/ctrl")

        >>> # CTRL was trained with control codes as the first token
        >>> inputs = tokenizer("Wikipedia The llama is", return_tensors="pt")
        >>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

        >>> sequence_ids = model.generate(inputs["input_ids"])
        >>> sequences = tokenizer.batch_decode(sequence_ids)
        >>> sequences
        ['Wikipedia The llama is a member of the family Bovidae. It is native to the Andes of Peru,']

        >>> outputs = model(**inputs, labels=inputs["input_ids"])
        >>> round(outputs.loss.item(), 2)
        9.21

        >>> list(outputs.logits.shape)
        [1, 5, 246534]
        ```N©
rÓ   rB   rÔ   rÕ   rC   rÖ   rn   ro   r×   rØ   r   r¸   r   )ÚlossÚlogitsrÓ   rà   rá   )
r¤   râ   r›   r  Úloss_functionr¸   r   rÓ   rà   rá   )r\   rÒ   rÓ   rB   rÔ   rÕ   rC   rÖ   r  rn   ro   r×   rØ   rï   Útransformer_outputsrà   Ú	lm_logitsr  rJ   s                      r   rw   zCTRLLMHeadModel.forwardÂ  s  € ðv &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'ØØ/Ø!5Ø#ð /ó 
Ðð ,¨AÑ.ˆà—L‘L Ó/ˆ	àˆØÐØ%4×%Ñ%ØØñð  Ÿ;™;×1Ñ1ðð ñ	ˆDñ Ø\Ð$7¸¸Ð$;Ñ;ˆFØ)-Ð)9TG˜fÑ$ÐE¸vÐEä%ØØØ/×?Ñ?Ø-×;Ñ;Ø*×5Ñ5ô
ð 	
r!   c                 ó    — |G|d   d   j                   d   }|j                   d   |kD  r|}n|j                   d   dz
  }|d d …|d …f   }|||dœS )Nr   r   r   )rÒ   rÓ   rn   )r9   )r\   rÒ   rÓ   rn   rï   rñ   Úremove_prefix_lengths          r   Úprepare_inputs_for_generationz-CTRLLMHeadModel.prepare_inputs_for_generation&  st   € ð Ð&Ø)¨!Ñ,¨QÑ/×5Ñ5°aÑ8ˆKð ‰˜qÑ! KÒ/Ø'2Ñ$ð (1§¡°qÑ'9¸AÑ'=Ð$à!¢!Ð%9Ñ%:Ð":Ñ;ˆIà&¸?ÐYbÑcÐcr!   Úbeam_idxc                 ó,   ‡— t        ˆfd„| D «       «      S )a  
        This function is used to re-order the `past_key_values` cache if [`~PreTrainedModel.beam_search`] or
        [`~PreTrainedModel.beam_sample`] is called. This is required to match `past_key_values` with the correct
        beam_idx at every generation step.
        c              3   óF   •K  — | ]  }t        ˆfd „|D «       «      –— Œ y­w)c              3   ót   •K  — | ]/  }|j                  d ‰j                  |j                  «      «      –— Œ1 y­w)r   N)Úindex_selectr*   rÛ   )rÝ   Ú
past_stater  s     €r   rÞ   z;CTRLLMHeadModel._reorder_cache.<locals>.<genexpr>.<genexpr>B  s.   øè ø€ ÒjÐQ[*×)Ñ)¨!¨X¯[©[¸×9JÑ9JÓ-K×LÑjùs   ƒ58N©ræ   )rÝ   rm   r  s     €r   rÞ   z1CTRLLMHeadModel._reorder_cache.<locals>.<genexpr>A  s%   øè ø€ ò 
àô ÓjÐ_iÔj×jñ
ùs   ƒ!r  )rÓ   r  s    `r   Ú_reorder_cachezCTRLLMHeadModel._reorder_cache8  s   ø€ ô ó 
à-ô
ó 
ð 	
r!   ©NNNNNNNNNNNN©NN)ry   rz   r{   Ú_tied_weights_keysrQ   r  r  r   r   r   rø   r   rù   rú   r   rû   r   rw   r  Ústaticmethodr  r|   r}   s   @r   rþ   rþ   «  s¿  ø„ ð +Ð+Ðôòò&ð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø-1Ø$(Ø,0Ø/3Ø&*ña
à˜E×,Ñ,Ñ-ða
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBða
ð ! ×!2Ñ!2Ñ3ð	a
ð
 ! ×!1Ñ!1Ñ2ða
ð ˜u×/Ñ/Ñ0ða
ð ˜E×-Ñ-Ñ.ða
ð   × 1Ñ 1Ñ2ða
ð ˜×)Ñ)Ñ*ða
ð ˜D‘>ða
ð $ D™>ða
ð ' t™nða
ð ˜d‘^ða
ð 
ˆuU—\‘\Ñ"Ð$:Ð:Ñ	;òa
ó ða
óFdð$ ð
Ø˜u U§\¡\Ñ2Ñ3ð
Ø?D¿|¹|ð
à	ˆuU—\‘\Ñ"Ñ	#ò
ó ô
r!   rþ   aÎ  
    The CTRL Model transformer with a sequence classification head on top (linear layer).
    [`CTRLForSequenceClassification`] uses the last token in order to do the classification, as other causal models
    (e.g. GPT-2) do. Since it does classification on the last token, it requires to know the position of the last
    token. If a `pad_token_id` is defined in the configuration, it finds the last token that is not a padding token in
    each row. If no `pad_token_id` is defined, it simply takes the last value in each row of the batch. Since it cannot
    guess the padding tokens when `inputs_embeds` are passed instead of `input_ids`, it does the same (take the last
    value in each row of the batch).
    c                   ó–  ‡ — e Zd Zˆ fd„Ze	 	 	 	 	 	 	 	 	 	 	 	 ddeej                     deeeej                           deej                     deej                     deej                     deej                     deej                     d	eej                     d
ee
   dee
   dee
   dee
   deeej                     ef   fd„«       Zˆ xZS )ÚCTRLForSequenceClassificationc                 óè   •— t         ‰|   |«       |j                  | _        t        |«      | _        t        j                  |j                  | j                  d¬«      | _        | j                  «        y )NFr   )
rP   rQ   Ú
num_labelsr±   r›   r   rU   r³   Ú
classifierrÃ   r  s     €r   rQ   z&CTRLForSequenceClassification.__init__S  sR   ø€ Ü‰Ñ˜Ô Ø ×+Ñ+ˆŒÜ$ VÓ,ˆÔÜŸ)™) F§M¡M°4·?±?ÈÔOˆŒð 	‰Õr!   rÒ   rÓ   rB   rÔ   rÕ   rC   rÖ   r  rn   ro   r×   rØ   rÙ   c                 óÀ  — ||n| j                   j                  }| j                  ||||||||	|
||¬«      }|d   }| j                  |«      }||j                  dd \  }}n|j                  dd \  }}| j                   j
                  €|dk7  rt        d«      ‚| j                   j
                  €d}nÃ|“|| j                   j
                  k7  j                  |j                  t        j                  «      }t        j                  |j                  d   |j                  t        j                  ¬«      }||z  j                  d«      }n.d}t        j                  | j                  j                   › d	«       |t        j                  ||j                  ¬
«      |f   }d}|‡| j                   j"                  €| j$                  dk(  rd| j                   _        nl| j$                  dkD  rL|j&                  t        j(                  k(  s|j&                  t        j*                  k(  rd| j                   _        nd| j                   _        | j                   j"                  dk(  rIt-        «       }| j$                  dk(  r& ||j/                  «       |j/                  «       «      }nŒ |||«      }n‚| j                   j"                  dk(  r=t1        «       } ||j3                  d| j$                  «      |j3                  d«      «      }n,| j                   j"                  dk(  rt5        «       } |||«      }|s|f|dd z   }||f|z   S |S t7        |||j8                  |j:                  ¬«      S )a2  
        input_ids (`torch.LongTensor` of shape `(batch_size, input_ids_length)`):
            `input_ids_length` = `sequence_length` if `past_key_values` is `None` else `past_key_values[0].shape[-2]`
            (`sequence_length` of input past key value states). Indices of input sequence tokens in the vocabulary.

            If `past_key_values` is used, only input IDs that do not have their past calculated should be passed as
            `input_ids`.

            Indices can be obtained using [`AutoTokenizer`]. See [`PreTrainedTokenizer.__call__`] and
            [`PreTrainedTokenizer.encode`] for details.

            [What are input IDs?](../glossary#input-ids)
        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for computing the sequence classification/regression loss. Indices should be in `[0, ...,
            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

        Example of single-label classification:

        ```python
        >>> import torch
        >>> from transformers import AutoTokenizer, CTRLForSequenceClassification

        >>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
        >>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl")

        >>> # CTRL was trained with control codes as the first token
        >>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
        >>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

        >>> with torch.no_grad():
        ...     logits = model(**inputs).logits

        >>> predicted_class_id = logits.argmax().item()
        >>> model.config.id2label[predicted_class_id]
        'LABEL_0'
        ```

        ```python
        >>> import torch

        >>> torch.manual_seed(42)  # doctest: +IGNORE_RESULT
        >>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
        >>> num_labels = len(model.config.id2label)
        >>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl", num_labels=num_labels)

        >>> labels = torch.tensor(1)
        >>> loss = model(**inputs, labels=labels).loss
        >>> round(loss.item(), 2)
        0.93
        ```

        Example of multi-label classification:

        ```python
        >>> import torch
        >>> from transformers import AutoTokenizer, CTRLForSequenceClassification

        >>> tokenizer = AutoTokenizer.from_pretrained("Salesforce/ctrl")
        >>> model = CTRLForSequenceClassification.from_pretrained(
        ...     "Salesforce/ctrl", problem_type="multi_label_classification"
        ... )

        >>> # CTRL was trained with control codes as the first token
        >>> inputs = tokenizer("Opinion My dog is cute", return_tensors="pt")
        >>> assert inputs["input_ids"][0, 0].item() in tokenizer.control_codes.values()

        >>> with torch.no_grad():
        ...     logits = model(**inputs).logits

        >>> predicted_class_id = logits.argmax().item()
        >>> model.config.id2label[predicted_class_id]
        'LABEL_0'
        ```

        ```python
        >>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
        >>> num_labels = len(model.config.id2label)
        >>> model = CTRLForSequenceClassification.from_pretrained("Salesforce/ctrl", num_labels=num_labels)

        >>> num_labels = len(model.config.id2label)
        >>> labels = torch.nn.functional.one_hot(torch.tensor([predicted_class_id]), num_classes=num_labels).to(
        ...     torch.float
        ... )
        >>> loss = model(**inputs, labels=labels).loss
        >>> loss.backward()  # doctest: +IGNORE_RESULT
        ```Nr
  r   r   r   z=Cannot handle batch sizes > 1 if no padding token is defined.r%   )rÛ   r$   zŠ will not detect padding tokens in `inputs_embeds`. Results may be unexpected if using padding tokens in conjunction with `inputs_embeds.`)rÛ   Ú
regressionÚsingle_label_classificationÚmulti_label_classification)r  r  rà   rá   )r¤   râ   r›   r#  r9   Úpad_token_idrã   r*   rÛ   r   Úint32r(   ÚargmaxÚloggerÚwarning_oncer]   ry   Úproblem_typer"  r$   rç   rS   r	   Úsqueezer   rå   r   r   rà   rá   )r\   rÒ   rÓ   rB   rÔ   rÕ   rC   rÖ   r  rn   ro   r×   rØ   r  rà   r  ri   Úsequence_lengthÚlast_non_pad_tokenÚnon_pad_maskÚtoken_indicesÚpooled_logitsr  Úloss_fctrJ   s                            r   rw   z%CTRLForSequenceClassification.forward\  s  € ðP &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà"×.Ñ.ØØ+Ø)Ø)Ø%ØØ'ØØ/Ø!5Ø#ð /ó 
Ðð ,¨AÑ.ˆØ—‘ Ó/ˆàÐ Ø*3¯/©/¸"¸1Ð*=Ñ'ˆJ™à*7×*=Ñ*=¸b¸qÐ*AÑ'ˆJ˜à;‰;×#Ñ#Ð+°
¸a²ÜÐ\Ó]Ð]Ø;‰;×#Ñ#Ð+Ø!#ÑØÐ"à%¨¯©×)AÑ)AÑA×EÑEÀfÇmÁmÔUZ×U`ÑU`ÓaˆLÜ!ŸL™L¨¯©¸Ñ)<ÀVÇ]Á]ÔZ_×ZeÑZeÔfˆMØ"/°,Ñ">×!FÑ!FÀrÓ!JÑà!#ÐÜ×ÑØ—>‘>×*Ñ*Ð+ð ,Zð Zôð
 œuŸ|™|¨J¸v¿}¹}ÔMÐOaÐaÑbˆàˆØÑØ{‰{×'Ñ'Ð/Ø—?‘? aÒ'Ø/;D—K‘KÕ,Ø—_‘_ qÒ(¨f¯l©l¼e¿j¹jÒ.HÈFÏLÉLÔ\a×\eÑ\eÒLeØ/LD—K‘KÕ,à/KD—K‘KÔ,à{‰{×'Ñ'¨<Ò7Ü"›9Ø—?‘? aÒ'Ù# M×$9Ñ$9Ó$;¸V¿^¹^Ó=MÓN‘Dá# M°6Ó:‘DØ—‘×)Ñ)Ð-JÒJÜ+Ó-Ù × 2Ñ 2°2°t·±Ó GÈÏÉÐUWËÓY‘Ø—‘×)Ñ)Ð-IÒIÜ,Ó.Ù ¨vÓ6ÙØ#Ð%Ð(;¸A¸BÐ(?Ñ?ˆFØ)-Ð)9TG˜fÑ$ÐE¸vÐEä'ØØ Ø-×;Ñ;Ø*×5Ñ5ô	
ð 	
r!   r  )ry   rz   r{   rQ   r   r   r   rø   r   rù   rú   r   rû   r   rw   r|   r}   s   @r   r   r   G  sW  ø„ ôð ð 15ØEIØ6:Ø59Ø37Ø15Ø59Ø-1Ø$(Ø,0Ø/3Ø&*ñp
à˜E×,Ñ,Ñ-ðp
ð " %¨¨e×.?Ñ.?Ñ(@Ñ"AÑBðp
ð ! ×!2Ñ!2Ñ3ð	p
ð
 ! ×!1Ñ!1Ñ2ðp
ð ˜u×/Ñ/Ñ0ðp
ð ˜E×-Ñ-Ñ.ðp
ð   × 1Ñ 1Ñ2ðp
ð ˜×)Ñ)Ñ*ðp
ð ˜D‘>ðp
ð $ D™>ðp
ð ' t™nðp
ð ˜d‘^ðp
ð 
ˆuU—\‘\Ñ"Ð$<Ð<Ñ	=òp
ó ôp
r!   r   )r   rþ   r±   rš   r  )-Ú__doc__Útypingr   r   r   Únumpyr:   r   r   Útorch.nnr   r   r	   Ú
generationr   Úmodeling_outputsr   r   r   Úmodeling_utilsr   Úpytorch_utilsr   r   r   Úutilsr   r   Úconfiguration_ctrlr   Ú
get_loggerry   r+  r    r4   rK   ÚModulerM   r‚   r„   rš   r±   rþ   r   Ú__all__r¯   r!   r   ú<module>rB     s!  ðñ  ç )Ñ )ã Û Ý ß AÑ Aå )ß iÑ iÝ -ß YÑ Y÷õ +ð 
ˆ×	Ñ	˜HÓ	%€òò
ó%ô4L˜Ÿ™ô Lò^`ô&2—9‘9ô &ðR ô*˜/ó *ó ð*ð* ô@
Ð#ó @
ó ð@
ñF ðôôS
Ð)¨?ó S
óðS
ñl ðô
ô{
Ð$7ó {
ó
ð{
ò| cr!   