Ë
    ´ãUhì‚  ã                   óè  — d Z ddlZddlmZmZmZmZ ddlZddlZddlm	Z	 ddl
mZ ddlmZ ddlmZmZ dd	lmZmZ dd
lmZ ddlmZmZ ddlmZ  ej6                  e«      Z G d„ de	j<                  «      Z G d„ de	j@                  «      Z! G d„ de	j@                  «      Z" G d„ de	j@                  «      Z#e G d„ de«      «       Z$e G d„ de$«      «       Z% ed¬«       G d„ de$e«      «       Z&g d¢Z'y)zPyTorch XGLM model.é    N)ÚListÚOptionalÚTupleÚUnion)Únné   )ÚACT2FN)ÚGenerationMixin)Ú_prepare_4d_attention_maskÚ!_prepare_4d_causal_attention_mask)Ú)BaseModelOutputWithPastAndCrossAttentionsÚ!CausalLMOutputWithCrossAttentions)ÚPreTrainedModel)Úauto_docstringÚloggingé   )Ú
XGLMConfigc            
       ó`   ‡ — e Zd ZdZd	dedededee   fˆ fd„Zdej                  fˆ fd„Z
ˆ xZS )
ÚXGLMScaledWordEmbeddingz\
    This module overrides nn.Embeddings' forward by multiplying with embeddings scale.
    Únum_embeddingsÚembedding_dimÚpadding_idxÚembed_scalec                 ó6   •— t         ‰|   |||«       || _        y ©N)ÚsuperÚ__init__r   )Úselfr   r   r   r   Ú	__class__s        €úx/var/www/catia.catastroantioquia-mas.com/valormas/lib/python3.12/site-packages/transformers/models/xglm/modeling_xglm.pyr   z XGLMScaledWordEmbedding.__init__*   s   ø€ Ü‰Ñ˜¨¸ÔDØ&ˆÕó    Ú	input_idsc                 ó<   •— t         ‰|   |«      | j                  z  S r   )r   Úforwardr   )r   r"   r   s     €r    r$   zXGLMScaledWordEmbedding.forward.   s   ø€ Ü‰w‰˜yÓ)¨D×,<Ñ,<Ñ<Ð<r!   )ç      ð?)Ú__name__Ú
__module__Ú__qualname__Ú__doc__Úintr   Úfloatr   ÚtorchÚTensorr$   Ú__classcell__©r   s   @r    r   r   %   sE   ø„ ññ' sð '¸3ð 'ÈSð 'Ð_gÐhmÑ_nõ 'ð= §¡÷ =ñ =r!   r   c            	       óÎ   ‡ — e Zd ZdZddededee   fˆ fd„Zddededee   fd„Zeddededee   fd„«       Z	 e
j                  «       dd	ee
j                     d
efd„«       Zˆ xZS )Ú!XGLMSinusoidalPositionalEmbeddingzDThis module produces sinusoidal positional embeddings of any length.Únum_positionsr   r   c                 óŒ   •— t         ‰|   «        d| _        || _        || _        | j                  || j                  z   ||«       y )Né   )r   r   Úoffsetr   r   Úmake_weights)r   r2   r   r   r   s       €r    r   z*XGLMSinusoidalPositionalEmbedding.__init__5   s@   ø€ Ü‰ÑÔØˆŒØ*ˆÔØ&ˆÔØ×Ñ˜-¨$¯+©+Ñ5°}ÀkÕRr!   r   c                 óà   — | j                  |||«      }t        | d«      r;|j                  | j                  j                  | j                  j
                  ¬«      }| j                  d|d¬«       y )NÚweights©ÚdtypeÚdeviceF)Ú
persistent)Úget_embeddingÚhasattrÚtor8   r:   r;   Úregister_buffer)r   r   r   r   Úemb_weightss        r    r6   z.XGLMSinusoidalPositionalEmbedding.make_weights<   s[   € Ø×(Ñ(¨¸ÈÓTˆÜ4˜Ô#à%Ÿ.™.¨t¯|©|×/AÑ/AÈ$Ï,É,×J]ÑJ]˜.Ó^ˆKà×Ñ˜Y¨ÀÐÕFr!   c                 óâ  — |dz  }t        j                  d«      |dz
  z  }t        j                  t        j                  |t        j
                  ¬«      j                  «       | z  «      }t        j                  | t        j
                  ¬«      j                  «       j                  d«      |j                  d«      z  }t        j                  t        j                  |«      t        j                  |«      gd¬«      j                  | d«      }|dz  dk(  r-t        j                  |t        j                  | d«      gd¬«      }|	d||dd…f<   |j                  t        j                  «       «      S )	zÊ
        Build sinusoidal embeddings.

        This matches the implementation in tensor2tensor, but differs slightly from the description in Section 3.5 of
        "Attention Is All You Need".
        r4   i'  r   )r:   r   ©ÚdiméÿÿÿÿN)ÚmathÚlogr,   ÚexpÚarangeÚint64r+   Ú	unsqueezeÚcatÚsinÚcosÚviewÚzerosr?   Úget_default_dtype)r   r   r   Úhalf_dimÚembs        r    r=   z/XGLMSinusoidalPositionalEmbedding.get_embeddingD   s  € ð ! AÑ%ˆÜh‰hu‹o ¨A¡Ñ.ˆÜi‰iœŸ™ X´U·[±[ÔA×GÑGÓIÈSÈDÑPÓQˆÜl‰l˜>´·±Ô=×CÑCÓE×OÑOÐPQÓRÐUX×UbÑUbÐcdÓUeÑeˆÜi‰iœŸ™ 3›¬¯©°3«Ð8¸aÔ@×EÑEÀnÐVXÓYˆØ˜1Ñ Ò!ä—)‘)˜S¤%§+¡+¨n¸aÓ"@ÐAÀqÔIˆCØÐ"Ø"#ˆCšQÑàv‰v”e×-Ñ-Ó/Ó0Ð0r!   Úposition_idsÚpast_key_values_lengthc                 ó¢  — |j                  «       \  }}|| j                  z  }d|z   |z   }|| j                  j                  d«      kD  r'| j                  || j                  | j
                  «       | j                  j                  d|j                  d«      «      j                  ||| j                  j                  d   «      j                  «       S )Nr4   r   rE   )
Úsizer5   r8   r6   r   r   Úindex_selectrO   ÚshapeÚdetach)r   rT   rU   ÚbszÚseq_lenÚmax_poss         r    r$   z)XGLMSinusoidalPositionalEmbedding.forwardY   sµ   € à#×(Ñ(Ó*‰ˆˆWØ˜Ÿ™Ñ#ˆð g‘+Ð 6Ñ6ˆØT—\‘\×&Ñ& qÓ)Ò)Ø×Ñ˜g t×'9Ñ'9¸4×;KÑ;KÔLà|‰|×(Ñ(¨¨L×,=Ñ,=¸bÓ,AÓB×GÑGÈÈWÐVZ×VbÑVb×VhÑVhÐikÑVlÓm×tÑtÓvÐvr!   r   )Nr   )r&   r'   r(   r)   r*   r   r   r6   Ústaticmethodr=   r,   Úno_gradr-   r$   r.   r/   s   @r    r1   r1   2   s´   ø„ ÙNñS cð S¸#ð SÈHÐUXÉMõ SñG¨3ð G¸sð GÐQYÐZ]ÑQ^ó Gð ñ1 cð 1¸#ð 1ÈHÐUXÉMò 1ó ð1ð( €U‡]]ƒ_ñ	w H¨U¯\©\Ñ$:ð 	wÐ[^ò 	wó ô	wr!   r1   c                   ót  ‡ — e Zd ZdZ	 	 	 ddededededef
ˆ fd„Zdej                  d	ed
efd„Z
	 	 	 	 	 ddej                  deej                     deeej                        deej                     deej                     dedeej                  eej                     eeej                        f   fd„Zˆ xZS )ÚXGLMAttentionz=Multi-headed attention from 'Attention Is All You Need' paperÚ	embed_dimÚ	num_headsÚdropoutÚ
is_decoderÚbiasc                 óî  •— t         ‰|   «        || _        || _        || _        ||z  | _        | j
                  |z  | j                  k7  rt        d| j                  › d|› d«      ‚| j
                  dz  | _        || _        t        j                  |||¬«      | _        t        j                  |||¬«      | _        t        j                  |||¬«      | _        t        j                  |||¬«      | _        y )Nz;embed_dim must be divisible by num_heads (got `embed_dim`: z and `num_heads`: z).g      à¿©rf   )r   r   rb   rc   rd   Úhead_dimÚ
ValueErrorÚscalingre   r   ÚLinearÚk_projÚv_projÚq_projÚout_proj)r   rb   rc   rd   re   rf   r   s         €r    r   zXGLMAttention.__init__i   sÖ   ø€ ô 	‰ÑÔØ"ˆŒØ"ˆŒØˆŒØ! YÑ.ˆŒàM‰M˜IÑ%¨$¯.©.Ò8ÜØMÈdÏnÉnÐM]Ø$ Y K¨rð3óð ð —}‘} dÑ*ˆŒØ$ˆŒä—i‘i 	¨9¸4Ô@ˆŒÜ—i‘i 	¨9¸4Ô@ˆŒÜ—i‘i 	¨9¸4Ô@ˆŒÜŸ	™	 )¨Y¸TÔBˆr!   Útensorr\   r[   c                 óŽ   — |j                  ||| j                  | j                  «      j                  dd«      j	                  «       S )Nr   r4   )rO   rc   ri   Ú	transposeÚ
contiguous)r   rq   r\   r[   s       r    Ú_shapezXGLMAttention._shape„   s7   € Ø{‰{˜3 ¨¯©¸¿¹ÓG×QÑQÐRSÐUVÓW×bÑbÓdÐdr!   Úhidden_statesÚkey_value_statesÚpast_key_valueÚattention_maskÚlayer_head_maskÚoutput_attentionsÚreturnc                 óL  — |du}|j                  «       \  }}	}
| j                  |«      | j                  z  }|r||d   }|d   }n
|rE| j                  | j	                  |«      d|«      }| j                  | j                  |«      d|«      }nÃ|}| j                  | j	                  |«      d|«      }| j                  | j                  |«      d|«      }t        j                  |d   |gd¬«      }t        j                  |d   |gd¬«      }nD| j                  | j	                  |«      d|«      }| j                  | j                  |«      d|«      }| j                  r||f}|| j                  z  d| j                  f} | j                  ||	|«      j                  |Ž } |j                  |Ž } |j                  |Ž }|j                  d«      }t        j                  ||j                  dd«      «      }|j                  «       || j                  z  |	|fk7  r/t        d|| j                  z  |	|f› d|j                  «       › «      ‚|×|j                  «       |d|	|fk7  r#t        d	|d|	|f› d|j                  «       › «      ‚|j                  || j                  |	|«      |z   }t        j                  |t        j                   t        j"                  |j$                  «      j&                  |j(                  ¬
«      «      }|j                  || j                  z  |	|«      }|j$                  t        j*                  k(  rNt,        j.                  j1                  |dt        j2                  ¬«      j5                  t        j*                  «      }n!t,        j.                  j1                  |d¬«      }|›|j                  «       | j                  fk7  r*t        d| j                  f› d|j                  «       › «      ‚|j                  dddd«      |j                  || j                  |	|«      z  }|j                  || j                  z  |	|«      }|r?|j                  || j                  |	|«      }|j                  || j                  z  |	|«      }nd}t,        j.                  j7                  || j6                  | j8                  ¬«      }t        j                  ||«      }|j                  «       || j                  z  |	| j                  fk7  r7t        d|| j                  |	| j                  f› d|j                  «       › «      ‚|j                  || j                  |	| j                  «      }|j                  dd«      }|j;                  ||	| j<                  «      }| j?                  |«      }|||fS )z#Input shape: Batch x Time x ChannelNr   r   rE   r4   rC   z$Attention weights should be of size z	, but is z!Attention mask should be of size )r;   )rD   r:   z/Head mask for a single layer should be of size ©ÚpÚtrainingz `attn_output` should be of size ) rW   ro   rk   ru   rm   rn   r,   rL   re   rc   ri   rO   Úbmmrs   rj   Úmaxrq   Úfinfor:   Úminr;   Úfloat16r   Ú
functionalÚsoftmaxÚfloat32r?   rd   r€   Úreshaperb   rp   )r   rv   rw   rx   ry   rz   r{   Úis_cross_attentionr[   Útgt_lenÚ_Úquery_statesÚ
key_statesÚvalue_statesÚ
proj_shapeÚsrc_lenÚattn_weightsÚattn_weights_reshapedÚ
attn_probsÚattn_outputs                       r    r$   zXGLMAttention.forward‡   sV  € ð .°TÐ9Ðà'×,Ñ,Ó.‰ˆˆWað —{‘{ =Ó1°D·L±LÑ@ˆá .Ð"<à'¨Ñ*ˆJØ)¨!Ñ,ŠLÙàŸ™ T§[¡[Ð1AÓ%BÀBÈÓLˆJØŸ;™; t§{¡{Ð3CÓ'DÀbÈ#ÓN‰LØÐ'àŸ™ T§[¡[°Ó%?ÀÀSÓIˆJØŸ;™; t§{¡{°=Ó'AÀ2ÀsÓKˆLÜŸ™ N°1Ñ$5°zÐ#BÈÔJˆJÜ Ÿ9™9 n°QÑ&7¸Ð%FÈAÔN‰Lð Ÿ™ T§[¡[°Ó%?ÀÀSÓIˆJØŸ;™; t§{¡{°=Ó'AÀ2ÀsÓKˆLà?Š?ð )¨,Ð7ˆNà˜DŸN™NÑ*¨B°·±Ð>ˆ
ØCt—{‘{ <°¸#Ó>×CÑCÀZÐPˆØ$Z—_‘_ jÐ1ˆ
Ø(|×(Ñ(¨*Ð5ˆà—/‘/ !Ó$ˆÜ—y‘y ¨z×/CÑ/CÀAÀqÓ/IÓJˆà×ÑÓ 3¨¯©Ñ#7¸À'Ð"JÒJÜØ6¸¸d¿n¹nÑ8LÈgÐW^Ð7_Ð6`ð aØ ×%Ñ%Ó'Ð(ð*óð ð
 Ð%Ø×"Ñ"Ó$¨¨a°¸'Ð(BÒBÜ Ø7¸¸aÀÈ'Ð8RÐ7SÐS\Ð]k×]pÑ]pÓ]rÐ\sÐtóð ð (×,Ñ,¨S°$·.±.À'È7ÓSÐVdÑdˆLÜ Ÿ9™9ØœeŸl™l¬5¯;©;°|×7IÑ7IÓ+J×+NÑ+NÐWc×WjÑWjÔkóˆLð (×,Ñ,¨S°4·>±>Ñ-AÀ7ÈGÓTˆLð ×Ñ¤§¡Ò.ÜŸ=™=×0Ñ0°À2ÌUÏ]É]Ð0Ó[×^Ñ^Ô_d×_lÑ_lÓm‰LäŸ=™=×0Ñ0°À2Ð0ÓFˆLàÐ&Ø×#Ñ#Ó%¨$¯.©.Ð):Ò:Ü ØEÀtÇ~Á~ÐFWÐEXð YØ'×,Ñ,Ó.Ð/ð1óð ð +×/Ñ/°°2°q¸!Ó<¸|×?PÑ?PÐQTÐVZ×VdÑVdÐfmÐovÓ?wÑwˆLØ'×,Ñ,¨S°4·>±>Ñ-AÀ7ÈGÓTˆLáð
 %1×$5Ñ$5°c¸4¿>¹>È7ÐT[Ó$\Ð!Ø0×5Ñ5°c¸D¿N¹NÑ6JÈGÐU\Ó]‰Là$(Ð!ä—]‘]×*Ñ*¨<¸4¿<¹<ÐRV×R_ÑR_Ð*Ó`ˆ
ä—i‘i 
¨LÓ9ˆà×ÑÓ #¨¯©Ñ"6¸ÀÇÁÐ!OÒOÜØ2°C¸¿¹ÈÐRV×R_ÑR_Ð3`Ð2að bØ×$Ñ$Ó&Ð'ð)óð ð
 "×&Ñ& s¨D¯N©N¸GÀTÇ]Á]ÓSˆØ!×+Ñ+¨A¨qÓ1ˆð "×)Ñ)¨#¨w¸¿¹ÓGˆà—m‘m KÓ0ˆàÐ1°>ÐAÐAr!   )ç        FT)NNNNF)r&   r'   r(   r)   r*   r+   Úboolr   r,   r-   ru   r   r   r$   r.   r/   s   @r    ra   ra   f   s,  ø„ ÙGð Ø ØñCàðCð ðCð ð	Cð
 ðCð õCð6e˜UŸ\™\ð e°Cð e¸có eð 48Ø8<Ø15Ø26Ø"'ñvBà—|‘|ðvBð # 5§<¡<Ñ0ðvBð !  u§|¡|Ñ!4Ñ5ð	vBð
 ! §¡Ñ.ðvBð " %§,¡,Ñ/ðvBð  ðvBð 
ˆu|‰|˜X e§l¡lÑ3°X¸eÀEÇLÁLÑ>QÑ5RÐRÑ	S÷vBr!   ra   c                   ó<  ‡ — e Zd Zdefˆ fd„Z	 	 	 	 	 	 	 	 ddej                  deej                     deej                     deej                     deej                     deej                     d	eeej                        d
ee	   dee	   dej                  fd„Z
ˆ xZS )ÚXGLMDecoderLayerÚconfigc                 ó,  •— t         ‰|   «        |j                  | _        t	        | j                  |j
                  |j                  d¬«      | _        |j                  | _        t        |j                     | _        |j                  | _        |j                  rVt	        | j                  |j
                  |j                  d¬«      | _        t        j                   | j                  «      | _        t        j                   | j                  «      | _        t        j&                  | j                  |j(                  «      | _        t        j&                  |j(                  | j                  «      | _        t        j                   | j                  «      | _        y )NT)rb   rc   rd   re   )r   r   Úd_modelrb   ra   Úattention_headsÚattention_dropoutÚ	self_attnrd   r	   Úactivation_functionÚactivation_fnÚactivation_dropoutÚadd_cross_attentionÚencoder_attnr   Ú	LayerNormÚencoder_attn_layer_normÚself_attn_layer_normrl   Úffn_dimÚfc1Úfc2Úfinal_layer_norm©r   rš   r   s     €r    r   zXGLMDecoderLayer.__init__  s  ø€ Ü‰ÑÔØŸ™ˆŒä&Ø—n‘nØ×,Ñ,Ø×,Ñ,Øô	
ˆŒð —~‘~ˆŒÜ# F×$>Ñ$>Ñ?ˆÔØ"(×";Ñ";ˆÔà×%Ò%Ü -ØŸ.™.Ø ×0Ñ0Ø×0Ñ0Øô	!ˆDÔô ,.¯<©<¸¿¹Ó+GˆDÔ(ä$&§L¡L°·±Ó$@ˆÔ!Ü—9‘9˜TŸ^™^¨V¯^©^Ó<ˆŒÜ—9‘9˜VŸ^™^¨T¯^©^Ó<ˆŒÜ "§¡¨T¯^©^Ó <ˆÕr!   rv   ry   Úencoder_hidden_statesÚencoder_attention_maskrz   Úcross_attn_layer_head_maskrx   r{   Ú	use_cacher|   c
                 ót  — |}
| j                  |«      }||dd nd}| j                  |||||¬«      \  }}}t        j                  j	                  || j                  | j
                  ¬«      }|
|z   }d}d}|w|}
| j                  |«      }||dd nd}| j                  ||||||¬«      \  }}}t        j                  j	                  || j                  | j
                  ¬«      }|
|z   }||z   }|}
| j                  |«      }| j                  | j                  |«      «      }t        j                  j	                  || j                  | j
                  ¬«      }| j                  |«      }t        j                  j	                  || j                  | j
                  ¬«      }|
|z   }|f}|r|||fz  }|	r||fz  }|S )a  
        Args:
            hidden_states (`torch.FloatTensor`): input to the layer of shape `(batch, seq_len, embed_dim)`
            attention_mask (`torch.FloatTensor`): attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
            encoder_hidden_states (`torch.FloatTensor`):
                cross attention input to the layer of shape `(batch, seq_len, embed_dim)`
            encoder_attention_mask (`torch.FloatTensor`): encoder attention mask of size
                `(batch, 1, tgt_len, src_len)` where padding elements are indicated by very large negative values.
            layer_head_mask (`torch.FloatTensor`): mask for attention heads in a given layer of size
                `(encoder_attention_heads,)`.
            cross_attn_layer_head_mask (`torch.FloatTensor`): mask for cross-attention heads in a given layer of
                size `(decoder_attention_heads,)`.
            past_key_value (`Tuple(torch.FloatTensor)`): cached past key and value projection states
            output_attentions (`bool`, *optional*):
                Whether or not to return the attentions tensors of all attention layers. See `attentions` under
                returned tensors for more detail.
        Nr4   )rv   rx   ry   rz   r{   r~   éþÿÿÿ)rv   rw   ry   rz   rx   r{   )r§   rŸ   r   r†   rd   r€   r¦   r¤   r«   r¡   r©   r¢   rª   )r   rv   ry   r­   r®   rz   r¯   rx   r{   r°   ÚresidualÚself_attn_past_key_valueÚself_attn_weightsÚpresent_key_valueÚcross_attn_present_key_valueÚcross_attn_weightsÚcross_attn_past_key_valueÚoutputss                     r    r$   zXGLMDecoderLayer.forward  s  € ð< !ˆØ×1Ñ1°-Ó@ˆð :HÐ9S >°"°1Ñ#5ÐY]Ð à>B¿n¹nØ'Ø3Ø)Ø+Ø/ð ?Mó ?
Ñ;ˆÐ(Ð*;ô Ÿ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-ÓdˆØ  =Ñ0ˆð (,Ð$Ø!ÐØ Ð,Ø$ˆHØ ×8Ñ8¸ÓGˆMð @NÐ?Y¨°r°sÑ(;Ð_cÐ%ØNR×N_ÑN_Ø+Ø!6Ø5Ø :Ø8Ø"3ð O`ó OÑKˆMÐ-Ð/Kô ŸM™M×1Ñ1°-À4Ç<Á<ÐZ^×ZgÑZgÐ1ÓhˆMØ$ }Ñ4ˆMð !2Ð4PÑ PÐð !ˆØ×-Ñ-¨mÓ<ˆØ×*Ñ*¨4¯8©8°MÓ+BÓCˆÜŸ™×-Ñ-¨m¸t×?VÑ?VÐae×anÑanÐ-ÓoˆØŸ™ Ó/ˆÜŸ™×-Ñ-¨m¸t¿|¹|ÐVZ×VcÑVcÐ-ÓdˆØ  =Ñ0ˆà Ð"ˆáØÐ)Ð+=Ð>Ñ>ˆGáØÐ)Ð+Ñ+ˆGàˆr!   )NNNNNNFT)r&   r'   r(   r   r   r,   r-   r   r   r—   r$   r.   r/   s   @r    r™   r™      sç   ø„ ð=˜zõ =ð@ 26Ø8<Ø9=Ø26Ø=AØ8<Ø,1Ø$(ñWà—|‘|ðWð ! §¡Ñ.ðWð  (¨¯©Ñ5ð	Wð
 !)¨¯©Ñ 6ðWð " %§,¡,Ñ/ðWð %-¨U¯\©\Ñ$:ðWð !  u§|¡|Ñ!4Ñ5ðWð $ D™>ðWð ˜D‘>ðWð 
‰÷Wr!   r™   c                   ó$   — e Zd ZeZdZdZdgZd„ Zy)ÚXGLMPreTrainedModelÚmodelTr™   c                 ó  — | j                   j                  }t        |t        j                  «      rY|j
                  j                  j                  d|¬«       |j                  %|j                  j                  j                  «        y y t        |t        j                  «      rf|j
                  j                  j                  d|¬«       |j                  2|j
                  j                  |j                     j                  «        y y y )Nr–   )ÚmeanÚstd)rš   Úinit_stdÚ
isinstancer   rl   ÚweightÚdataÚnormal_rf   Úzero_Ú	Embeddingr   )r   ÚmodulerÀ   s      r    Ú_init_weightsz!XGLMPreTrainedModel._init_weights  sÃ   € Øk‰k×"Ñ"ˆÜfœbŸi™iÔ(ØM‰M×Ñ×&Ñ&¨C°SÐ&Ô9Ø{‰{Ð&Ø—‘× Ñ ×&Ñ&Õ(ð 'ä˜¤§¡Ô-ØM‰M×Ñ×&Ñ&¨C°SÐ&Ô9Ø×!Ñ!Ð-Ø—‘×"Ñ" 6×#5Ñ#5Ñ6×<Ñ<Õ>ð .ð .r!   N)	r&   r'   r(   r   Úconfig_classÚbase_model_prefixÚsupports_gradient_checkpointingÚ_no_split_modulesrÉ   © r!   r    r¼   r¼   x  s!   „ à€LØÐØ&*Ð#Ø+Ð,Ðó	?r!   r¼   c                    óâ  ‡ — e Zd Zddedeej                     fˆ fd„Zd„ Zd„ Z	e
	 	 	 	 	 	 	 	 	 	 	 	 	 ddeej                     deej                     deej                     d	eej                     d
eej                     deej                     deej                     deeej                        deej                     dee   dee   dee   dee   deeej                     ef   fd„«       Zˆ xZS )Ú	XGLMModelrš   Úembed_tokensc                 óæ  •— t         ‰|   |«       |j                  | _        |j                  | _        |j                  | _        |j                  | _        |j                  rt        j                  |j                  «      nd}||| _        n2t        |j                  |j                  | j
                  |¬«      | _        t        |j                  |j                  |j                  «      | _        t#        j$                  t'        |j(                  «      D cg c]  }t+        |«      ‘Œ c}«      | _        t#        j.                  |j                  «      | _        d| _        | j5                  «        yc c}w )zZ
        embed_tokens (`nn.Embedding`, *optional*):
            output embeddings
        r%   N)r   F)r   r   rd   Ú	layerdropÚpad_token_idr   Úmax_position_embeddingsÚmax_target_positionsÚscale_embeddingrF   Úsqrtrœ   rÑ   r   Ú
vocab_sizer1   Úembed_positionsr   Ú
ModuleListÚrangeÚ
num_layersr™   Úlayersr¥   Ú
layer_normÚgradient_checkpointingÚ	post_init)r   rš   rÑ   r   rŒ   r   s        €r    r   zXGLMModel.__init__  s  ø€ ô
 	‰Ñ˜Ô Ø—~‘~ˆŒØ×)Ñ)ˆŒØ!×.Ñ.ˆÔØ$*×$BÑ$BˆÔ!Ø39×3IÒ3I”d—i‘i §¡Ô/ÈsˆàÐ#Ø ,ˆDÕä 7Ø×!Ñ! 6§>¡>°4×3CÑ3CÐQ\ô!ˆDÔô  AØ×*Ñ*ØN‰NØ×Ñó 
ˆÔô
 —m‘mÄuÈV×M^ÑM^ÓG_Ö$`À!Ô%5°fÕ%=Ò$`ÓaˆŒÜŸ,™, v§~¡~Ó6ˆŒà&+ˆÔ#à‰Õùò %as   ÄE.c                 ó   — | j                   S r   ©rÑ   ©r   s    r    Úget_input_embeddingszXGLMModel.get_input_embeddings¬  s   € Ø× Ñ Ð r!   c                 ó   — || _         y r   rã   ©r   Úvalues     r    Úset_input_embeddingszXGLMModel.set_input_embeddings¯  s
   € Ø!ˆÕr!   r"   ry   rT   r­   r®   Ú	head_maskÚcross_attn_head_maskÚpast_key_valuesÚinputs_embedsr°   r{   Úoutput_hidden_statesÚreturn_dictr|   c                 óì  — ||n| j                   j                  }||n| j                   j                  }|
|
n| j                   j                  }
||n| j                   j                  }||	t        d«      ‚|8| j                  ||«       |j                  «       }|j                  d|d   «      }n!|	|	j                  «       dd }nt        d«      ‚||d   d   j                  d   nd}|€Vt        j                  ||d   |z   t        j                  ||j                  n|	j                  ¬«      }|j                  d«      }|	€| j                  |«      }	t!        |||	|«      }||t#        ||	j$                  |d   ¬«      }|	| j'                  ||«      j)                  |	j                  «      z   }t*        j,                  j/                  |t1        | j.                  «      | j2                  ¬	«      }| j4                  r%| j2                  r|
rt6        j9                  d
«       d}
|rdnd}|rdnd}|r|dnd}|
rdnd}t;        ||gddg«      D ]j  \  }}|€Œ	|j                  «       d   t=        | j>                  «      k7  sŒ3t        d|› dt=        | j>                  «      › d|j                  «       d   › d«      ‚ tA        | j>                  «      D ]Ý  \  }}|r||fz  }| j2                  r%t        jB                  g «      }|| jD                  k  rŒ?|||   nd}| j4                  r?| j2                  r3| jG                  |jH                  |||||||   nd|||   ndd||
«
      }n ||||||||   nd|||   nd|||
¬«	      }|d   }|
r|||rdnd   fz  }|sŒÉ||d   fz  }|€ŒÕ||d   fz  }Œß | jK                  |«      }|r||fz  }|
r|nd}|stM        d„ |||||fD «       «      S tO        |||||¬«      S )aÿ  
        encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
            the decoder.
        encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
            Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
            selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
            Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

            - 1 indicates the head is **not masked**,
            - 0 indicates the head is **masked**.
        NzDYou cannot specify both input_ids and inputs_embeds at the same timerE   z5You have to specify either input_ids or inputs_embedsr   r4   r9   )r‹   r~   z_`use_cache = True` is incompatible with gradient checkpointing`. Setting `use_cache = False`...FrÎ   rê   rë   zThe `z` should be specified for z layers, but it is for ú.)ry   r­   r®   rz   r¯   rx   r{   r°   r   r   c              3   ó$   K  — | ]  }||–— Œ
 y ­wr   rÎ   )Ú.0Úvs     r    ú	<genexpr>z$XGLMModel.forward.<locals>.<genexpr>T  s   è ø€ ò àØ=ô ñùs   ‚)Úlast_hidden_staterì   rv   Ú
attentionsÚcross_attentions)(rš   r{   rî   r°   Úuse_return_dictrj   Ú%warn_if_padding_and_no_attention_maskrW   rO   rY   r,   rI   Úlongr;   rK   rÑ   r   r   r:   rÚ   r?   r   r†   rd   r+   r€   rà   ÚloggerÚwarning_onceÚzipÚlenrÞ   Ú	enumerateÚrandrÓ   Ú_gradient_checkpointing_funcÚ__call__rß   Útupler   )r   r"   ry   rT   r­   r®   rê   rë   rì   rí   r°   r{   rî   rï   Úinput_shaperU   rv   Úall_hidden_statesÚall_self_attnsÚall_cross_attentionsÚnext_decoder_cacheÚ	attn_maskÚ	mask_nameÚidxÚdecoder_layerÚdropout_probabilityrx   Úlayer_outputsÚ
next_caches                                r    r$   zXGLMModel.forward²  sÃ  € ðF 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð "+Ð!6‘I¸D¿K¹K×<QÑ<Qˆ	Ø%0Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆð Ð  ]Ð%>ÜÐcÓdÐdØÐ"Ø×6Ñ6°yÀ.ÔQØ#Ÿ.™.Ó*ˆKØ!Ÿ™ r¨;°r©?Ó;‰IØÐ&Ø'×,Ñ,Ó.¨s°Ð3‰KäÐTÓUÐUàCRÐC^ °Ñ!3°AÑ!6×!<Ñ!<¸QÒ!?ÐdeÐàÐÜ Ÿ<™<Ø&Ø˜B‘Ð"8Ñ8Ü—j‘jØ+4Ð+@y×'Ò'Àm×FZÑFZô	ˆLð (×1Ñ1°!Ó4ˆLàÐ Ø ×-Ñ-¨iÓ8ˆMä:Ø˜K¨Ð8Nó
ˆð
 !Ð,Ð1GÐ1Sä%?Ø&¨×(;Ñ(;À[ÐQSÁ_ô&Ð"ð &¨×(<Ñ(<¸\ÐKaÓ(b×(eÑ(eØ× Ñ ó)
ñ 
ˆô Ÿ™×-Ñ-¨m¼uÀTÇ\Á\Ó?RÐ]a×]jÑ]jÐ-Ókˆà×&Ò&¨4¯=ª=ÙÜ×#Ñ#Øuôð "	ñ #7™B¸DÐÙ0™°dˆÙ&7Ð<QÐ<]™rÐdhÐÙ#,™R°$Ðô %(¨Ð4HÐ(IÈKÐYoÐKpÓ$qò 	Ñ ˆIyØÑ$Ø—>‘>Ó# AÑ&¬#¨d¯k©kÓ*:Ó:Ü$Ø 	˜{Ð*DÄSÈÏÉÓEUÐDVð WØ%ŸN™NÓ,¨QÑ/Ð0°ð3óð ð	ô #,¨D¯K©KÓ"8ò /	@ÑˆCá#Ø! mÐ%5Ñ5Ð!Ø}Š}Ü&+§j¡j°£nÐ#Ø&¨¯©Ò7Øà5DÐ5P˜_¨SÒ1ÐVZˆNà×*Ò*¨t¯}ª}Ø $× AÑ AØ!×*Ñ*Ø!Ø"Ø)Ø*Ø&/Ð&;I˜c’NÀØ1EÐ1QÐ(¨Ò-ÐW[ØØ%Øó!‘ñ !.Ø!Ø#1Ø*?Ø+AØ7@Ð7L Y¨s¢^ÐRVà5IÐ5UÐ,¨SÒ1Ð[_à#1Ø&7Ø'ô!ð *¨!Ñ,ˆMáØ" }Ñ:K±QÐQRÑ'SÐ&UÑUÐ"â Ø =°Ñ#3Ð"5Ñ5à(Ñ4Ø(¨]¸1Ñ-=Ð,?Ñ?Ñ(ð_/	@ðb Ÿ™¨Ó6ˆñ  Ø -Ð!1Ñ1Ðá+4Ñ'¸$ˆ
ÙÜñ à'¨Ð5FÈÐXlÐmôó ð ô
 9Ø+Ø&Ø+Ø%Ø1ô
ð 	
r!   r   )NNNNNNNNNNNNN)r&   r'   r(   r   r   r   rÇ   r   rå   ré   r   r,   r-   r   ÚFloatTensorr—   r   r   r   r$   r.   r/   s   @r    rÐ   rÐ   ‹  s|  ø„ ñ˜zð ¸À"Ç,Á,Ñ9Oõ ò>!ò"ð ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø$(Ø,0Ø/3Ø&*ñl
à˜EŸL™LÑ)ðl
ð ! §¡Ñ.ðl
ð ˜uŸ|™|Ñ,ð	l
ð
  (¨¯©Ñ5ðl
ð !)¨¯©Ñ 6ðl
ð ˜EŸL™LÑ)ðl
ð ' u§|¡|Ñ4ðl
ð " $ u×'8Ñ'8Ñ"9Ñ:ðl
ð   §¡Ñ-ðl
ð ˜D‘>ðl
ð $ D™>ðl
ð ' t™nðl
ð ˜d‘^ðl
ð 
ˆuU—\‘\Ñ"Ð$MÐMÑ	Nòl
ó ôl
r!   rÐ   z‡
    The XGLM Model transformer with a language modeling head on top (linear layer with weights tied to the input
    embeddings).
    )Úcustom_introc            "       ó  ‡ — e Zd ZdZdgZˆ fd„Zd„ Zd„ Zd„ Zd„ Z	e
	 	 	 	 	 	 	 	 	 	 	 	 	 	 ddeej                     d	eej                     d
eej                     deej                     deej                     deej                     deej                     deeej                        deej                     deej                     dee   dee   dee   dee   deeej                     ef   fd„«       Zed„ «       Zˆ xZS )ÚXGLMForCausalLMr½   zlm_head.weightc                 óÆ   •— t         ‰|   |«       t        |«      | _        t	        j
                  |j                  |j                  d¬«      | _        | j                  «        y )NFrh   )
r   r   rÐ   r½   r   rl   Úhidden_sizerÙ   Úlm_headrá   r¬   s     €r    r   zXGLMForCausalLM.__init__l  sH   ø€ Ü‰Ñ˜Ô Ü˜vÓ&ˆŒ
Ü—y‘y ×!3Ñ!3°V×5FÑ5FÈUÔSˆŒð 	‰Õr!   c                 ó.   — | j                   j                  S r   ©r½   rÑ   rä   s    r    rå   z$XGLMForCausalLM.get_input_embeddingst  s   € Øz‰z×&Ñ&Ð&r!   c                 ó&   — || j                   _        y r   r  rç   s     r    ré   z$XGLMForCausalLM.set_input_embeddingsw  s   € Ø"'ˆ
‰
Õr!   c                 ó   — | j                   S r   ©r  rä   s    r    Úget_output_embeddingsz%XGLMForCausalLM.get_output_embeddingsz  s   € Ø|‰|Ðr!   c                 ó   — || _         y r   r  )r   Únew_embeddingss     r    Úset_output_embeddingsz%XGLMForCausalLM.set_output_embeddings}  s	   € Ø%ˆr!   r"   ry   rT   r­   r®   rê   rë   rì   rí   Úlabelsr°   r{   rî   rï   r|   c                 ó$  — ||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }| j	                  |||||||||	||||¬«      }| j                  |d   «      }d}|
? | j                  ||
f| j                   j                  | j                   j                  dœ|¤Ž}|s|f|dd z   }||f|z   S |S t        |||j                  |j                  |j                  |j                  ¬«      S )a£  
        encoder_hidden_states (`torch.FloatTensor` of shape `(batch_size, encoder_sequence_length, hidden_size)`, *optional*):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of
            the decoder.
        encoder_attention_mask (`torch.LongTensor` of shape `(batch_size, encoder_sequence_length)`, *optional*):
            Mask to avoid performing cross-attention on padding tokens indices of encoder input_ids. Mask values
            selected in `[0, 1]`:

            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.

            [What are attention masks?](../glossary#attention-mask)
        cross_attn_head_mask (`torch.Tensor` of shape `(num_layers, attention_heads)`, *optional*):
            Mask to nullify selected heads of the cross-attention modules. Mask values selected in `[0, 1]`:

            - 1 indicates the head is **not masked**,
            - 0 indicates the head is **masked**.
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
        N)r"   ry   rT   r­   r®   rê   rë   rì   rí   r°   r{   rî   rï   r   )rÙ   rÔ   r   )ÚlossÚlogitsrì   rv   r÷   rø   )rš   r{   rî   rù   r½   r  Úloss_functionrÙ   rÔ   r   rì   rv   r÷   rø   )r   r"   ry   rT   r­   r®   rê   rë   rì   rí   r!  r°   r{   rî   rï   Úkwargsrº   r$  r#  Úoutputs                       r    r$   zXGLMForCausalLM.forward€  sV  € ðT 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆð —*‘*ØØ)Ø%Ø"7Ø#9ØØ!5Ø+Ø'ØØ/Ø!5Ø#ð ó 
ˆð  —‘˜g a™jÓ)ˆàˆØÐØ%4×%Ñ%ØØðð  Ÿ;™;×1Ñ1Ø!Ÿ[™[×5Ñ5ñ	ð
 ñˆDñ ØY ¨¨ Ñ,ˆFØ'+Ð'7D7˜VÑ#ÐC¸VÐCä0ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø$×5Ñ5ô
ð 	
r!   c                 óJ   ‡— d}| D ]  }|t        ˆfd„|D «       «      fz  }Œ |S )NrÎ   c              3   ót   •K  — | ]/  }|j                  d ‰j                  |j                  «      «      –— Œ1 y­w)r   N)rX   r?   r;   )ró   Ú
past_stateÚbeam_idxs     €r    rõ   z1XGLMForCausalLM._reorder_cache.<locals>.<genexpr>ß  s.   øè ø€ ÒnÐU_j×-Ñ-¨a°·±¸Z×=NÑ=NÓ1O×PÑnùs   ƒ58)r  )rì   r+  Úreordered_pastÚ
layer_pasts    `  r    Ú_reorder_cachezXGLMForCausalLM._reorder_cacheÚ  s=   ø€ àˆØ)ò 	ˆJØÜÓnÐcmÔnÓnðñ ‰Nð	ð Ðr!   )NNNNNNNNNNNNNN)r&   r'   r(   rË   Ú_tied_weights_keysr   rå   ré   r  r   r   r   r,   r-   r   r  r—   r   r   r   r$   r^   r.  r.   r/   s   @r    r  r  b  s¬  ø„ ð  ÐØ*Ð+Ðôò'ò(òò&ð ð -1Ø15Ø/3Ø8<Ø9=Ø,0Ø7;Ø=AØ04Ø)-Ø$(Ø,0Ø/3Ø&*ñW
à˜EŸL™LÑ)ðW
ð ! §¡Ñ.ðW
ð ˜uŸ|™|Ñ,ð	W
ð
  (¨¯©Ñ5ðW
ð !)¨¯©Ñ 6ðW
ð ˜EŸL™LÑ)ðW
ð ' u§|¡|Ñ4ðW
ð " $ u×'8Ñ'8Ñ"9Ñ:ðW
ð   §¡Ñ-ðW
ð ˜Ÿ™Ñ&ðW
ð ˜D‘>ðW
ð $ D™>ðW
ð ' t™nðW
ð ˜d‘^ðW
ð" 
ˆuU—\‘\Ñ"Ð$EÐEÑ	Fò#W
ó ðW
ðr ñó ôr!   r  )r  rÐ   r¼   )(r)   rF   Útypingr   r   r   r   r,   Útorch.utils.checkpointr   Úactivationsr	   Ú
generationr
   Úmodeling_attn_mask_utilsr   r   Úmodeling_outputsr   r   Úmodeling_utilsr   Úutilsr   r   Úconfiguration_xglmr   Ú
get_loggerr&   rü   rÇ   r   ÚModuler1   ra   r™   r¼   rÐ   r  Ú__all__rÎ   r!   r    ú<module>r<     sÿ   ðñ ã ß /Ó /ã Û Ý å !Ý )ß eß lÝ -ß ,Ý *ð 
ˆ×	Ñ	˜HÓ	%€ô
=˜bŸl™lô 
=ô1w¨¯	©	ô 1wôhWBB—I‘Iô WBôtur—y‘yô uðp ô?˜/ó ?ó ð?ð$ ôS
Ð#ó S
ó ðS
ñl ðôôyÐ)¨?ó yóðyòx Br!   