Ë
    ´ãUhO1  ã                   ó<  — d dl mZmZmZmZ d dlZd dlmZ d dlmZm	Z	m
Z
mZmZ ddlmZ ddlmZmZmZ dd	lmZ  ej*                  e«      Z G d
„ de«      Z G d„ de«      Z G d„ dej4                  «      Z G d„ de«      Z G d„ de
«      Z G d„ de	«      Zg d¢Zy)é    )ÚListÚOptionalÚTupleÚUnionN)Únn)ÚLlavaCausalLMOutputWithPastÚLlavaForConditionalGenerationÚ
LlavaModelÚLlavaModelOutputWithPastÚLlavaPreTrainedModelé   )ÚACT2FN)Úauto_docstringÚis_torchdynamo_compilingÚloggingé   )ÚVipLlavaConfigc                   ó   — e Zd Zy)ÚVipLlavaModelOutputWithPastN©Ú__name__Ú
__module__Ú__qualname__© ó    ú/var/www/catia.catastroantioquia-mas.com/valormas/lib/python3.12/site-packages/transformers/models/vipllava/modular_vipllava.pyr   r   %   ó   „ Ør   r   c                   ó   — e Zd Zy)ÚVipLlavaCausalLMOutputWithPastNr   r   r   r   r   r   )   r   r   r   c                   ó*   ‡ — e Zd Zdefˆ fd„Zd„ Zˆ xZS )ÚVipLlavaMultiModalProjectorÚconfigc                 óH  •— t         ‰|   «        t        |j                  t        «      rdnt        |j                  «      }t        j                  ||j                  j                  z  |j                  ¬«      | _        t        j                  ||j                  j                  z  |j                  j                  d¬«      | _        t        |j                      | _        t        j                  |j                  j                  |j                  j                  d¬«      | _        y )Nr   )ÚepsT)Úbias)ÚsuperÚ__init__Ú
isinstanceÚvision_feature_layersÚintÚlenr   Ú	LayerNormÚvision_configÚhidden_sizeÚprojector_layernorm_epsÚprojector_layernormÚLinearÚtext_configÚlinear_1r   Úprojector_hidden_actÚactÚlinear_2)Úselfr"   Únum_feature_layersÚ	__class__s      €r   r'   z$VipLlavaMultiModalProjector.__init__.   sØ   ø€ Ü‰ÑÔÜ",¨V×-IÑ-IÌ3Ô"O™QÔUXÐY_×YuÑYuÓUvÐÜ#%§<¡<Ø ×!5Ñ!5×!AÑ!AÑAÀv×GeÑGeô$
ˆÔ ô Ÿ	™	Ø ×!5Ñ!5×!AÑ!AÑAØ×Ñ×*Ñ*Øô
ˆŒô
 ˜&×5Ñ5Ñ6ˆŒÜŸ	™	 &×"4Ñ"4×"@Ñ"@À&×BTÑBT×B`ÑB`ÐgkÔlˆr   c                 óŽ   — | j                  |«      }| j                  |«      }| j                  |«      }| j                  |«      }|S )N)r0   r3   r5   r6   )r7   Úhidden_statess     r   Úforwardz#VipLlavaMultiModalProjector.forward=   sB   € Ø×0Ñ0°Ó?ˆØŸ™ mÓ4ˆØŸ™ Ó/ˆØŸ™ mÓ4ˆØÐr   )r   r   r   r   r'   r<   Ú__classcell__)r9   s   @r   r!   r!   -   s   ø„ ðm˜~õ mör   r!   c                   ó   — e Zd Zy)ÚVipLlavaPreTrainedModelNr   r   r   r   r?   r?   E   r   r   r?   c                   óˆ  — e Zd Zdej                  deeee   f   fd„Ze		 	 	 	 	 	 	 	 	 	 	 	 ddej                  dej                  deej                     deej                     deeej                        d	eej                     deeeee   f      d
ee   dee   dee   dee   deej                     deeef   fd„«       Zy)ÚVipLlavaModelÚpixel_valuesr)   c                 ó"  — | j                  |d¬«      }t        |t        «      r|j                  |   dd…dd…f   }n<|D cg c]  }|j                  |   dd…dd…f   ‘Œ }}t	        j
                  |d¬«      }| j                  |«      }|S c c}w )aW  
        Obtains image last hidden states from the vision tower and apply multimodal projection.

        Args:
            pixel_values (`torch.FloatTensor]` of shape `(batch_size, channels, height, width)`)
               The tensors corresponding to the input images.
            vision_feature_layers (`Union[int, List[int]]`):
                The vision feature layer, or the list of indexes of the layers to select
                the vision feature.
        Returns:
            image_features (`torch.Tensor`): Image feature tensor of shape `(num_images, image_length, embed_dim)`).
        T)Úoutput_hidden_statesNr   éÿÿÿÿ)Údim)Úvision_towerr(   r*   r;   ÚtorchÚcatÚmulti_modal_projector)r7   rB   r)   Úimage_outputsÚimage_featuresÚindexs         r   Úget_image_featuresz VipLlavaModel.get_image_featuresJ   sŸ   € ð ×)Ñ)¨,ÈTÐ)ÓRˆô Ð+¬SÔ1Ø*×8Ñ8Ð9NÑOÒPQÐSTÑSUÐPUÑV‰Nð VkÖkÈE˜m×9Ñ9¸%Ñ@ÂÀAÁBÀÓGÐkˆNÐkÜ"ŸY™Y ~¸2Ô>ˆNØ×3Ñ3°NÓCˆØÐùò ls   ÁBNÚ	input_idsÚattention_maskÚposition_idsÚpast_key_valuesÚinputs_embedsÚ	use_cacheÚoutput_attentionsrD   Úreturn_dictÚcache_positionÚreturnc                 ój  — |	|	n| j                   j                  }	|
|
n| j                   j                  }
||n| j                   j                  }||n| j                   j                  }|du |duz  rt        d«      ‚||t        d«      ‚|€ | j                  «       |«      }|"| j                  ||¬«      }|| j                   j                  k(  j                  d«      }|j                  |«      j                  |j                  «      }t        «       s{||   j                  «       |j                  «       k7  rW|| j                   j                  k(  j                  «       }|j                   d   |j                   d   z  }t        d|› d	|› «      ‚|j                  |j                  |j"                  «      }|j%                  ||«      } | j&                  d||||||	|
d
|dœ	|¤Ž}t)        |j*                  |j,                  |j.                  |j0                  |nd¬«      }|r|S |j3                  «       S )zÃ
        vision_feature_layers (`Union[int, List[int]]`, *optional*):
            The vision feature layer, or the list of indexes of the layers to select
            the vision feature.
        Nz:You must specify exactly one of input_ids or inputs_embedszdYou cannot specify both pixel_values and inputs_embeds at the same time, and must specify either one)rB   r)   rE   r   r   z6Image features and image tokens do not match: tokens: z, features T)	rP   rQ   rR   rS   rT   rU   rD   rV   rW   )Úlast_hidden_staterR   r;   Ú
attentionsÚimage_hidden_statesr   )r"   rU   rD   Úuse_return_dictr)   Ú
ValueErrorÚget_input_embeddingsrN   Úimage_token_idÚ	unsqueezeÚ	expand_asÚtoÚdevicer   ÚnumelÚsumÚshapeÚdtypeÚmasked_scatterÚlanguage_modelr   rZ   rR   r;   r[   Úto_tuple)r7   rO   rB   rP   rQ   rR   rS   r)   rT   rU   rD   rV   rW   Ú	lm_kwargsrL   Úspecial_image_maskÚn_image_tokensÚn_image_featuresÚoutputsÚoutputs                       r   r<   zVipLlavaModel.forwardd   sq  € ð, 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà%:Ð%FÑ!ÈDÏKÉK×LmÑLmð 	ð ˜Ð -°tÐ";Ò<ÜÐYÓZÐZàÐ#¨Ð(AÜØvóð ð Ð Ø7˜D×5Ñ5Ó7¸	ÓBˆMàÑ#Ø!×4Ñ4Ø)ÐAVð 5ó ˆNð #,¨t¯{©{×/IÑ/IÑ"I×!TÑ!TÐUWÓ!XÐØ!3×!=Ñ!=¸mÓ!L×!OÑ!OÐP]×PdÑPdÓ!eÐÜ+Ô-°-Ð@RÑ2S×2YÑ2YÓ2[Ð_m×_sÑ_sÓ_uÒ2uØ"+¨t¯{©{×/IÑ/IÑ"I×!NÑ!NÓ!PØ#1×#7Ñ#7¸Ñ#:¸^×=QÑ=QÐRSÑ=TÑ#TÐ Ü ØLÈ^ÐL\Ð\gÐhxÐgyÐzóð ð ,×.Ñ.¨}×/CÑ/CÀ]×EXÑEXÓYˆNØ)×8Ñ8Ð9KÈ^Ó\ˆMà%$×%Ñ%ð 
Ø)Ø%Ø+Ø'ØØ/Ø!5ØØ)ñ
ð ñ
ˆô -Ø%×7Ñ7Ø#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø2>Ð2J¡ÐPTô
ˆñ %ˆvÐ;¨&¯/©/Ó*;Ð;r   )NNNNNNNNNNNN)r   r   r   rH   ÚFloatTensorr   r*   r   rN   r   Ú
LongTensorr   ÚTensorÚboolr   r   r<   r   r   r   rA   rA   I   sj  „ ð¨u×/@Ñ/@ð ÐY^Ð_bÐdhÐilÑdmÐ_mÑYnó ð4 ð '+Ø*.Ø15Ø37Ø=AØ59ØAEØ$(Ø,0Ø/3Ø&*Ø59ñM<à×#Ñ#ðM<ð ×'Ñ'ðM<ð ! §¡Ñ.ð	M<ð
 ˜u×/Ñ/Ñ0ðM<ð " $ u×'8Ñ'8Ñ"9Ñ:ðM<ð   × 1Ñ 1Ñ2ðM<ð  (¨¨c°4¸±9¨nÑ(=Ñ>ðM<ð ˜D‘>ðM<ð $ D™>ðM<ð ' t™nðM<ð ˜d‘^ðM<ð ! ×!1Ñ!1Ñ2ðM<ð 
ˆuÐ1Ð1Ñ	2òM<ó ñM<r   rA   c            !       óŽ  — e Zd Z	 	 	 	 	 	 	 	 	 	 	 	 	 	 ddej                  dej
                  deej                     deej                     deeej
                        deej
                     dee	e
ee
   f      d	eej                     d
ee   dee   dee   dee   deej                     de	e
ej                  f   de	eef   fd„Zy)Ú VipLlavaForConditionalGenerationNrO   rB   rP   rQ   rR   rS   r)   ÚlabelsrT   rU   rD   rV   rW   Úlogits_to_keeprX   c                 ól  — |
|
n| j                   j                  }
||n| j                   j                  }||n| j                   j                  }||n| j                   j                  } | j
                  d|||||||	||
|d|dœ|¤Ž}|d   }t        |t        «      rt        | d«      n|}| j                  |dd…|dd…f   «      }d}|2| j                  ||| j                   j                  j                  ¬«      }t        |||j                  |j                  |j                   |j"                  ¬«      S )a¨  
        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
        vision_feature_layers (`Union[int, List[int]]`, *optional*):
            The vision feature layer, or the list of indexes of the layers to select
            the vision feature.

        Example:

        ```python
        >>> import torch
        >>> from PIL import Image
        >>> import requests
        >>> from transformers import AutoProcessor, VipLlavaForConditionalGeneration

        >>> model = VipLlavaForConditionalGeneration.from_pretrained("llava-hf/vip-llava-7b-hf", device_map="auto", torch_dtype=torch.float16)
        >>> processor = AutoProcessor.from_pretrained("llava-hf/vip-llava-7b-hf")

        >>> prompt = "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.###Human: <image>\n{}###Assistant:"
        >>> question = "Can you please describe this image?"
        >>> prompt = prompt.format(question)
        >>> url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/compel-neg.png"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> inputs = processor(text=text, images=image, return_tensors="pt").to(0, torch.float16)

        >>> # Generate
        >>> generate_ids = model.generate(**inputs, max_new_tokens=20)
        >>> processor.decode(generate_ids[0][len(inputs["input_ids"][0]):], skip_special_tokens=True)
        The image features a brown and white cat sitting on a green surface, with a red ball in its
        ```NT)rO   rB   rP   rQ   rR   rS   rT   r)   rU   rD   rV   rW   r   )Úlogitsrx   Ú
vocab_size)Úlossr{   rR   r;   r[   r\   r   )r"   rU   rD   r]   r)   Úmodelr(   r*   ÚsliceÚlm_headÚloss_functionr2   r|   r   rR   r;   r[   r\   )r7   rO   rB   rP   rQ   rR   rS   r)   rx   rT   rU   rD   rV   rW   ry   rl   rp   r;   Úslice_indicesr{   r}   s                        r   r<   z(VipLlavaForConditionalGeneration.forward¶   s[  € ðh 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆà%:Ð%FÑ!ÈDÏKÉK×LmÑLmð 	ð $—*‘*ð 
ØØ%Ø)Ø%Ø+Ø'ØØ"7Ø/Ø!5ØØ)ñ
ð ñ
ˆð    ™
ˆä8BÀ>ÔSVÔ8Wœ˜~˜o¨tÔ4Ð]kˆØ—‘˜mªA¨}ºaÐ,?Ñ@ÓAˆàˆØÐØ×%Ñ%¨V¸FÈtÏ{É{×OfÑOf×OqÑOqÐ%ÓrˆDä-ØØØ#×3Ñ3Ø!×/Ñ/Ø×)Ñ)Ø '× ;Ñ ;ô
ð 	
r   )NNNNNNNNNNNNNr   )r   r   r   rH   rs   rr   r   rt   r   r   r*   ru   r   r   r<   r   r   r   rw   rw   µ   sc  „ ð '+Ø*.Ø15Ø37Ø=AØ59ØAEØ-1Ø$(Ø,0Ø/3Ø&*Ø59Ø34ñ]
à×#Ñ#ð]
ð ×'Ñ'ð]
ð ! §¡Ñ.ð	]
ð
 ˜u×/Ñ/Ñ0ð]
ð " $ u×'8Ñ'8Ñ"9Ñ:ð]
ð   × 1Ñ 1Ñ2ð]
ð  (¨¨c°4¸±9¨nÑ(=Ñ>ð]
ð ˜×)Ñ)Ñ*ð]
ð ˜D‘>ð]
ð $ D™>ð]
ð ' t™nð]
ð ˜d‘^ð]
ð ! ×!1Ñ!1Ñ2ð]
ð ˜c 5§<¡<Ð/Ñ0ð]
ð" 
ˆuÐ4Ð4Ñ	5ô#]
r   rw   )rA   rw   r?   ) Útypingr   r   r   r   rH   r   Ú(transformers.models.llava.modeling_llavar   r	   r
   r   r   Úactivationsr   Úutilsr   r   r   Úconfiguration_vipllavar   Ú
get_loggerr   Úloggerr   r   ÚModuler!   r?   rA   rw   Ú__all__r   r   r   ú<module>rŒ      s   ð÷  0Ó /ã Ý ÷õ õ "ß FÑ FÝ 2ð 
ˆ×	Ñ	˜HÓ	%€ô	Ð":ô 	ô	Ð%@ô 	ô "§)¡)ô ô0	Ð2ô 	ôi<Jô i<ôX^
Ð'Dô ^
òB [r   