openbmb
/

MiniCPM-V-2_6

@@ -181,6 +181,7 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
         )
     def _decode(self, inputs_embeds, tokenizer, attention_mask, decode_text=False, **kwargs):
         terminators = [tokenizer.convert_tokens_to_ids(i) for i in self.terminators]
         output = self.llm.generate(
             inputs_embeds=inputs_embeds,
@@ -258,7 +259,7 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             if stream:
                 result = self._decode_stream(model_inputs["inputs_embeds"], tokenizer, **kwargs)
             else:
-                result = self._decode(model_inputs["inputs_embeds"], tokenizer, attention_mask, decode_text=decode_text, **kwargs)
         if return_vision_hidden_states:
             return result, vision_hidden_states
@@ -360,12 +361,14 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
                 "top_k": 100,
                 "temperature": 0.7,
                 "do_sample": True,
-                "repetition_penalty": 1.05
             }
         else:
             generation_config = {
                 "num_beams": 3,
                 "repetition_penalty": 1.2,
             }
         if min_new_tokens > 0:

         )
     def _decode(self, inputs_embeds, tokenizer, attention_mask, decode_text=False, **kwargs):
+        from transformers import GenerationConfig
         terminators = [tokenizer.convert_tokens_to_ids(i) for i in self.terminators]
         output = self.llm.generate(
             inputs_embeds=inputs_embeds,
             if stream:
                 result = self._decode_stream(model_inputs["inputs_embeds"], tokenizer, **kwargs)
             else:
+                result = self._decode(model_inputs["inputs_embeds"], tokenizer, attention_mask, decode_text=False, **kwargs)
         if return_vision_hidden_states:
             return result, vision_hidden_states
                 "top_k": 100,
                 "temperature": 0.7,
                 "do_sample": True,
+                "repetition_penalty": 1.05,
             }
         else:
             generation_config = {
                 "num_beams": 3,
                 "repetition_penalty": 1.2,
+                "output_logits": True,
+                "output_scores": True,
             }
         if min_new_tokens > 0:

modeling_navit_siglip.py CHANGED Viewed

@@ -142,11 +142,6 @@ SIGLIP_PRETRAINED_MODEL_ARCHIVE_LIST = [
     # See all SigLIP models at https://huggingface.co/models?filter=siglip
 ]
-if is_flash_attn_2_available():
-    from flash_attn import flash_attn_func, flash_attn_varlen_func
-    from flash_attn.bert_padding import index_first_axis, pad_input, unpad_input  # noqa
 # Copied from transformers.models.llama.modeling_llama._get_unpad_data
 def _get_unpad_data(attention_mask):
     seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)

     # See all SigLIP models at https://huggingface.co/models?filter=siglip
 ]
 # Copied from transformers.models.llama.modeling_llama._get_unpad_data
 def _get_unpad_data(attention_mask):
     seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)