openbmb
/

MiniCPM-Llama3-V-2_5

Image-Text-to-Text

feature-extraction

Model card Files Files and versions Community

hezhihui commited on Jul 19

Commit

9403e15

•

1 Parent(s): 0a74acd

restore image_bound; restore model_max_length

Files changed (3) hide show

modeling_minicpmv.py +3 -3
processing_minicpmv.py +1 -1
tokenizer_config.json +1 -1

modeling_minicpmv.py CHANGED Viewed

@@ -82,8 +82,8 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
     def get_vllm_embedding(self, data):
         if 'vision_hidden_states' not in data:
-            dtype = self.vpm.embeddings.position_embedding.weight.dtype
-            device = self.vpm.embeddings.position_embedding.weight.device
             tgt_sizes = data['tgt_sizes']
             pixel_values_list = data['pixel_values']
             vision_hidden_states = []
@@ -158,7 +158,7 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
             cur_vs_hs = vision_hidden_states[i]
             if len(cur_vs_hs) > 0:
                 cur_vllm_emb = vllm_embedding[i]
-                cur_image_bound = data['image_bounds'][i]
                 if len(cur_image_bound) > 0:
                     image_indices = torch.stack(
                         [torch.arange(r[0], r[1], dtype=torch.long) for r in cur_image_bound]

     def get_vllm_embedding(self, data):
         if 'vision_hidden_states' not in data:
+            dtype = self.llm.model.embed_tokens.weight.dtype
+            device = self.llm.model.embed_tokens.weight.device
             tgt_sizes = data['tgt_sizes']
             pixel_values_list = data['pixel_values']
             vision_hidden_states = []
             cur_vs_hs = vision_hidden_states[i]
             if len(cur_vs_hs) > 0:
                 cur_vllm_emb = vllm_embedding[i]
+                cur_image_bound = data['image_bound'][i]
                 if len(cur_image_bound) > 0:
                     image_indices = torch.stack(
                         [torch.arange(r[0], r[1], dtype=torch.long) for r in cur_image_bound]

processing_minicpmv.py CHANGED Viewed

@@ -187,7 +187,7 @@ class MiniCPMVProcessor(ProcessorMixin):
             "input_ids": input_ids,
             "pixel_values": [images],
             "image_sizes": [image_sizes],
-            "image_bounds": [image_bounds],
             "tgt_sizes": [tgt_sizes]
         })

             "input_ids": input_ids,
             "pixel_values": [images],
             "image_sizes": [image_sizes],
+            "image_bound": [image_bounds],
             "tgt_sizes": [tgt_sizes]
         })

tokenizer_config.json CHANGED Viewed

@@ -2063,7 +2063,7 @@
     "input_ids",
     "attention_mask"
   ],
-  "model_max_length": 2048,
   "pad_token": "!",
   "padding_side": "right",
   "tokenizer_class": "MiniCPMVTokenizerFast",

     "input_ids",
     "attention_mask"
   ],
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "!",
   "padding_side": "right",
   "tokenizer_class": "MiniCPMVTokenizerFast",