Vision-CAIR
/

MiniGPT4-video-llama-hf

@@ -108,7 +108,7 @@ class Registry:
         Usage:
-            .common.registry import registry
         """
         def wrap(runner_cls):
@@ -220,7 +220,7 @@ class Registry:
     @classmethod
     def get(cls, name, default=None, no_warning=False):
-        r"""Get an item from registry with key 'name'
         Args:
             name (string): Key whose value needs to be retrieved.
@@ -251,14 +251,12 @@ class Registry:
     @classmethod
     def unregister(cls, name):
-        r"""Remove an item from registry with key 'name'
         Args:
             name: Key which needs to be removed.
         Usage::
-            from registry import registry
             config = registry.unregister("config")
         """
         return cls.mapping["state"].pop(name, None)

         Usage:
+            from .registry import registry
         """
         def wrap(runner_cls):
     @classmethod
     def get(cls, name, default=None, no_warning=False):
+        r"""Get an item  with key 'name'
         Args:
             name (string): Key whose value needs to be retrieved.
     @classmethod
     def unregister(cls, name):
+        r"""Remove an item with key 'name'
         Args:
             name: Key which needs to be removed.
         Usage::
             config = registry.unregister("config")
         """
         return cls.mapping["state"].pop(name, None)

utils.py CHANGED Viewed

@@ -423,48 +423,3 @@ def get_file_size(filename):
     size_in_mb = os.path.getsize(filename) / float(1024**2)
     return size_in_mb
-from typing import Dict, List, Protocol, Tuple
-import torch
-from torch.func import functional_call
-from vllm.multimodal import BatchedTensors
-from vllm.utils import is_pin_memory_available
-def merge_vision_embeddings(input_ids: torch.Tensor,
-                            inputs_embeds: torch.Tensor,
-                            vision_embeddings: BatchedTensors,
-                            image_token_id: int) -> torch.Tensor:
-    """
-    Merge `vision_embeddings` into `inputs_embeds` by overwriting the positions
-    in `inputs_embeds` corresponding to placeholder image tokens in `input_ids`.
-    Note:
-        This updates `inputs_embeds` in place.
-    """
-    mask = (input_ids == image_token_id)
-    num_expected_tokens = mask.sum()
-    if isinstance(vision_embeddings, torch.Tensor):
-        batch_size, batch_tokens, *_, embed_dim = vision_embeddings.shape
-        total_tokens = batch_size * batch_tokens
-        if num_expected_tokens != total_tokens:
-            expr = f"{batch_size} x {batch_tokens}"
-            raise ValueError(
-                f"Attempted to assign {expr} = {total_tokens} "
-                f"image tokens to {num_expected_tokens} placeholders")
-        inputs_embeds[mask] = vision_embeddings.view(total_tokens, embed_dim)
-    else:
-        size_per_batch = [t.shape[0] for t in vision_embeddings]
-        total_tokens = sum(size_per_batch)
-        if num_expected_tokens != total_tokens:
-            expr = ' + '.join(map(str, size_per_batch))
-            raise ValueError(
-                f"Attempted to assign {expr} = {total_tokens} "
-                f"image tokens to {num_expected_tokens} placeholders")
-        inputs_embeds[mask] = torch.cat(vision_embeddings)
-    return inputs_embeds


423	size_in_mb = os.path.getsize(filename) / float(1024**2)
424	return size_in_mb
425