nvidia
/

MambaVision-L-1K

@@ -1,24 +1,11 @@
 {
   "architectures": [
-    "MambaVisionModelForImageClassification"
   ],
   "auto_map": {
     "AutoConfig": "configuration_mambavision.MambaVisionConfig",
-    "AutoModel": "modeling_mambavision.MambaVisionModel",
-    "AutoModelForImageClassification": "modeling_mambavision.MambaVisionModelForImageClassification"
   },
-  "crop_mode": "center",
-  "crop_pct": 0.93,
-  "mean": [
-    0.485,
-    0.456,
-    0.406
-  ],
-  "std": [
-    0.229,
-    0.224,
-    0.225
-  ],
   "depths": [
     3,
     3,

 {
   "architectures": [
+    "MambaVisionModel"
   ],
   "auto_map": {
     "AutoConfig": "configuration_mambavision.MambaVisionConfig",
+    "AutoModel": "modeling_mambavision.MambaVisionModel"
   },
   "depths": [
     3,
     3,

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:c701fec9cee37613733b5961d3d11ca898db22f155d1501f902832cf2da73b6f
+size 911925488

modeling_mambavision.py CHANGED Viewed

@@ -28,7 +28,7 @@ from einops import rearrange, repeat
 from transformers import PreTrainedModel
-from .configuration_mambavision import MambaVisionConfig
 def _cfg(url='', **kwargs):
@@ -280,7 +280,7 @@ class ConvBlock(nn.Module):
         self.norm2 = nn.BatchNorm2d(dim, eps=1e-5)
         self.layer_scale = layer_scale
         if layer_scale is not None and type(layer_scale) in [int, float]:
-            self.gamma = nn.Parameter(layer_scale * torch.ones(dim))
             self.layer_scale = True
         else:
             self.layer_scale = False
@@ -294,7 +294,7 @@ class ConvBlock(nn.Module):
         x = self.conv2(x)
         x = self.norm2(x)
         if self.layer_scale:
-            x = x * self.gamma.view(1, -1, 1, 1)
         x = input + self.drop_path(x)
         return x
@@ -502,12 +502,12 @@ class Block(nn.Module):
         mlp_hidden_dim = int(dim * mlp_ratio)
         self.mlp = Mlp_block(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
         use_layer_scale = layer_scale is not None and type(layer_scale) in [int, float]
-        self.gamma_1 = nn.Parameter(layer_scale * torch.ones(dim))  if use_layer_scale else 1
-        self.gamma_2 = nn.Parameter(layer_scale * torch.ones(dim))  if use_layer_scale else 1
     def forward(self, x):
-        x = x + self.drop_path(self.gamma_1 * self.mixer(self.norm1(x)))
-        x = x + self.drop_path(self.gamma_2 * self.mlp(self.norm2(x)))
         return x

 from transformers import PreTrainedModel
+from configuration_mambavision import MambaVisionConfig
 def _cfg(url='', **kwargs):
         self.norm2 = nn.BatchNorm2d(dim, eps=1e-5)
         self.layer_scale = layer_scale
         if layer_scale is not None and type(layer_scale) in [int, float]:
+            self.g = nn.Parameter(layer_scale * torch.ones(dim))
             self.layer_scale = True
         else:
             self.layer_scale = False
         x = self.conv2(x)
         x = self.norm2(x)
         if self.layer_scale:
+            x = x * self.g.view(1, -1, 1, 1)
         x = input + self.drop_path(x)
         return x
         mlp_hidden_dim = int(dim * mlp_ratio)
         self.mlp = Mlp_block(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)
         use_layer_scale = layer_scale is not None and type(layer_scale) in [int, float]
+        self.g_1 = nn.Parameter(layer_scale * torch.ones(dim))  if use_layer_scale else 1
+        self.g_2 = nn.Parameter(layer_scale * torch.ones(dim))  if use_layer_scale else 1
     def forward(self, x):
+        x = x + self.drop_path(self.g_1 * self.mixer(self.norm1(x)))
+        x = x + self.drop_path(self.g_2 * self.mlp(self.norm2(x)))
         return x