OrionZheng
/

openmoe-base

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

OrionZheng commited on Dec 25, 2023

Commit

1b350a6

•

1 Parent(s): 76721d5

Update config.json

Files changed (1) hide show

config.json +10 -9

config.json CHANGED Viewed

@@ -14,11 +14,11 @@
   "enable_load_balance": false,
   "eos_token_id": 1,
   "expert_parallel": null,
-  "head_dim": 64,
   "hidden_act": "swiglu",
-  "hidden_size": 768,
   "initializer_range": 0.02,
-  "intermediate_size": 2048,
   "layer_norm_epsilon": 1e-06,
   "load_balance_beam_width": 8,
   "load_balance_group_swap_factor": 0.4,
@@ -26,11 +26,12 @@
   "max_position_embeddings": 2048,
   "mlp_gated": true,
   "model_type": "llama",
-  "moe_layer_interval": 4,
-  "num_attention_heads": 12,
-  "num_experts": 16,
-  "num_hidden_layers": 12,
-  "num_key_value_heads": 12,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
@@ -46,4 +47,4 @@
   "transformers_version": "4.34.0",
   "use_cache": true,
   "vocab_size": 256384
-}

   "enable_load_balance": false,
   "eos_token_id": 1,
   "expert_parallel": null,
+  "head_dim": 128,
   "hidden_act": "swiglu",
+  "hidden_size": 2048,
   "initializer_range": 0.02,
+  "intermediate_size": 8192,
   "layer_norm_epsilon": 1e-06,
   "load_balance_beam_width": 8,
   "load_balance_group_swap_factor": 0.4,
   "max_position_embeddings": 2048,
   "mlp_gated": true,
   "model_type": "llama",
+  "moe_layer_interval": 6,
+  "num_attention_heads": 24,
+  "num_experts": 32,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 24,
+  "pad_token_id": 0,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "transformers_version": "4.34.0",
   "use_cache": true,
   "vocab_size": 256384
+}