Upload folder using huggingface_hub

by schroneko - opened Oct 11

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+271674

-0

Files changed (18) hide show

README.md +49 -0
added_tokens.json +130 -0
config.json +38 -0
model-00001-of-00010.safetensors +3 -0
model-00002-of-00010.safetensors +3 -0
model-00003-of-00010.safetensors +3 -0
model-00004-of-00010.safetensors +3 -0
model-00005-of-00010.safetensors +3 -0
model-00006-of-00010.safetensors +3 -0
model-00007-of-00010.safetensors +3 -0
model-00008-of-00010.safetensors +3 -0
model-00009-of-00010.safetensors +3 -0
model-00010-of-00010.safetensors +3 -0
model.safetensors.index.json +846 -0
special_tokens_map.json +153 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +1210 -0

README.md ADDED Viewed

	@@ -0,0 +1,49 @@

+---
+base_model: karakuri-ai/karakuri-lm-8x7b-instruct-v0.1
+datasets:
+- databricks/databricks-dolly-15k
+- glaiveai/glaive-code-assistant-v3
+- glaiveai/glaive-function-calling-v2
+- gretelai/synthetic_text_to_sql
+- meta-math/MetaMathQA
+- microsoft/orca-math-word-problems-200k
+- neural-bridge/rag-dataset-12000
+- neural-bridge/rag-hallucination-dataset-1000
+- nvidia/HelpSteer
+- OpenAssistant/oasst2
+language:
+- en
+- ja
+library_name: transformers
+license: apache-2.0
+tags:
+- mixtral
+- steerlm
+- mlx
+---
+# mlx-community/karakuri-lm-8x7b-instruct-v0.1-8bit
+The Model [mlx-community/karakuri-lm-8x7b-instruct-v0.1-8bit](https://huggingface.co/mlx-community/karakuri-lm-8x7b-instruct-v0.1-8bit) was converted to MLX format from [karakuri-ai/karakuri-lm-8x7b-instruct-v0.1](https://huggingface.co/karakuri-ai/karakuri-lm-8x7b-instruct-v0.1) using mlx-lm version **0.19.0**.
+## Use with mlx
+```bash
+pip install mlx-lm
+```
+```python
+from mlx_lm import load, generate
+model, tokenizer = load("mlx-community/karakuri-lm-8x7b-instruct-v0.1-8bit")
+prompt="hello"
+if hasattr(tokenizer, "apply_chat_template") and tokenizer.chat_template is not None:
+    messages = [{"role": "user", "content": prompt}]
+    prompt = tokenizer.apply_chat_template(
+        messages, tokenize=False, add_generation_prompt=True
+    )
+response = generate(model, tokenizer, prompt=prompt, verbose=True)
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "<|CHATBOT_TOKEN|>": 32003,
+  "<|END_OF_TURN_TOKEN|>": 32001,
+  "<|EXTRA_100_TOKEN|>": 32100,
+  "<|EXTRA_101_TOKEN|>": 32101,
+  "<|EXTRA_102_TOKEN|>": 32102,
+  "<|EXTRA_103_TOKEN|>": 32103,
+  "<|EXTRA_104_TOKEN|>": 32104,
+  "<|EXTRA_105_TOKEN|>": 32105,
+  "<|EXTRA_106_TOKEN|>": 32106,
+  "<|EXTRA_107_TOKEN|>": 32107,
+  "<|EXTRA_108_TOKEN|>": 32108,
+  "<|EXTRA_109_TOKEN|>": 32109,
+  "<|EXTRA_10_TOKEN|>": 32010,
+  "<|EXTRA_110_TOKEN|>": 32110,
+  "<|EXTRA_111_TOKEN|>": 32111,
+  "<|EXTRA_112_TOKEN|>": 32112,
+  "<|EXTRA_113_TOKEN|>": 32113,
+  "<|EXTRA_114_TOKEN|>": 32114,
+  "<|EXTRA_115_TOKEN|>": 32115,
+  "<|EXTRA_116_TOKEN|>": 32116,
+  "<|EXTRA_117_TOKEN|>": 32117,
+  "<|EXTRA_118_TOKEN|>": 32118,
+  "<|EXTRA_119_TOKEN|>": 32119,
+  "<|EXTRA_11_TOKEN|>": 32011,
+  "<|EXTRA_120_TOKEN|>": 32120,
+  "<|EXTRA_121_TOKEN|>": 32121,
+  "<|EXTRA_122_TOKEN|>": 32122,
+  "<|EXTRA_123_TOKEN|>": 32123,
+  "<|EXTRA_124_TOKEN|>": 32124,
+  "<|EXTRA_125_TOKEN|>": 32125,
+  "<|EXTRA_126_TOKEN|>": 32126,
+  "<|EXTRA_127_TOKEN|>": 32127,
+  "<|EXTRA_12_TOKEN|>": 32012,
+  "<|EXTRA_13_TOKEN|>": 32013,
+  "<|EXTRA_14_TOKEN|>": 32014,
+  "<|EXTRA_15_TOKEN|>": 32015,
+  "<|EXTRA_16_TOKEN|>": 32016,
+  "<|EXTRA_17_TOKEN|>": 32017,
+  "<|EXTRA_18_TOKEN|>": 32018,
+  "<|EXTRA_19_TOKEN|>": 32019,
+  "<|EXTRA_20_TOKEN|>": 32020,
+  "<|EXTRA_21_TOKEN|>": 32021,
+  "<|EXTRA_22_TOKEN|>": 32022,
+  "<|EXTRA_23_TOKEN|>": 32023,
+  "<|EXTRA_24_TOKEN|>": 32024,
+  "<|EXTRA_25_TOKEN|>": 32025,
+  "<|EXTRA_26_TOKEN|>": 32026,
+  "<|EXTRA_27_TOKEN|>": 32027,
+  "<|EXTRA_28_TOKEN|>": 32028,
+  "<|EXTRA_29_TOKEN|>": 32029,
+  "<|EXTRA_30_TOKEN|>": 32030,
+  "<|EXTRA_31_TOKEN|>": 32031,
+  "<|EXTRA_32_TOKEN|>": 32032,
+  "<|EXTRA_33_TOKEN|>": 32033,
+  "<|EXTRA_34_TOKEN|>": 32034,
+  "<|EXTRA_35_TOKEN|>": 32035,
+  "<|EXTRA_36_TOKEN|>": 32036,
+  "<|EXTRA_37_TOKEN|>": 32037,
+  "<|EXTRA_38_TOKEN|>": 32038,
+  "<|EXTRA_39_TOKEN|>": 32039,
+  "<|EXTRA_40_TOKEN|>": 32040,
+  "<|EXTRA_41_TOKEN|>": 32041,
+  "<|EXTRA_42_TOKEN|>": 32042,
+  "<|EXTRA_43_TOKEN|>": 32043,
+  "<|EXTRA_44_TOKEN|>": 32044,
+  "<|EXTRA_45_TOKEN|>": 32045,
+  "<|EXTRA_46_TOKEN|>": 32046,
+  "<|EXTRA_47_TOKEN|>": 32047,
+  "<|EXTRA_48_TOKEN|>": 32048,
+  "<|EXTRA_49_TOKEN|>": 32049,
+  "<|EXTRA_50_TOKEN|>": 32050,
+  "<|EXTRA_51_TOKEN|>": 32051,
+  "<|EXTRA_52_TOKEN|>": 32052,
+  "<|EXTRA_53_TOKEN|>": 32053,
+  "<|EXTRA_54_TOKEN|>": 32054,
+  "<|EXTRA_55_TOKEN|>": 32055,
+  "<|EXTRA_56_TOKEN|>": 32056,
+  "<|EXTRA_57_TOKEN|>": 32057,
+  "<|EXTRA_58_TOKEN|>": 32058,
+  "<|EXTRA_59_TOKEN|>": 32059,
+  "<|EXTRA_5_TOKEN|>": 32005,
+  "<|EXTRA_60_TOKEN|>": 32060,
+  "<|EXTRA_61_TOKEN|>": 32061,
+  "<|EXTRA_62_TOKEN|>": 32062,
+  "<|EXTRA_63_TOKEN|>": 32063,
+  "<|EXTRA_64_TOKEN|>": 32064,
+  "<|EXTRA_65_TOKEN|>": 32065,
+  "<|EXTRA_66_TOKEN|>": 32066,
+  "<|EXTRA_67_TOKEN|>": 32067,
+  "<|EXTRA_68_TOKEN|>": 32068,
+  "<|EXTRA_69_TOKEN|>": 32069,
+  "<|EXTRA_6_TOKEN|>": 32006,
+  "<|EXTRA_70_TOKEN|>": 32070,
+  "<|EXTRA_71_TOKEN|>": 32071,
+  "<|EXTRA_72_TOKEN|>": 32072,
+  "<|EXTRA_73_TOKEN|>": 32073,
+  "<|EXTRA_74_TOKEN|>": 32074,
+  "<|EXTRA_75_TOKEN|>": 32075,
+  "<|EXTRA_76_TOKEN|>": 32076,
+  "<|EXTRA_77_TOKEN|>": 32077,
+  "<|EXTRA_78_TOKEN|>": 32078,
+  "<|EXTRA_79_TOKEN|>": 32079,
+  "<|EXTRA_7_TOKEN|>": 32007,
+  "<|EXTRA_80_TOKEN|>": 32080,
+  "<|EXTRA_81_TOKEN|>": 32081,
+  "<|EXTRA_82_TOKEN|>": 32082,
+  "<|EXTRA_83_TOKEN|>": 32083,
+  "<|EXTRA_84_TOKEN|>": 32084,
+  "<|EXTRA_85_TOKEN|>": 32085,
+  "<|EXTRA_86_TOKEN|>": 32086,
+  "<|EXTRA_87_TOKEN|>": 32087,
+  "<|EXTRA_88_TOKEN|>": 32088,
+  "<|EXTRA_89_TOKEN|>": 32089,
+  "<|EXTRA_8_TOKEN|>": 32008,
+  "<|EXTRA_90_TOKEN|>": 32090,
+  "<|EXTRA_91_TOKEN|>": 32091,
+  "<|EXTRA_92_TOKEN|>": 32092,
+  "<|EXTRA_93_TOKEN|>": 32093,
+  "<|EXTRA_94_TOKEN|>": 32094,
+  "<|EXTRA_95_TOKEN|>": 32095,
+  "<|EXTRA_96_TOKEN|>": 32096,
+  "<|EXTRA_97_TOKEN|>": 32097,
+  "<|EXTRA_98_TOKEN|>": 32098,
+  "<|EXTRA_99_TOKEN|>": 32099,
+  "<|EXTRA_9_TOKEN|>": 32009,
+  "<|START_OF_TURN_TOKEN|>": 32000,
+  "<|SYSTEM_TOKEN|>": 32004,
+  "<|USER_TOKEN|>": 32002
+}

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+    "architectures": [
+        "MixtralForCausalLM"
+    ],
+    "attention_dropout": 0.0,
+    "bos_token_id": 1,
+    "eos_token_id": 32001,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 14336,
+    "max_position_embeddings": 32768,
+    "model_type": "mixtral",
+    "num_attention_heads": 32,
+    "num_experts_per_tok": 2,
+    "num_hidden_layers": 32,
+    "num_key_value_heads": 8,
+    "num_local_experts": 8,
+    "output_router_logits": false,
+    "quantization": {
+        "group_size": 64,
+        "bits": 8
+    },
+    "quantization_config": {
+        "group_size": 64,
+        "bits": 8
+    },
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "router_aux_loss_coef": 0.02,
+    "router_jitter_noise": 0.0,
+    "sliding_window": null,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.41.2",
+    "use_cache": true,
+    "vocab_size": 32128
+}

model-00001-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:189001af74dc30f9ca7d6d8cc6b7bf180d494c1d332a45d05e41532d798b012b
+size 5309501114

model-00002-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:330af9b5b96e28f0d6d25f301987e186ad29678abb9a8702badb644e0cd703a9
+size 5125078798

model-00003-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:572bd2ad89381fa06d9f76c4cc3653df01f7835f279ff8239d757ee706a912cd
+size 5169696419

model-00004-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e257e5fffc80b2ddbab85fdef06bac409c9735c5743251b85b97584d6a26a38d
+size 5125078885

model-00005-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7c0223cefd3cf8ca9f8fbc3791e3aaa8f5bfba31513d5671cd77bee884a9438
+size 5125078871

model-00006-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51ea408726e21151f00d8166f0b6e90f83dc0a44a24b21205294e27b8ac7bb15
+size 5169696452

model-00007-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecac0f51af0cdd0abcdea7b4dc689fa7c119f4e20b11ead0ce860157490f2058
+size 5125078889

model-00008-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b6a2acaf03b46a11269178fe54334d6c563fc306236be02bfc193e266907856
+size 5125078895

model-00009-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b04f21df696bbf1fd2c764e57273e62562b7593fa30927662e75597abd559f83
+size 5169696468

model-00010-of-00010.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb86df5331955d958cbcdd65bac70e3ad9238bc6bfd0da5d1a665099ff7d4fac
+size 3179199434

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,846 @@

+{
+    "metadata": {
+        "total_size": 49623080960
+    },
+    "weight_map": {
+        "lm_head.biases": "model-00010-of-00010.safetensors",
+        "lm_head.scales": "model-00010-of-00010.safetensors",
+        "lm_head.weight": "model-00010-of-00010.safetensors",
+        "model.embed_tokens.biases": "model-00001-of-00010.safetensors",
+        "model.embed_tokens.scales": "model-00001-of-00010.safetensors",
+        "model.embed_tokens.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.gate.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.gate.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.gate.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.down_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.down_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.down_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.up_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.up_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.block_sparse_moe.switch_mlp.up_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.input_layernorm.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.k_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.k_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.o_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.o_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.q_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.q_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.v_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.v_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.gate.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.gate.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.gate.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.down_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.down_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.down_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.up_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.up_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.block_sparse_moe.switch_mlp.up_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.input_layernorm.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.k_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.k_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.o_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.o_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.q_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.q_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.v_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.v_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.gate.biases": "model-00003-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.gate.scales": "model-00003-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.gate.weight": "model-00003-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.down_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.down_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.up_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.up_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.10.block_sparse_moe.switch_mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.10.input_layernorm.weight": "model-00004-of-00010.safetensors",
+        "model.layers.10.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+        "model.layers.10.self_attn.k_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.k_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.o_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.o_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.q_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.q_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.v_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.v_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.gate.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.gate.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.gate.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.down_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.down_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.up_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.up_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.block_sparse_moe.switch_mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.input_layernorm.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.k_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.k_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.o_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.o_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.q_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.q_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.v_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.v_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.gate.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.gate.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.gate.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.down_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.down_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.down_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.up_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.up_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.block_sparse_moe.switch_mlp.up_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.input_layernorm.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.post_attention_layernorm.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.k_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.k_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.o_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.o_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.q_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.q_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.v_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.v_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.12.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.gate.biases": "model-00004-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.gate.scales": "model-00004-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.gate.weight": "model-00004-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.down_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.down_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.up_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.up_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.13.block_sparse_moe.switch_mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.13.input_layernorm.weight": "model-00005-of-00010.safetensors",
+        "model.layers.13.post_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+        "model.layers.13.self_attn.k_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.k_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.k_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.o_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.o_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.o_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.q_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.q_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.q_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.v_proj.biases": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.v_proj.scales": "model-00004-of-00010.safetensors",
+        "model.layers.13.self_attn.v_proj.weight": "model-00004-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.gate.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.gate.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.gate.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.down_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.down_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.up_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.up_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.block_sparse_moe.switch_mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.input_layernorm.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.post_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.k_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.k_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.o_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.o_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.q_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.q_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.v_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.v_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.14.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.gate.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.gate.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.gate.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.down_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.down_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.down_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.up_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.up_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.block_sparse_moe.switch_mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.input_layernorm.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.post_attention_layernorm.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.k_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.k_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.o_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.o_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.q_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.q_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.v_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.v_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.15.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.gate.biases": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.gate.scales": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.gate.weight": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.down_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.down_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.up_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.up_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.16.block_sparse_moe.switch_mlp.up_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.16.input_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.16.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.16.self_attn.k_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.k_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.k_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.o_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.o_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.o_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.q_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.q_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.q_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.v_proj.biases": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.v_proj.scales": "model-00005-of-00010.safetensors",
+        "model.layers.16.self_attn.v_proj.weight": "model-00005-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.gate.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.gate.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.gate.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.down_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.down_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.up_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.up_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.block_sparse_moe.switch_mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.input_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.k_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.k_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.o_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.o_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.q_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.q_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.v_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.v_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.17.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.gate.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.gate.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.gate.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.down_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.down_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.up_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.up_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.block_sparse_moe.switch_mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.input_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.k_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.k_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.o_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.o_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.q_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.q_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.v_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.v_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.18.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.gate.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.gate.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.gate.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.down_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.down_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.down_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.up_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.up_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.block_sparse_moe.switch_mlp.up_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.input_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.post_attention_layernorm.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.k_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.k_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.o_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.o_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.q_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.q_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.v_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.v_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.19.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.gate.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.gate.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.gate.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.down_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.down_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.down_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.up_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.up_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.block_sparse_moe.switch_mlp.up_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.input_layernorm.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.k_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.k_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.o_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.o_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.q_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.q_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.v_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.v_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.gate.biases": "model-00006-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.gate.scales": "model-00006-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.gate.weight": "model-00006-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.down_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.down_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.up_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.up_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.20.block_sparse_moe.switch_mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.20.input_layernorm.weight": "model-00007-of-00010.safetensors",
+        "model.layers.20.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+        "model.layers.20.self_attn.k_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.k_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.k_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.o_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.o_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.o_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.q_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.q_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.q_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.v_proj.biases": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.v_proj.scales": "model-00006-of-00010.safetensors",
+        "model.layers.20.self_attn.v_proj.weight": "model-00006-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.gate.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.gate.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.gate.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.down_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.down_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.up_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.up_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.block_sparse_moe.switch_mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.input_layernorm.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.k_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.k_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.o_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.o_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.q_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.q_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.v_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.v_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.21.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.gate.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.gate.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.gate.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.down_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.down_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.down_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.up_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.up_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.block_sparse_moe.switch_mlp.up_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.input_layernorm.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.post_attention_layernorm.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.k_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.k_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.o_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.o_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.q_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.q_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.v_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.v_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.22.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.gate.biases": "model-00007-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.gate.scales": "model-00007-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.gate.weight": "model-00007-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.down_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.down_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.up_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.up_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.23.block_sparse_moe.switch_mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.23.input_layernorm.weight": "model-00008-of-00010.safetensors",
+        "model.layers.23.post_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+        "model.layers.23.self_attn.k_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.k_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.k_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.o_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.o_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.o_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.q_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.q_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.q_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.v_proj.biases": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.v_proj.scales": "model-00007-of-00010.safetensors",
+        "model.layers.23.self_attn.v_proj.weight": "model-00007-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.gate.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.gate.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.gate.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.down_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.down_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.up_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.up_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.block_sparse_moe.switch_mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.input_layernorm.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.post_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.k_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.k_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.o_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.o_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.q_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.q_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.v_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.v_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.24.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.gate.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.gate.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.gate.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.down_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.down_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.down_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.up_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.up_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.block_sparse_moe.switch_mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.input_layernorm.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.post_attention_layernorm.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.k_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.k_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.o_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.o_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.q_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.q_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.v_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.v_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.25.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.gate.biases": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.gate.scales": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.gate.weight": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.down_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.down_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.up_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.up_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.26.block_sparse_moe.switch_mlp.up_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.26.input_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.26.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.26.self_attn.k_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.k_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.k_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.o_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.o_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.o_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.q_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.q_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.q_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.v_proj.biases": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.v_proj.scales": "model-00008-of-00010.safetensors",
+        "model.layers.26.self_attn.v_proj.weight": "model-00008-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.gate.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.gate.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.gate.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.down_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.down_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.up_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.up_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.block_sparse_moe.switch_mlp.up_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.input_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.k_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.k_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.o_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.o_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.q_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.q_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.v_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.v_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.27.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.gate.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.gate.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.gate.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.down_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.down_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.up_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.up_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.block_sparse_moe.switch_mlp.up_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.input_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.k_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.k_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.o_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.o_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.q_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.q_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.v_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.v_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.28.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.gate.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.gate.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.gate.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.down_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.down_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.down_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.up_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.up_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.block_sparse_moe.switch_mlp.up_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.input_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.post_attention_layernorm.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.k_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.k_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.o_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.o_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.q_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.q_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.v_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.v_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.29.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.gate.biases": "model-00001-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.gate.scales": "model-00001-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.gate.weight": "model-00001-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.down_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.down_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.up_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.up_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.3.block_sparse_moe.switch_mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.3.input_layernorm.weight": "model-00002-of-00010.safetensors",
+        "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+        "model.layers.3.self_attn.k_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.k_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.o_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.o_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.q_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.q_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.v_proj.biases": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.v_proj.scales": "model-00001-of-00010.safetensors",
+        "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.gate.biases": "model-00009-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.gate.scales": "model-00009-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.gate.weight": "model-00009-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.down_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.down_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.down_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.up_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.up_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.30.block_sparse_moe.switch_mlp.up_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.30.input_layernorm.weight": "model-00010-of-00010.safetensors",
+        "model.layers.30.post_attention_layernorm.weight": "model-00010-of-00010.safetensors",
+        "model.layers.30.self_attn.k_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.k_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.k_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.o_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.o_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.o_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.q_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.q_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.q_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.v_proj.biases": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.v_proj.scales": "model-00009-of-00010.safetensors",
+        "model.layers.30.self_attn.v_proj.weight": "model-00009-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.gate.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.gate.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.gate.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.down_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.down_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.down_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.up_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.up_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.block_sparse_moe.switch_mlp.up_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.input_layernorm.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.post_attention_layernorm.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.k_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.k_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.k_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.o_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.o_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.o_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.q_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.q_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.q_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.v_proj.biases": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.v_proj.scales": "model-00010-of-00010.safetensors",
+        "model.layers.31.self_attn.v_proj.weight": "model-00010-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.gate.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.gate.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.gate.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.down_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.down_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.up_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.up_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.block_sparse_moe.switch_mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.input_layernorm.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.k_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.k_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.o_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.o_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.q_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.q_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.v_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.v_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.gate.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.gate.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.gate.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.down_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.down_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.down_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.up_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.up_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.block_sparse_moe.switch_mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.input_layernorm.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.k_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.k_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.o_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.o_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.q_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.q_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.v_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.v_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.gate.biases": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.gate.scales": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.gate.weight": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.down_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.down_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.up_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.up_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.6.block_sparse_moe.switch_mlp.up_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.6.input_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.6.self_attn.k_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.k_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.o_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.o_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.q_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.q_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.v_proj.biases": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.v_proj.scales": "model-00002-of-00010.safetensors",
+        "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.gate.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.gate.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.gate.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.down_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.down_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.up_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.up_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.block_sparse_moe.switch_mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.input_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.k_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.k_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.o_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.o_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.q_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.q_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.v_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.v_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.gate.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.gate.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.gate.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.down_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.down_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.up_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.up_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.block_sparse_moe.switch_mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.input_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.k_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.k_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.o_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.o_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.q_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.q_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.v_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.v_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.gate.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.gate.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.gate.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.down_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.down_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.down_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.gate_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.gate_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.gate_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.up_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.up_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.block_sparse_moe.switch_mlp.up_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.input_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.k_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.k_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.o_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.o_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.q_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.q_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.v_proj.biases": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.v_proj.scales": "model-00003-of-00010.safetensors",
+        "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00010.safetensors",
+        "model.norm.weight": "model-00010-of-00010.safetensors"
+    }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,153 @@

+{
+  "additional_special_tokens": [
+    "<|START_OF_TURN_TOKEN|>",
+    "<|END_OF_TURN_TOKEN|>",
+    "<|USER_TOKEN|>",
+    "<|CHATBOT_TOKEN|>",
+    "<|SYSTEM_TOKEN|>",
+    "<|EXTRA_5_TOKEN|>",
+    "<|EXTRA_6_TOKEN|>",
+    "<|EXTRA_7_TOKEN|>",
+    "<|EXTRA_8_TOKEN|>",
+    "<|EXTRA_9_TOKEN|>",
+    "<|EXTRA_10_TOKEN|>",
+    "<|EXTRA_11_TOKEN|>",
+    "<|EXTRA_12_TOKEN|>",
+    "<|EXTRA_13_TOKEN|>",
+    "<|EXTRA_14_TOKEN|>",
+    "<|EXTRA_15_TOKEN|>",
+    "<|EXTRA_16_TOKEN|>",
+    "<|EXTRA_17_TOKEN|>",
+    "<|EXTRA_18_TOKEN|>",
+    "<|EXTRA_19_TOKEN|>",
+    "<|EXTRA_20_TOKEN|>",
+    "<|EXTRA_21_TOKEN|>",
+    "<|EXTRA_22_TOKEN|>",
+    "<|EXTRA_23_TOKEN|>",
+    "<|EXTRA_24_TOKEN|>",
+    "<|EXTRA_25_TOKEN|>",
+    "<|EXTRA_26_TOKEN|>",
+    "<|EXTRA_27_TOKEN|>",
+    "<|EXTRA_28_TOKEN|>",
+    "<|EXTRA_29_TOKEN|>",
+    "<|EXTRA_30_TOKEN|>",
+    "<|EXTRA_31_TOKEN|>",
+    "<|EXTRA_32_TOKEN|>",
+    "<|EXTRA_33_TOKEN|>",
+    "<|EXTRA_34_TOKEN|>",
+    "<|EXTRA_35_TOKEN|>",
+    "<|EXTRA_36_TOKEN|>",
+    "<|EXTRA_37_TOKEN|>",
+    "<|EXTRA_38_TOKEN|>",
+    "<|EXTRA_39_TOKEN|>",
+    "<|EXTRA_40_TOKEN|>",
+    "<|EXTRA_41_TOKEN|>",
+    "<|EXTRA_42_TOKEN|>",
+    "<|EXTRA_43_TOKEN|>",
+    "<|EXTRA_44_TOKEN|>",
+    "<|EXTRA_45_TOKEN|>",
+    "<|EXTRA_46_TOKEN|>",
+    "<|EXTRA_47_TOKEN|>",
+    "<|EXTRA_48_TOKEN|>",
+    "<|EXTRA_49_TOKEN|>",
+    "<|EXTRA_50_TOKEN|>",
+    "<|EXTRA_51_TOKEN|>",
+    "<|EXTRA_52_TOKEN|>",
+    "<|EXTRA_53_TOKEN|>",
+    "<|EXTRA_54_TOKEN|>",
+    "<|EXTRA_55_TOKEN|>",
+    "<|EXTRA_56_TOKEN|>",
+    "<|EXTRA_57_TOKEN|>",
+    "<|EXTRA_58_TOKEN|>",
+    "<|EXTRA_59_TOKEN|>",
+    "<|EXTRA_60_TOKEN|>",
+    "<|EXTRA_61_TOKEN|>",
+    "<|EXTRA_62_TOKEN|>",
+    "<|EXTRA_63_TOKEN|>",
+    "<|EXTRA_64_TOKEN|>",
+    "<|EXTRA_65_TOKEN|>",
+    "<|EXTRA_66_TOKEN|>",
+    "<|EXTRA_67_TOKEN|>",
+    "<|EXTRA_68_TOKEN|>",
+    "<|EXTRA_69_TOKEN|>",
+    "<|EXTRA_70_TOKEN|>",
+    "<|EXTRA_71_TOKEN|>",
+    "<|EXTRA_72_TOKEN|>",
+    "<|EXTRA_73_TOKEN|>",
+    "<|EXTRA_74_TOKEN|>",
+    "<|EXTRA_75_TOKEN|>",
+    "<|EXTRA_76_TOKEN|>",
+    "<|EXTRA_77_TOKEN|>",
+    "<|EXTRA_78_TOKEN|>",
+    "<|EXTRA_79_TOKEN|>",
+    "<|EXTRA_80_TOKEN|>",
+    "<|EXTRA_81_TOKEN|>",
+    "<|EXTRA_82_TOKEN|>",
+    "<|EXTRA_83_TOKEN|>",
+    "<|EXTRA_84_TOKEN|>",
+    "<|EXTRA_85_TOKEN|>",
+    "<|EXTRA_86_TOKEN|>",
+    "<|EXTRA_87_TOKEN|>",
+    "<|EXTRA_88_TOKEN|>",
+    "<|EXTRA_89_TOKEN|>",
+    "<|EXTRA_90_TOKEN|>",
+    "<|EXTRA_91_TOKEN|>",
+    "<|EXTRA_92_TOKEN|>",
+    "<|EXTRA_93_TOKEN|>",
+    "<|EXTRA_94_TOKEN|>",
+    "<|EXTRA_95_TOKEN|>",
+    "<|EXTRA_96_TOKEN|>",
+    "<|EXTRA_97_TOKEN|>",
+    "<|EXTRA_98_TOKEN|>",
+    "<|EXTRA_99_TOKEN|>",
+    "<|EXTRA_100_TOKEN|>",
+    "<|EXTRA_101_TOKEN|>",
+    "<|EXTRA_102_TOKEN|>",
+    "<|EXTRA_103_TOKEN|>",
+    "<|EXTRA_104_TOKEN|>",
+    "<|EXTRA_105_TOKEN|>",
+    "<|EXTRA_106_TOKEN|>",
+    "<|EXTRA_107_TOKEN|>",
+    "<|EXTRA_108_TOKEN|>",
+    "<|EXTRA_109_TOKEN|>",
+    "<|EXTRA_110_TOKEN|>",
+    "<|EXTRA_111_TOKEN|>",
+    "<|EXTRA_112_TOKEN|>",
+    "<|EXTRA_113_TOKEN|>",
+    "<|EXTRA_114_TOKEN|>",
+    "<|EXTRA_115_TOKEN|>",
+    "<|EXTRA_116_TOKEN|>",
+    "<|EXTRA_117_TOKEN|>",
+    "<|EXTRA_118_TOKEN|>",
+    "<|EXTRA_119_TOKEN|>",
+    "<|EXTRA_120_TOKEN|>",
+    "<|EXTRA_121_TOKEN|>",
+    "<|EXTRA_122_TOKEN|>",
+    "<|EXTRA_123_TOKEN|>",
+    "<|EXTRA_124_TOKEN|>",
+    "<|EXTRA_125_TOKEN|>",
+    "<|EXTRA_126_TOKEN|>",
+    "<|EXTRA_127_TOKEN|>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|END_OF_TURN_TOKEN|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,1210 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<|START_OF_TURN_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|END_OF_TURN_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|USER_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|CHATBOT_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|SYSTEM_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|EXTRA_5_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|EXTRA_6_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|EXTRA_7_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|EXTRA_8_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|EXTRA_9_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|EXTRA_10_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32011": {
+      "content": "<|EXTRA_11_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32012": {
+      "content": "<|EXTRA_12_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32013": {
+      "content": "<|EXTRA_13_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<|EXTRA_14_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<|EXTRA_15_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32016": {
+      "content": "<|EXTRA_16_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32017": {
+      "content": "<|EXTRA_17_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32018": {
+      "content": "<|EXTRA_18_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32019": {
+      "content": "<|EXTRA_19_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32020": {
+      "content": "<|EXTRA_20_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32021": {
+      "content": "<|EXTRA_21_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32022": {
+      "content": "<|EXTRA_22_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32023": {
+      "content": "<|EXTRA_23_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32024": {
+      "content": "<|EXTRA_24_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32025": {
+      "content": "<|EXTRA_25_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32026": {
+      "content": "<|EXTRA_26_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32027": {
+      "content": "<|EXTRA_27_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32028": {
+      "content": "<|EXTRA_28_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32029": {
+      "content": "<|EXTRA_29_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32030": {
+      "content": "<|EXTRA_30_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32031": {
+      "content": "<|EXTRA_31_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32032": {
+      "content": "<|EXTRA_32_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32033": {
+      "content": "<|EXTRA_33_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32034": {
+      "content": "<|EXTRA_34_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32035": {
+      "content": "<|EXTRA_35_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32036": {
+      "content": "<|EXTRA_36_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32037": {
+      "content": "<|EXTRA_37_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32038": {
+      "content": "<|EXTRA_38_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32039": {
+      "content": "<|EXTRA_39_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32040": {
+      "content": "<|EXTRA_40_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32041": {
+      "content": "<|EXTRA_41_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32042": {
+      "content": "<|EXTRA_42_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32043": {
+      "content": "<|EXTRA_43_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32044": {
+      "content": "<|EXTRA_44_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32045": {
+      "content": "<|EXTRA_45_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32046": {
+      "content": "<|EXTRA_46_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32047": {
+      "content": "<|EXTRA_47_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32048": {
+      "content": "<|EXTRA_48_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32049": {
+      "content": "<|EXTRA_49_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32050": {
+      "content": "<|EXTRA_50_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32051": {
+      "content": "<|EXTRA_51_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32052": {
+      "content": "<|EXTRA_52_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32053": {
+      "content": "<|EXTRA_53_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32054": {
+      "content": "<|EXTRA_54_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32055": {
+      "content": "<|EXTRA_55_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32056": {
+      "content": "<|EXTRA_56_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32057": {
+      "content": "<|EXTRA_57_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32058": {
+      "content": "<|EXTRA_58_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32059": {
+      "content": "<|EXTRA_59_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32060": {
+      "content": "<|EXTRA_60_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32061": {
+      "content": "<|EXTRA_61_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32062": {
+      "content": "<|EXTRA_62_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32063": {
+      "content": "<|EXTRA_63_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32064": {
+      "content": "<|EXTRA_64_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32065": {
+      "content": "<|EXTRA_65_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32066": {
+      "content": "<|EXTRA_66_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32067": {
+      "content": "<|EXTRA_67_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32068": {
+      "content": "<|EXTRA_68_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32069": {
+      "content": "<|EXTRA_69_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32070": {
+      "content": "<|EXTRA_70_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32071": {
+      "content": "<|EXTRA_71_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32072": {
+      "content": "<|EXTRA_72_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32073": {
+      "content": "<|EXTRA_73_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32074": {
+      "content": "<|EXTRA_74_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32075": {
+      "content": "<|EXTRA_75_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32076": {
+      "content": "<|EXTRA_76_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32077": {
+      "content": "<|EXTRA_77_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32078": {
+      "content": "<|EXTRA_78_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32079": {
+      "content": "<|EXTRA_79_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32080": {
+      "content": "<|EXTRA_80_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32081": {
+      "content": "<|EXTRA_81_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32082": {
+      "content": "<|EXTRA_82_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32083": {
+      "content": "<|EXTRA_83_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32084": {
+      "content": "<|EXTRA_84_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32085": {
+      "content": "<|EXTRA_85_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32086": {
+      "content": "<|EXTRA_86_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32087": {
+      "content": "<|EXTRA_87_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32088": {
+      "content": "<|EXTRA_88_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32089": {
+      "content": "<|EXTRA_89_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32090": {
+      "content": "<|EXTRA_90_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32091": {
+      "content": "<|EXTRA_91_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32092": {
+      "content": "<|EXTRA_92_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32093": {
+      "content": "<|EXTRA_93_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32094": {
+      "content": "<|EXTRA_94_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32095": {
+      "content": "<|EXTRA_95_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32096": {
+      "content": "<|EXTRA_96_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32097": {
+      "content": "<|EXTRA_97_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32098": {
+      "content": "<|EXTRA_98_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32099": {
+      "content": "<|EXTRA_99_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32100": {
+      "content": "<|EXTRA_100_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32101": {
+      "content": "<|EXTRA_101_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32102": {
+      "content": "<|EXTRA_102_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32103": {
+      "content": "<|EXTRA_103_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32104": {
+      "content": "<|EXTRA_104_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32105": {
+      "content": "<|EXTRA_105_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32106": {
+      "content": "<|EXTRA_106_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32107": {
+      "content": "<|EXTRA_107_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32108": {
+      "content": "<|EXTRA_108_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32109": {
+      "content": "<|EXTRA_109_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32110": {
+      "content": "<|EXTRA_110_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32111": {
+      "content": "<|EXTRA_111_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32112": {
+      "content": "<|EXTRA_112_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32113": {
+      "content": "<|EXTRA_113_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32114": {
+      "content": "<|EXTRA_114_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32115": {
+      "content": "<|EXTRA_115_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32116": {
+      "content": "<|EXTRA_116_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32117": {
+      "content": "<|EXTRA_117_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32118": {
+      "content": "<|EXTRA_118_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32119": {
+      "content": "<|EXTRA_119_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32120": {
+      "content": "<|EXTRA_120_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32121": {
+      "content": "<|EXTRA_121_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32122": {
+      "content": "<|EXTRA_122_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32123": {
+      "content": "<|EXTRA_123_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32124": {
+      "content": "<|EXTRA_124_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32125": {
+      "content": "<|EXTRA_125_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32126": {
+      "content": "<|EXTRA_126_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32127": {
+      "content": "<|EXTRA_127_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|START_OF_TURN_TOKEN|>",
+    "<|END_OF_TURN_TOKEN|>",
+    "<|USER_TOKEN|>",
+    "<|CHATBOT_TOKEN|>",
+    "<|SYSTEM_TOKEN|>",
+    "<|EXTRA_5_TOKEN|>",
+    "<|EXTRA_6_TOKEN|>",
+    "<|EXTRA_7_TOKEN|>",
+    "<|EXTRA_8_TOKEN|>",
+    "<|EXTRA_9_TOKEN|>",
+    "<|EXTRA_10_TOKEN|>",
+    "<|EXTRA_11_TOKEN|>",
+    "<|EXTRA_12_TOKEN|>",
+    "<|EXTRA_13_TOKEN|>",
+    "<|EXTRA_14_TOKEN|>",
+    "<|EXTRA_15_TOKEN|>",
+    "<|EXTRA_16_TOKEN|>",
+    "<|EXTRA_17_TOKEN|>",
+    "<|EXTRA_18_TOKEN|>",
+    "<|EXTRA_19_TOKEN|>",
+    "<|EXTRA_20_TOKEN|>",
+    "<|EXTRA_21_TOKEN|>",
+    "<|EXTRA_22_TOKEN|>",
+    "<|EXTRA_23_TOKEN|>",
+    "<|EXTRA_24_TOKEN|>",
+    "<|EXTRA_25_TOKEN|>",
+    "<|EXTRA_26_TOKEN|>",
+    "<|EXTRA_27_TOKEN|>",
+    "<|EXTRA_28_TOKEN|>",
+    "<|EXTRA_29_TOKEN|>",
+    "<|EXTRA_30_TOKEN|>",
+    "<|EXTRA_31_TOKEN|>",
+    "<|EXTRA_32_TOKEN|>",
+    "<|EXTRA_33_TOKEN|>",
+    "<|EXTRA_34_TOKEN|>",
+    "<|EXTRA_35_TOKEN|>",
+    "<|EXTRA_36_TOKEN|>",
+    "<|EXTRA_37_TOKEN|>",
+    "<|EXTRA_38_TOKEN|>",
+    "<|EXTRA_39_TOKEN|>",
+    "<|EXTRA_40_TOKEN|>",
+    "<|EXTRA_41_TOKEN|>",
+    "<|EXTRA_42_TOKEN|>",
+    "<|EXTRA_43_TOKEN|>",
+    "<|EXTRA_44_TOKEN|>",
+    "<|EXTRA_45_TOKEN|>",
+    "<|EXTRA_46_TOKEN|>",
+    "<|EXTRA_47_TOKEN|>",
+    "<|EXTRA_48_TOKEN|>",
+    "<|EXTRA_49_TOKEN|>",
+    "<|EXTRA_50_TOKEN|>",
+    "<|EXTRA_51_TOKEN|>",
+    "<|EXTRA_52_TOKEN|>",
+    "<|EXTRA_53_TOKEN|>",
+    "<|EXTRA_54_TOKEN|>",
+    "<|EXTRA_55_TOKEN|>",
+    "<|EXTRA_56_TOKEN|>",
+    "<|EXTRA_57_TOKEN|>",
+    "<|EXTRA_58_TOKEN|>",
+    "<|EXTRA_59_TOKEN|>",
+    "<|EXTRA_60_TOKEN|>",
+    "<|EXTRA_61_TOKEN|>",
+    "<|EXTRA_62_TOKEN|>",
+    "<|EXTRA_63_TOKEN|>",
+    "<|EXTRA_64_TOKEN|>",
+    "<|EXTRA_65_TOKEN|>",
+    "<|EXTRA_66_TOKEN|>",
+    "<|EXTRA_67_TOKEN|>",
+    "<|EXTRA_68_TOKEN|>",
+    "<|EXTRA_69_TOKEN|>",
+    "<|EXTRA_70_TOKEN|>",
+    "<|EXTRA_71_TOKEN|>",
+    "<|EXTRA_72_TOKEN|>",
+    "<|EXTRA_73_TOKEN|>",
+    "<|EXTRA_74_TOKEN|>",
+    "<|EXTRA_75_TOKEN|>",
+    "<|EXTRA_76_TOKEN|>",
+    "<|EXTRA_77_TOKEN|>",
+    "<|EXTRA_78_TOKEN|>",
+    "<|EXTRA_79_TOKEN|>",
+    "<|EXTRA_80_TOKEN|>",
+    "<|EXTRA_81_TOKEN|>",
+    "<|EXTRA_82_TOKEN|>",
+    "<|EXTRA_83_TOKEN|>",
+    "<|EXTRA_84_TOKEN|>",
+    "<|EXTRA_85_TOKEN|>",
+    "<|EXTRA_86_TOKEN|>",
+    "<|EXTRA_87_TOKEN|>",
+    "<|EXTRA_88_TOKEN|>",
+    "<|EXTRA_89_TOKEN|>",
+    "<|EXTRA_90_TOKEN|>",
+    "<|EXTRA_91_TOKEN|>",
+    "<|EXTRA_92_TOKEN|>",
+    "<|EXTRA_93_TOKEN|>",
+    "<|EXTRA_94_TOKEN|>",
+    "<|EXTRA_95_TOKEN|>",
+    "<|EXTRA_96_TOKEN|>",
+    "<|EXTRA_97_TOKEN|>",
+    "<|EXTRA_98_TOKEN|>",
+    "<|EXTRA_99_TOKEN|>",
+    "<|EXTRA_100_TOKEN|>",
+    "<|EXTRA_101_TOKEN|>",
+    "<|EXTRA_102_TOKEN|>",
+    "<|EXTRA_103_TOKEN|>",
+    "<|EXTRA_104_TOKEN|>",
+    "<|EXTRA_105_TOKEN|>",
+    "<|EXTRA_106_TOKEN|>",
+    "<|EXTRA_107_TOKEN|>",
+    "<|EXTRA_108_TOKEN|>",
+    "<|EXTRA_109_TOKEN|>",
+    "<|EXTRA_110_TOKEN|>",
+    "<|EXTRA_111_TOKEN|>",
+    "<|EXTRA_112_TOKEN|>",
+    "<|EXTRA_113_TOKEN|>",
+    "<|EXTRA_114_TOKEN|>",
+    "<|EXTRA_115_TOKEN|>",
+    "<|EXTRA_116_TOKEN|>",
+    "<|EXTRA_117_TOKEN|>",
+    "<|EXTRA_118_TOKEN|>",
+    "<|EXTRA_119_TOKEN|>",
+    "<|EXTRA_120_TOKEN|>",
+    "<|EXTRA_121_TOKEN|>",
+    "<|EXTRA_122_TOKEN|>",
+    "<|EXTRA_123_TOKEN|>",
+    "<|EXTRA_124_TOKEN|>",
+    "<|EXTRA_125_TOKEN|>",
+    "<|EXTRA_126_TOKEN|>",
+    "<|EXTRA_127_TOKEN|>"
+  ],
+  "bos_token": "<s>",
+  "chat_template": [
+    {
+      "name": "default",
+      "template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% set system_message = false %}{% endif %}{% if system_message != false %}{{ '<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>' + system_message + '<|END_OF_TURN_TOKEN|>' }}{% endif %}{% for message in loop_messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|START_OF_TURN_TOKEN|><|USER_TOKEN|>' + content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% elif message['role'] == 'assistant' %}{% set helpfulness = message['helpfulness']|string or '4' %}{% set correctness = message['correctness']|string or '4' %}{% set coherence = message['coherence']|string or '4' %}{% set complexity = message['complexity']|string or '4' %}{% set verbosity = message['verbosity']|string or '4' %}{% set quality = message['quality']|string or '4' %}{% set toxicity = message['toxicity']|string or '0' %}{% set humor = message['humor']|string or '0' %}{% set creativity = message['creativity']|string or '0' %}{{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>' }}{{ '<attributes>helpfulness: ' + helpfulness + ' correctness: ' + correctness + ' coherence: ' + coherence + ' complexity: ' + complexity + ' verbosity: ' + verbosity + ' quality: ' + quality + ' toxicity: ' + toxicity + ' humor: ' + humor + ' creativity: ' + creativity + '</attributes>' }}{{ content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% endif %}{% endfor %}{% if add_generation_prompt %}{% set helpfulness = helpfulness|string or '4' %}{% set correctness = correctness|string or '4' %}{% set coherence = coherence|string or '4' %}{% set complexity = complexity|string or '4' %}{% set verbosity = verbosity|string or '4' %}{% set quality = quality|string or '4' %}{% set toxicity = toxicity|string or '0' %}{% set humor = humor|string or '0' %}{% set creativity = creativity|string or '0' %}{{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>' }}{{ '<attributes>helpfulness: ' + helpfulness + ' correctness: ' + correctness + ' coherence: ' + coherence + ' complexity: ' + complexity + ' verbosity: ' + verbosity + ' quality: ' + quality + ' toxicity: ' + toxicity + ' humor: ' + humor + ' creativity: ' + creativity + '</attributes>' }}{% endif %}"
+    },
+    {
+      "name": "tool_use",
+      "template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% set system_message = '## Task and Context\\nYou help people answer their questions and other requests interactively. You will be asked a very wide array of requests on all kinds of topics. You will be equipped with a wide range of search engines or similar tools to help you, which you use to research your answer. You should focus on serving the user\\'s needs as best you can, which will be wide-ranging.\\n\\n## Style Guide\\nUnless the user asks for a different style of answer, you should answer in full sentences, using proper grammar and spelling.' %}{% endif %}{{ '<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>' }}{{ '# System Instructions' }}{{ '\n## Basic Rules' }}{{ '\nYou are KARAKURI LM, a powerful conversational AI trained by KARAKURI to help people. You are augmented by a number of tools, and your job is to use and consume the output of these tools to best help the user. You will see a conversation history between yourself and a user, ending with an utterance from the user. You will then see a specific instruction instructing you what kind of response to generate. When you answer the user\\'s requests, you cite your sources in your answers, according to those instructions.' }}{{ '\n\n# User Instructions' }}{{ '\n' + system_message }}{{'\n\n## Available Tools\nHere is a list of tools that you have available to you:\n\n'}}{{ '```json\n' }}{{ tools|tojson(indent=2) }}{{ '\n```' }}{{ '<|END_OF_TURN_TOKEN|>'}}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|START_OF_TURN_TOKEN|><|USER_TOKEN|>' + content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% elif message['role'] == 'system' %}{{ '<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>' + content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% elif message['role'] == 'assistant' %}{% set helpfulness = message['helpfulness']|string or '4' %}{% set correctness = message['correctness']|string or '4' %}{% set coherence = message['coherence']|string or '4' %}{% set complexity = message['complexity']|string or '4' %}{% set verbosity = message['verbosity']|string or '4' %}{% set quality = message['quality']|string or '4' %}{% set toxicity = message['toxicity']|string or '0' %}{% set humor = message['humor']|string or '0' %}{% set creativity = message['creativity']|string or '0' %}{{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>' }}{{ '<attributes>helpfulness: ' + helpfulness + ' correctness: ' + correctness + ' coherence: ' + coherence + ' complexity: ' + complexity + ' verbosity: ' + verbosity + ' quality: ' + quality + ' toxicity: ' + toxicity + ' humor: ' + humor + ' creativity: ' + creativity + '</attributes>' }}{{ content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% endif %}{% endfor %}{{'<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>Write \\'Action:\\' followed by a json-formatted list of actions that you want to perform in order to produce a good response to the user\\'s last input. You can use any of the supplied tools any number of times, but you should aim to execute the minimum number of necessary actions for the input. You should use the `directly-answer` tool if calling the other tools is unnecessary. The list of actions you want to call should be formatted as a list of json objects, for example:\n```json\n[\n  {\n    \"tool_name\": title of the tool in the specification,\n    \"parameters\": a dict of parameters to input into the tool as they are defined in the specs, or {} if it takes no parameters\n  }\n]```<|END_OF_TURN_TOKEN|>'}}{% if add_generation_prompt %}{% set helpfulness = helpfulness|string or '4' %}{% set correctness = correctness|string or '4' %}{% set coherence = coherence|string or '4' %}{% set complexity = complexity|string or '4' %}{% set verbosity = verbosity|string or '4' %}{% set quality = quality|string or '4' %}{% set toxicity = toxicity|string or '0' %}{% set humor = humor|string or '0' %}{% set creativity = creativity|string or '0' %}{{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>' }}{{ '<attributes>helpfulness: ' + helpfulness + ' correctness: ' + correctness + ' coherence: ' + coherence + ' complexity: ' + complexity + ' verbosity: ' + verbosity + ' quality: ' + quality + ' toxicity: ' + toxicity + ' humor: ' + humor + ' creativity: ' + creativity + '</attributes>' }}{% endif %}"
+    },
+    {
+      "name": "rag",
+      "template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% set system_message = '## Task and Context\\nYou help people answer their questions and other requests interactively. You will be asked a very wide array of requests on all kinds of topics. You will be equipped with a wide range of search engines or similar tools to help you, which you use to research your answer. You should focus on serving the user\\'s needs as best you can, which will be wide-ranging.\\n\\n## Style Guide\\nUnless the user asks for a different style of answer, you should answer in full sentences, using proper grammar and spelling.' %}{% endif %}{{ '<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>' }}{{ '# System Instructions' }}{{ '\n## Basic Rules' }}{{ '\nYou are KARAKURI LM, a powerful conversational AI trained by KARAKURI to help people. You are augmented by a number of tools, and your job is to use and consume the output of these tools to best help the user. You will see a conversation history between yourself and a user, ending with an utterance from the user. You will then see a specific instruction instructing you what kind of response to generate. When you answer the user\\'s requests, you cite your sources in your answers, according to those instructions.' }}{{ '\n\n# User Instructions' }}{{ '\n' + system_message }}{{ '<|END_OF_TURN_TOKEN|>'}}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|START_OF_TURN_TOKEN|><|USER_TOKEN|>' + content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% elif message['role'] == 'system' %}{{ '<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>' + content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% elif message['role'] == 'assistant' %}{% set helpfulness = message['helpfulness']|string or '4' %}{% set correctness = message['correctness']|string or '4' %}{% set coherence = message['coherence']|string or '4' %}{% set complexity = message['complexity']|string or '4' %}{% set verbosity = message['verbosity']|string or '4' %}{% set quality = message['quality']|string or '4' %}{% set toxicity = message['toxicity']|string or '0' %}{% set humor = message['humor']|string or '0' %}{% set creativity = message['creativity']|string or '0' %}{{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>' }}{{ '<attributes>helpfulness: ' + helpfulness + ' correctness: ' + correctness + ' coherence: ' + coherence + ' complexity: ' + complexity + ' verbosity: ' + verbosity + ' quality: ' + quality + ' toxicity: ' + toxicity + ' humor: ' + humor + ' creativity: ' + creativity + '</attributes>' }}{{ content.strip() + '<|END_OF_TURN_TOKEN|>' }}{% endif %}{% endfor %}{{ '<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>'}}{{ '<results>' }}{% for document in documents %}{{ '\nDocument: ' }}{{ loop.index0 }}\n{% for key, value in document.items() %}{{ key }}: {{value}}\n{% endfor %}{% endfor %}{{ '</results>'}}{{ '<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>' }}{{ 'Write a detailed, high-quality and natural response to the user\\'s last input. Use the retrieved documents to help you.' }}{{ '<|END_OF_TURN_TOKEN|>' }}{% if add_generation_prompt %}{% set helpfulness = helpfulness|string or '4' %}{% set correctness = correctness|string or '4' %}{% set coherence = coherence|string or '4' %}{% set complexity = complexity|string or '4' %}{% set verbosity = verbosity|string or '4' %}{% set quality = quality|string or '4' %}{% set toxicity = toxicity|string or '0' %}{% set humor = humor|string or '0' %}{% set creativity = creativity|string or '0' %}{{ '<|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>' }}{{ '<attributes>helpfulness: ' + helpfulness + ' correctness: ' + correctness + ' coherence: ' + coherence + ' complexity: ' + complexity + ' verbosity: ' + verbosity + ' quality: ' + quality + ' toxicity: ' + toxicity + ' humor: ' + humor + ' creativity: ' + creativity + '</attributes>' }}{% endif %}"
+    }
+  ],
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|END_OF_TURN_TOKEN|>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}