Crystalcareai commited on May 13

Commit

437725d

•

1 Parent(s): 07a7bf9

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +786 -0
added_tokens.json +4 -0
config.json +39 -0
configuration_dbrx.py +264 -0
generation_config.json +5 -0
model-00001-of-00054.safetensors +3 -0
model-00002-of-00054.safetensors +3 -0
model-00003-of-00054.safetensors +3 -0
model-00004-of-00054.safetensors +3 -0
model-00005-of-00054.safetensors +3 -0
model-00006-of-00054.safetensors +3 -0
model-00007-of-00054.safetensors +3 -0
model-00008-of-00054.safetensors +3 -0
model-00009-of-00054.safetensors +3 -0
model-00010-of-00054.safetensors +3 -0
model-00011-of-00054.safetensors +3 -0
model-00012-of-00054.safetensors +3 -0
model-00013-of-00054.safetensors +3 -0
model-00014-of-00054.safetensors +3 -0
model-00015-of-00054.safetensors +3 -0
model-00016-of-00054.safetensors +3 -0
model-00017-of-00054.safetensors +3 -0
model-00018-of-00054.safetensors +3 -0
model-00019-of-00054.safetensors +3 -0
model-00020-of-00054.safetensors +3 -0
model-00021-of-00054.safetensors +3 -0
model-00022-of-00054.safetensors +3 -0
model-00023-of-00054.safetensors +3 -0
model-00024-of-00054.safetensors +3 -0
model-00025-of-00054.safetensors +3 -0
model-00026-of-00054.safetensors +3 -0
model-00027-of-00054.safetensors +3 -0
model-00028-of-00054.safetensors +3 -0
model-00029-of-00054.safetensors +3 -0
model-00030-of-00054.safetensors +3 -0
model-00031-of-00054.safetensors +3 -0
model-00032-of-00054.safetensors +3 -0
model-00033-of-00054.safetensors +3 -0
model-00034-of-00054.safetensors +3 -0
model-00035-of-00054.safetensors +3 -0
model-00036-of-00054.safetensors +3 -0
model-00037-of-00054.safetensors +3 -0
model-00038-of-00054.safetensors +3 -0
model-00039-of-00054.safetensors +3 -0
model-00040-of-00054.safetensors +3 -0
model-00041-of-00054.safetensors +3 -0
model-00042-of-00054.safetensors +3 -0
model-00043-of-00054.safetensors +3 -0
model-00044-of-00054.safetensors +3 -0
model-00045-of-00054.safetensors +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,786 @@

+---
+tags:
+- generated_from_trainer
+model-index:
+- name: out
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/OpenAccess-AI-Collective/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/OpenAccess-AI-Collective/axolotl)
+<details><summary>See axolotl config</summary>
+axolotl version: `0.4.0`
+```yaml
+base_model: /workspace/axolotl/dbrx-checkpoint
+model_type: AutoModelForCausalLM
+tokenizer_type: AutoTokenizer
+trust_remote_code: true
+load_in_8bit: false
+# load_in_4bit: true
+strict: false
+# adapter: qlora
+# lora_modules_to_save: [embed_tokens, lm_head]
+# lora_r: 32
+# lora_alpha: 16
+# lora_dropout: 0.05
+# lora_target_linear: false
+# lora_fan_in_fan_out:
+datasets:
+  - path: /workspace/datasets/dolphin-2.9/dolphin201-sharegpt2.jsonl
+    type: sharegpt
+    conversation: chatml
+  # - path: /workspace/datasets/dolphin-2.9/Ultrachat200kunfiltered.jsonl
+  #   type: sharegpt
+  #   conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/dolphin-coder-translate-sharegpt2.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/dolphin-coder-codegen-sharegpt2.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/m-a-p_Code-Feedback-sharegpt-unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/m-a-p_CodeFeedback-Filtered-Instruction-sharegpt-unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/not_samantha_norefusals.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/Orca-Math-resort-unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/agent_instruct_react_unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/toolbench_instruct_j1s1_3k_unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/toolbench_negative_unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/toolbench_react_10p_unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/toolbench_tflan_cot_30p_unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  - path: /workspace/datasets/dolphin-2.9/openhermes200k_unfiltered.jsonl
+    type: sharegpt
+    conversation: chatml
+  # - path: /workspace/datasets/dolphin-2.9/SystemConversations.jsonl
+  #   type: sharegpt
+  #   conversation: chatml
+chat_template: chatml
+unfrozen_parameters:
+- ^lm_head.weight$
+# ffn.experts.mlp_experts.0.v1 layers
+- transformer.blocks.30.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.25.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.15.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.22.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.31.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.21.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.8.ffn.experts.mlp_experts.0.v1
+- transformer.blocks.23.ffn.experts.mlp_experts.0.v1
+# ffn.experts.mlp_experts.0.w1 layers
+- transformer.blocks.7.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.30.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.32.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.25.ffn.experts.mlp_experts.0.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.0.w1
+# ffn.experts.mlp_experts.0.w2 layers
+- transformer.blocks.25.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.22.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.26.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.4.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.7.ffn.experts.mlp_experts.0.w2
+- transformer.blocks.3.ffn.experts.mlp_experts.0.w2
+# ffn.experts.mlp_experts.1.v1 layers
+- transformer.blocks.27.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.25.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.33.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.23.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.6.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.21.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.15.ffn.experts.mlp_experts.1.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.1.v1
+# ffn.experts.mlp_experts.1.w1 layers
+- transformer.blocks.0.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.7.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.33.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.27.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.1.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.1.w1
+# ffn.experts.mlp_experts.1.w2 layers
+- transformer.blocks.25.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.23.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.4.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.21.ffn.experts.mlp_experts.1.w2
+- transformer.blocks.33.ffn.experts.mlp_experts.1.w2
+# ffn.experts.mlp_experts.10.v1 layers
+- transformer.blocks.28.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.34.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.33.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.26.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.36.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.20.ffn.experts.mlp_experts.10.v1
+- transformer.blocks.35.ffn.experts.mlp_experts.10.v1
+# ffn.experts.mlp_experts.10.w1 layers
+- transformer.blocks.24.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.33.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.7.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.34.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.28.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.30.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.10.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.10.w1
+# ffn.experts.mlp_experts.10.w2 layers
+- transformer.blocks.24.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.23.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.3.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.33.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.26.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.2.ffn.experts.mlp_experts.10.w2
+- transformer.blocks.20.ffn.experts.mlp_experts.10.w2
+# ffn.experts.mlp_experts.11.w1 layers
+- transformer.blocks.6.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.28.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.33.ffn.experts.mlp_experts.11.w1
+- transformer.blocks.13.ffn.experts.mlp_experts.11.w1
+# ffn.experts.mlp_experts.11.w2 layers
+- transformer.blocks.27.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.24.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.22.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.6.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.7.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.11.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.11.w2
+# ffn.experts.mlp_experts.12.v1 layers
+- transformer.blocks.30.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.21.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.27.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.28.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.8.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.10.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.23.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.6.ffn.experts.mlp_experts.12.v1
+- transformer.blocks.20.ffn.experts.mlp_experts.12.v1
+# ffn.experts.mlp_experts.12.w1 layers
+- transformer.blocks.8.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.2.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.17.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.12.w1
+- transformer.blocks.21.ffn.experts.mlp_experts.12.w1
+# ffn.experts.mlp_experts.12.w2 layers
+- transformer.blocks.6.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.8.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.21.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.2.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.12.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.12.w2
+# ffn.experts.mlp_experts.13.v1 layers
+- transformer.blocks.31.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.8.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.10.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.11.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.27.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.25.ffn.experts.mlp_experts.13.v1
+- transformer.blocks.36.ffn.experts.mlp_experts.13.v1
+# ffn.experts.mlp_experts.13.w1 layers
+- transformer.blocks.4.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.24.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.30.ffn.experts.mlp_experts.13.w1
+- transformer.blocks.11.ffn.experts.mlp_experts.13.w1
+# ffn.experts.mlp_experts.13.w2 layers
+- transformer.blocks.24.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.20.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.3.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.4.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.6.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.13.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.13.w2
+# ffn.experts.mlp_experts.14.v1 layers
+- transformer.blocks.28.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.26.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.35.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.8.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.15.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.11.ffn.experts.mlp_experts.14.v1
+- transformer.blocks.22.ffn.experts.mlp_experts.14.v1
+# ffn.experts.mlp_experts.14.w1 layers
+- transformer.blocks.8.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.7.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.13.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.28.ffn.experts.mlp_experts.14.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.14.w1
+# ffn.experts.mlp_experts.14.w2 layers
+- transformer.blocks.26.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.24.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.4.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.6.ffn.experts.mlp_experts.14.w2
+- transformer.blocks.22.ffn.experts.mlp_experts.14.w2
+# ffn.experts.mlp_experts.15.v1 layers
+- transformer.blocks.33.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.26.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.31.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.28.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.9.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.34.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.17.ffn.experts.mlp_experts.15.v1
+- transformer.blocks.15.ffn.experts.mlp_experts.15.v1
+# ffn.experts.mlp_experts.15.w1 layers
+- transformer.blocks.6.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.7.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.14.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.33.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.34.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.15.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.15.w1
+# ffn.experts.mlp_experts.15.w2 layers
+- transformer.blocks.28.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.26.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.6.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.7.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.33.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.15.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.15.w2
+# ffn.experts.mlp_experts.2.v1 layers
+- transformer.blocks.31.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.27.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.28.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.23.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.35.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.21.ffn.experts.mlp_experts.2.v1
+- transformer.blocks.15.ffn.experts.mlp_experts.2.v1
+# ffn.experts.mlp_experts.2.w1 layers
+- transformer.blocks.7.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.31.ffn.experts.mlp_experts.2.w1
+- transformer.blocks.30.ffn.experts.mlp_experts.2.w1
+# ffn.experts.mlp_experts.2.w2 layers
+- transformer.blocks.26.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.33.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.23.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.4.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.2.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.2.w2
+# ffn.experts.mlp_experts.3.v1 layers
+- transformer.blocks.28.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.33.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.36.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.14.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.10.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.31.ffn.experts.mlp_experts.3.v1
+- transformer.blocks.21.ffn.experts.mlp_experts.3.v1
+# ffn.experts.mlp_experts.3.w1 layers
+- transformer.blocks.7.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.30.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.33.ffn.experts.mlp_experts.3.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.3.w1
+# ffn.experts.mlp_experts.3.w2 layers
+- transformer.blocks.28.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.24.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.21.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.26.ffn.experts.mlp_experts.3.w2
+- transformer.blocks.2.ffn.experts.mlp_experts.3.w2
+# ffn.experts.mlp_experts.4.v1 layers
+- transformer.blocks.34.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.31.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.26.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.14.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.6.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.20.ffn.experts.mlp_experts.4.v1
+- transformer.blocks.9.ffn.experts.mlp_experts.4.v1
+# ffn.experts.mlp_experts.4.w1 layers
+- transformer.blocks.6.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.7.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.14.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.34.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.4.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.4.w1
+# ffn.experts.mlp_experts.4.w2 layers
+- transformer.blocks.25.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.24.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.26.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.6.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.4.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.36.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.4.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.4.w2
+# ffn.experts.mlp_experts.5.v1 layers
+- transformer.blocks.35.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.28.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.27.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.26.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.33.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.8.ffn.experts.mlp_experts.5.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.5.v1
+# ffn.experts.mlp_experts.5.w1 layers
+- transformer.blocks.0.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.7.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.12.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.5.w1
+- transformer.blocks.33.ffn.experts.mlp_experts.5.w1
+# ffn.experts.mlp_experts.5.w2 layers
+- transformer.blocks.26.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.6.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.33.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.3.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.5.w2
+- transformer.blocks.7.ffn.experts.mlp_experts.5.w2
+# ffn.experts.mlp_experts.6.v1 layers
+- transformer.blocks.34.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.31.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.26.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.35.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.20.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.15.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.10.ffn.experts.mlp_experts.6.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.6.v1
+# ffn.experts.mlp_experts.6.w1 layers
+- transformer.blocks.0.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.30.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.34.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.26.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.2.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.6.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.6.w1
+# ffn.experts.mlp_experts.6.w2 layers
+- transformer.blocks.24.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.26.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.32.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.20.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.4.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.2.ffn.experts.mlp_experts.6.w2
+- transformer.blocks.9.ffn.experts.mlp_experts.6.w2
+# ffn.experts.mlp_experts.7.v1 layers
+- transformer.blocks.27.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.28.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.33.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.11.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.12.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.10.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.23.ffn.experts.mlp_experts.7.v1
+- transformer.blocks.34.ffn.experts.mlp_experts.7.v1
+# ffn.experts.mlp_experts.7.w1 layers
+- transformer.blocks.12.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.5.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.29.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.10.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.34.ffn.experts.mlp_experts.7.w1
+- transformer.blocks.33.ffn.experts.mlp_experts.7.w1
+# ffn.experts.mlp_experts.7.w2 layers
+- transformer.blocks.23.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.24.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.5.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.3.ffn.experts.mlp_experts.7.w2
+- transformer.blocks.33.ffn.experts.mlp_experts.7.w2
+# ffn.experts.mlp_experts.8.v1 layers
+- transformer.blocks.30.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.27.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.20.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.34.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.33.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.9.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.6.ffn.experts.mlp_experts.8.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.8.v1
+# ffn.experts.mlp_experts.8.w1 layers
+- transformer.blocks.7.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.0.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.3.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.2.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.30.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.24.ffn.experts.mlp_experts.8.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.8.w1
+# ffn.experts.mlp_experts.8.w2 layers
+- transformer.blocks.32.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.24.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.30.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.2.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.3.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.23.ffn.experts.mlp_experts.8.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.8.w2
+# ffn.experts.mlp_experts.9.v1 layers
+- transformer.blocks.31.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.27.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.29.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.33.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.25.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.14.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.32.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.9.ffn.experts.mlp_experts.9.v1
+- transformer.blocks.34.ffn.experts.mlp_experts.9.v1
+# ffn.experts.mlp_experts.9.w1 layers
+- transformer.blocks.7.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.1.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.9.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.2.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.27.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.12.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.4.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.6.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.19.ffn.experts.mlp_experts.9.w1
+- transformer.blocks.8.ffn.experts.mlp_experts.9.w1
+# ffn.experts.mlp_experts.9.w2 layers
+- transformer.blocks.26.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.25.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.28.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.27.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.31.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.29.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.7.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.34.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.2.ffn.experts.mlp_experts.9.w2
+- transformer.blocks.33.ffn.experts.mlp_experts.9.w2
+# ffn.router.layer layers
+- transformer.blocks.2.ffn.router.layer
+- transformer.blocks.3.ffn.router.layer
+- transformer.blocks.4.ffn.router.layer
+- transformer.blocks.5.ffn.router.layer
+- transformer.blocks.6.ffn.router.layer
+- transformer.blocks.7.ffn.router.layer
+- transformer.blocks.8.ffn.router.layer
+- transformer.blocks.9.ffn.router.layer
+- transformer.blocks.10.ffn.router.layer
+- transformer.blocks.11.ffn.router.layer
+# norm_attn_norm.attn.Wqkv layers
+- transformer.blocks.16.norm_attn_norm.attn.Wqkv
+- transformer.blocks.15.norm_attn_norm.attn.Wqkv
+- transformer.blocks.11.norm_attn_norm.attn.Wqkv
+- transformer.blocks.14.norm_attn_norm.attn.Wqkv
+- transformer.blocks.12.norm_attn_norm.attn.Wqkv
+- transformer.blocks.20.norm_attn_norm.attn.Wqkv
+- transformer.blocks.10.norm_attn_norm.attn.Wqkv
+- transformer.blocks.9.norm_attn_norm.attn.Wqkv
+- transformer.blocks.19.norm_attn_norm.attn.Wqkv
+- transformer.blocks.18.norm_attn_norm.attn.Wqkv
+# norm_attn_norm.attn.out_proj layers
+- transformer.blocks.1.norm_attn_norm.attn.out_proj
+- transformer.blocks.18.norm_attn_norm.attn.out_proj
+- transformer.blocks.2.norm_attn_norm.attn.out_proj
+- transformer.blocks.16.norm_attn_norm.attn.out_proj
+- transformer.blocks.0.norm_attn_norm.attn.out_proj
+- transformer.blocks.39.norm_attn_norm.attn.out_proj
+- transformer.blocks.23.norm_attn_norm.attn.out_proj
+- transformer.blocks.8.norm_attn_norm.attn.out_proj
+- transformer.blocks.24.norm_attn_norm.attn.out_proj
+- transformer.blocks.19.norm_attn_norm.attn.out_proj
+# norm_attn_norm.norm_1 layers
+- transformer.blocks.0.norm_attn_norm.norm_1
+- transformer.blocks.1.norm_attn_norm.norm_1
+- transformer.blocks.2.norm_attn_norm.norm_1
+- transformer.blocks.3.norm_attn_norm.norm_1
+- transformer.blocks.4.norm_attn_norm.norm_1
+- transformer.blocks.5.norm_attn_norm.norm_1
+- transformer.blocks.6.norm_attn_norm.norm_1
+- transformer.blocks.7.norm_attn_norm.norm_1
+- transformer.blocks.8.norm_attn_norm.norm_1
+- transformer.blocks.9.norm_attn_norm.norm_1
+# norm_attn_norm.norm_2 layers
+- transformer.blocks.0.norm_attn_norm.norm_2
+- transformer.blocks.1.norm_attn_norm.norm_2
+- transformer.blocks.2.norm_attn_norm.norm_2
+- transformer.blocks.3.norm_attn_norm.norm_2
+- transformer.blocks.4.norm_attn_norm.norm_2
+- transformer.blocks.5.norm_attn_norm.norm_2
+- transformer.blocks.6.norm_attn_norm.norm_2
+- transformer.blocks.7.norm_attn_norm.norm_2
+- transformer.blocks.8.norm_attn_norm.norm_2
+- transformer.blocks.9.norm_attn_norm.norm_2
+# transformer.norm_f layers
+# transformer.wte layers
+# ffn.experts.mlp_experts.11.v1 layers
+- transformer.blocks.29.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.27.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.30.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.28.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.22.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.7.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.24.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.8.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.6.ffn.experts.mlp_experts.11.v1
+- transformer.blocks.12.ffn.experts.mlp_experts.11.v1
+dataset_prepared_path: dbrx2
+val_set_size: 0.01
+output_dir: ./out
+sequence_len: 4096
+sample_packing: true
+pad_to_sequence_len: true
+wandb_project: dolphin-2.9-Dbrx
+wandb_watch:
+wandb_run_id:
+wandb_log_model:
+gradient_accumulation_steps: 8
+micro_batch_size: 1
+num_epochs: 1
+optimizer: paged_adamw_8bit
+lr_scheduler: cosine
+learning_rate: 1e-5
+train_on_inputs: false
+group_by_length: false
+bf16: auto
+fp16:
+tf32: true
+gradient_checkpointing: true
+gradient_checkpointing_kwargs:
+  use_reentrant: false
+early_stopping_patience:
+# resume_from_checkpoint: /workspace/axolotl/dbrx-checkpoint
+logging_steps: 1
+xformers_attention:
+flash_attention: true
+warmup_steps: 10
+evals_per_epoch: 4
+eval_table_size:
+saves_per_epoch: 4
+save_total_limit: 2
+save_steps:
+debug:
+deepspeed: /workspace/axolotl/deepspeed_configs/zero3_bf16_cpuoffload_params.json
+weight_decay: 0.05
+fsdp:
+fsdp_config:
+special_tokens:
+  bos_token: "<|endoftext|>"
+  eos_token: "<|im_end|>"
+  pad_token: "<|pad|>"
+  unk_token: "<|endoftext|>"
+tokens:
+  - "<|im_start|>"
+  - "<|im_end|>"
+```
+</details><br>
+# out
+This model was trained from scratch on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4336
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.4009        | 0.0   | 1    | 0.4328          |
+| 0.413         | 0.25  | 587  | 0.4408          |
+| 0.3626        | 0.5   | 1174 | 0.4368          |
+| 0.3896        | 0.75  | 1761 | 0.4336          |
+### Framework versions
+- Transformers 4.40.0.dev0
+- Pytorch 2.2.2+cu121
+- Datasets 2.15.0
+- Tokenizers 0.15.0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<|im_end|>": 100278,
+  "<|im_start|>": 100277
+}

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "/workspace/axolotl/dbrx-checkpoint",
+  "architectures": [
+    "DbrxForCausalLM"
+  ],
+  "attn_config": {
+    "clip_qkv": 8,
+    "kv_n_heads": 8,
+    "model_type": "",
+    "rope_theta": 500000
+  },
+  "auto_map": {
+    "AutoConfig": "configuration_dbrx.DbrxConfig",
+    "AutoModelForCausalLM": "modeling_dbrx.DbrxForCausalLM"
+  },
+  "d_model": 6144,
+  "emb_pdrop": 0.0,
+  "ffn_config": {
+    "ffn_hidden_size": 10752,
+    "model_type": "",
+    "moe_jitter_eps": 0.01,
+    "moe_loss_weight": 0.05,
+    "moe_num_experts": 16,
+    "moe_top_k": 4
+  },
+  "initializer_range": 0.02,
+  "max_seq_len": 32768,
+  "model_type": "dbrx",
+  "n_heads": 48,
+  "n_layers": 40,
+  "output_router_logits": false,
+  "resid_pdrop": 0.0,
+  "router_aux_loss_coef": 0.05,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": false,
+  "vocab_size": 100352
+}

configuration_dbrx.py ADDED Viewed

	@@ -0,0 +1,264 @@

+"""Dbrx configuration."""
+from typing import Any, Optional
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+logger = logging.get_logger(__name__)
+DBRX_PRETRAINED_CONFIG_ARCHIVE_MAP = {}
+class DbrxAttentionConfig(PretrainedConfig):
+    """Configuration class for Dbrx Attention.
+    [`DbrxAttention`] class. It is used to instantiate attention layers
+    according to the specified arguments, defining the layers architecture.
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+    Args:
+        attn_pdrop (`float`, *optional*, defaults to 0.0):
+            The dropout probability for the attention layers.
+        clip_qkv (`float`, *optional*, defualts to None):
+            If not `None`, clip the queries, keys, and values in the attention layer to this value.
+        kv_n_heads (Optional[int]): For grouped_query_attention only, allow user to specify number of kv heads.
+        rope_theta (float): The base frequency for rope.
+    """
+    def __init__(
+        self,
+        attn_pdrop: float = 0,
+        clip_qkv: Optional[float] = None,
+        kv_n_heads: int = 1,
+        rope_theta: float = 10000.0,
+        **kwargs: Any,
+    ):
+        super().__init__(**kwargs)
+        self.attn_pdrop = attn_pdrop
+        self.clip_qkv = clip_qkv
+        self.kv_n_heads = kv_n_heads
+        self.rope_theta = rope_theta
+        for k in ['model_type']:
+            if k in kwargs:
+                kwargs.pop(k)
+        if len(kwargs) != 0:
+            raise ValueError(f'Found unknown {kwargs=}')
+    @classmethod
+    def from_pretrained(cls, pretrained_model_name_or_path: str,
+                        **kwargs: Any) -> 'PretrainedConfig':
+        cls._set_token_in_kwargs(kwargs)
+        config_dict, kwargs = cls.get_config_dict(pretrained_model_name_or_path,
+                                                  **kwargs)
+        if config_dict.get('model_type') == 'dbrx':
+            config_dict = config_dict['attn_config']
+        if 'model_type' in config_dict and hasattr(
+                cls,
+                'model_type') and config_dict['model_type'] != cls.model_type:
+            logger.warning(
+                f"You are using a model of type {config_dict['model_type']} to instantiate a model of type "
+                +
+                f'{cls.model_type}. This is not supported for all configurations of models and can yield errors.'
+            )
+        return cls.from_dict(config_dict, **kwargs)
+class DbrxFFNConfig(PretrainedConfig):
+    """Configuration class for Dbrx FFN.
+    [`DbrxFFN`] class. It is used to instantiate feedforward layers according to
+    the specified arguments, defining the layers architecture.
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+    Args:
+        ffn_act_fn (dict, optional): A dict specifying activation function for the FFN.
+            The dict should have a key 'name' with the value being the name of
+            the activation function along with any additional keyword arguments.
+        ffn_hidden_size (int, optional): The hidden size of the feedforward network.
+        moe_num_experts (int, optional): The number of experts in the mixture of experts layer.
+        moe_top_k (int, optional): The number of experts to use in the mixture of experts layer.
+        moe_jitter_eps (float, optional): The jitter epsilon for the mixture of experts layer.
+        moe_loss_weight (float, optional): The loss weight for the mixture of experts layer.
+        moe_normalize_expert_weights (float, optional): The normalization factor for the expert weights.
+        uniform_expert_assignment (bool, optional): Whether to use uniform expert assignment.
+            This should only be used for benchmarking purposes.
+    """
+    def __init__(
+        self,
+        ffn_act_fn: Optional[dict] = None,
+        ffn_hidden_size: int = 3584,
+        moe_num_experts: int = 4,
+        moe_top_k: int = 1,
+        moe_jitter_eps: Optional[float] = None,
+        moe_loss_weight: float = 0.01,
+        moe_normalize_expert_weights: Optional[float] = 1,
+        uniform_expert_assignment: bool = False,
+        **kwargs: Any,
+    ):
+        super().__init__()
+        if ffn_act_fn is None:
+            ffn_act_fn = {'name': 'silu'}
+        self.ffn_act_fn = ffn_act_fn
+        self.ffn_hidden_size = ffn_hidden_size
+        self.moe_num_experts = moe_num_experts
+        self.moe_top_k = moe_top_k
+        self.moe_jitter_eps = moe_jitter_eps
+        self.moe_loss_weight = moe_loss_weight
+        self.moe_normalize_expert_weights = moe_normalize_expert_weights
+        self.uniform_expert_assignment = uniform_expert_assignment
+        for k in ['model_type']:
+            if k in kwargs:
+                kwargs.pop(k)
+        if len(kwargs) != 0:
+            raise ValueError(f'Found unknown {kwargs=}')
+    @classmethod
+    def from_pretrained(cls, pretrained_model_name_or_path: str,
+                        **kwargs: Any) -> 'PretrainedConfig':
+        cls._set_token_in_kwargs(kwargs)
+        config_dict, kwargs = cls.get_config_dict(pretrained_model_name_or_path,
+                                                  **kwargs)
+        if config_dict.get('model_type') == 'dbrx':
+            config_dict = config_dict['ffn_config']
+        if 'model_type' in config_dict and hasattr(
+                cls,
+                'model_type') and config_dict['model_type'] != cls.model_type:
+            logger.warning(
+                f"You are using a model of type {config_dict['model_type']} to instantiate a model of type "
+                +
+                f'{cls.model_type}. This is not supported for all configurations of models and can yield errors.'
+            )
+        return cls.from_dict(config_dict, **kwargs)
+class DbrxConfig(PretrainedConfig):
+    """Configuration class for Dbrx.
+    [`DbrxModel`]. It is used to instantiate a Dbrx model according to the
+    specified arguments, defining the model architecture.
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+    Args:
+        d_model (`int`, *optional*, defaults to 6144):
+            Dimensionality of the embeddings and hidden states.
+        n_heads (`int`, *optional*, defaults to 48):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        n_layers (`int`, *optional*, defaults to 40):
+            Number of hidden layers in the Transformer encoder.
+        max_seq_len (`int`, *optional*, defaults to 32768):
+            The maximum sequence length of the model.
+        vocab_size (`int`, *optional*, defaults to 100352):
+            Vocabulary size of the Dbrx model. Defines the maximum number of different tokens that can be represented by
+            the `inputs_ids` passed when calling [`DbrxModel`].
+        resid_pdrop (`float`, *optional*, defaults to 0.0):
+            The dropout probability applied to the attention output before combining with residual.
+        emb_pdrop (`float`, *optional*, defaults to 0.0):
+            The dropout probability for the embedding layer.
+        attn_config (`dict`, *optional*):
+            A dictionary used to configure the model's attention module.
+        ffn_config (`dict`, *optional*):
+            A dictionary used to configure the model's FFN module.
+        use_cache (`bool`, *optional*, defaults to `False`):
+            Whether or not the model should return the last key/values attentions (not used by all models).
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        output_router_logits (`bool`, *optional*, defaults to `False`):
+            Whether or not the router logits should be returned by the model. Enabling this will also
+            allow the model to output the auxiliary loss. See [here]() for more details
+        router_aux_loss_coef (`float`, *optional*, defaults to 0.001):
+            The aux loss factor for the total loss.
+    Example:
+    ```python
+    >>> from transformers import DbrxConfig, DbrxModel
+    >>> # Initializing a Dbrx configuration
+    >>> configuration = DbrxConfig()
+    >>> # Initializing a model (with random weights) from the configuration
+    >>> model = DbrxModel(configuration)
+    >>> # Accessing the model configuration
+    >>> configuration = model.config
+    ```
+    """
+    model_type = 'dbrx'
+    attribute_map = {
+        'num_attention_heads': 'n_heads',
+        'hidden_size': 'd_model',
+        'num_hidden_layers': 'n_layers',
+        'max_position_embeddings': 'max_seq_len'
+    }
+    def __init__(
+        self,
+        d_model: int = 2048,
+        n_heads: int = 16,
+        n_layers: int = 24,
+        max_seq_len: int = 2048,
+        vocab_size: int = 32000,
+        resid_pdrop: float = 0.0,
+        emb_pdrop: float = 0.0,
+        attn_config: Optional[DbrxAttentionConfig] = None,
+        ffn_config: Optional[DbrxFFNConfig] = None,
+        use_cache: bool = True,
+        initializer_range: float = 0.02,
+        output_router_logits: bool = False,
+        router_aux_loss_coef: float = 0.05,
+        **kwargs: Any,
+    ):
+        if attn_config is None:
+            self.attn_config = DbrxAttentionConfig()
+        elif isinstance(attn_config, dict):
+            self.attn_config = DbrxAttentionConfig(**attn_config)
+        else:
+            self.attn_config = attn_config
+        if ffn_config is None:
+            self.ffn_config = DbrxFFNConfig()
+        elif isinstance(ffn_config, dict):
+            self.ffn_config = DbrxFFNConfig(**ffn_config)
+        else:
+            self.ffn_config = ffn_config
+        self.d_model = d_model
+        self.n_heads = n_heads
+        self.n_layers = n_layers
+        self.max_seq_len = max_seq_len
+        self.vocab_size = vocab_size
+        self.resid_pdrop = resid_pdrop
+        self.emb_pdrop = emb_pdrop
+        self.use_cache = use_cache
+        self.initializer_range = initializer_range
+        self.output_router_logits = output_router_logits
+        self.router_aux_loss_coef = router_aux_loss_coef
+        tie_word_embeddings = kwargs.pop('tie_word_embeddings', False)
+        if tie_word_embeddings:
+            raise ValueError(
+                'tie_word_embeddings is not supported for Dbrx models.')
+        super().__init__(
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "do_sample": true,
+  "transformers_version": "4.40.0.dev0"
+}

model-00001-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:844d6ee310e60f776437f34b532a89764c869474fa771babcc88f457a1a41b49
+size 4976767312

model-00002-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67edbaf8ce22cef89b551054543eaf80c2a65f71702a0a6e818300e19a7d9883
+size 4932728256

model-00003-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f9432fdf70381f02519e595cc1a32171a24cdff89817bab9b9162d9261df8cb
+size 4932728256

model-00004-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42a92ceadf870e5641c61925094356618bbccb078ee8ddadf6e0fe7000f02a22
+size 4888466376

model-00005-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbaeb5f57d35a71310802168cc1c7d0c40adff467da82b4a40bd7923a9ee35e4
+size 4932728248

model-00006-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b968c9e9d8e880db7517ed6d6fce3688ba186bd6bf52813cb5be6d2ca9d94bd
+size 4932728256

model-00007-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc898a1265501c5d7816d0d5a5bec727c82ff398e34b01216d19a08d1276441
+size 4932728256

model-00008-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a03a9d91c30daf0be095e7fe207f2ec64459f3b84de5354436d66ee7bc87fdb5
+size 4888466376

model-00009-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:019e332f7c02b72f409d07597a51fe6b9750f7e3c6844e625ff7d5b64fc53dd4
+size 4932728248

model-00010-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08796964f4ab0f84558720edf6eaa3a84d4284fd8fb46e5efa8c307acee50bfb
+size 4932728256

model-00011-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b923056be1b7922da2ccde84fc5fbce0e4493e74d075080c9cff6d6d72baccc
+size 4932728256

model-00012-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4df2fe028ea52491ed31525dd581ecac07e19da6585e066ed00513f956c1e4a2
+size 4888466376

model-00013-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51cc2f9e11b4d986cf83a0568afb4ae3a0796606bd9bdd8337a4f44f734ca86b
+size 4932728240

model-00014-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:166b445c266747bfef1b529494a8b64b8014ae9f681d3b31bb279f5ce56148dc
+size 4932728280

model-00015-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51c4a8745ab117e3993ec7e41933885240759ff5766b61309e6210740e5f0687
+size 4932728296

model-00016-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:401be63b10132316fd3d16a1a4eb5ab1b41d38dcd24dfba7585a13faf36b1d55
+size 4888466416

model-00017-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f508fbcfac88c06a1a9c01c6041530cd7bc32261753faa86240ce733f96c335d
+size 4932728288

model-00018-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba87d72f59502b88a04fa2a145f73712d412fa784e63c816b72f872cccc167e3
+size 4932728296

model-00019-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22c0313fb62cb31922e14d2d71b3794d6ca82a6193ca1fced36fb57fc445b0c2
+size 4932728296

model-00020-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54b983476b64d4eafadfe50647c307d0bd1114415be8eb1e2f65c612c778bf07
+size 4888466416

model-00021-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d59190fb228d8490d7c65a4003e7f65877bd8d0f2c527b7b3a1b493026efa88
+size 4932728288

model-00022-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af8b37e5d9a55ff376f923cafe175c109ab3329dc0dcd703d1d5110d25f5cd2f
+size 4932728296

model-00023-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:042526a2936e7fb570abd769da46aedd6fcc65745aaee13f00bcdc70a5e06b81
+size 4932728296

model-00024-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eebc383a0a528db88d0d4965a02b4cbc81d702991963e4523a6b2dfc3a9151f9
+size 4888466416

model-00025-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ae5b9fcc37e67350cd83ff8b3db1313d119ed5afc7d594ab8a6918077918eba
+size 4932728288

model-00026-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:033d368ca1793ae5ba73bb03b8c6cc7256eb4a18f77329c2c8fdeb8b5fbd3411
+size 4932728296

model-00027-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84f35cfd716d3f28eb636926ab692a0fef1cca2a5fc6df2aaf508895b4d6b8c5
+size 4932728296

model-00028-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee70a22cc0b03e27154164b623d987837f156c813d3ad3db979859995a9101da
+size 4888466416

model-00029-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d970806d6867f0808c497eb159a21dcded2194cc676a3da58159c5449a424c8
+size 4932728288

model-00030-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2d1b9f8845e95ca6afcd803e158d82807646f35114e06164451d303b9ab9ec8
+size 4932728296

model-00031-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b116b356f8871f98dcac1130097315bb6e534e9f91e8703b2c5a12ad9ba000f
+size 4932728296

model-00032-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ca0e4c2054445a7b33a548f45c6b09bf469e97ffb0c48e27e6b277bf04e6037
+size 4888466416

model-00033-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e18cbafcfc97cecc047fa18f64ff805b61a3976b8b6b01b333c6cae73c3b9797
+size 4932728288

model-00034-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc7bfcbd66ee533cd39cf2c236ac7a32f249f4b90c6a1d025bd30e3dcba8b37e
+size 4932728288

model-00035-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3957da1791e004a08595a89a2ea4587c168a1c6b916da521fd4fde3751b68a89
+size 4932728296

model-00036-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5691f61db31dd0894d272f6a2107e366484825fe1279952f9abfc835421cf16e
+size 4989142256

model-00037-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21f2dbd599835d83511dd2122d5bea4ad6647f521f950dcb901699c1aa1bcfcb
+size 4964173160

model-00038-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:500fd82e253552d7283f6bc2dd7287a1cfc524d3a483bd6e525de912238c815c
+size 4932728288

model-00039-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79307da855fad9bd2377cc36c914938657dfc6554a35edaee4874b6153bef98f
+size 4932728296

model-00040-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b300507198f682ee40a81b1af4b16169023ae07fc3f45767eea3d0019c8f84f6
+size 4932728296

model-00041-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c20d1529859d1a2cd0ba96512ce0dfe4d97137e591febf0998d80a2ee497731
+size 4888466408

model-00042-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfdf0dcff1dc6f5da4754dbf6d58f4ec69102b185f95a3116c106597c9fd34b6
+size 4932728288

model-00043-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d62413dbb7ec0a905a8f03b47f86693ddf0570c35dc8afb83cdc31892708d420
+size 4932728296

model-00044-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0de53f440d3e537a70891a225e39555f0a730ae2ba92916f98087e86531d330d
+size 4932728296

model-00045-of-00054.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74006b98dac79bfa8765e97abab9ef348e65c76b581c7810578489ab7c2258cc
+size 4888466408