Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -75,18 +75,23 @@ quant_stage:
                     weights:
                         num_bits: 8
                         type: float
-                        strategy: tensor
                         dynamic: false
                         symmetric: true
                     input_activations:
                         num_bits: 8
                         type: float
-                        strategy: tensor
-                        dynamic: false
                         symmetric: true
                     targets: ["Linear"]
 """
 model_stub = "NousResearch/Hermes-3-Llama-3.1-8B"
 model_name = model_stub.split("/")[-1]
@@ -99,7 +104,7 @@ model = SparseAutoModelForCausalLM.from_pretrained(
 )
 tokenizer = AutoTokenizer.from_pretrained(model_stub)
-output_dir = f"./{model_name}-FP8"
 DATASET_ID = "HuggingFaceH4/ultrachat_200k"
 DATASET_SPLIT = "train_sft"

                     weights:
                         num_bits: 8
                         type: float
+                        strategy: channel
                         dynamic: false
                         symmetric: true
                     input_activations:
                         num_bits: 8
                         type: float
+                        strategy: token
+                        dynamic: true
                         symmetric: true
                     targets: ["Linear"]
+            kv_cache_scheme:
+                num_bits: 8
+                type: float
+                strategy: tensor
+                dynamic: false
+                symmetric: true
 """
 model_stub = "NousResearch/Hermes-3-Llama-3.1-8B"
 model_name = model_stub.split("/")[-1]
 )
 tokenizer = AutoTokenizer.from_pretrained(model_stub)
+output_dir = f"./{model_name}-Dynamic-FP8-KV"
 DATASET_ID = "HuggingFaceH4/ultrachat_200k"
 DATASET_SPLIT = "train_sft"