stan-hua
/

Meta-Llama-3.1-70B-Instruct-LC-RTN-W4A16-KV8

compressed-tensors

Model card Files Files and versions Community

Meta-Llama-3.1-70B-Instruct-LC-RTN-W4A16-KV8 / recipe.yaml

stan-hua's picture

Push folder to HuggingFace Hub

1f93827 verified 1 day ago

227 Bytes

	DEFAULT_stage:
	DEFAULT_modifiers:
	QuantizationModifier:
	ignore: [lm_head]
	targets: Linear
	scheme: W4A16
	kv_cache_scheme: {num_bits: 8, type: int, symmetric: true, strategy: tensor, dynamic: false}