quantize - a leonardlin Collection

leonardlin 's Collections

speed

sota

evals

tuning

rag

context

safety

image

vision

code

prompt injection

TOREAD

data

voice

quantize

updated May 31

QuIP: 2-Bit Quantization of Large Language Models With Guarantees

Paper • 2307.13304 • Published Jul 25, 2023 • 2
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression

Paper • 2306.03078 • Published Jun 5, 2023 • 3
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

Paper • 2308.13137 • Published Aug 25, 2023 • 17
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

Paper • 2306.00978 • Published Jun 1, 2023 • 8
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Paper • 2210.17323 • Published Oct 31, 2022 • 8
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Paper • 2312.08583 • Published Dec 14, 2023 • 9
QLoRA: Efficient Finetuning of Quantized LLMs

Paper • 2305.14314 • Published May 23, 2023 • 46
LLM-FP4: 4-Bit Floating-Point Quantized Transformers

Paper • 2310.16836 • Published Oct 25, 2023 • 13
FP8-LM: Training FP8 Large Language Models

Paper • 2310.18313 • Published Oct 27, 2023 • 31
FP8 Quantization: The Power of the Exponent

Paper • 2208.09225 • Published Aug 19, 2022
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

Paper • 2310.19102 • Published Oct 29, 2023 • 10
QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models

Paper • 2310.08041 • Published Oct 12, 2023 • 1
Towards End-to-end 4-Bit Inference on Generative Large Language Models

Paper • 2310.09259 • Published Oct 13, 2023 • 1
Outlier Suppression+: Accurate quantization of large language models by equivalent and optimal shifting and scaling

Paper • 2304.09145 • Published Apr 18, 2023 • 1
Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM

Paper • 2310.04836 • Published Oct 7, 2023 • 1
Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models

Paper • 2309.15531 • Published Sep 27, 2023 • 1
LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

Paper • 2310.08659 • Published Oct 12, 2023 • 22
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

Paper • 2309.14717 • Published Sep 26, 2023 • 44
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models

Paper • 2309.02784 • Published Sep 6, 2023 • 1
ModuLoRA: Finetuning 3-Bit LLMs on Consumer GPUs by Integrating with Modular Quantizers

Paper • 2309.16119 • Published Sep 28, 2023 • 1
Training and inference of large language models using 8-bit floating point

Paper • 2309.17224 • Published Sep 29, 2023 • 1
BitNet: Scaling 1-bit Transformers for Large Language Models

Paper • 2310.11453 • Published Oct 17, 2023 • 96
Understanding the Impact of Post-Training Quantization on Large Language Models

Paper • 2309.05210 • Published Sep 11, 2023 • 1
PB-LLM: Partially Binarized Large Language Models

Paper • 2310.00034 • Published Sep 29, 2023 • 1
TEQ: Trainable Equivalent Transformation for Quantization of LLMs

Paper • 2310.10944 • Published Oct 17, 2023 • 9
QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

Paper • 2310.07147 • Published Oct 11, 2023 • 1
FPTQ: Fine-grained Post-Training Quantization for Large Language Models

Paper • 2308.15987 • Published Aug 30, 2023 • 1
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

Paper • 2211.10438 • Published Nov 18, 2022 • 4
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Paper • 2208.07339 • Published Aug 15, 2022 • 4
Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

Paper • 2309.05516 • Published Sep 11, 2023 • 9
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

Paper • 2402.04291 • Published Feb 6 • 48
Extreme Compression of Large Language Models via Additive Quantization

Paper • 2401.06118 • Published Jan 11 • 12
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

Paper • 2401.18079 • Published Jan 31 • 7
GPTVQ: The Blessing of Dimensionality for LLM Quantization

Paper • 2402.15319 • Published Feb 23 • 19
The case for 4-bit precision: k-bit Inference Scaling Laws

Paper • 2212.09720 • Published Dec 19, 2022 • 3
SqueezeLLM: Dense-and-Sparse Quantization

Paper • 2306.07629 • Published Jun 13, 2023 • 4
QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks

Paper • 2402.04396 • Published Feb 6 • 1