Edit Models filters

Inference status

Misc

arxiv: 2407.11062

AutoTrain Compatible

Inference Endpoints

text-generation-inference

4-bit precision

Misc with no match

text-embeddings-inference

8-bit precision

Carbon Emissions

Mixture of Experts

Models

99

Full-text search

Active filters: 2407.11062

ChenMnZ/Llama-2-13b-EfficientQAT-w4g128-BitBLAS

Text Generation • Updated Jul 22 • 6

ChenMnZ/Llama-2-13b-EfficientQAT-w4g128-GPTQ

Text Generation • Updated Jul 22 • 3

ChenMnZ/Llama-2-70b-EfficientQAT-w2g128-BitBLAS

Text Generation • Updated Jul 22 • 15

ChenMnZ/Llama-2-70b-EfficientQAT-w2g128-GPTQ

Text Generation • Updated Jul 22 • 3

ChenMnZ/Llama-2-70b-EfficientQAT-w2g64-GPTQ

Text Generation • Updated Jul 22 • 3

ChenMnZ/Llama-2-70b-EfficientQAT-w4g128-BitBLAS

Text Generation • Updated Jul 22 • 3

ChenMnZ/Llama-2-70b-EfficientQAT-w4g128-GPTQ

Text Generation • Updated Jul 22 • 3

ChenMnZ/Llama-2-7b-EfficientQAT-w2g128-GPTQ

Text Generation • Updated Jul 22 • 9

ChenMnZ/Llama-2-7b-EfficientQAT-w2g64-GPTQ

Text Generation • Updated Jul 22 • 8

ChenMnZ/Llama-2-7b-EfficientQAT-w4g128-GPTQ

Text Generation • Updated Jul 22 • 23

ChenMnZ/Llama-3-70b-EfficientQAT-w2g128-GPTQ

Text Generation • Updated Jul 22 • 8

ChenMnZ/Llama-3-70b-EfficientQAT-w2g64-GPTQ

Text Generation • Updated Jul 22 • 8

ChenMnZ/Llama-3-70b-EfficientQAT-w4g128-GPTQ

Text Generation • Updated Jul 22 • 9

ChenMnZ/Llama-3-70b-instruct-EfficientQAT-w2g128-GPTQ

Text Generation • Updated Jul 22 • 5

ChenMnZ/Llama-3-70b-instruct-EfficientQAT-w2g64-GPTQ

Text Generation • Updated Jul 22 • 3

ChenMnZ/Llama-2-7b-EfficientQAT-w2g128-BitBLAS

Text Generation • Updated Jul 22 • 3

ChenMnZ/Llama-3-70b-instruct-EfficientQAT-w4g128-GPTQ

Text Generation • Updated Jul 22 • 14

ChenMnZ/Llama-2-7b-EfficientQAT-w2g64-BitBLAS

Text Generation • Updated Jul 22 • 5

ChenMnZ/Llama-2-7b-EfficientQAT-w4g128-BitBLAS

Text Generation • Updated Jul 22 • 4

ChenMnZ/Llama-3-70b-EfficientQAT-w2g128-BitBLAS

Text Generation • Updated Jul 22 • 5

ChenMnZ/Llama-3-8b-EfficientQAT-w2g128-GPTQ

Text Generation • Updated Jul 22 • 11

ChenMnZ/Llama-3-8b-EfficientQAT-w2g64-GPTQ

Text Generation • Updated Jul 22 • 5

ChenMnZ/Llama-3-8b-EfficientQAT-w4g128-GPTQ

Text Generation • Updated Jul 22 • 12 • 1

ChenMnZ/Llama-3-8b-instruct-EfficientQAT-w2g128-GPTQ

Text Generation • Updated Jul 22 • 41 • 1

ChenMnZ/Llama-3-8b-instruct-EfficientQAT-w2g64-GPTQ

Text Generation • Updated Jul 22 • 5

ChenMnZ/Llama-3-70b-EfficientQAT-w2g64-BitBLAS

Text Generation • Updated Jul 22 • 5

ChenMnZ/Llama-3-8b-instruct-EfficientQAT-w4g128-GPTQ

Text Generation • Updated Jul 22 • 9

ChenMnZ/Llama-3-70b-EfficientQAT-w4g128-BitBLAS

Text Generation • Updated Jul 22 • 7

ChenMnZ/Llama-3-70b-instruct-EfficientQAT-w2g128-BitBLAS

Text Generation • Updated Jul 22 • 7

ChenMnZ/Llama-3-70b-instruct-EfficientQAT-w2g64-BitBLAS

Text Generation • Updated Jul 22 • 6