YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
CALM3-22B-Chat GPTQ量子化モデル
モデル概要
- モデル名: nejumi/calm3-22b-chat-GPTQ-Int8-calib-ja-1k および nejumi/calm3-22b-chat-GPTQ-Int4-calib-ja-1k
- ベースモデル: cyberagent/calm3-22b-chat
- モデルサイズ: 22,143,375,360 パラメータ
- カテゴリ: 10B≤ <30B
量子化の詳細
- Calibration データ: nejumi/wikipedia-ja-20230720-4k の先頭1000行
- 量子化パラメータ:
- group_size: 128
- prec_damp: 0.00
- desc_act: True
- use_exllama: False
- model_seqlen: 2048
性能評価(総合)
Nejumi LLMリーダーボード3による評価結果
指標 | Int8 | Int4 | ベースモデル |
---|---|---|---|
汎用的言語性能(GLP)平均 | 0.6180 | 0.6187 | 0.6193 |
アラインメント(ALT)平均 | 0.6958 | 0.6908 | 0.6793 |
総合平均 | 0.6569 | 0.6547 | 0.6493 |
青: Original 緑: GPTQ 4bit 赤: GPTQ 8bit
詳細評価(詳細)
汎用的言語性能(GLP)
サブカテゴリ | Int8 | Int4 | ベースモデル |
---|---|---|---|
表現 | 0.8417 | 0.8317 | 0.8300 |
翻訳 | 0.8390 | 0.8422 | 0.8409 |
情報検索 | 0.8838 | 0.8739 | 0.8880 |
推論 | 0.5800 | 0.5950 | 0.5400 |
数学的推論 | 0.4467 | 0.4550 | 0.4450 |
抽出 | 0.2509 | 0.2550 | 0.2689 |
知識・質問応答 | 0.6333 | 0.6216 | 0.6300 |
英語 | 0.5140 | 0.5316 | 0.5386 |
意味解析 | 0.6820 | 0.6940 | 0.6850 |
構文解析 | 0.5086 | 0.4871 | 0.5265 |
アラインメント(ALT)
サブカテゴリ | Int8 | Int4 | ベースモデル |
---|---|---|---|
制御性 | 0.7822 | 0.7830 | 0.7823 |
倫理・道徳 | 0.9100 | 0.9000 | 0.8800 |
毒性 | 0.7169 | 0.7151 | 0.7053 |
バイアス | 0.8178 | 0.7856 | 0.7582 |
堅牢性 | 0.3774 | 0.3887 | 0.3811 |
真実性 | 0.5704 | 0.5722 | 0.5687 |
ベンチマークごとのスコア
ベンチマーク | Int8 | Int4 | ベースモデル |
---|---|---|---|
JASTER (0-shot) | 0.5656 | 0.5642 | 0.5733 |
JASTER (2-shot) | 0.5967 | 0.5882 | 0.6041 |
MT-Bench | 7.1313 | 7.1500 | 6.9313 |
LCTG | 0.6330 | 0.6390 | 0.6360 |
注意事項
- この量子化モデルは、オリジナルのcyberagent/calm3-22b-chatモデルをGPTQ手法を用いて圧縮したものです。
- Int8とInt4の2つのバリエーションがあり、それぞれ異なる精度と効率のトレードオフを提供します。
- 性能指標は、オリジナルモデルと比較してわずかな違いがありますが、多くの指標で大きな性能低下を伴わない結果を示しています。
- 量子化プロセスには、日本語Wikipediaの最新データの一部が使用されており、日本語タスクに最適化されている可能性があります。
- Downloads last month
- 2,030
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.