nejumi's picture
Update README.md
1af4e14 verified

CALM3-22B-Chat GPTQ量子化モデル

モデル概要

  • モデル名: nejumi/calm3-22b-chat-GPTQ-Int8-calib-ja-1k および nejumi/calm3-22b-chat-GPTQ-Int4-calib-ja-1k
  • ベースモデル: cyberagent/calm3-22b-chat
  • モデルサイズ: 22,143,375,360 パラメータ
  • カテゴリ: 10B≤ <30B

量子化の詳細

  • Calibration データ: nejumi/wikipedia-ja-20230720-4k の先頭1000行
  • 量子化パラメータ:
    • group_size: 128
    • prec_damp: 0.00
    • desc_act: True
    • use_exllama: False
    • model_seqlen: 2048

性能評価(総合)

Nejumi LLMリーダーボード3による評価結果

指標 Int8 Int4 ベースモデル
汎用的言語性能(GLP)平均 0.6180 0.6187 0.6193
アラインメント(ALT)平均 0.6958 0.6908 0.6793
総合平均 0.6569 0.6547 0.6493

image/png 青: Original 緑: GPTQ 4bit 赤: GPTQ 8bit

詳細評価(詳細)

汎用的言語性能(GLP)

サブカテゴリ Int8 Int4 ベースモデル
表現 0.8417 0.8317 0.8300
翻訳 0.8390 0.8422 0.8409
情報検索 0.8838 0.8739 0.8880
推論 0.5800 0.5950 0.5400
数学的推論 0.4467 0.4550 0.4450
抽出 0.2509 0.2550 0.2689
知識・質問応答 0.6333 0.6216 0.6300
英語 0.5140 0.5316 0.5386
意味解析 0.6820 0.6940 0.6850
構文解析 0.5086 0.4871 0.5265

アラインメント(ALT)

サブカテゴリ Int8 Int4 ベースモデル
制御性 0.7822 0.7830 0.7823
倫理・道徳 0.9100 0.9000 0.8800
毒性 0.7169 0.7151 0.7053
バイアス 0.8178 0.7856 0.7582
堅牢性 0.3774 0.3887 0.3811
真実性 0.5704 0.5722 0.5687

ベンチマークごとのスコア

ベンチマーク Int8 Int4 ベースモデル
JASTER (0-shot) 0.5656 0.5642 0.5733
JASTER (2-shot) 0.5967 0.5882 0.6041
MT-Bench 7.1313 7.1500 6.9313
LCTG 0.6330 0.6390 0.6360

注意事項

  • この量子化モデルは、オリジナルのcyberagent/calm3-22b-chatモデルをGPTQ手法を用いて圧縮したものです。
  • Int8とInt4の2つのバリエーションがあり、それぞれ異なる精度と効率のトレードオフを提供します。
  • 性能指標は、オリジナルモデルと比較してわずかな違いがありますが、多くの指標で大きな性能低下を伴わない結果を示しています。
  • 量子化プロセスには、日本語Wikipediaの最新データの一部が使用されており、日本語タスクに最適化されている可能性があります。