Aratako commited on
Commit
3e4a116
1 Parent(s): f3187c6

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +11 -1
README.md CHANGED
@@ -26,7 +26,17 @@ RunpodでGPUサーバを借り、A6000x4で学習を行いました。主な学
26
  - max_seq_length: 2048
27
 
28
  ## 評価
29
- 元モデルと本モデルの[japanese-mt-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge)の結果は以下の通りです。(シングルターン、4ビット量子化)
 
 
 
 
 
 
 
 
 
 
30
 
31
  スコア的にはあまり変わりませんでした。ただし、元モデルの出力の中には時々英語が混ざっていましたが、目視で確認した範囲だと混ざらなくなっていたので学習の効果は多少はありそうです。
32
 
 
26
  - max_seq_length: 2048
27
 
28
  ## 評価
29
+ jsquad(jsquad-1.1-0.3, 2-shots)、jcommonsenseqa(jcommonsenseqa-1.1-0.3, 3-shots)、jnli(jnli-1.3-0.3, 3-shots)、marc_ja(marc_ja-1.1-0.3, 3-shots)結果は以下の通りです。(8ビット量子化/jsquadは100で割り、それぞれ小数点以下第4位を四捨五入)
30
+
31
+
32
+ |Model|jsquad(exact_match)|jcommonsenseqa(acc)|jnli(acc)|marc_ja(acc)|average|
33
+ |---|---|---|---|---|---|
34
+ | c4ai-command-r-v01 |0.809 | 0.902 | 0.466 | 0.954 | 0.783 |
35
+ | **c4ai-command-r-v01-japanese-instruct** | **0.836** | **0.911** | **0.537** | **0.940** | **0.806** |
36
+
37
+ 評価には[lm-evaluation-harness](https://github.com/Stability-AI/lm-evaluation-harness)を利用しました。
38
+
39
+ また、元モデルと本モデルの[japanese-mt-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge)の結果は以下の通りです。(シングルターン、4ビット量子化)
40
 
41
  スコア的にはあまり変わりませんでした。ただし、元モデルの出力の中には時々英語が混ざっていましたが、目視で確認した範囲だと混ざらなくなっていたので学習の効果は多少はありそうです。
42