Update README.md
Browse files
README.md
CHANGED
@@ -26,7 +26,17 @@ RunpodでGPUサーバを借り、A6000x4で学習を行いました。主な学
|
|
26 |
- max_seq_length: 2048
|
27 |
|
28 |
## 評価
|
29 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
30 |
|
31 |
スコア的にはあまり変わりませんでした。ただし、元モデルの出力の中には時々英語が混ざっていましたが、目視で確認した範囲だと混ざらなくなっていたので学習の効果は多少はありそうです。
|
32 |
|
|
|
26 |
- max_seq_length: 2048
|
27 |
|
28 |
## 評価
|
29 |
+
jsquad(jsquad-1.1-0.3, 2-shots)、jcommonsenseqa(jcommonsenseqa-1.1-0.3, 3-shots)、jnli(jnli-1.3-0.3, 3-shots)、marc_ja(marc_ja-1.1-0.3, 3-shots)結果は以下の通りです。(8ビット量子化/jsquadは100で割り、それぞれ小数点以下第4位を四捨五入)
|
30 |
+
|
31 |
+
|
32 |
+
|Model|jsquad(exact_match)|jcommonsenseqa(acc)|jnli(acc)|marc_ja(acc)|average|
|
33 |
+
|---|---|---|---|---|---|
|
34 |
+
| c4ai-command-r-v01 |0.809 | 0.902 | 0.466 | 0.954 | 0.783 |
|
35 |
+
| **c4ai-command-r-v01-japanese-instruct** | **0.836** | **0.911** | **0.537** | **0.940** | **0.806** |
|
36 |
+
|
37 |
+
評価には[lm-evaluation-harness](https://github.com/Stability-AI/lm-evaluation-harness)を利用しました。
|
38 |
+
|
39 |
+
また、元モデルと本モデルの[japanese-mt-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge)の結果は以下の通りです。(シングルターン、4ビット量子化)
|
40 |
|
41 |
スコア的にはあまり変わりませんでした。ただし、元モデルの出力の中には時々英語が混ざっていましたが、目視で確認した範囲だと混ざらなくなっていたので学習の効果は多少はありそうです。
|
42 |
|