Aratako
/

c4ai-command-r-v01-japanese-instruct

Text Generation

text-generation-inference

Model card Files Files and versions

Aratako commited on Apr 5, 2024

Commit

3e4a116

·

verified ·

1 Parent(s): f3187c6

Update README.md

Files changed (1) hide show

README.md +11 -1

README.md CHANGED Viewed

@@ -26,7 +26,17 @@ RunpodでGPUサーバを借り、A6000x4で学習を行いました。主な学
 - max_seq_length: 2048
 ## 評価
-元モデルと本モデルの[japanese-mt-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge)の結果は以下の通りです。（シングルターン、4ビット量子化）
 スコア的にはあまり変わりませんでした。ただし、元モデルの出力の中には時々英語が混ざっていましたが、目視で確認した範囲だと混ざらなくなっていたので学習の効果は多少はありそうです。

 - max_seq_length: 2048
 ## 評価
+jsquad(jsquad-1.1-0.3, 2-shots)、jcommonsenseqa(jcommonsenseqa-1.1-0.3, 3-shots)、jnli(jnli-1.3-0.3, 3-shots)、marc_ja(marc_ja-1.1-0.3, 3-shots)結果は以下の通りです。（8ビット量子化/jsquadは100で割り、それぞれ小数点以下第4位を四捨五入）
+|Model|jsquad(exact_match)|jcommonsenseqa(acc)|jnli(acc)|marc_ja(acc)|average|
+|---|---|---|---|---|---|
+| c4ai-command-r-v01 |0.809 | 0.902 | 0.466 | 0.954 | 0.783 |
+| **c4ai-command-r-v01-japanese-instruct** | **0.836** | **0.911** | **0.537** | **0.940** | **0.806** |
+評価には[lm-evaluation-harness](https://github.com/Stability-AI/lm-evaluation-harness)を利用しました。
+また、元モデルと本モデルの[japanese-mt-bench](https://github.com/Stability-AI/FastChat/tree/jp-stable/fastchat/llm_judge)の結果は以下の通りです。（シングルターン、4ビット量子化）
 スコア的にはあまり変わりませんでした。ただし、元モデルの出力の中には時々英語が混ざっていましたが、目視で確認した範囲だと混ざらなくなっていたので学習の効果は多少はありそうです。