fix typo
Browse files
README.md
CHANGED
|
@@ -14,7 +14,7 @@ DiffLlama-1Bは、フルスクラッチで約100Bトークン事前学習を行
|
|
| 14 |
- **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
|
| 15 |
- **パラメータ数**: 10億(1B)パラメータ。
|
| 16 |
- **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
|
| 17 |
-
- **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2
|
| 18 |
|
| 19 |
## 学習データ
|
| 20 |
|
|
|
|
| 14 |
- **アーキテクチャ**: LlamaモデルにDifferential Attentionメカニズムを統合。
|
| 15 |
- **パラメータ数**: 10億(1B)パラメータ。
|
| 16 |
- **Patch-level Training**: 学習コスト削減技術[Patch-level Training](https://arxiv.org/abs/2407.12665)を使用。
|
| 17 |
+
- **Muon Optimizer**: AdamWより収束が早いOptimizerを使うことで学習効率を2倍に\(つまり実質200Bトークン学習している\)。実装は[こちら](https://github.com/MoonshotAI/Moonlight/blob/master/examples/toy_train.py)
|
| 18 |
|
| 19 |
## 学習データ
|
| 20 |
|