pretrained models
Collection
5 items
•
Updated
Phi3アーキテクチャのモデルです。 context sizeは256です。
以下のデータセットで1epoch回しました。
バッチサイズ: 140 ステップ数: 2094240 トレーニングトークン合計数: 75B tokens 学習率: 3e-4
Rakuten/RakutenAI-2.0-mini-instructを使用しました。 日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」