概要

Phi3アーキテクチャのモデルです。 context sizeは256です。

dataset

以下のデータセットで1epoch回しました。

HuggingFaceTB/smollm-corpus
- cosmopedia-v2: 10,000,000件
- fineweb-edu-dedup: 10,000,000件
hotchpotch/fineweb-2-edu-japanese
- sample_10BT: 15,000,000件
HuggingFaceFW/finepdfs
- jpn_Jpan: 10,000,000件
- eng_Latn: 100,000件
OmniAICreator/WebNovels-Ja
- 2,560,871件

バッチサイズ: 140 ステップ数: 2094240 トレーニングトークン合計数: 75B tokens 学習率: 3e-4

Rakuten/RakutenAI-2.0-mini-instructを使用しました。日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」

Safetensors

Model size

14.9M params

Tensor type

F32