|
|
--- |
|
|
license: gemma |
|
|
language: |
|
|
- ja |
|
|
base_model: google/gemma-3-270m |
|
|
tags: |
|
|
- exlod |
|
|
- gemma |
|
|
- continual-pretraining |
|
|
- causal-lm |
|
|
- japanese |
|
|
datasets: |
|
|
- range3/cc100-ja |
|
|
- range3/wikipedia-ja-20230101 |
|
|
--- |
|
|
|
|
|
# ExLoD-1-270M |
|
|
コードは[こちら](https://github.com/Okuda-Yasuhisa/ExLoD-1) |
|
|
|
|
|
## モデル概要 |
|
|
ExLoD-1 は、`google/gemma-3-270m` をベースに **日本語の流暢さ(自然さ)を底上げ**する目的で、`range3/cc100-ja` を用いて **継続事前学習(Continual Pretraining / DAPT)**を行ったモデルです。 |
|
|
|
|
|
- **ベースモデル**: `google/gemma-3-270m` |
|
|
- **目的**: 日本語生成の自然さ向上(文字化け・不自然な分かち書き・記号混入などの低減を狙う) |
|
|
- **学習方式**: Causal Language Modeling(次トークン予測)による継続事前学習 |
|
|
|
|
|
## 想定用途 |
|
|
- 日本語での自然な会話生成 |
|
|
- 日本語での長文生成(創作、説明文のドラフトなど) |
|
|
- 追加のSFT/LoRA等の土台モデルとしての利用 |
|
|
|
|
|
## 想定しない用途 |
|
|
- 医療・法律・金融などの高リスク領域での最終判断用途 |
|
|
- 事実確認が厳密に必要な用途(Web検索・検証の併用を推奨) |
|
|
- 個人情報の取得や不正利用を目的とする用途 |
|
|
|
|
|
## データセット |
|
|
### 学習データ |
|
|
- `range3/cc100-ja`(Webクロール由来の日本語テキスト) |
|
|
|
|
|
### データに関する注意 |
|
|
Web由来データの性質上、以下を含む可能性があります。 |
|
|
- ノイズ(断片文、広告文、テンプレ文、重複、崩れた文字列) |
|
|
- 偏り(特定ジャンルや言い回し、社会的バイアス) |
|
|
- 不適切表現(差別的表現など) |
|
|
|
|
|
## 学習手順 |
|
|
### 学習の種類 |
|
|
- **継続事前学習(CPT/DAPT)** |
|
|
- タスク: Causal Language Modeling(次トークン予測) |
|
|
- 形式: `{"text": ...}` 形式のテキストを学習 |
|
|
|
|
|
### 学習実装 |
|
|
- `datasets` の **streaming** でデータを読み込み、最小限のクリーニング(空行除去・strip等)を適用 |
|
|
- TRL の `SFTTrainer` を CLM 学習の枠組みとして使用(テキスト列をそのまま次トークン予測) |
|
|
|
|
|
> 注: 実際の品質は、フィルタリング(短文除去、文字種比率、記号率、重複除去など)と `packing` 設定に大きく依存します。より強いフィルタは別途推奨です。 |
|
|
|
|
|
## 主要ハイパーパラメータ |
|
|
|
|
|
- 学習率: `2e-5` |
|
|
- max_steps: `10,000` |
|
|
- gradient_accumulation_steps: `16` |
|
|
- per_device_train_batch_size: `1` |
|
|
- warmup_steps: `100` |
|
|
- precision: `bf16` |
|
|
- max_length: `32768` |
|
|
- packing: `False` |
|
|
|
|
|
## 評価 |
|
|
`evaluate.py` による、 `range3/wikipedia-ja-20230101` を使用したPerplexity計測を実施。 |
|
|
|
|
|
| Model | Dataset | #Samples | Metric | Score | |
|
|
|---|---|---:|---|---:| |
|
|
| ExLoD-1 | range3/wikipedia-ja-20230101 | 1000 | Perplexity (↓) | **33.56** | |
|
|
| Gemma 3 270M | range3/wikipedia-ja-20230101 | 1000 | Perplexity (↓) | **24.97** | |
|
|
|
|
|
## 制限事項 |
|
|
- 小型モデルのため、長文での一貫性・推論能力・知識量には限界があります。 |
|
|
- Web由来データの影響で、文体が広告調・ニュース調に寄る場合があります。 |
|
|
- 事実性は保証されません。ハルシネーションが起こり得ます。 |
|
|
- 特定作品・キャラクターの正確な設定知識や口調の再現は、外部知識/RAGや、専用SFTが必要です。 |
|
|
|
|
|
## バイアス・安全性に関する注意 |
|
|
- 学習データ由来の社会的偏見や不適切表現が残存する可能性があります。 |
|
|
- 実運用では、出力フィルタやポリシー、用途制限を利用側で検討してください。 |
|
|
|
|
|
## ライセンス |
|
|
- 本モデルは **Gemma ライセンス**に従います(`license: gemma`)。 |
|
|
- 派生モデルの配布・利用条件は、ベースモデル(Gemma)のライセンス条件に依存します。 |
|
|
|
|
|
## 免責 |
|
|
- 本モデルの出力は誤りを含む可能性があります。利用者の責任で検証してください。 |
|
|
- 本モデルは特定の企業・作品・団体と公式な関係を持ちません。 |
|
|
|
|
|
## 変更履歴 |
|
|
- v0.1: `google/gemma-3-270m` をベースに `range3/cc100-ja` で継続事前学習 |
|
|
|
|
|
## 参考・クレジット |
|
|
- Base model: `google/gemma-3-270m` |
|
|
- Dataset: `range3/cc100-ja` , `range3/wikipedia-ja-20230101` |
|
|
- Training framework: Hugging Face Transformers / TRL / datasets |