metadata
license: gemma
language:
- ja
base_model: google/gemma-3-270m
tags:
- exlod
- gemma
- continual-pretraining
- causal-lm
- japanese
datasets:
- range3/cc100-ja
- range3/wikipedia-ja-20230101
ExLoD-1-270M
コードはこちら
モデル概要
ExLoD-1 は、google/gemma-3-270m をベースに 日本語の流暢さ(自然さ)を底上げする目的で、range3/cc100-ja を用いて 継続事前学習(Continual Pretraining / DAPT)を行ったモデルです。
- ベースモデル:
google/gemma-3-270m - 目的: 日本語生成の自然さ向上(文字化け・不自然な分かち書き・記号混入などの低減を狙う)
- 学習方式: Causal Language Modeling(次トークン予測)による継続事前学習
想定用途
- 日本語での自然な会話生成
- 日本語での長文生成(創作、説明文のドラフトなど)
- 追加のSFT/LoRA等の土台モデルとしての利用
想定しない用途
- 医療・法律・金融などの高リスク領域での最終判断用途
- 事実確認が厳密に必要な用途(Web検索・検証の併用を推奨)
- 個人情報の取得や不正利用を目的とする用途
データセット
学習データ
range3/cc100-ja(Webクロール由来の日本語テキスト)
データに関する注意
Web由来データの性質上、以下を含む可能性があります。
- ノイズ(断片文、広告文、テンプレ文、重複、崩れた文字列)
- 偏り(特定ジャンルや言い回し、社会的バイアス)
- 不適切表現(差別的表現など)
学習手順
学習の種類
- 継続事前学習(CPT/DAPT)
- タスク: Causal Language Modeling(次トークン予測)
- 形式:
{"text": ...}形式のテキストを学習
学習実装
datasetsの streaming でデータを読み込み、最小限のクリーニング(空行除去・strip等)を適用- TRL の
SFTTrainerを CLM 学習の枠組みとして使用(テキスト列をそのまま次トークン予測)
注: 実際の品質は、フィルタリング(短文除去、文字種比率、記号率、重複除去など)と
packing設定に大きく依存します。より強いフィルタは別途推奨です。
主要ハイパーパラメータ
- 学習率:
2e-5 - max_steps:
10,000 - gradient_accumulation_steps:
16 - per_device_train_batch_size:
1 - warmup_steps:
100 - precision:
bf16 - max_length:
32768 - packing:
False
評価
evaluate.py による、 range3/wikipedia-ja-20230101 を使用したPerplexity計測を実施。
| Model | Dataset | #Samples | Metric | Score |
|---|---|---|---|---|
| ExLoD-1 | range3/wikipedia-ja-20230101 | 1000 | Perplexity (↓) | 33.56 |
| Gemma 3 270M | range3/wikipedia-ja-20230101 | 1000 | Perplexity (↓) | 24.97 |
制限事項
- 小型モデルのため、長文での一貫性・推論能力・知識量には限界があります。
- Web由来データの影響で、文体が広告調・ニュース調に寄る場合があります。
- 事実性は保証されません。ハルシネーションが起こり得ます。
- 特定作品・キャラクターの正確な設定知識や口調の再現は、外部知識/RAGや、専用SFTが必要です。
バイアス・安全性に関する注意
- 学習データ由来の社会的偏見や不適切表現が残存する可能性があります。
- 実運用では、出力フィルタやポリシー、用途制限を利用側で検討してください。
ライセンス
- 本モデルは Gemma ライセンスに従います(
license: gemma)。 - 派生モデルの配布・利用条件は、ベースモデル(Gemma)のライセンス条件に依存します。
免責
- 本モデルの出力は誤りを含む可能性があります。利用者の責任で検証してください。
- 本モデルは特定の企業・作品・団体と公式な関係を持ちません。
変更履歴
- v0.1:
google/gemma-3-270mをベースにrange3/cc100-jaで継続事前学習
参考・クレジット
- Base model:
google/gemma-3-270m - Dataset:
range3/cc100-ja,range3/wikipedia-ja-20230101 - Training framework: Hugging Face Transformers / TRL / datasets