ExLoD-1 / README.md

Update README.md

7e243da verified 14 days ago

4.43 kB

	---
	license: gemma
	language:
	- ja
	base_model: google/gemma-3-270m
	tags:
	- exlod
	- gemma
	- continual-pretraining
	- causal-lm
	- japanese
	datasets:
	- range3/cc100-ja
	- range3/wikipedia-ja-20230101
	---

	# ExLoD-1-270M
	コードは[こちら](https://github.com/Okuda-Yasuhisa/ExLoD-1)

	## モデル概要
	ExLoD-1 は、`google/gemma-3-270m` をベースに日本語の流暢さ（自然さ）を底上げする目的で、`range3/cc100-ja` を用いて継続事前学習（Continual Pretraining / DAPT）を行ったモデルです。

	- ベースモデル: `google/gemma-3-270m`
	- 目的: 日本語生成の自然さ向上（文字化け・不自然な分かち書き・記号混入などの低減を狙う）
	- 学習方式: Causal Language Modeling（次トークン予測）による継続事前学習

	## 想定用途
	- 日本語での自然な会話生成
	- 日本語での長文生成（創作、説明文のドラフトなど）
	- 追加のSFT/LoRA等の土台モデルとしての利用

	## 想定しない用途
	- 医療・法律・金融などの高リスク領域での最終判断用途
	- 事実確認が厳密に必要な用途（Web検索・検証の併用を推奨）
	- 個人情報の取得や不正利用を目的とする用途

	## データセット
	### 学習データ
	- `range3/cc100-ja`（Webクロール由来の日本語テキスト）

	### データに関する注意
	Web由来データの性質上、以下を含む可能性があります。
	- ノイズ（断片文、広告文、テンプレ文、重複、崩れた文字列）
	- 偏り（特定ジャンルや言い回し、社会的バイアス）
	- 不適切表現（差別的表現など）

	## 学習手順
	### 学習の種類
	- 継続事前学習（CPT/DAPT）
	- タスク: Causal Language Modeling（次トークン予測）
	- 形式: `{"text": ...}` 形式のテキストを学習

	### 学習実装
	- `datasets` の streaming でデータを読み込み、最小限のクリーニング（空行除去・strip等）を適用
	- TRL の `SFTTrainer` を CLM 学習の枠組みとして使用（テキスト列をそのまま次トークン予測）

	> 注: 実際の品質は、フィルタリング（短文除去、文字種比率、記号率、重複除去など）と `packing` 設定に大きく依存します。より強いフィルタは別途推奨です。

	## 主要ハイパーパラメータ

	- 学習率: `2e-5`
	- max_steps: `10,000`
	- gradient_accumulation_steps: `16`
	- per_device_train_batch_size: `1`
	- warmup_steps: `100`
	- precision: `bf16`
	- max_length: `32768`
	- packing: `False`

	## 評価
	`evaluate.py` による、 `range3/wikipedia-ja-20230101` を使用したPerplexity計測を実施。

	\| Model \| Dataset \| #Samples \| Metric \| Score \|
	\|---\|---\|---:\|---\|---:\|
	\| ExLoD-1 \| range3/wikipedia-ja-20230101 \| 1000 \| Perplexity (↓) \| 33.56 \|
	\| Gemma 3 270M \| range3/wikipedia-ja-20230101 \| 1000 \| Perplexity (↓) \| 24.97 \|

	## 制限事項
	- 小型モデルのため、長文での一貫性・推論能力・知識量には限界があります。
	- Web由来データの影響で、文体が広告調・ニュース調に寄る場合があります。
	- 事実性は保証されません。ハルシネーションが起こり得ます。
	- 特定作品・キャラクターの正確な設定知識や口調の再現は、外部知識/RAGや、専用SFTが必要です。

	## バイアス・安全性に関する注意
	- 学習データ由来の社会的偏見や不適切表現が残存する可能性があります。
	- 実運用では、出力フィルタやポリシー、用途制限を利用側で検討してください。

	## ライセンス
	- 本モデルは Gemma ライセンスに従います（`license: gemma`）。
	- 派生モデルの配布・利用条件は、ベースモデル（Gemma）のライセンス条件に依存します。

	## 免責
	- 本モデルの出力は誤りを含む可能性があります。利用者の責任で検証してください。
	- 本モデルは特定の企業・作品・団体と公式な関係を持ちません。

	## 変更履歴
	- v0.1: `google/gemma-3-270m` をベースに `range3/cc100-ja` で継続事前学習

	## 参考・クレジット
	- Base model: `google/gemma-3-270m`
	- Dataset: `range3/cc100-ja` , `range3/wikipedia-ja-20230101`
	- Training framework: Hugging Face Transformers / TRL / datasets