ExLoD-1 / README.md

Yasu-Okuda

Update README.md

7e243da verified 14 days ago

preview code

raw

history blame contribute delete

4.43 kB

metadata

license: gemma
language:
  - ja
base_model: google/gemma-3-270m
tags:
  - exlod
  - gemma
  - continual-pretraining
  - causal-lm
  - japanese
datasets:
  - range3/cc100-ja
  - range3/wikipedia-ja-20230101

ExLoD-1-270M

コードはこちら

モデル概要

ExLoD-1 は、google/gemma-3-270m をベースに 日本語の流暢さ（自然さ）を底上げする目的で、range3/cc100-ja を用いて 継続事前学習（Continual Pretraining / DAPT）を行ったモデルです。

ベースモデル: google/gemma-3-270m
目的: 日本語生成の自然さ向上（文字化け・不自然な分かち書き・記号混入などの低減を狙う）
学習方式: Causal Language Modeling（次トークン予測）による継続事前学習

想定用途

日本語での自然な会話生成
日本語での長文生成（創作、説明文のドラフトなど）
追加のSFT/LoRA等の土台モデルとしての利用

想定しない用途

医療・法律・金融などの高リスク領域での最終判断用途
事実確認が厳密に必要な用途（Web検索・検証の併用を推奨）
個人情報の取得や不正利用を目的とする用途

データセット

学習データ

range3/cc100-ja（Webクロール由来の日本語テキスト）

データに関する注意

Web由来データの性質上、以下を含む可能性があります。

ノイズ（断片文、広告文、テンプレ文、重複、崩れた文字列）
偏り（特定ジャンルや言い回し、社会的バイアス）
不適切表現（差別的表現など）

学習手順

学習の種類

継続事前学習（CPT/DAPT）
- タスク: Causal Language Modeling（次トークン予測）
- 形式: {"text": ...} 形式のテキストを学習

学習実装

datasets の streaming でデータを読み込み、最小限のクリーニング（空行除去・strip等）を適用
TRL の SFTTrainer を CLM 学習の枠組みとして使用（テキスト列をそのまま次トークン予測）

注: 実際の品質は、フィルタリング（短文除去、文字種比率、記号率、重複除去など）と packing 設定に大きく依存します。より強いフィルタは別途推奨です。

主要ハイパーパラメータ

学習率: 2e-5
max_steps: 10,000
gradient_accumulation_steps: 16
per_device_train_batch_size: 1
warmup_steps: 100
precision: bf16
max_length: 32768
packing: False

評価

evaluate.py による、 range3/wikipedia-ja-20230101 を使用したPerplexity計測を実施。

Model	Dataset	#Samples	Metric	Score
ExLoD-1	range3/wikipedia-ja-20230101	1000	Perplexity (↓)	33.56
Gemma 3 270M	range3/wikipedia-ja-20230101	1000	Perplexity (↓)	24.97

制限事項

小型モデルのため、長文での一貫性・推論能力・知識量には限界があります。
Web由来データの影響で、文体が広告調・ニュース調に寄る場合があります。
事実性は保証されません。ハルシネーションが起こり得ます。
特定作品・キャラクターの正確な設定知識や口調の再現は、外部知識/RAGや、専用SFTが必要です。

バイアス・安全性に関する注意

学習データ由来の社会的偏見や不適切表現が残存する可能性があります。
実運用では、出力フィルタやポリシー、用途制限を利用側で検討してください。

ライセンス

本モデルは Gemma ライセンスに従います（license: gemma）。
派生モデルの配布・利用条件は、ベースモデル（Gemma）のライセンス条件に依存します。

免責

本モデルの出力は誤りを含む可能性があります。利用者の責任で検証してください。
本モデルは特定の企業・作品・団体と公式な関係を持ちません。

変更履歴

v0.1: google/gemma-3-270m をベースに range3/cc100-ja で継続事前学習

参考・クレジット

Base model: google/gemma-3-270m
Dataset: range3/cc100-ja , range3/wikipedia-ja-20230101
Training framework: Hugging Face Transformers / TRL / datasets