Holy-fox/Qwen3.5-0.8B-JP
Qwen/Qwen3.5-0.8B を日本語インストラクションデータでファインチューニングしたモデルです。
概要
本モデルは、Qwen3.5-0.8B をベースに、DataPilot/Zero_SFT_Ja_v3.5(108k件)を用いて日本語 SFT を施したものです。Qwen3 系が持つ thinking モードは使用せず、Non-thinking(直接応答)モードのみで動作します。
| 項目 | 詳細 |
|---|---|
| ベースモデル | Qwen/Qwen3.5-0.8B |
| パラメータ数 | 0.8B |
| 学習データ | DataPilot/Zero_SFT_Ja_v3.5(108k件) |
| 学習フレームワーク | Unsloth |
| 学習ハードウェア | NVIDIA RTX 5090 |
| 対応言語 | 日本語(主) |
| ライセンス | Apache 2.0 |
クイックスタート
1. ライブラリのインストール
pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"
2. 推論サーバーの起動
transformers serve --force-model Holy-fox/Qwen3.5-0.8B-JP --port 8000
3. クライアントのセットアップ
pip install -U openai
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"
4. 推論の実行
from openai import OpenAI
client = OpenAI() # 環境変数から設定を読み込み
messages = [
{"role": "user", "content": "まどマギで一番可愛いキャラクターは誰?"},
]
response = client.chat.completions.create(
model="Holy-fox/Qwen3.5-0.8B-JP",
messages=messages,
max_tokens=32768,
temperature=1.0,
top_p=1.0,
presence_penalty=2.0,
extra_body={
"top_k": 20,
},
)
print(response.choices[0].message.content)
推奨パラメータについて
presence_penalty=2.0は繰り返し抑制のために設定しています。小規模モデルでは同じフレーズのループが発生しやすいため、この値を下げる場合は出力を注意深く確認してください。
学習
- データ: DataPilot/Zero_SFT_Ja_v3.5 の全件(108k)を使用。同データセットは Qwen3-235B-A22B によって生成された日本語インストラクションデータです。
- フレームワーク: Unsloth
- ハードウェア: NVIDIA RTX 5090
注意事項・制限
- 本モデルは Non-thinking モード専用です。
/thinkトークンや thinking モードを有効にした推論は想定していません。 - 0.8B という小規模モデルの性質上、複雑な推論や長文の一貫性には限界があります。
- 学習データが日本語中心のため、英語などその他言語でのパフォーマンスは保証しません。
謝辞
- Downloads last month
- 398