Update README.md

789a31e verified 2 days ago

9.6 kB

	---
	language:
	- ja
	- en
	license: apache-2.0
	base_model: Qwen/Qwen3-0.6B
	tags:
	- japanese
	- continual-learning
	- sft
	- rl
	- quantized
	- llama.cpp
	- browser
	- on-device
	pipeline_tag: text-generation
	---

	![image/png](wbd-brain.jpeg)

	# webbigdata/Qwen3-0.6B_WBD

	Qwen3-0.6Bに継続学習を行い、日本語能力・推論能力・日常会話能力を強化した軽量日本語モデルです。
	ブラウザ上での完全動作スマートフォン、エッジデバイスでの動作を主な目標として開発されました。
	A lightweight Japanese-enhanced model based on Qwen3-0.6B with improved Japanese language ability, reasoning, and conversational capability.
	Designed primarily to run completely in-browser and on smartphones, and edge devices.

	---

	## ニュース / News

	- ブラウザデモ公開インストール不要・サーバー不要でブラウザ上で完全動作するデモを公開 → [webbigdata SLM Demo](https://webbigdata.jp/slm/)
	- スマートフォン動作確認済み 2020年発売のAQUOS sense4 basic（Snapdragon 720G / RAM 3GB）で 17.20 t/s の動作を確認 → [動作動画](https://youtube.com/shorts/yOPlH7qcpbA)
	- スマートフォン向け量子化版公開 executorchを使った4bit量子化版を公開 → [dahara1/Qwen3-0.6B-executorch-jp](https://huggingface.co/dahara1/Qwen3-0.6B-executorch-jp)

	---

	## モデル概要 / Model Overview

	\| 項目 \| 内容 \|
	\|---\|---\|
	\| ベースモデル / Base Model \| [Qwen/Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B) \|
	\| パラメータ数 / Parameters \| 約6億 (0.6B) \|
	\| ライセンス / License \| Apache 2.0 \|
	\| 対応言語 / Languages \| 日本語・英語 (Japanese / English) \|
	\| 学習手法 / Training \| SFT、RL、8bit量子化 \|
	\| 開発者 / Developer \| dahara1@webbigdata \|

	---

	## ブラウザデモ / Browser Demo

	インストール不要・サーバー不要。ブラウザで今すぐ試せます。
	No installation, no server required. Try it directly in your browser.

	👉 [https://webbigdata.jp/slm/](https://webbigdata.jp/slm/)

	![Browser Demo Screenshot](https://huggingface.co/webbigdata/Qwen3-0.6B_WBD/resolve/main/browser_demo.png)

	> WASM + llama.cpp による完全クライアントサイド動作。パラメータ数0.6B（8ビット量子化）610MBのモデルがブラウザ上で推論します。
	> Fully client-side inference via WASM + llama.cpp. A 610MB (8-bit quantized, 0.6B parameter) model runs entirely in-browser.

	---

	## 特徴 / Features

	- 日本語能力の底上げ：独自データによる継続学習により、日本語の語彙・知識・表現力を強化
	- 推論能力の強化：強化学習(RL)をにより、論理的な推論能力を向上
	- 日本語日常会話能力の強化：自然な日本語会話を目指した学習を実施
	※ 0.6Bモデルの性質上、複数ターンに及ぶ長い会話には限界があります
	- ブラウザ完全動作：WASM + llama.cppによりサーバー不要でブラウザ上で動作
	- スマートフォン動作確認済み：executorchにより2020年発売の廉価端末（Snapdragon 720G / RAM 3GB）で17.20 t/s を確認

	---

	## ベンチマーク結果 / Benchmark Results

	### 日本語ベンチマーク / Japanese Benchmarks

	\| Model \| JCommonsenseQA \| JNLI \| JSTS \| JSQuAD \| Average \|
	\|---\|---\|---\|---\|---\|---\|
	\| Qwen3-0.6B-Q8_0（ベースライン）\| 62.40% \| 32.20% \| 17.20% \| 76.00% \| 46.95% \|
	\| Qwen3-0.6B_WBD（本モデル） \| 59.60% \| 72.60% \| 35.60% \| 82.00% \| 62.45% \|

	継続学習により平均スコアが 46.95% → 62.45%（+15.5pt）に向上しました。特にJNLI（自然言語推論）は +40.4pt と大幅に改善しています。

	JCommonsenseQAのわずかな低下は、知識・語彙が増えた結果、微妙なニュアンスで迷いが生じるケースが増えたためです。

	### 他モデルとの比較について / Comparison with Other Models

	NTTのtsuzumi（0.6B）など同サイズ帯の日本語特化モデルも存在しますが、JCommonsenseQA・JNLI・JSTS・JSQuADの具体的な数値を公開しているモデルは少なく、現時点で同一ベンチマークでの直接比較はできていません。本モデルは再現可能な評価条件を公開しています。

	### M-IFEval（日本語命令追従能力）

	\| Model \| prompt-level (strict) \| instruction-level (strict) \|
	\|---\|---\|---\|
	\| Qwen3-0.6B-Q8_0 \| 0.366 \| 0.420 \|
	\| Qwen3-0.6B_WBD \| 0.238 \| 0.314 \|

	M-IFEVALの低下について：評価セットには「英語以外の言語への翻訳」など日本語特化学習と相性の悪いタスクが混在しています。
	日本語固有タスク（キーワード存在確認・文字数制約・numbered listなど）では競争力のある性能を示しています。

	---

	## スマートフォン動作 / Smartphone Performance

	executorchを使った4bit量子化版により、スマートフォン上での動作を実現しています。

	動作確認端末：

	\| 項目 \| 内容 \|
	\|---\|---\|
	\| 機種 \| AQUOS sense4 basic A003SH \|
	\| 発売日 \| 2020年11月19日（5年前の廉価スマートフォン）\|
	\| OS \| Android 12 \|
	\| SoC \| Qualcomm Snapdragon 720G（オクタコア）\|
	\| RAM \| 3GB \|
	\| 動作速度 \| 17.20 t/s \|

	📹 [動作確認動画（YouTube Shorts）](https://youtube.com/shorts/yOPlH7qcpbA)

	> 注意：現時点でのスマートフォン動作はPC経由のケーブル転送が必要です。一般向けアプリとしての配布はまだ行っていません。iPhone向けはシミュレーター上での動作確認のみです。

	スマートフォン向け量子化版：[dahara1/Qwen3-0.6B-executorch-jp](https://huggingface.co/dahara1/Qwen3-0.6B-executorch-jp)

	---

	## 動かし方 / How to Run

	### llama.cpp を使った方法

	[llama.cpp](https://github.com/ggml-org/llama.cpp/releases) からお使いのハードウェア向けのパッケージをダウンロードしてください。
	[Ollama](https://github.com/ollama/ollama) や [LM Studio](https://github.com/lmstudio-ai/lms) など、ggufファイルに対応したツールでも動かすことができます。

	#### CLIで動かす（Linux/Mac）

	```bash
	./llama-cli -hf webbigdata/Qwen3-0.6B_WBD --ctx-size 4096 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.01 --repeat-penalty 1.05
	```

	#### llama-server で起動してブラウザからアクセスする

	```bash
	./llama-server -hf webbigdata/Qwen3-0.6B_WBD --host 0.0.0.0 --port 8080 --ctx-size 4096 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.01 --repeat-penalty 1.05
	```

	ブラウザで `http://127.0.0.1:8080/` を開いてください。

	#### Python スクリプトからアクセスする（OpenAI互換API）

	```python
	from openai import OpenAI

	client = OpenAI(
	base_url="http://localhost:8080/v1",
	api_key="dummy"
	)

	response = client.chat.completions.create(
	model="webbigdata/Qwen3-0.6B_WBD",
	messages=[
	{"role": "system", "content": "あなたは親切なアシスタントです。"},
	{"role": "user", "content": "こんにちは！"}
	],
	stream=True
	)
	for chunk in response:
	if chunk.choices[0].delta.content is not None:
	print(chunk.choices[0].delta.content, end="", flush=True)
	```

	### Qwen3 推奨パラメーター設定 / Recommended Parameters

	Qwen3はGreedy decoding（Temperature=0などの決定論的生成）を使用すると繰り返し生成などの不具合が起きやすいため、サンプリング（Temperature > 0）の使用を強く推奨します。

	\| パラメーター \| 推奨値 \|
	\|---\|---\|
	\| Temperature \| 0.7 \|
	\| Top_P \| 0.8 \|
	\| Top_K \| 20 \|
	\| Min_P \| 0.01 \|
	\| Repetition Penalty \| 1.05 \|

	---

	## 量子化バリアント / Quantized Variants

	\| バリアント \| 説明 \| リンク \|
	\|---\|---\|---\|
	\| executorch 4bit版 \| スマートフォン向け動作用 \| [dahara1/Qwen3-0.6B-executorch-jp](https://huggingface.co/dahara1/Qwen3-0.6B-executorch-jp) \|

	---

	## 学習データ / Training Data

	独自に収集・合成したプライベートデータセットを使用しています。
	Private datasets collected and created by webbigdata.

	---

	## 謝辞 / Acknowledgments

	- [Qwen/Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B) — ベースモデル
	- [Qwen/Qwen3-0.6B](https://huggingface.co/unsloth/Qwen3-0.6B) — プロンプトテンプレート
	- [llama.cpp](https://github.com/ggml-org/llama.cpp) — 推論エンジン
	- [wllama](https://github.com/ngxson/wllama) — WebAssembly
	- [Hugging Face](https://huggingface.co/) — モデルホスティング

	---

	## 開発者 / Developer

	- Developed by: dahara1@webbigdata
	- Model type: Text Generation (Causal LM)
	- Language(s): Japanese, English
	- Base Model: [Qwen/Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B)
	- Demo: [https://webbigdata.jp/slm/](https://webbigdata.jp/slm/)
	- X (Twitter): [https://x.com/webbigdata](https://x.com/webbigdata)
	- お問い合わせ / Contact: [https://webbigdata.jp/webbigdata/inquiry/](https://webbigdata.jp/webbigdata/inquiry/)

	```bibtex
	@misc{dahara2025Qwen3-0.6B_WBD,
	author = {dahara1@webbigdata},
	title = {Qwen3-0.6B_WBD - Japanese-Enhanced Continual Learning Model},
	year = {2026},
	howpublished = {\url{https://huggingface.co/webbigdata/Qwen3-0.6B_WBD}},
	abstract = {A lightweight Japanese-enhanced model based on Qwen3-0.6B, designed to run in browsers and on smartphones.},
	}
	```