| | --- |
| | language: |
| | - ja |
| | - en |
| | license: apache-2.0 |
| | base_model: Qwen/Qwen3-0.6B |
| | tags: |
| | - japanese |
| | - continual-learning |
| | - sft |
| | - rl |
| | - quantized |
| | - llama.cpp |
| | - browser |
| | - on-device |
| | pipeline_tag: text-generation |
| | --- |
| | |
| |  |
| |
|
| | # webbigdata/Qwen3-0.6B_WBD |
| | |
| | Qwen3-0.6Bに継続学習を行い、日本語能力・推論能力・日常会話能力を強化した軽量日本語モデルです。 |
| | **ブラウザ上での完全動作** スマートフォン、エッジデバイスでの動作を主な目標として開発されました。 |
| | A lightweight Japanese-enhanced model based on Qwen3-0.6B with improved Japanese language ability, reasoning, and conversational capability. |
| | Designed primarily to **run completely in-browser** and on smartphones, and edge devices. |
| | |
| | --- |
| | |
| | ## ニュース / News |
| | |
| | - **ブラウザデモ公開** インストール不要・サーバー不要でブラウザ上で完全動作するデモを公開 → **[webbigdata SLM Demo](https://webbigdata.jp/slm/)** |
| | - **スマートフォン動作確認済み** 2020年発売のAQUOS sense4 basic(Snapdragon 720G / RAM 3GB)で **17.20 t/s** の動作を確認 → [動作動画](https://youtube.com/shorts/yOPlH7qcpbA) |
| | - **スマートフォン向け量子化版公開** executorchを使った4bit量子化版を公開 → [dahara1/Qwen3-0.6B-executorch-jp](https://huggingface.co/dahara1/Qwen3-0.6B-executorch-jp) |
| | |
| | --- |
| | |
| | ## モデル概要 / Model Overview |
| | |
| | | 項目 | 内容 | |
| | |---|---| |
| | | ベースモデル / Base Model | [Qwen/Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B) | |
| | | パラメータ数 / Parameters | 約6億 (0.6B) | |
| | | ライセンス / License | Apache 2.0 | |
| | | 対応言語 / Languages | 日本語・英語 (Japanese / English) | |
| | | 学習手法 / Training | SFT、RL、8bit量子化 | |
| | | 開発者 / Developer | dahara1@webbigdata | |
| | |
| | --- |
| | |
| | ## ブラウザデモ / Browser Demo |
| | |
| | インストール不要・サーバー不要。ブラウザで今すぐ試せます。 |
| | No installation, no server required. Try it directly in your browser. |
| | |
| | 👉 **[https://webbigdata.jp/slm/](https://webbigdata.jp/slm/)** |
| | |
| |  |
| | |
| | > WASM + llama.cpp による完全クライアントサイド動作。パラメータ数0.6B(8ビット量子化)610MBのモデルがブラウザ上で推論します。 |
| | > Fully client-side inference via WASM + llama.cpp. A 610MB (8-bit quantized, 0.6B parameter) model runs entirely in-browser. |
| | |
| | --- |
| | |
| | ## 特徴 / Features |
| | |
| | - **日本語能力の底上げ**:独自データによる継続学習により、日本語の語彙・知識・表現力を強化 |
| | - **推論能力の強化**:強化学習(RL)をにより、論理的な推論能力を向上 |
| | - **日本語日常会話能力の強化**:自然な日本語会話を目指した学習を実施 |
| | ※ 0.6Bモデルの性質上、複数ターンに及ぶ長い会話には限界があります |
| | - **ブラウザ完全動作**:WASM + llama.cppによりサーバー不要でブラウザ上で動作 |
| | - **スマートフォン動作確認済み**:executorchにより2020年発売の廉価端末(Snapdragon 720G / RAM 3GB)で17.20 t/s を確認 |
| | |
| | --- |
| | |
| | ## ベンチマーク結果 / Benchmark Results |
| | |
| | ### 日本語ベンチマーク / Japanese Benchmarks |
| | |
| | | Model | JCommonsenseQA | JNLI | JSTS | JSQuAD | Average | |
| | |---|---|---|---|---|---| |
| | | Qwen3-0.6B-Q8_0(ベースライン)| 62.40% | 32.20% | 17.20% | 76.00% | 46.95% | |
| | | **Qwen3-0.6B_WBD(本モデル)** | 59.60% | **72.60%** | **35.60%** | **82.00%** | **62.45%** | |
| | |
| | 継続学習により平均スコアが **46.95% → 62.45%(+15.5pt)** に向上しました。特にJNLI(自然言語推論)は +40.4pt と大幅に改善しています。 |
| | |
| | JCommonsenseQAのわずかな低下は、知識・語彙が増えた結果、微妙なニュアンスで迷いが生じるケースが増えたためです。 |
| | |
| | ### 他モデルとの比較について / Comparison with Other Models |
| | |
| | NTTのtsuzumi(0.6B)など同サイズ帯の日本語特化モデルも存在しますが、JCommonsenseQA・JNLI・JSTS・JSQuADの具体的な数値を公開しているモデルは少なく、現時点で同一ベンチマークでの直接比較はできていません。本モデルは再現可能な評価条件を公開しています。 |
| | |
| | ### M-IFEval(日本語命令追従能力) |
| | |
| | | Model | prompt-level (strict) | instruction-level (strict) | |
| | |---|---|---| |
| | | Qwen3-0.6B-Q8_0 | 0.366 | 0.420 | |
| | | **Qwen3-0.6B_WBD** | 0.238 | 0.314 | |
| | |
| | M-IFEVALの低下について:評価セットには「英語以外の言語への翻訳」など日本語特化学習と相性の悪いタスクが混在しています。 |
| | 日本語固有タスク(キーワード存在確認・文字数制約・numbered listなど)では競争力のある性能を示しています。 |
| | |
| | --- |
| | |
| | ## スマートフォン動作 / Smartphone Performance |
| | |
| | executorchを使った4bit量子化版により、スマートフォン上での動作を実現しています。 |
| | |
| | **動作確認端末:** |
| | |
| | | 項目 | 内容 | |
| | |---|---| |
| | | 機種 | AQUOS sense4 basic A003SH | |
| | | 発売日 | 2020年11月19日(5年前の廉価スマートフォン)| |
| | | OS | Android 12 | |
| | | SoC | Qualcomm Snapdragon 720G(オクタコア)| |
| | | RAM | 3GB | |
| | | **動作速度** | **17.20 t/s** | |
| | |
| | 📹 [動作確認動画(YouTube Shorts)](https://youtube.com/shorts/yOPlH7qcpbA) |
| | |
| | > **注意:** 現時点でのスマートフォン動作はPC経由のケーブル転送が必要です。一般向けアプリとしての配布はまだ行っていません。iPhone向けはシミュレーター上での動作確認のみです。 |
| | |
| | スマートフォン向け量子化版:[dahara1/Qwen3-0.6B-executorch-jp](https://huggingface.co/dahara1/Qwen3-0.6B-executorch-jp) |
| | |
| | --- |
| | |
| | ## 動かし方 / How to Run |
| | |
| | ### llama.cpp を使った方法 |
| | |
| | [llama.cpp](https://github.com/ggml-org/llama.cpp/releases) からお使いのハードウェア向けのパッケージをダウンロードしてください。 |
| | [Ollama](https://github.com/ollama/ollama) や [LM Studio](https://github.com/lmstudio-ai/lms) など、ggufファイルに対応したツールでも動かすことができます。 |
| | |
| | #### CLIで動かす(Linux/Mac) |
| | |
| | ```bash |
| | ./llama-cli -hf webbigdata/Qwen3-0.6B_WBD --ctx-size 4096 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.01 --repeat-penalty 1.05 |
| | ``` |
| | |
| | #### llama-server で起動してブラウザからアクセスする |
| | |
| | ```bash |
| | ./llama-server -hf webbigdata/Qwen3-0.6B_WBD --host 0.0.0.0 --port 8080 --ctx-size 4096 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.01 --repeat-penalty 1.05 |
| | ``` |
| | |
| | ブラウザで `http://127.0.0.1:8080/` を開いてください。 |
| | |
| | #### Python スクリプトからアクセスする(OpenAI互換API) |
| | |
| | ```python |
| | from openai import OpenAI |
| | |
| | client = OpenAI( |
| | base_url="http://localhost:8080/v1", |
| | api_key="dummy" |
| | ) |
| | |
| | response = client.chat.completions.create( |
| | model="webbigdata/Qwen3-0.6B_WBD", |
| | messages=[ |
| | {"role": "system", "content": "あなたは親切なアシスタントです。"}, |
| | {"role": "user", "content": "こんにちは!"} |
| | ], |
| | stream=True |
| | ) |
| | for chunk in response: |
| | if chunk.choices[0].delta.content is not None: |
| | print(chunk.choices[0].delta.content, end="", flush=True) |
| | ``` |
| | |
| | ### Qwen3 推奨パラメーター設定 / Recommended Parameters |
| |
|
| | Qwen3はGreedy decoding(Temperature=0などの決定論的生成)を使用すると繰り返し生成などの不具合が起きやすいため、サンプリング(Temperature > 0)の使用を強く推奨します。 |
| |
|
| | | パラメーター | 推奨値 | |
| | |---|---| |
| | | Temperature | 0.7 | |
| | | Top_P | 0.8 | |
| | | Top_K | 20 | |
| | | Min_P | 0.01 | |
| | | Repetition Penalty | 1.05 | |
| | |
| | --- |
| | |
| | ## 量子化バリアント / Quantized Variants |
| | |
| | | バリアント | 説明 | リンク | |
| | |---|---|---| |
| | | executorch 4bit版 | スマートフォン向け動作用 | [dahara1/Qwen3-0.6B-executorch-jp](https://huggingface.co/dahara1/Qwen3-0.6B-executorch-jp) | |
| | |
| | --- |
| | |
| | ## 学習データ / Training Data |
| | |
| | 独自に収集・合成したプライベートデータセットを使用しています。 |
| | Private datasets collected and created by webbigdata. |
| | |
| | --- |
| | |
| | ## 謝辞 / Acknowledgments |
| | |
| | - [Qwen/Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B) — ベースモデル |
| | - [Qwen/Qwen3-0.6B](https://huggingface.co/unsloth/Qwen3-0.6B) — プロンプトテンプレート |
| | - [llama.cpp](https://github.com/ggml-org/llama.cpp) — 推論エンジン |
| | - [wllama](https://github.com/ngxson/wllama) — WebAssembly |
| | - [Hugging Face](https://huggingface.co/) — モデルホスティング |
| | |
| | --- |
| | |
| | ## 開発者 / Developer |
| | |
| | - **Developed by:** dahara1@webbigdata |
| | - **Model type:** Text Generation (Causal LM) |
| | - **Language(s):** Japanese, English |
| | - **Base Model:** [Qwen/Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B) |
| | - **Demo:** [https://webbigdata.jp/slm/](https://webbigdata.jp/slm/) |
| | - **X (Twitter):** [https://x.com/webbigdata](https://x.com/webbigdata) |
| | - **お問い合わせ / Contact:** [https://webbigdata.jp/webbigdata/inquiry/](https://webbigdata.jp/webbigdata/inquiry/) |
| | |
| | ```bibtex |
| | @misc{dahara2025Qwen3-0.6B_WBD, |
| | author = {dahara1@webbigdata}, |
| | title = {Qwen3-0.6B_WBD - Japanese-Enhanced Continual Learning Model}, |
| | year = {2026}, |
| | howpublished = {\url{https://huggingface.co/webbigdata/Qwen3-0.6B_WBD}}, |
| | abstract = {A lightweight Japanese-enhanced model based on Qwen3-0.6B, designed to run in browsers and on smartphones.}, |
| | } |
| | ``` |