Update README.md
Browse files
README.md
CHANGED
|
@@ -7,13 +7,13 @@ base_model:
|
|
| 7 |
|
| 8 |
# VoiceCore GGUF - 次世代 日本語Voice AI Agent用モデル(量子化版)
|
| 9 |
|
| 10 |
-
|
| 11 |
-
Mac環境や低スペックPCでも手軽に動作させることができるように最適化されています。
|
| 12 |
|
| 13 |
## GGUFとは?
|
| 14 |
|
| 15 |
GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
|
| 16 |
-
元々はllama.cppというNvidiaのGPUがない環境でもCPUでLLM
|
| 17 |
|
| 18 |
### 主な特徴
|
| 19 |
- **軽量化**: モデルサイズを大幅に削減(元の50%以下に)
|
|
@@ -36,8 +36,10 @@ GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的
|
|
| 36 |
| VoiceCore-BF16.gguf | 6.61 GB | 最高品質、元モデルと同等の精度 | 高品質が必要な場合 |
|
| 37 |
| VoiceCore-Q4_K-f16.gguf | 2.66 GB | バランス型、実用的な精度 | 通常使用(要注意) |
|
| 38 |
|
| 39 |
-
⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)
|
| 40 |
-
|
|
|
|
|
|
|
| 41 |
|
| 42 |
## システム概要
|
| 43 |
|
|
@@ -100,7 +102,7 @@ make LLAMA_METAL=1
|
|
| 100 |
|
| 101 |
```bash
|
| 102 |
# 基本的な起動方法
|
| 103 |
-
|
| 104 |
-m path/to/VoiceCore-BF16.gguf \
|
| 105 |
--prio 3 \
|
| 106 |
-c 2048 \
|
|
@@ -113,7 +115,7 @@ make LLAMA_METAL=1
|
|
| 113 |
--host 0.0.0.0 \
|
| 114 |
--no-webui
|
| 115 |
nblはgpu環境でgpuメモリに収まる範囲で指定
|
| 116 |
-
fa
|
| 117 |
|
| 118 |
# Macでメタル(GPU)を使用する場合
|
| 119 |
./llama-server \
|
|
@@ -242,7 +244,7 @@ if __name__ == "__main__":
|
|
| 242 |
- Docker風のシンプルなインターフェース
|
| 243 |
- 自動的な量子化対応
|
| 244 |
|
| 245 |
-
**注意:** 現時点でOllama
|
| 246 |
|
| 247 |
### LM Studio
|
| 248 |
[LM Studio](https://lmstudio.ai/)は、GUIベースでLLMを実行できるツールです。
|
|
@@ -258,7 +260,7 @@ if __name__ == "__main__":
|
|
| 258 |
3. 設定でコンテキストサイズを2048に設定
|
| 259 |
4. APIサーバーモードで起動
|
| 260 |
|
| 261 |
-
**注意:** 現時点でLM Studio
|
| 262 |
|
| 263 |
### llama.cpp Python バインディング
|
| 264 |
```bash
|
|
@@ -273,23 +275,18 @@ Pythonから直接モデルを使用できます。詳細は[公式ドキュメ
|
|
| 273 |
|
| 274 |
1. **音声生成に失敗する**
|
| 275 |
- Q4_K量子化版を使用している場合は、BF16版に切り替えてください
|
| 276 |
-
-
|
| 277 |
|
| 278 |
2. **サーバーが起動しない**
|
| 279 |
- ポート8080が使用中でないか確認してください
|
| 280 |
- モデルファ���ルのパスが正しいか確認してください
|
| 281 |
|
| 282 |
3. **生成速度が遅い**
|
| 283 |
-
- CPU環境での推論実行は時間がかかります。[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のサンプルColabスクリプトの利用も検討してください
|
| 284 |
- GPU(Metal)を有効にしているか確認してください
|
| 285 |
- `-ngl`パラメータを調整してください
|
| 286 |
|
| 287 |
## ライセンス
|
| 288 |
|
| 289 |
- モデル: [LLAMA 3.2 COMMUNITY LICENSE](https://huggingface.co/meta-llama/Llama-3.2-1B/blob/main/LICENSE.txt)または[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)
|
| 290 |
-
- 音声データ:
|
| 291 |
-
|
| 292 |
-
## 謝辞
|
| 293 |
-
|
| 294 |
-
- オリジナルモデル: [webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)
|
| 295 |
-
- ベースモデル: [canopylabs/orpheus-tts](https://huggingface.co/collections/canopylabs/orpheus-tts-67d9ea3f6c05a941c06ad9d2)
|
|
|
|
| 7 |
|
| 8 |
# VoiceCore GGUF - 次世代 日本語Voice AI Agent用モデル(量子化版)
|
| 9 |
|
| 10 |
+
[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)はAIが自然な日本語を発声可能にする商用利用可能なVoice AI Agentモデルです。
|
| 11 |
+
本リポジトリはVoiceCoreのGGUF(量子化)版です。Mac環境や低スペックPCでも手軽に動作させることができるように最適化されています。
|
| 12 |
|
| 13 |
## GGUFとは?
|
| 14 |
|
| 15 |
GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
|
| 16 |
+
元々はllama.cppというNvidiaのGPUがない環境でもCPUでLLMを動かすための純粋なC++プログラムとして開発がスタートしましたが、移植性が高く、Macやスマートフォン、GPU環境にも移植されています。
|
| 17 |
|
| 18 |
### 主な特徴
|
| 19 |
- **軽量化**: モデルサイズを大幅に削減(元の50%以下に)
|
|
|
|
| 36 |
| VoiceCore-BF16.gguf | 6.61 GB | 最高品質、元モデルと同等の精度 | 高品質が必要な場合 |
|
| 37 |
| VoiceCore-Q4_K-f16.gguf | 2.66 GB | バランス型、実用的な精度 | 通常使用(要注意) |
|
| 38 |
|
| 39 |
+
⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)がある事がわかっています。
|
| 40 |
+
自作ggufに挑戦する場合は、音声品質や文字誤り率だけでなく発生失敗率も観測する事を使用を推奨します。
|
| 41 |
+
|
| 42 |
+
量子化手順を更に改善した結果、現在のVoiceCore-Q4_K-f16.ggufはVoiceCore-BF16.ggufより音声品質や文字誤り率が向上しているという評価が内製ベンチマークで示されており、この結果については判断が保留されています。
|
| 43 |
|
| 44 |
## システム概要
|
| 45 |
|
|
|
|
| 102 |
|
| 103 |
```bash
|
| 104 |
# 基本的な起動方法
|
| 105 |
+
./llama-server \
|
| 106 |
-m path/to/VoiceCore-BF16.gguf \
|
| 107 |
--prio 3 \
|
| 108 |
-c 2048 \
|
|
|
|
| 115 |
--host 0.0.0.0 \
|
| 116 |
--no-webui
|
| 117 |
nblはgpu環境でgpuメモリに収まる範囲で指定
|
| 118 |
+
faはフラッシュアテンション有りでコンパイルした時に指定
|
| 119 |
|
| 120 |
# Macでメタル(GPU)を使用する場合
|
| 121 |
./llama-server \
|
|
|
|
| 244 |
- Docker風のシンプルなインターフェース
|
| 245 |
- 自動的な量子化対応
|
| 246 |
|
| 247 |
+
**注意:** 現時点でOllama動作は未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
|
| 248 |
|
| 249 |
### LM Studio
|
| 250 |
[LM Studio](https://lmstudio.ai/)は、GUIベースでLLMを実行できるツールです。
|
|
|
|
| 260 |
3. 設定でコンテキストサイズを2048に設定
|
| 261 |
4. APIサーバーモードで起動
|
| 262 |
|
| 263 |
+
**注意:** 現時点でLM Studio動作は未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
|
| 264 |
|
| 265 |
### llama.cpp Python バインディング
|
| 266 |
```bash
|
|
|
|
| 275 |
|
| 276 |
1. **音声生成に失敗する**
|
| 277 |
- Q4_K量子化版を使用している場合は、BF16版に切り替えてください
|
| 278 |
+
- メモリ不足の場合は、コンテキストサイズ(-c)を小さくしてください
|
| 279 |
|
| 280 |
2. **サーバーが起動しない**
|
| 281 |
- ポート8080が使用中でないか確認してください
|
| 282 |
- モデルファ���ルのパスが正しいか確認してください
|
| 283 |
|
| 284 |
3. **生成速度が遅い**
|
| 285 |
+
- CPU環境での推論実行は時間がかかります。Colabは無料でGPUが利用可能なので[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のサンプルColabスクリプトの利用も検討してください
|
| 286 |
- GPU(Metal)を有効にしているか確認してください
|
| 287 |
- `-ngl`パラメータを調整してください
|
| 288 |
|
| 289 |
## ライセンス
|
| 290 |
|
| 291 |
- モデル: [LLAMA 3.2 COMMUNITY LICENSE](https://huggingface.co/meta-llama/Llama-3.2-1B/blob/main/LICENSE.txt)または[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)
|
| 292 |
+
- 音声データ: 各音声提供者様のライセンスに従ってください([元モデルのライセンス情報](https://huggingface.co/webbigdata/VoiceCore#ディフォルト利用可能な音声の提供元とそのライセンス-default-voice-providers-and-their-licenses)を参照)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|