dahara1 commited on
Commit
250903b
·
verified ·
1 Parent(s): 38b943d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +14 -17
README.md CHANGED
@@ -7,13 +7,13 @@ base_model:
7
 
8
  # VoiceCore GGUF - 次世代 日本語Voice AI Agent用モデル(量子化版)
9
 
10
- これは[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のGGUF(量子化)版です。
11
- Mac環境や低スペックPCでも手軽に動作させることができるように最適化されています。
12
 
13
  ## GGUFとは?
14
 
15
  GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
16
- 元々はllama.cppというNvidiaのGPUがない環境でもCPUでLLMを動かすため純粋なC++プログラムとして開発がスタートしましたが、移植性が高いため、Macやスマートフォン、GPU環境にも移植されています。
17
 
18
  ### 主な特徴
19
  - **軽量化**: モデルサイズを大幅に削減(元の50%以下に)
@@ -36,8 +36,10 @@ GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的
36
  | VoiceCore-BF16.gguf | 6.61 GB | 最高品質、元モデルと同等の精度 | 高品質が必要な場合 |
37
  | VoiceCore-Q4_K-f16.gguf | 2.66 GB | バランス型、実用的な精度 | 通常使用(要注意) |
38
 
39
- ⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)がわかっています。
40
- 安定性を重視する場合はBF16版、もしくはオリジナルのTransformers版の使用を推奨します。
 
 
41
 
42
  ## システム概要
43
 
@@ -100,7 +102,7 @@ make LLAMA_METAL=1
100
 
101
  ```bash
102
  # 基本的な起動方法
103
- .//llama-server \
104
  -m path/to/VoiceCore-BF16.gguf \
105
  --prio 3 \
106
  -c 2048 \
@@ -113,7 +115,7 @@ make LLAMA_METAL=1
113
  --host 0.0.0.0 \
114
  --no-webui
115
  nblはgpu環境でgpuメモリに収まる範囲で指定
116
- faはフラッシュアテンション有りでコンパイルした時のみ利用
117
 
118
  # Macでメタル(GPU)を使用する場合
119
  ./llama-server \
@@ -242,7 +244,7 @@ if __name__ == "__main__":
242
  - Docker風のシンプルなインターフェース
243
  - 自動的な量子化対応
244
 
245
- **注意:** 現時点でOllamaは未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
246
 
247
  ### LM Studio
248
  [LM Studio](https://lmstudio.ai/)は、GUIベースでLLMを実行できるツールです。
@@ -258,7 +260,7 @@ if __name__ == "__main__":
258
  3. 設定でコンテキストサイズを2048に設定
259
  4. APIサーバーモードで起動
260
 
261
- **注意:** 現時点でLM Studioは未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
262
 
263
  ### llama.cpp Python バインディング
264
  ```bash
@@ -273,23 +275,18 @@ Pythonから直接モデルを使用できます。詳細は[公式ドキュメ
273
 
274
  1. **音声生成に失敗する**
275
  - Q4_K量子化版を使用している場合は、BF16版に切り替えてください
276
- - メモリ不足の場合は、コンテキストサイズを小さくしてください
277
 
278
  2. **サーバーが起動しない**
279
  - ポート8080が使用中でないか確認してください
280
  - モデルファ���ルのパスが正しいか確認してください
281
 
282
  3. **生成速度が遅い**
283
- - CPU環境での推論実行は時間がかかります。[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のサンプルColabスクリプトの利用も検討してください
284
  - GPU(Metal)を有効にしているか確認してください
285
  - `-ngl`パラメータを調整してください
286
 
287
  ## ライセンス
288
 
289
  - モデル: [LLAMA 3.2 COMMUNITY LICENSE](https://huggingface.co/meta-llama/Llama-3.2-1B/blob/main/LICENSE.txt)または[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)
290
- - 音声データ: 各音声提供者のライセンスに従ってください([元モデルのライセンス情報](https://huggingface.co/webbigdata/VoiceCore#ディフォルト利用可能な音声の提供元とそのライセンス-default-voice-providers-and-their-licenses)を参照)
291
-
292
- ## 謝辞
293
-
294
- - オリジナルモデル: [webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)
295
- - ベースモデル: [canopylabs/orpheus-tts](https://huggingface.co/collections/canopylabs/orpheus-tts-67d9ea3f6c05a941c06ad9d2)
 
7
 
8
  # VoiceCore GGUF - 次世代 日本語Voice AI Agent用モデル(量子化版)
9
 
10
+ [webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)はAIが自然な日本語を発声可能にする商用利用可能なVoice AI Agentモデルです。
11
+ 本リポジトリはVoiceCoreのGGUF(量子化)版です。Mac環境や低スペックPCでも手軽に動作させることができるように最適化されています。
12
 
13
  ## GGUFとは?
14
 
15
  GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
16
+ 元々はllama.cppというNvidiaのGPUがない環境でもCPUでLLMを動かすための純粋なC++プログラムとして開発がスタートしましたが、移植性が高く、Macやスマートフォン、GPU環境にも移植されています。
17
 
18
  ### 主な特徴
19
  - **軽量化**: モデルサイズを大幅に削減(元の50%以下に)
 
36
  | VoiceCore-BF16.gguf | 6.61 GB | 最高品質、元モデルと同等の精度 | 高品質が必要な場合 |
37
  | VoiceCore-Q4_K-f16.gguf | 2.66 GB | バランス型、実用的な精度 | 通常使用(要注意) |
38
 
39
+ ⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)がある事がわかっています。
40
+ 自作ggufに挑戦する場合は、音声品質や文字誤り率だけでなく発生失敗率も観測する事を使用を推奨します。
41
+
42
+ 量子化手順を更に改善した結果、現在のVoiceCore-Q4_K-f16.ggufはVoiceCore-BF16.ggufより音声品質や文字誤り率が向上しているという評価が内製ベンチマークで示されており、この結果については判断が保留されています。
43
 
44
  ## システム概要
45
 
 
102
 
103
  ```bash
104
  # 基本的な起動方法
105
+ ./llama-server \
106
  -m path/to/VoiceCore-BF16.gguf \
107
  --prio 3 \
108
  -c 2048 \
 
115
  --host 0.0.0.0 \
116
  --no-webui
117
  nblはgpu環境でgpuメモリに収まる範囲で指定
118
+ faはフラッシュアテンション有りでコンパイルした時に指定
119
 
120
  # Macでメタル(GPU)を使用する場合
121
  ./llama-server \
 
244
  - Docker風のシンプルなインターフェース
245
  - 自動的な量子化対応
246
 
247
+ **注意:** 現時点でOllama動作は未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
248
 
249
  ### LM Studio
250
  [LM Studio](https://lmstudio.ai/)は、GUIベースでLLMを実行できるツールです。
 
260
  3. 設定でコンテキストサイズを2048に設定
261
  4. APIサーバーモードで起動
262
 
263
+ **注意:** 現時点でLM Studio動作は未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
264
 
265
  ### llama.cpp Python バインディング
266
  ```bash
 
275
 
276
  1. **音声生成に失敗する**
277
  - Q4_K量子化版を使用している場合は、BF16版に切り替えてください
278
+ - メモリ不足の場合は、コンテキストサイズ(-c)を小さくしてください
279
 
280
  2. **サーバーが起動しない**
281
  - ポート8080が使用中でないか確認してください
282
  - モデルファ���ルのパスが正しいか確認してください
283
 
284
  3. **生成速度が遅い**
285
+ - CPU環境での推論実行は時間がかかります。Colabは無料でGPUが利用可能なので[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のサンプルColabスクリプトの利用も検討してください
286
  - GPU(Metal)を有効にしているか確認してください
287
  - `-ngl`パラメータを調整してください
288
 
289
  ## ライセンス
290
 
291
  - モデル: [LLAMA 3.2 COMMUNITY LICENSE](https://huggingface.co/meta-llama/Llama-3.2-1B/blob/main/LICENSE.txt)または[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)
292
+ - 音声データ: 各音声提供者様のライセンスに従ってください([元モデルのライセンス情報](https://huggingface.co/webbigdata/VoiceCore#ディフォルト利用可能な音声の提供元とそのライセンス-default-voice-providers-and-their-licenses)を参照)