webbigdata
/

VoiceCore_gguf

GGUF

Japanese

conversational

Model card Files Files and versions

xet

Community

dahara1 commited on Jul 20, 2025

Commit

250903b

verified ·

1 Parent(s): 38b943d

Update README.md

Browse files

Files changed (1) hide show

README.md +14 -17

README.md CHANGED Viewed

@@ -7,13 +7,13 @@ base_model:
 # VoiceCore GGUF - 次世代 日本語Voice AI Agent用モデル（量子化版）
-これは[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のGGUF（量子化）版です。
-Mac環境や低スペックPCでも手軽に動作させることができるように最適化されています。
 ## GGUFとは？
 GGUF（GPT-Generated Unified Format）は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
-元々はllama.cppというNvidiaのGPUがない環境でもCPUでLLMを動かすため純粋なC++プログラムとして開発がスタートしましたが、移植性が高いため、Macやスマートフォン、GPU環境にも移植されています。
 ### 主な特徴
 - **軽量化**: モデルサイズを大幅に削減（元の50%以下に）
@@ -36,8 +36,10 @@ GGUF（GPT-Generated Unified Format）は、大規模言語モデルを効率的
 | VoiceCore-BF16.gguf | 6.61 GB | 最高品質、元モデルと同等の精度 | 高品質が必要な場合 |
 | VoiceCore-Q4_K-f16.gguf | 2.66 GB | バランス型、実用的な精度 | 通常使用（要注意） |
-⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)がわかっています。
-安定性を重視する場合はBF16版、もしくはオリジナルのTransformers版の使用を推奨します。
 ## システム概要
@@ -100,7 +102,7 @@ make LLAMA_METAL=1
 ```bash
 # 基本的な起動方法
-.//llama-server \
   -m path/to/VoiceCore-BF16.gguf \
   --prio 3 \
   -c 2048 \
@@ -113,7 +115,7 @@ make LLAMA_METAL=1
   --host 0.0.0.0 \
   --no-webui
 nblはgpu環境でgpuメモリに収まる範囲で指定
-faはフラッシュアテンション有りでコンパイルした時のみ利用
 # Macでメタル（GPU）を使用する場合
 ./llama-server \
@@ -242,7 +244,7 @@ if __name__ == "__main__":
 - Docker風のシンプルなインターフェース
 - 自動的な量子化対応
-**注意:** 現時点でOllamaは未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
 ### LM Studio
 [LM Studio](https://lmstudio.ai/)は、GUIベースでLLMを実行できるツールです。
@@ -258,7 +260,7 @@ if __name__ == "__main__":
 3. 設定でコンテキストサイズを2048に設定
 4. APIサーバーモードで起動
-**注意:** 現時点でLM Studioは未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
 ### llama.cpp Python バインディング
 ```bash
@@ -273,23 +275,18 @@ Pythonから直接モデルを使用できます。詳細は[公式ドキュメ
 1. **音声生成に失敗する**
    - Q4_K量子化版を使用している場合は、BF16版に切り替えてください
-   - メモリ不足の場合は、コンテキストサイズを小さくしてください
 2. **サーバーが起動しない**
    - ポート8080が使用中でないか確認してください
    - モデルファ���ルのパスが正しいか確認してください
 3. **生成速度が遅い**
-   - CPU環境での推論実行は時間がかかります。[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のサンプルColabスクリプトの利用も検討してください
    - GPU（Metal）を有効にしているか確認してください
    - `-ngl`パラメータを調整してください
 ## ライセンス
 - モデル: [LLAMA 3.2 COMMUNITY LICENSE](https://huggingface.co/meta-llama/Llama-3.2-1B/blob/main/LICENSE.txt)または[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)
-- 音声データ: 各音声提供者のライセンスに従ってください（[元モデルのライセンス情報](https://huggingface.co/webbigdata/VoiceCore#ディフォルト利用可能な音声の提供元とそのライセンス-default-voice-providers-and-their-licenses)を参照）
-## 謝辞
-- オリジナルモデル: [webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)
-- ベースモデル: [canopylabs/orpheus-tts](https://huggingface.co/collections/canopylabs/orpheus-tts-67d9ea3f6c05a941c06ad9d2)

 # VoiceCore GGUF - 次世代 日本語Voice AI Agent用モデル（量子化版）
+[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)はAIが自然な日本語を発声可能にする商用利用可能なVoice AI Agentモデルです。
+本リポジトリはVoiceCoreのGGUF（量子化）版です。Mac環境や低スペックPCでも手軽に動作させることができるように最適化されています。
 ## GGUFとは？
 GGUF（GPT-Generated Unified Format）は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
+元々はllama.cppというNvidiaのGPUがない環境でもCPUでLLMを動かすための純粋なC++プログラムとして開発がスタートしましたが、移植性が高く、Macやスマートフォン、GPU環境にも移植されています。
 ### 主な特徴
 - **軽量化**: モデルサイズを大幅に削減（元の50%以下に）
 | VoiceCore-BF16.gguf | 6.61 GB | 最高品質、元モデルと同等の精度 | 高品質が必要な場合 |
 | VoiceCore-Q4_K-f16.gguf | 2.66 GB | バランス型、実用的な精度 | 通常使用（要注意） |
+⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)がある事がわかっています。
+自作ggufに挑戦する場合は、音声品質や文字誤り率だけでなく発生失敗率も観測する事を使用を推奨します。
+量子化手順を更に改善した結果、現在のVoiceCore-Q4_K-f16.ggufはVoiceCore-BF16.ggufより音声品質や文字誤り率が向上しているという評価が内製ベンチマークで示されており、この結果については判断が保留されています。
 ## システム概要
 ```bash
 # 基本的な起動方法
+./llama-server \
   -m path/to/VoiceCore-BF16.gguf \
   --prio 3 \
   -c 2048 \
   --host 0.0.0.0 \
   --no-webui
 nblはgpu環境でgpuメモリに収まる範囲で指定
+faはフラッシュアテンション有りでコンパイルした時に指定
 # Macでメタル（GPU）を使用する場合
 ./llama-server \
 - Docker風のシンプルなインターフェース
 - 自動的な量子化対応
+**注意:** 現時点でOllama動作は未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
 ### LM Studio
 [LM Studio](https://lmstudio.ai/)は、GUIベースでLLMを実行できるツールです。
 3. 設定でコンテキストサイズを2048に設定
 4. APIサーバーモードで起動
+**注意:** 現時点でLM Studio動作は未チェックです。カスタムトークナイザーで問題が発生する可能性があります。
 ### llama.cpp Python バインディング
 ```bash
 1. **音声生成に失敗する**
    - Q4_K量子化版を使用している場合は、BF16版に切り替えてください
+   - メモリ不足の場合は、コンテキストサイズ(-c)を小さくしてください
 2. **サーバーが起動しない**
    - ポート8080が使用中でないか確認してください
    - モデルファ���ルのパスが正しいか確認してください
 3. **生成速度が遅い**
+   - CPU環境での推論実行は時間がかかります。Colabは無料でGPUが利用可能なので[webbigdata/VoiceCore](https://huggingface.co/webbigdata/VoiceCore)のサンプルColabスクリプトの利用も検討してください
    - GPU（Metal）を有効にしているか確認してください
    - `-ngl`パラメータを調整してください
 ## ライセンス
 - モデル: [LLAMA 3.2 COMMUNITY LICENSE](https://huggingface.co/meta-llama/Llama-3.2-1B/blob/main/LICENSE.txt)または[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)
+- 音声データ: 各音声提供者様のライセンスに従ってください（[元モデルのライセンス情報](https://huggingface.co/webbigdata/VoiceCore#ディフォルト利用可能な音声の提供元とそのライセンス-default-voice-providers-and-their-licenses)を参照）