dahara1 commited on
Commit
63318a7
·
verified ·
1 Parent(s): 250903b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +6 -4
README.md CHANGED
@@ -13,7 +13,7 @@ base_model:
13
  ## GGUFとは?
14
 
15
  GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
16
- 元々はllama.cppというNvidiaのGPUがない環境でもCPUでLLMを動かすための純粋なC++プログラムとして開発がスタートしましたが、移植性が高く、Macやスマートフォン、GPU環境にも移植されています。
17
 
18
  ### 主な特徴
19
  - **軽量化**: モデルサイズを大幅に削減(元の50%以下に)
@@ -39,7 +39,7 @@ GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的
39
  ⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)がある事がわかっています。
40
  自作ggufに挑戦する場合は、音声品質や文字誤り率だけでなく発生失敗率も観測する事を使用を推奨します。
41
 
42
- 量子化手順を更に改善した結果、現在のVoiceCore-Q4_K-f16.ggufはVoiceCore-BF16.ggufより音声品質や文字誤り率が向上しているという評価が内製ベンチマークで示されており、この結果については判断が保留されています。
43
 
44
  ## システム概要
45
 
@@ -114,7 +114,7 @@ make LLAMA_METAL=1
114
  --port 8080 \
115
  --host 0.0.0.0 \
116
  --no-webui
117
- nblはgpu環境でgpuメモリに収まる範囲で指定
118
  faはフラッシュアテンション有りでコンパイルした時に指定
119
 
120
  # Macでメタル(GPU)を使用する場合
@@ -159,7 +159,9 @@ async def generate_voice(prompt, output_file="output.wav"):
159
  "prompt": prompt,
160
  "temperature": 0.8,
161
  "top_p": 0.95,
162
- "n_predict": 2048
 
 
163
  }
164
 
165
  collected_tokens = []
 
13
  ## GGUFとは?
14
 
15
  GGUF(GPT-Generated Unified Format)は、大規模言語モデルを効率的に配布・実行するためのファイルフォーマットです。
16
+ 元々は「NvidiaのGPUがない環境でもCPUでLLMを動かすための純粋なC++ツール」として開発がスタートしたllama.cppというプロジェクト用のフォーマットでしたが、移植性が高いため、Macやスマートフォン、GPU環境にも移植されています。
17
 
18
  ### 主な特徴
19
  - **軽量化**: モデルサイズを大幅に削減(元の50%以下に)
 
39
  ⚠️ **重要な注意事項**: VoiceCoreは量子化に敏感なモデルです。Q4_K-f16以下の量子化レベルでは[音声ファイルの作成に失敗するケース](https://huggingface.co/dahara1/orpheus-3b-0.1-ft_gguf)がある事がわかっています。
40
  自作ggufに挑戦する場合は、音声品質や文字誤り率だけでなく発生失敗率も観測する事を使用を推奨します。
41
 
42
+ 量子化手順を更に改善した結果、現在のVoiceCore-Q4_K-f16.ggufはVoiceCore-BF16.ggufより音声品質や文字誤り率が改善しているという評価が内製ベンチマークで示されており、これについてはオペレーションミスの可能性も踏まえて、判断が保留されています。
43
 
44
  ## システム概要
45
 
 
114
  --port 8080 \
115
  --host 0.0.0.0 \
116
  --no-webui
117
+ nglはgpu環境でgpuメモリに収まる範囲で指定
118
  faはフラッシュアテンション有りでコンパイルした時に指定
119
 
120
  # Macでメタル(GPU)を使用する場合
 
159
  "prompt": prompt,
160
  "temperature": 0.8,
161
  "top_p": 0.95,
162
+ "n_predict": 2048,
163
+ "repeat_penalty": 1.1,
164
+ "repeat_last_n": 70
165
  }
166
 
167
  collected_tokens = []