webbigdata
/

VoiceCore_gptq

@@ -139,3 +139,153 @@ for i, code_list in enumerate(code_lists):
     wavfile.write(filename, 24000, sample_np)
     print(f"Saved audio to: {filename}")
 ```

     wavfile.write(filename, 24000, sample_np)
     print(f"Saved audio to: {filename}")
 ```
+## Streaming sample
+### Sever side command
+```
+python3 -m vllm.entrypoints.openai.api_server --model VoiceCore_gptq --host 0.0.0.0 --port 8000 --max-model-len 9000python3 -m vllm.entrypoints.openai.api_server --model VoiceCore_gptq --host 0.0.0.0 --port 8000 --max-model-len 9000
+```
+### Client side scripyt
+```
+import torch
+from transformers import AutoTokenizer
+from snac import SNAC
+import requests
+import json
+import sounddevice as sd
+import numpy as np
+import queue
+import threading
+# --- サーバー設定とモデルの準備 (変更なし) ---
+SERVER_URL = "http://192.168.1.16:8000/v1/completions"
+TOKENIZER_PATH = "webbigdata/VoiceCore_gptq"
+MODEL_NAME = "VoiceCore_gptq"
+prompts = [
+     "テストです",
+     "ジーピーティーキュー、問題なく動いてますかね？圧縮しすぎると別人の声になっちゃう事があるんですよね、ふふふ"
+]
+chosen_voice = "matsukaze_male[neutral]"
+print("Loading tokenizer...")
+tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH)
+start_token, end_tokens = [128259], [128009, 128260, 128261]
+print("Loading SNAC decoder to CPU...")
+snac_model = SNAC.from_pretrained("hubertsiuzdak/snac_24khz")
+snac_model.to("cpu")
+print("SNAC model loaded.")
+audio_start_token = 128257
+def redistribute_codes(code_list):
+    if len(code_list) % 7 != 0: return torch.tensor([])
+    layer_1, layer_2, layer_3 = [], [], []
+    for i in range(len(code_list) // 7):
+        layer_1.append(code_list[7*i])
+        layer_2.append(code_list[7*i+1] - 4096)
+        layer_3.append(code_list[7*i+2] - (2*4096)); layer_3.append(code_list[7*i+3] - (3*4096))
+        layer_2.append(code_list[7*i+4] - (4*4096)); layer_3.append(code_list[7*i+5] - (5*4096))
+        layer_3.append(code_list[7*i+6] - (6*4096))
+    codes = [torch.tensor(layer).unsqueeze(0) for layer in [layer_1, layer_2, layer_3]]
+    return snac_model.decode(codes)
+def audio_playback_worker(q, stream):
+    while True:
+        data = q.get()
+        if data is None:
+            break
+        stream.write(data)
+for i, prompt in enumerate(prompts):
+    print("\n" + "="*50)
+    print(f"Processing prompt ({i+1}/{len(prompts)}): '{prompt}'")
+    print("="*50)
+    prompt_ = (f"{chosen_voice}: " + prompt) if chosen_voice else prompt
+    input_ids = tokenizer.encode(prompt_)
+    final_token_ids = start_token + input_ids + end_tokens
+    payload = {
+        "model": MODEL_NAME, "prompt": final_token_ids,
+        "max_tokens": 8192, "temperature": 0.6, "top_p": 0.90,
+        "repetition_penalty": 1.1, "stop_token_ids": [128258],
+        "stream": True
+    }
+    token_buffer = []
+    found_audio_start = False
+    CHUNK_SIZE = 28
+    audio_queue = queue.Queue()
+    playback_stream = sd.OutputStream(samplerate=24000, channels=1, dtype='float32')
+    playback_stream.start()
+    playback_thread = threading.Thread(target=audio_playback_worker, args=(audio_queue, playback_stream))
+    playback_thread.start()
+    try:
+        response = requests.post(SERVER_URL, headers={"Content-Type": "application/json"}, json=payload, stream=True)
+        response.raise_for_status()
+        for line in response.iter_lines():
+            if line:
+                decoded_line = line.decode('utf-8')
+                if decoded_line.startswith('data: '):
+                    content = decoded_line[6:]
+                    if content == '[DONE]':
+                        break
+                    try:
+                        chunk = json.loads(content)
+                        text_chunk = chunk['choices'][0]['text']
+                        if text_chunk:
+                            token_buffer.extend(tokenizer.encode(text_chunk, add_special_tokens=False))
+                        if not found_audio_start:
+                            try:
+                                start_index = token_buffer.index(audio_start_token)
+                                token_buffer = token_buffer[start_index + 1:]
+                                found_audio_start = True
+                                print("Audio start token found. Starting playback...")
+                            except ValueError:
+                                continue
+                        while len(token_buffer) >= CHUNK_SIZE:
+                            tokens_to_process = token_buffer[:CHUNK_SIZE]
+                            token_buffer = token_buffer[CHUNK_SIZE:]
+                            code_list = [t - 128266 for t in tokens_to_process]
+                            samples = redistribute_codes(code_list)
+                            if samples.numel() > 0:
+                                sample_np = samples.detach().squeeze().numpy()
+                                audio_queue.put(sample_np)
+                    except (json.JSONDecodeError, Exception) as e:
+                        print(f"処理中にエラー: {e}")
+        if found_audio_start and token_buffer:
+            remaining_length = (len(token_buffer) // 7) * 7
+            if remaining_length > 0:
+                tokens_to_process = token_buffer[:remaining_length]
+                code_list = [t - 128266 for t in tokens_to_process]
+                samples = redistribute_codes(code_list)
+                if samples.numel() > 0:
+                    sample_np = samples.detach().squeeze().numpy()
+                    audio_queue.put(sample_np)
+    except requests.exceptions.RequestException as e:
+        print(f"サーバーへのリクエストでエラーが発生しました: {e}")
+    finally:
+        audio_queue.put(None)
+        playback_thread.join()
+        playback_stream.stop()
+        playback_stream.close()
+        print("Playback finished for this prompt.")
+print("\nAll processing complete!")
+```