dev-mode-orpheus-tts

Paused

App Files Files Community

Tomtom84 commited on Jun 9

Commit

3c5959f

verified ·

1 Parent(s): e43b774

Update orpheus-tts/kartoffel_decoder.py

Browse files

Files changed (1) hide show

orpheus-tts/kartoffel_decoder.py +12 -15

orpheus-tts/kartoffel_decoder.py CHANGED Viewed

@@ -73,21 +73,16 @@ def convert_to_audio_kartoffel(audio_tensor):
     return audio_numpy.tobytes()
 def extract_kartoffel_tokens(token_text, tokenizer):
-    """Extrahiert Audio-Token-IDs aus dem generierten Text"""
     try:
-        print(f"DEBUG KARTOFFEL: Received token_text: {token_text}")
-        # Prüfen ob es sich um numerische Token-IDs handelt (neues Format)
-        if isinstance(token_text, str) and all(c.isdigit() or c.isspace() for c in token_text):
-            # Numerische Token-IDs direkt parsen
-            token_ids = [int(x) for x in token_text.split()]
-            print(f"DEBUG KARTOFFEL: Parsed token_ids from string: {token_ids}")
-        else:
-            # Fallback: Text zu Token-IDs konvertieren (altes Format)
-            token_ids = tokenizer.encode(token_text)
-            print(f"DEBUG KARTOFFEL: Encoded token_ids: {token_ids}")
-        # Nach Start-Token suchen
         start_idx = -1
         for i, token_id in enumerate(token_ids):
             if token_id == CODE_START_TOKEN_ID:
@@ -95,14 +90,16 @@ def extract_kartoffel_tokens(token_text, tokenizer):
                 break
         if start_idx == -1:
-            print(f"DEBUG KARTOFFEL: No start token found ({CODE_START_TOKEN_ID})")
             return []
-        print(f"DEBUG KARTOFFEL: Found start token at index {start_idx}")
         # Audio-Tokens extrahieren (nach Start-Token)
         potential_code_tokens = token_ids[start_idx + 1:]
-        print(f"DEBUG KARTOFFEL: Potential code tokens: {potential_code_tokens[:10]}...")
         # Nur gültige Audio-Tokens (>= CODE_TOKEN_OFFSET, nicht REMOVE_TOKEN)
         valid_raw_codes = [

     return audio_numpy.tobytes()
 def extract_kartoffel_tokens(token_text, tokenizer):
+    """Extrahiert Audio-Token-IDs aus dem von vLLM generierten Text"""
     try:
+        print(f"DEBUG KARTOFFEL: Received token_text: {token_text[:100]}...")
+        # Text zu Token-IDs konvertieren (vLLM generiert Text, nicht numerische IDs)
+        token_ids = tokenizer.encode(token_text)
+        print(f"DEBUG KARTOFFEL: Encoded token_ids count: {len(token_ids)}")
+        print(f"DEBUG KARTOFFEL: First 20 token_ids: {token_ids[:20]}")
+        # Nach Audio-Start-Token suchen (128257)
         start_idx = -1
         for i, token_id in enumerate(token_ids):
             if token_id == CODE_START_TOKEN_ID:
                 break
         if start_idx == -1:
+            print(f"DEBUG KARTOFFEL: No audio start token found ({CODE_START_TOKEN_ID})")
+            print(f"DEBUG KARTOFFEL: Available unique tokens: {sorted(set(token_ids))}")
             return []
+        print(f"DEBUG KARTOFFEL: Found audio start token at index {start_idx}")
         # Audio-Tokens extrahieren (nach Start-Token)
         potential_code_tokens = token_ids[start_idx + 1:]
+        print(f"DEBUG KARTOFFEL: Potential code tokens count: {len(potential_code_tokens)}")
+        print(f"DEBUG KARTOFFEL: First 10 potential codes: {potential_code_tokens[:10]}")
         # Nur gültige Audio-Tokens (>= CODE_TOKEN_OFFSET, nicht REMOVE_TOKEN)
         valid_raw_codes = [