Spaces:

aether-raid
/

atc-tts-mos

Runtime error

App Files Files Community

aether-raider commited on Nov 10, 2025

Commit

a60f44b

1 Parent(s): 4d18ab0

fixing sample audios

Browse files

Files changed (4) hide show

backend/__pycache__/data_manager.cpython-311.pyc +0 -0
backend/__pycache__/models.cpython-311.pyc +0 -0
backend/data_manager.py +9 -10
backend/models.py +17 -4

backend/__pycache__/data_manager.cpython-311.pyc CHANGED Viewed

Binary files a/backend/__pycache__/data_manager.cpython-311.pyc and b/backend/__pycache__/data_manager.cpython-311.pyc differ

backend/__pycache__/models.cpython-311.pyc CHANGED Viewed

Binary files a/backend/__pycache__/models.cpython-311.pyc and b/backend/__pycache__/models.cpython-311.pyc differ

backend/data_manager.py CHANGED Viewed

@@ -27,19 +27,17 @@ class DataManager:
     def _get_audio_data(self, audio_val) -> Optional[tuple]:
         """
-        Extract audio data that Gradio can handle directly.
-        Returns tuple (array, sample_rate) or None.
         """
         try:
             array = None
             sr = None
             if isinstance(audio_val, dict):
                 array = audio_val.get("array")
                 sr = audio_val.get("sampling_rate")
             if array is None or sr is None:
-                # try mapping-style then attributes
                 try:
                     array = audio_val["array"]
                     sr = audio_val["sampling_rate"]
@@ -48,12 +46,13 @@ class DataManager:
                     sr = getattr(audio_val, "sampling_rate", None)
             if array is not None and sr is not None:
-                # Return as tuple that Gradio Audio can handle
-                return (np.array(array), int(sr))
         except Exception as e:
-            print(f"[WARN] Failed to extract audio data: {e}")
-        print("[WARN] Could not extract audio data for this example")
         return None
     def load_clips(self) -> List[Clip]:
@@ -75,7 +74,7 @@ class DataManager:
             audio_data = self._get_audio_data(audio_val)
             if audio_data is None:
-                print(f"[WARN] Skipping clip {row.get('exercise_id')} – could not extract audio data")
                 continue
             clip = Clip(
@@ -85,7 +84,7 @@ class DataManager:
                 exercise=row["exercise"],
                 exercise_id=row["exercise_id"],
                 transcript=row["rt"],
-                audio_url=audio_data,  # tuple (array, sample_rate) for Gradio Audio
             )
             clips.append(clip)

     def _get_audio_data(self, audio_val) -> Optional[tuple]:
         """
+        Handle audio data from HuggingFace dataset with LFS files.
+        Returns tuple (sample_rate, audio_array) that Gradio can handle.
         """
         try:
             array = None
             sr = None
             if isinstance(audio_val, dict):
                 array = audio_val.get("array")
                 sr = audio_val.get("sampling_rate")
             if array is None or sr is None:
                 try:
                     array = audio_val["array"]
                     sr = audio_val["sampling_rate"]
                     sr = getattr(audio_val, "sampling_rate", None)
             if array is not None and sr is not None:
+                array_np = np.array(array, dtype=np.float32)
+                return (int(sr), array_np)
         except Exception as e:
+            print(f"[WARN] Failed to process audio data: {e}")
+        print("[WARN] Could not process audio data for this example")
         return None
     def load_clips(self) -> List[Clip]:
             audio_data = self._get_audio_data(audio_val)
             if audio_data is None:
+                print(f"[WARN] Skipping clip {row.get('exercise_id')} – could not process audio data")
                 continue
             clip = Clip(
                 exercise=row["exercise"],
                 exercise_id=row["exercise_id"],
                 transcript=row["rt"],
+                audio_url=audio_data,
             )
             clips.append(clip)

backend/models.py CHANGED Viewed

@@ -19,10 +19,23 @@ def get_display_model_name(internal_name: str) -> str:
 def audio_to_base64_url(audio_data):
     """Convert audio data to base64 URL for HTML audio elements."""
-    if isinstance(audio_data, str) and audio_data.startswith("data:audio/"):
-        return audio_data
     elif isinstance(audio_data, tuple) and len(audio_data) == 2:
-        # Convert (array, sample_rate) tuple to base64 URL
         try:
             import numpy as np
             import base64
@@ -32,7 +45,7 @@ def audio_to_base64_url(audio_data):
             except ImportError:
                 return None
-            array, sr = audio_data
             if sf is not None:
                 buf = io.BytesIO()
                 sf.write(buf, np.array(array), int(sr), format="WAV")

 def audio_to_base64_url(audio_data):
     """Convert audio data to base64 URL for HTML audio elements."""
+    if isinstance(audio_data, str):
+        if audio_data.startswith("data:audio/"):
+            return audio_data
+        elif audio_data.endswith(('.wav', '.mp3', '.flac', '.ogg')):
+            # Handle file path from LFS - convert to base64
+            try:
+                import base64
+                import os
+                if os.path.exists(audio_data):
+                    with open(audio_data, "rb") as f:
+                        audio_bytes = f.read()
+                    b64 = base64.b64encode(audio_bytes).decode("ascii")
+                    return f"data:audio/wav;base64,{b64}"
+            except Exception as e:
+                print(f"[WARN] Failed to convert file to base64 URL: {e}")
     elif isinstance(audio_data, tuple) and len(audio_data) == 2:
+        # Convert (sample_rate, array) tuple to base64 URL - Gradio format
         try:
             import numpy as np
             import base64
             except ImportError:
                 return None
+            sr, array = audio_data  # Gradio uses (sample_rate, array) order
             if sf is not None:
                 buf = io.BytesIO()
                 sf.write(buf, np.array(array), int(sr), format="WAV")