Spaces:

VeuReu
/

engine

Sleeping

App Files Files Community

VeuReu commited on Oct 17, 2025

Commit

39e9f1d

verified ·

1 Parent(s): 2c4ca6c

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +2 -2
audio_tools.py +32 -11
requirements.txt +3 -1

Dockerfile CHANGED Viewed

@@ -2,7 +2,7 @@ FROM python:3.11-slim
 # Dependencias del sistema necesarias para vídeo/ocr (ajusta si no las usas)
 RUN apt-get update && apt-get install -y --no-install-recommends \
-    ffmpeg libsm6 libxext6 libgl1 tesseract-ocr \
  && rm -rf /var/lib/apt/lists/*
 WORKDIR /app
@@ -13,4 +13,4 @@ COPY . /app
 # HF Spaces expone PORT
 ENV PORT=7860
-CMD ["uvicorn", "main_api:app", "--host", "0.0.0.0", "--port", "7860", "--workers", "1"]

 # Dependencias del sistema necesarias para vídeo/ocr (ajusta si no las usas)
 RUN apt-get update && apt-get install -y --no-install-recommends \
+    ffmpeg libsm6 libxext6 libgl1 tesseract-ocr libsndfile1 \
  && rm -rf /var/lib/apt/lists/*
 WORKDIR /app
 # HF Spaces expone PORT
 ENV PORT=7860
+CMD ["uvicorn", "main_api:app", "--host", "0.0.0.0", "--port", "7860", "--workers", "1"]

audio_tools.py CHANGED Viewed

@@ -15,20 +15,27 @@
 # -----------------------------------------------------------------------------
 from __future__ import annotations
-from dataclasses import dataclass
-from pathlib import Path
-from typing import Any, Dict, List, Optional, Tuple
 import json
 import logging
 import math
 import os
 import shlex
 import subprocess
-import numpy as np
 import torch
-import torchaudio
 import torchaudio.transforms as T
 from pydub import AudioSegment
 from pyannote.audio import Pipeline
@@ -49,6 +56,25 @@ log.setLevel(logging.INFO)
 # ------------------------------- Utilities -----------------------------------
 def _pick_device_auto(dev_cfg: str) -> str:
     """Resolve 'auto' device to cuda/cpu."""
     if dev_cfg == "auto":
@@ -279,11 +305,6 @@ def _build_asr_backend_for_language(lang_iso: str, cfg: Dict[str, Any]):
         )
 # -------------------------------- Diarization --------------------------------
-from pathlib import Path
-from typing import List, Dict, Any, Tuple
-from pydub import AudioSegment
-from pyannote.audio import Pipeline
-import math
 def diarize_audio(
     wav_path: str,

 # -----------------------------------------------------------------------------
 from __future__ import annotations
+import numpy as np
 import json
 import logging
 import math
 import os
 import shlex
 import subprocess
+from pathlib import Path
+from typing import List, Dict, Any, Tuple, Optional
+from dataclasses import dataclass
+# al principio de audio_tools.py
+try:
+    import torchaudio as ta
+    HAS_TORCHAUDIO = True
+except ImportError:
+    ta = None
+    HAS_TORCHAUDIO = False
+import soundfile as sf
 import torch
 import torchaudio.transforms as T
 from pydub import AudioSegment
 from pyannote.audio import Pipeline
 # ------------------------------- Utilities -----------------------------------
+def load_wav(path, sr=16000):
+    if HAS_TORCHAUDIO:
+        wav, in_sr = ta.load(path)
+        if in_sr != sr:
+            wav = ta.functional.resample(wav, in_sr, sr)
+        return wav.squeeze(0).numpy(), sr
+    # fallback con soundfile + resample con librosa
+    import librosa
+    y, in_sr = sf.read(path, dtype="float32", always_2d=False)
+    if in_sr != sr:
+        y = librosa.resample(y, orig_sr=in_sr, target_sr=sr)
+    return y.astype(np.float32), sr
+def save_wav(path, y, sr=16000):
+    if HAS_TORCHAUDIO:
+        ta.save(path, torch.from_numpy(y).unsqueeze(0), sr)  # si usas torch
+    else:
+        sf.write(path, y, sr)
 def _pick_device_auto(dev_cfg: str) -> str:
     """Resolve 'auto' device to cuda/cpu."""
     if dev_cfg == "auto":
         )
 # -------------------------------- Diarization --------------------------------
 def diarize_audio(
     wav_path: str,

requirements.txt CHANGED Viewed

@@ -17,8 +17,10 @@ ffmpeg-python>=0.2
 scikit-learn>=1.5
 sentence-transformers>=3.0
 transformers>=4.44
-torch>=2.3,<3
 chromadb>=0.5.4
 moviepy>=2.0
 tenacity>=8.2

 scikit-learn>=1.5
 sentence-transformers>=3.0
 transformers>=4.44
+torch==2.3.0
+torchaudio==2.3.0
 chromadb>=0.5.4
 moviepy>=2.0
 tenacity>=8.2