transx

Sleeping

App Files Files Community

sedrukjglfhsdlkf commited on Jan 7

Commit

7b4a7c6

verified ·

1 Parent(s): 1e63917

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -20

app.py CHANGED Viewed

@@ -1,33 +1,36 @@
 import os
 import sys
 import logging
-import json
 import tempfile
-import shutil
 import numpy as np
 import torch
-import librosa
 import soundfile as sf
 import gradio as gr
 from pathlib import Path
-from scipy.io import wavfile
 try:
     from TTS.api import TTS
     from TTS.config.shared_configs import BaseDatasetConfig
     torch.serialization.add_safe_globals([BaseDatasetConfig])
 except ImportError:
     pass
-from transformers import pipeline, AutoModelForSeq2SeqLM, AutoTokenizer
 from demucs.pretrained import get_model
 from demucs.apply import apply_model
-logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
-logger = logging.getLogger(__name__)
-os.environ["COQUI_TOS_AGREED"] = "1"
-os.environ["CUDA_MODULE_LOADING"] = "LAZY"
 class ProcessingManager:
     def __init__(self):
@@ -54,6 +57,7 @@ class ProcessingManager:
                 model_name = f"Helsinki-NLP/opus-mt-{src}-{tgt}"
                 self.models[key] = pipeline("translation", model=model_name, device=self.device)
             except Exception:
                 self.models[key] = pipeline(
                     "translation",
                     model="facebook/nllb-200-distilled-600M",
@@ -89,6 +93,7 @@ def process_audio_pipeline(
         if not audio_path:
             raise ValueError("No audio file provided")
         progress(0.1, desc="Separating Vocals...")
         demucs_model = manager.get_demucs()
         wav, sr = librosa.load(audio_path, sr=44100, mono=False)
@@ -101,7 +106,7 @@ def process_audio_pipeline(
         sources = sources.cpu().numpy()
         vocals = sources[3]
-        instrumental = sources[0] + sources[1] + sources[2]
         vocal_path = manager.temp_dir / "vocals.wav"
         inst_path = manager.temp_dir / "instrumental.wav"
@@ -109,20 +114,25 @@ def process_audio_pipeline(
         sf.write(vocal_path, vocals.T, 44100)
         sf.write(inst_path, instrumental.T, 44100)
         progress(0.3, desc="Transcribing...")
         whisper = manager.get_whisper()
         transcription = whisper(str(vocal_path), generate_kwargs={"task": "transcribe", "language": src_lang})
         original_text = transcription["text"]
         progress(0.5, desc="Translating...")
         translator = manager.get_translator(src_lang, tgt_lang)
-        translated_text = translator(original_text)[0]['translation_text']
         progress(0.7, desc="Synthesizing Vocals...")
         tts_model = manager.get_tts()
         ref_audio = speaker_ref_path if speaker_ref_path else str(vocal_path)
         output_tts_path = manager.temp_dir / "tts_output.wav"
         tts_model.tts_to_file(
@@ -133,10 +143,12 @@ def process_audio_pipeline(
             split_sentences=True
         )
         progress(0.9, desc="Mixing...")
         tts_wav, _ = librosa.load(str(output_tts_path), sr=44100)
         inst_wav, _ = librosa.load(str(inst_path), sr=44100)
         min_len = min(len(tts_wav), len(inst_wav))
         mixed = tts_wav[:min_len] * 1.0 + inst_wav[:min_len] * 0.8
@@ -153,16 +165,17 @@ def process_audio_pipeline(
         )
     except Exception as e:
-        logger.error(f"Pipeline failed: {str(e)}")
         return None, None, None, None, f"Error: {str(e)}", ""
 custom_css = """
 .container { max_width: 900px; margin: auto; }
 .gr-box { border-radius: 10px !important; border: 1px solid #e0e0e0; box-shadow: 0 4px 6px rgba(0,0,0,0.05); }
-.output-audio { margin-top: 10px; }
 """
-with gr.Blocks(theme=gr.themes.Soft(), css=custom_css, title="AI Song Translator") as demo:
     gr.Markdown("# 🎵 AI Song Translator Pro")
     with gr.Row():
@@ -187,8 +200,9 @@ with gr.Blocks(theme=gr.themes.Soft(), css=custom_css, title="AI Song Translator
             with gr.Tabs():
                 with gr.Tab("Lyrics"):
-                    orig_txt = gr.Textbox(label="Original Lyrics", lines=4, show_copy_button=True)
-                    trans_txt = gr.Textbox(label="Translated Lyrics", lines=4, show_copy_button=True)
                 with gr.Tab("Stems"):
                     voc_out = gr.Audio(label="Extracted Vocals")
@@ -202,4 +216,10 @@ with gr.Blocks(theme=gr.themes.Soft(), css=custom_css, title="AI Song Translator
     )
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=7860)

 import os
 import sys
 import logging
 import tempfile
 import numpy as np
 import torch
 import soundfile as sf
 import gradio as gr
 from pathlib import Path
+# Configuración de logs
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
+logger = logging.getLogger(__name__)
+# Configuración de entorno
+os.environ["COQUI_TOS_AGREED"] = "1"
+os.environ["CUDA_MODULE_LOADING"] = "LAZY"
+# Intentar importar TTS con parche de seguridad para PyTorch 2.6+
 try:
     from TTS.api import TTS
     from TTS.config.shared_configs import BaseDatasetConfig
     torch.serialization.add_safe_globals([BaseDatasetConfig])
 except ImportError:
     pass
+except Exception as e:
+    logger.warning(f"No se pudo aplicar el parche de seguridad de TTS: {e}")
+# Importaciones de modelos (Lazy loading)
+from transformers import pipeline
 from demucs.pretrained import get_model
 from demucs.apply import apply_model
+import librosa
 class ProcessingManager:
     def __init__(self):
                 model_name = f"Helsinki-NLP/opus-mt-{src}-{tgt}"
                 self.models[key] = pipeline("translation", model=model_name, device=self.device)
             except Exception:
+                # Fallback a NLLB si el par de idiomas no existe en Helsinki-NLP
                 self.models[key] = pipeline(
                     "translation",
                     model="facebook/nllb-200-distilled-600M",
         if not audio_path:
             raise ValueError("No audio file provided")
+        # 1. Separación (Demucs)
         progress(0.1, desc="Separating Vocals...")
         demucs_model = manager.get_demucs()
         wav, sr = librosa.load(audio_path, sr=44100, mono=False)
         sources = sources.cpu().numpy()
         vocals = sources[3]
+        instrumental = sources[0] + sources[1] + sources[2] # Bass + Drums + Other
         vocal_path = manager.temp_dir / "vocals.wav"
         inst_path = manager.temp_dir / "instrumental.wav"
         sf.write(vocal_path, vocals.T, 44100)
         sf.write(inst_path, instrumental.T, 44100)
+        # 2. Transcripción (Whisper)
         progress(0.3, desc="Transcribing...")
         whisper = manager.get_whisper()
         transcription = whisper(str(vocal_path), generate_kwargs={"task": "transcribe", "language": src_lang})
         original_text = transcription["text"]
+        # 3. Traducción
         progress(0.5, desc="Translating...")
         translator = manager.get_translator(src_lang, tgt_lang)
+        # Manejo simple de la salida del pipeline de traducción
+        trans_output = translator(original_text)
+        translated_text = trans_output[0]['translation_text'] if isinstance(trans_output, list) else trans_output['translation_text']
+        # 4. Síntesis de Voz (TTS)
         progress(0.7, desc="Synthesizing Vocals...")
         tts_model = manager.get_tts()
+        # Usar la referencia subida o la vocal extraída
         ref_audio = speaker_ref_path if speaker_ref_path else str(vocal_path)
         output_tts_path = manager.temp_dir / "tts_output.wav"
         tts_model.tts_to_file(
             split_sentences=True
         )
+        # 5. Mezcla Final
         progress(0.9, desc="Mixing...")
         tts_wav, _ = librosa.load(str(output_tts_path), sr=44100)
         inst_wav, _ = librosa.load(str(inst_path), sr=44100)
+        # Ajustar longitudes
         min_len = min(len(tts_wav), len(inst_wav))
         mixed = tts_wav[:min_len] * 1.0 + inst_wav[:min_len] * 0.8
         )
     except Exception as e:
+        logger.error(f"Pipeline failed: {str(e)}", exc_info=True)
         return None, None, None, None, f"Error: {str(e)}", ""
+# CSS personalizado
 custom_css = """
 .container { max_width: 900px; margin: auto; }
 .gr-box { border-radius: 10px !important; border: 1px solid #e0e0e0; box-shadow: 0 4px 6px rgba(0,0,0,0.05); }
 """
+# Interfaz Gráfica
+with gr.Blocks(title="AI Song Translator") as demo:
     gr.Markdown("# 🎵 AI Song Translator Pro")
     with gr.Row():
             with gr.Tabs():
                 with gr.Tab("Lyrics"):
+                    # show_copy_button removido por incompatibilidad con Gradio 6.x
+                    orig_txt = gr.Textbox(label="Original Lyrics", lines=4, interactive=False)
+                    trans_txt = gr.Textbox(label="Translated Lyrics", lines=4, interactive=False)
                 with gr.Tab("Stems"):
                     voc_out = gr.Audio(label="Extracted Vocals")
     )
 if __name__ == "__main__":
+    # theme y css movidos al launch() para compatibilidad con Gradio 6.0
+    demo.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        theme=gr.themes.Soft(),
+        css=custom_css
+    )