Spaces:

jeysshon
/

DISBAND

Sleeping

App Files Files Community

jeysshon commited on Aug 15, 2025

Commit

54d995c

verified ·

1 Parent(s): fbfa778

Update app.py

Browse files

Files changed (1) hide show

app.py +567 -338

app.py CHANGED Viewed

@@ -1,382 +1,611 @@
 import os
 import sys
 import logging
 import traceback
 import tempfile
-import time
 from pathlib import Path
-import gradio as gr
-from audio_separator.separator import Separator
-# Configuración
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-title = "<center><strong><font size='7'>🎵 AI Audio Separator Pro</font></strong></center>"
 description = """
-### 🤖 Separador de audio con IA real - Como r3gm pero que funciona
-**Usa los mismos modelos MDX-Net, Demucs y VR de Ultimate Vocal Remover**
-- 🎤 **Voces ultra limpias** - Modelos MDX-Net de alta calidad
-- 🥁 **Separación 4-stems** - Voces, batería, bajo, otros
-- 🎸 **Modelos especializados** - Piano, guitarra, cuerdas
-- 🎛️ **IA profesional** - Misma tecnología que UVR y r3gm
-- ⚡ **Automático** - Descarga y configura modelos automáticamente
 """
-# Configuración de modelos disponibles (se descargan automáticamente)
-AVAILABLE_MODELS = {
-    # Modelos principales de separación
-    "vocals_ht": {
-        "model_name": "UVR-MDX-NET-Voc_FT.onnx",
-        "description": "🎤 Voces de alta calidad (MDX-Net)",
-        "stems": ["Vocals", "Instrumental"]
-    },
-    "demucs_4stems": {
-        "model_name": "htdemucs_ft.yaml",
-        "description": "🎯 Separación completa (Demucs 4-stems)",
-        "stems": ["vocals", "drums", "bass", "other"]
-    },
-    "instrumental_ht": {
-        "model_name": "UVR-MDX-NET-Inst_HQ_4.onnx",
-        "description": "🎵 Instrumental de alta calidad",
-        "stems": ["Other", "Instrumental"]
-    },
-    # Modelos especializados
-    "piano": {
-        "model_name": "Kim_Piano_1.onnx",
-        "description": "🎹 Piano especializado",
-        "stems": ["Piano", "No Piano"]
-    },
-    "drums": {
-        "model_name": "UVR-MDX-NET-Kag_2.onnx",
-        "description": "🥁 Batería especializada",
-        "stems": ["Drums", "No Drums"]
-    },
-    "bass": {
-        "model_name": "Kim_Bass_1.onnx",
-        "description": "🎸 Bajo especializado",
-        "stems": ["Bass", "No Bass"]
-    },
-    "guitar": {
-        "model_name": "UVR-MDX-NET-Kag_3.onnx",
-        "description": "🎸 Guitarra especializada",
-        "stems": ["Guitar", "No Guitar"]
-    },
-    "karaoke": {
-        "model_name": "UVR_MDXNET_KARA_2.onnx",
-        "description": "🎤 Karaoke/Voces principales",
-        "stems": ["Main Vocals", "Backup Vocals"]
-    },
-    "dereverb": {
-        "model_name": "Reverb_HQ_By_FoxJoy.onnx",
-        "description": "🔄 Eliminar reverb",
-        "stems": ["Dry", "Reverb"]
-    }
 }
-class AIAudioSeparator:
-    """Separador de audio usando IA real con modelos pre-entrenados"""
-    def __init__(self):
-        self.output_dir = os.path.join(tempfile.gettempdir(), "audio_separator_output")
-        os.makedirs(self.output_dir, exist_ok=True)
-        logger.info("🤖 Inicializando AI Audio Separator")
-    def separate_audio(self, audio_file, model_key, progress_callback=None):
-        """Separar audio usando modelo especificado"""
-        try:
-            if not audio_file or not os.path.exists(audio_file):
-                raise ValueError("❌ Archivo de audio no válido")
-            # Verificar tamaño
-            file_size = os.path.getsize(audio_file) / (1024 * 1024)
-            if file_size > 100:
-                raise ValueError(f"❌ Archivo muy grande: {file_size:.1f}MB (máx 100MB)")
-            model_config = AVAILABLE_MODELS.get(model_key)
-            if not model_config:
-                raise ValueError(f"❌ Modelo no encontrado: {model_key}")
-            model_name = model_config["model_name"]
-            logger.info(f"🎵 Cargando modelo: {model_config['description']}")
-            if progress_callback:
-                progress_callback(0.2, f"Cargando modelo {model_name}")
-            # Crear separador con configuración automática
-            separator = Separator(
-                output_dir=self.output_dir,
-                output_format="wav",
-                normalization_threshold=0.9,
-                enable_denoise=True,
-                log_level=logging.WARNING  # Reducir logs verbosos
-            )
-            logger.info(f"🔄 Separando con {model_name}")
-            if progress_callback:
-                progress_callback(0.4, f"Procesando con IA...")
-            # Realizar separación
-            try:
-                # Cargar modelo automáticamente si no existe
-                separator.load_model(model_filename=model_name)
-                if progress_callback:
-                    progress_callback(0.7, "Separando audio...")
-                # Procesar archivo
-                result = separator.separate(audio_file)
-                if progress_callback:
-                    progress_callback(0.9, "Finalizando...")
-                # Obtener archivos de salida
-                output_files = []
-                if isinstance(result, list):
-                    output_files = result
-                elif isinstance(result, dict):
-                    output_files = list(result.values())
                 else:
-                    # Buscar archivos en directorio de salida
-                    base_name = Path(audio_file).stem
-                    for file in os.listdir(self.output_dir):
-                        if file.startswith(base_name) and file.endswith('.wav'):
-                            output_files.append(os.path.join(self.output_dir, file))
-                # Filtrar archivos válidos
-                valid_files = [f for f in output_files if os.path.exists(f) and os.path.getsize(f) > 1024]
-                if not valid_files:
-                    raise Exception("❌ No se generaron archivos de salida válidos")
-                logger.info(f"✅ Separación exitosa: {len(valid_files)} archivo(s)")
-                return valid_files
-            except Exception as model_error:
-                logger.error(f"Error con modelo {model_name}: {model_error}")
-                # Fallback a modelo básico si falla el especializado
-                if model_key != "vocals_ht":
-                    logger.info("🔄 Intentando con modelo básico de voces...")
-                    separator.load_model(model_filename="UVR-MDX-NET-Voc_FT.onnx")
-                    result = separator.separate(audio_file)
-                    output_files = []
-                    base_name = Path(audio_file).stem
-                    for file in os.listdir(self.output_dir):
-                        if file.startswith(base_name) and file.endswith('.wav'):
-                            output_files.append(os.path.join(self.output_dir, file))
-                    valid_files = [f for f in output_files if os.path.exists(f) and os.path.getsize(f) > 1024]
-                    if valid_files:
-                        return valid_files
-                raise model_error
-        except Exception as e:
-            logger.error(f"❌ Error en separación: {e}")
-            traceback.print_exc()
-            raise
-    def separate_multi_model(self, audio_file, models_list, progress_callback=None):
-        """Separar usando múltiples modelos en secuencia"""
-        try:
-            all_outputs = []
-            total_models = len(models_list)
-            for i, model_key in enumerate(models_list):
-                if progress_callback:
-                    progress = 0.1 + (i / total_models) * 0.8
-                    model_name = AVAILABLE_MODELS[model_key]["description"]
-                    progress_callback(progress, f"Modelo {i+1}/{total_models}: {model_name}")
-                try:
-                    outputs = self.separate_audio(audio_file, model_key)
-                    all_outputs.extend(outputs)
-                    logger.info(f"✅ Completado: {AVAILABLE_MODELS[model_key]['description']}")
-                except Exception as e:
-                    logger.warning(f"⚠️ Error con {model_key}: {e}")
-                    continue
-            if not all_outputs:
-                raise Exception("❌ Ningún modelo produjo resultados válidos")
-            # Eliminar duplicados
-            unique_outputs = list(set(all_outputs))
-            return unique_outputs
-        except Exception as e:
-            logger.error(f"❌ Error en separación multi-modelo: {e}")
-            raise
-def process_audio(audio_file, separation_mode, progress=gr.Progress()):
-    """Procesar audio con barra de progreso"""
-    if audio_file is None:
-        return [], "⚠️ Por favor sube un archivo de audio"
-    try:
-        separator = AIAudioSeparator()
-        def progress_callback(value, desc):
-            progress(value, desc=desc)
-        progress(0.1, desc="Inicializando IA...")
-        if separation_mode == "vocals_ultra":
-            # Voces de máxima calidad
-            result_files = separator.separate_audio(audio_file, "vocals_ht", progress_callback)
-        elif separation_mode == "demucs_4stems":
-            # Separación completa 4 stems
-            result_files = separator.separate_audio(audio_file, "demucs_4stems", progress_callback)
-        elif separation_mode == "multi_instrument":
-            # Múltiples modelos especializados
-            models = ["vocals_ht", "drums", "bass", "piano"]
-            result_files = separator.separate_multi_model(audio_file, models, progress_callback)
-        elif separation_mode in ["piano_only", "drums_only", "bass_only", "guitar_only", "karaoke_only", "dereverb_only"]:
-            # Modelos individuales especializados
-            model_key = separation_mode.replace("_only", "")
-            result_files = separator.separate_audio(audio_file, model_key, progress_callback)
-        elif separation_mode == "professional":
-            # Combinación profesional: voces + karaoke + dereverb
-            models = ["vocals_ht", "karaoke", "dereverb"]
-            result_files = separator.separate_multi_model(audio_file, models, progress_callback)
         else:
-            # Fallback a voces básicas
-            result_files = separator.separate_audio(audio_file, "vocals_ht", progress_callback)
-        progress(1.0, desc="¡Completado!")
-        success_msg = f"✅ Separación con IA completada: {len(result_files)} archivo(s)"
-        return result_files, success_msg
-    except Exception as e:
-        error_msg = f"❌ Error: {str(e)}"
-        logger.error(error_msg)
-        return [], error_msg
-def create_interface():
-    """Crear interfaz de usuario"""
-    with gr.Blocks(title="🎵 AI Audio Separator Pro", theme=gr.themes.Soft()) as app:
-        gr.Markdown(title)
-        gr.Markdown(description)
-        with gr.Row():
-            with gr.Column():
-                audio_input = gr.Audio(
-                    label="🎵 Subir archivo de audio (máx 100MB)",
-                    type="filepath"
-                )
-                separation_mode = gr.Radio(
-                    choices=[
-                        ("🎤 Voces Ultra HD (MDX-Net)", "vocals_ultra"),
-                        ("🎯 4 Stems Completo (Demucs AI)", "demucs_4stems"),
-                        ("🚀 Multi-Instrumento (4 modelos)", "multi_instrument"),
-                        ("🎹 Solo Piano (Kim Model)", "piano_only"),
-                        ("🥁 Solo Batería (MDX-Net)", "drums_only"),
-                        ("🎸 Solo Bajo (Kim Model)", "bass_only"),
-                        ("🎸 Solo Guitarra (MDX-Net)", "guitar_only"),
-                        ("🎤 Karaoke/Voces Principales", "karaoke_only"),
-                        ("🔄 Eliminar Reverb", "dereverb_only"),
-                        ("👑 Profesional (Multi-modelo)", "professional")
-                    ],
-                    value="demucs_4stems",
-                    label="🤖 Modelo de IA",
-                    info="Cada modelo usa redes neuronales especializadas"
-                )
-                process_btn = gr.Button(
-                    "🚀 Separar con IA",
-                    variant="primary",
-                    size="lg"
-                )
-            with gr.Column():
-                status_output = gr.Textbox(
-                    label="🤖 Estado de la IA",
-                    lines=8,
-                    interactive=False
-                )
-        output_files = gr.File(
-            label="📥 Archivos separados por IA",
-            file_count="multiple",
-            interactive=False
-        )
-        process_btn.click(
-            fn=process_audio,
-            inputs=[audio_input, separation_mode],
-            outputs=[output_files, status_output],
-            show_progress=True
         )
-        gr.Markdown("""
-        ### 🤖 Modelos de IA disponibles:
-        | **Modelo** | **Tecnología** | **Salidas** | **Calidad** |
-        |------------|----------------|-------------|-------------|
-        | 🎤 **Voces Ultra HD** | MDX-Net UVR | Voces + Instrumental | ⭐⭐⭐⭐⭐ |
-        | 🎯 **4 Stems Completo** | Demucs v4 AI | Voces, Batería, Bajo, Otros | ⭐⭐⭐⭐⭐ |
-        | 🎹 **Piano** | Kim Model | Piano + Sin Piano | ⭐⭐⭐⭐ |
-        | 🥁 **Batería** | MDX-Net Kag | Batería + Sin Batería | ⭐⭐⭐⭐ |
-        | 🎸 **Bajo** | Kim Model | Bajo + Sin Bajo | ⭐⭐⭐⭐ |
-        | 🎸 **Guitarra** | MDX-Net Kag | Guitarra + Sin Guitarra | ⭐⭐⭐⭐ |
-        | 🎤 **Karaoke** | MDXNET KARA | Voces Principales + Coros | ⭐⭐⭐⭐ |
-        | 🔄 **Dereverb** | Reverb HQ | Audio Seco + Reverb | ⭐⭐⭐⭐ |
-        ### ⚡ Características de la IA:
-        - ✅ **Mismos modelos que UVR** - Tecnología probada y de calidad profesional
-        - ✅ **Descarga automática** - Los modelos se descargan la primera vez que los usas
-        - ✅ **MDX-Net + Demucs** - Las mejores arquitecturas de IA para separación de audio
-        - ✅ **Modelos especializados** - Cada instrumento tiene su red neuronal optimizada
-        - ✅ **Calidad profesional** - Resultados comparables a software comercial
-        - ✅ **Multi-modelo** - Combina varios modelos para mejores resultados
-        ### 🔧 Tecnologías de IA utilizadas:
-        - **MDX-Net**: Arquitectura híbrida tiempo-frecuencia para separación de alta calidad
-        - **Demucs v4**: Red convolucional profunda para separación multi-instrumento
-        - **Kim Models**: Modelos especializados para piano y bajo
-        - **UVR Models**: Modelos de Ultimate Vocal Remover optimizados
-        ### 📝 Instrucciones:
-        1. **Sube tu archivo** (MP3, WAV, FLAC, M4A - máx 100MB)
-        2. **Selecciona modelo de IA** según lo que quieras separar
-        3. **Haz clic en "Separar con IA"** - Los modelos se descargan automáticamente
-        4. **Descarga los resultados** - Archivos de alta calidad separados por IA
-        > **Nota**: La primera vez que uses cada modelo, se descargará automáticamente (puede tomar unos minutos). Las siguientes veces será instantáneo.
-        """)
-    return app
-def main():
-    """Función principal"""
     try:
-        logger.info("🤖 Iniciando AI Audio Separator Pro")
-        logger.info("🔧 Usando librerías de IA real: audio-separator + UVR models")
-        # Crear y lanzar interfaz
-        app = create_interface()
-        app.queue(default_concurrency_limit=3)  # Límite bajo para modelos de IA
-        app.launch(
-            server_name="0.0.0.0",
-            server_port=7860,
-            share=False,
-            show_error=True
-        )
     except Exception as e:
-        logger.error(f"❌ Error: {e}")
-        traceback.print_exc()
-if __name__ == "__main__":
-    main()

 import os
+# Instalar ONNX Runtime exactamente como r3gm
+os.system("pip install ort-nightly-gpu --index-url=https://aiinfra.pkgs.visualstudio.com/PublicPackages/_packaging/ort-cuda-12-nightly/pypi/simple/")
+import gc
+import hashlib
+import queue
+import threading
+import json
 import sys
+import subprocess
+import librosa
+import numpy as np
+import soundfile as sf
+import torch
+from tqdm import tqdm
+import random
+import onnxruntime as ort
+import warnings
+import gradio as gr
 import logging
+import time
 import traceback
 import tempfile
 from pathlib import Path
+from urllib.parse import urlparse
+warnings.filterwarnings("ignore")
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+title = "<center><strong><font size='7'>🎵 Multi-Instrument AI Separator</font></strong></center>"
 description = """
+### 🤖 Separador profesional con IA - Tecnología probada de r3gm
+**Separación multi-instrumento usando modelos MDX-Net especializados**
+- 🎤 **Voces** - Ultra alta calidad con múltiples modelos
+- 🥁 **Batería** - Separación percusiva especializada
+- 🎸 **Bajo** - Frecuencias graves optimizadas
+- 🎹 **Piano** - Detección de teclas avanzada
+- 🎸 **Guitarra** - Componentes armónicos
+- 🎛️ **Otros** - Sintetizadores y instrumentos restantes
 """
+# Configuración basada en r3gm
+stem_naming = {
+    "Vocals": "Instrumental",
+    "Other": "Instruments",
+    "Instrumental": "Vocals",
+    "Drums": "Drumless",
+    "Bass": "Bassless",
 }
+# URLs exactas de r3gm
+MDX_DOWNLOAD_LINK = "https://github.com/TRvlvr/model_repo/releases/download/all_public_uvr_models/"
+UVR_MODELS = [
+    "UVR-MDX-NET-Voc_FT.onnx",      # Voces principales
+    "UVR_MDXNET_KARA_2.onnx",       # Karaoke/Voces principales vs coros
+    "Reverb_HQ_By_FoxJoy.onnx",     # Eliminar reverb
+    "UVR-MDX-NET-Inst_HQ_4.onnx",   # Instrumental de alta calidad
+    "Kim_Piano_1.onnx",             # Piano especializado
+    "Kim_Bass_1.onnx",              # Bajo especializado
+    "UVR-MDX-NET-Kag_2.onnx",       # Batería
+    "UVR-MDX-NET-Kag_3.onnx",       # Guitarra
+]
+# Directorios
+BASE_DIR = "."
+mdxnet_models_dir = os.path.join(BASE_DIR, "mdx_models")
+output_dir = os.path.join(BASE_DIR, "separated_audio")
+# Funciones de utilidad (copiadas de r3gm utils.py)
+def load_file_from_url(url: str, model_dir: str, file_name: str = None, overwrite: bool = False, progress: bool = True) -> str:
+    """Descargar archivo desde URL - Exacto de r3gm utils.py"""
+    os.makedirs(model_dir, exist_ok=True)
+    if not file_name:
+        parts = urlparse(url)
+        file_name = os.path.basename(parts.path)
+    cached_file = os.path.abspath(os.path.join(model_dir, file_name))
+    if os.path.exists(cached_file):
+        if overwrite or os.path.getsize(cached_file) == 0:
+            if os.path.exists(cached_file):
+                os.remove(cached_file)
+    if not os.path.exists(cached_file):
+        logger.info(f'Descargando: "{url}" to {cached_file}')
+        from torch.hub import download_url_to_file
+        download_url_to_file(url, cached_file, progress=progress)
+    else:
+        logger.debug(cached_file)
+    return cached_file
+def download_manager(url: str, path: str, extension: str = "", overwrite: bool = False, progress: bool = True):
+    """Gestor de descarga - Exacto de r3gm"""
+    url = url.strip()
+    parts = urlparse(url)
+    file_name = os.path.basename(parts.path)
+    model_name, ext = os.path.splitext(file_name)
+    name = model_name + (ext if not extension else f".{extension}")
+    if url.startswith("http"):
+        filename = load_file_from_url(
+            url=url,
+            model_dir=path,
+            file_name=name,
+            overwrite=overwrite,
+            progress=progress,
+        )
+    else:
+        filename = path
+    return filename
+def create_directories():
+    """Crear directorios necesarios"""
+    os.makedirs(mdxnet_models_dir, exist_ok=True)
+    os.makedirs(output_dir, exist_ok=True)
+def get_hash(model_path):
+    """Calcular hash MD5 del modelo - Exacto de r3gm"""
+    try:
+        with open(model_path, "rb") as f:
+            f.seek(-10000 * 1024, 2)
+            model_hash = hashlib.md5(f.read()).hexdigest()
+    except:
+        model_hash = hashlib.md5(open(model_path, "rb").read()).hexdigest()
+    return model_hash
+def create_data_json():
+    """Crear data.json con configuraciones por hash - Basado en r3gm"""
+    data_json_path = os.path.join(mdxnet_models_dir, "data.json")
+    # Data.json con configuraciones exactas de r3gm (muestras principales)
+    model_data = {
+        # UVR-MDX-NET-Voc_FT.onnx (hash típico)
+        "0ddfc0eb5792638ad5dc27850236c246": {
+            "compensate": 1.035,
+            "mdx_dim_f_set": 2048,
+            "mdx_dim_t_set": 8,
+            "mdx_n_fft_scale_set": 6144,
+            "primary_stem": "Vocals"
+        },
+        # UVR_MDXNET_KARA_2.onnx (hash típico)
+        "2f5501189a2f6db6349916fabe8c90de": {
+            "compensate": 1.035,
+            "mdx_dim_f_set": 2048,
+            "mdx_dim_t_set": 8,
+            "mdx_n_fft_scale_set": 6144,
+            "primary_stem": "Vocals"
+        },
+        # Reverb_HQ_By_FoxJoy.onnx
+        "d7bff498db9324db933d913388cba6be": {
+            "compensate": 1.035,
+            "mdx_dim_f_set": 2048,
+            "mdx_dim_t_set": 8,
+            "mdx_n_fft_scale_set": 6144,
+            "primary_stem": "Vocals"
+        },
+        # UVR-MDX-NET-Inst_HQ_4.onnx
+        "26d308f91f3423a67dc69a6d12a8793d": {
+            "compensate": 1.035,
+            "mdx_dim_f_set": 2048,
+            "mdx_dim_t_set": 9,
+            "mdx_n_fft_scale_set": 8192,
+            "primary_stem": "Other"
+        },
+        # Kim_Piano_1.onnx (configuración estimada)
+        "piano_hash_placeholder": {
+            "compensate": 1.040,
+            "mdx_dim_f_set": 3072,
+            "mdx_dim_t_set": 8,
+            "mdx_n_fft_scale_set": 7680,
+            "primary_stem": "Piano"
+        },
+        # Kim_Bass_1.onnx
+        "6703e39f36f18aa7855ee1047765621d": {
+            "compensate": 1.035,
+            "mdx_dim_f_set": 2048,
+            "mdx_dim_t_set": 9,
+            "mdx_n_fft_scale_set": 16384,
+            "primary_stem": "Bass"
+        },
+        # UVR-MDX-NET-Kag_2.onnx (Drums)
+        "4910e7827f335048bdac11fa967772f9": {
+            "compensate": 1.035,
+            "mdx_dim_f_set": 2048,
+            "mdx_dim_t_set": 7,
+            "mdx_n_fft_scale_set": 4096,
+            "primary_stem": "Drums"
+        }
+    }
+    # Actualizar con hashes reales de modelos descargados
+    for model in UVR_MODELS:
+        model_path = os.path.join(mdxnet_models_dir, model)
+        if os.path.exists(model_path):
+            model_hash = get_hash(model_path)
+            # Configuraciones específicas por modelo
+            if "Voc_FT" in model:
+                config = {
+                    "compensate": 1.035,
+                    "mdx_dim_f_set": 2048,
+                    "mdx_dim_t_set": 8,
+                    "mdx_n_fft_scale_set": 6144,
+                    "primary_stem": "Vocals"
+                }
+            elif "KARA" in model:
+                config = {
+                    "compensate": 1.035,
+                    "mdx_dim_f_set": 2048,
+                    "mdx_dim_t_set": 8,
+                    "mdx_n_fft_scale_set": 6144,
+                    "primary_stem": "Vocals"
+                }
+            elif "Reverb" in model:
+                config = {
+                    "compensate": 1.035,
+                    "mdx_dim_f_set": 2048,
+                    "mdx_dim_t_set": 8,
+                    "mdx_n_fft_scale_set": 6144,
+                    "primary_stem": "Vocals"
+                }
+            elif "Inst_HQ" in model:
+                config = {
+                    "compensate": 1.035,
+                    "mdx_dim_f_set": 2048,
+                    "mdx_dim_t_set": 9,
+                    "mdx_n_fft_scale_set": 8192,
+                    "primary_stem": "Other"
+                }
+            elif "Piano" in model:
+                config = {
+                    "compensate": 1.040,
+                    "mdx_dim_f_set": 3072,
+                    "mdx_dim_t_set": 8,
+                    "mdx_n_fft_scale_set": 7680,
+                    "primary_stem": "Piano"
+                }
+            elif "Bass" in model:
+                config = {
+                    "compensate": 1.035,
+                    "mdx_dim_f_set": 2048,
+                    "mdx_dim_t_set": 9,
+                    "mdx_n_fft_scale_set": 16384,
+                    "primary_stem": "Bass"
+                }
+            elif "Kag_2" in model:  # Drums
+                config = {
+                    "compensate": 1.035,
+                    "mdx_dim_f_set": 2048,
+                    "mdx_dim_t_set": 7,
+                    "mdx_n_fft_scale_set": 4096,
+                    "primary_stem": "Drums"
+                }
+            elif "Kag_3" in model:  # Guitar
+                config = {
+                    "compensate": 1.040,
+                    "mdx_dim_f_set": 3072,
+                    "mdx_dim_t_set": 8,
+                    "mdx_n_fft_scale_set": 7680,
+                    "primary_stem": "Guitar"
+                }
+            else:
+                continue
+            model_data[model_hash] = config
+    with open(data_json_path, 'w') as f:
+        json.dump(model_data, f, indent=2)
+    logger.info(f"✅ data.json creado con {len(model_data)} configuraciones")
+# Clases MDX exactas de r3gm (copiadas del app.py original)
+class MDXModel:
+    def __init__(self, device, dim_f, dim_t, n_fft, hop=1024, stem_name=None, compensation=1.000):
+        self.dim_f = dim_f
+        self.dim_t = dim_t
+        self.dim_c = 4
+        self.n_fft = n_fft
+        self.hop = hop
+        self.stem_name = stem_name
+        self.compensation = compensation
+        self.n_bins = self.n_fft // 2 + 1
+        self.chunk_size = hop * (self.dim_t - 1)
+        self.window = torch.hann_window(window_length=self.n_fft, periodic=True).to(device)
+        out_c = self.dim_c
+        self.freq_pad = torch.zeros([1, out_c, self.n_bins - self.dim_f, self.dim_t]).to(device)
+    def stft(self, x):
+        x = x.reshape([-1, self.chunk_size])
+        x = torch.stft(x, n_fft=self.n_fft, hop_length=self.hop, window=self.window, center=True, return_complex=True)
+        x = torch.view_as_real(x)
+        x = x.permute([0, 3, 1, 2])
+        x = x.reshape([-1, 2, 2, self.n_bins, self.dim_t]).reshape([-1, 4, self.n_bins, self.dim_t])
+        return x[:, :, : self.dim_f]
+    def istft(self, x, freq_pad=None):
+        freq_pad = self.freq_pad.repeat([x.shape[0], 1, 1, 1]) if freq_pad is None else freq_pad
+        x = torch.cat([x, freq_pad], -2)
+        x = x.reshape([-1, 2, 2, self.n_bins, self.dim_t]).reshape([-1, 2, self.n_bins, self.dim_t])
+        x = x.permute([0, 2, 3, 1])
+        x = x.contiguous()
+        x = torch.view_as_complex(x)
+        x = torch.istft(x, n_fft=self.n_fft, hop_length=self.hop, window=self.window, center=True)
+        return x.reshape([-1, 2, self.chunk_size])
+class MDX:
+    DEFAULT_SR = 44100
+    DEFAULT_CHUNK_SIZE = 0 * DEFAULT_SR
+    DEFAULT_MARGIN_SIZE = 1 * DEFAULT_SR
+    def __init__(self, model_path: str, params: MDXModel, processor=0):
+        self.device = torch.device(f"cuda:{processor}") if processor >= 0 and torch.cuda.is_available() else torch.device("cpu")
+        self.provider = ["CUDAExecutionProvider"] if processor >= 0 and torch.cuda.is_available() else ["CPUExecutionProvider"]
+        self.model = params
+        try:
+            self.ort = ort.InferenceSession(model_path, providers=self.provider)
+            dummy_input = torch.rand(1, 4, params.dim_f, params.dim_t).numpy()
+            self.ort.run(None, {"input": dummy_input})
+            self.process = lambda spec: self.ort.run(None, {"input": spec.cpu().numpy()})[0]
+            logger.info(f"✅ Modelo ONNX cargado: {os.path.basename(model_path)}")
+        except Exception as e:
+            logger.error(f"❌ Error cargando modelo ONNX: {e}")
+            raise
+        self.prog = None
+    @staticmethod
+    def segment(wave, combine=True, chunk_size=DEFAULT_CHUNK_SIZE, margin_size=DEFAULT_MARGIN_SIZE):
+        if combine:
+            processed_wave = None
+            for segment_count, segment in enumerate(wave):
+                start = 0 if segment_count == 0 else margin_size
+                end = None if segment_count == len(wave) - 1 else -margin_size
+                if margin_size == 0:
+                    end = None
+                if processed_wave is None:
+                    processed_wave = segment[:, start:end]
                 else:
+                    processed_wave = np.concatenate((processed_wave, segment[:, start:end]), axis=-1)
+        else:
+            processed_wave = []
+            sample_count = wave.shape[-1]
+            if chunk_size <= 0 or chunk_size > sample_count:
+                chunk_size = sample_count
+            if margin_size > chunk_size:
+                margin_size = chunk_size
+            for segment_count, skip in enumerate(range(0, sample_count, chunk_size)):
+                margin = 0 if segment_count == 0 else margin_size
+                end = min(skip + chunk_size + margin_size, sample_count)
+                start = skip - margin
+                cut = wave[:, start:end].copy()
+                processed_wave.append(cut)
+                if end == sample_count:
+                    break
+        return processed_wave
+    def pad_wave(self, wave):
+        n_sample = wave.shape[1]
+        trim = self.model.n_fft // 2
+        gen_size = self.model.chunk_size - 2 * trim
+        pad = gen_size - n_sample % gen_size
+        wave_p = np.concatenate((
+            np.zeros((2, trim)),
+            wave,
+            np.zeros((2, pad)),
+            np.zeros((2, trim)),
+        ), 1)
+        mix_waves = []
+        for i in range(0, n_sample + pad, gen_size):
+            waves = np.array(wave_p[:, i:i + self.model.chunk_size])
+            mix_waves.append(waves)
+        mix_waves = torch.tensor(mix_waves, dtype=torch.float32).to(self.device)
+        return mix_waves, pad, trim
+    def _process_wave(self, mix_waves, trim, pad, q: queue.Queue, _id: int):
+        mix_waves = mix_waves.split(1)
+        with torch.no_grad():
+            pw = []
+            for mix_wave in mix_waves:
+                if self.prog:
+                    self.prog.update()
+                spec = self.model.stft(mix_wave)
+                processed_spec = torch.tensor(self.process(spec))
+                processed_wav = self.model.istft(processed_spec.to(self.device))
+                processed_wav = processed_wav[:, :, trim:-trim].transpose(0, 1).reshape(2, -1).cpu().numpy()
+                pw.append(processed_wav)
+        processed_signal = np.concatenate(pw, axis=-1)[:, :-pad]
+        q.put({_id: processed_signal})
+        return processed_signal
+    def process_wave(self, wave: np.array, mt_threads=1):
+        self.prog = tqdm(total=0, desc="Procesando con IA")
+        chunk = wave.shape[-1] // mt_threads if mt_threads > 1 else wave.shape[-1]
+        waves = self.segment(wave, False, chunk) if mt_threads > 1 else [wave]
+        q = queue.Queue()
+        threads = []
+        for c, batch in enumerate(waves):
+            mix_waves, pad, trim = self.pad_wave(batch)
+            self.prog.total = len(mix_waves) * len(waves)
+            thread = threading.Thread(target=self._process_wave, args=(mix_waves, trim, pad, q, c))
+            thread.start()
+            threads.append(thread)
+        for thread in threads:
+            thread.join()
+        if self.prog:
+            self.prog.close()
+        processed_batches = []
+        while not q.empty():
+            processed_batches.append(q.get())
+        processed_batches = [list(wave.values())[0] for wave in sorted(processed_batches, key=lambda d: list(d.keys())[0])]
+        if len(processed_batches) != len(waves):
+            logger.warning("Procesamiento incompleto")
+            return processed_batches[0] if processed_batches else wave
+        return self.segment(processed_batches, True, chunk) if mt_threads > 1 else processed_batches[0]
+def convert_to_stereo_and_wav(audio_path):
+    """Convertir audio a estéreo WAV usando FFmpeg como r3gm"""
+    try:
+        wave, sr = librosa.load(audio_path, mono=False, sr=44100)
+        if len(wave.shape) == 1 or not audio_path.lower().endswith('.wav'):
+            stereo_path = os.path.join(output_dir, f"{Path(audio_path).stem}_stereo.wav")
+            # Usar FFmpeg como r3gm
+            command = [
+                'ffmpeg', '-y', '-loglevel', 'error',
+                '-i', audio_path,
+                '-ac', '2', '-f', 'wav', stereo_path
+            ]
+            result = subprocess.run(command, capture_output=True, text=True)
+            if result.returncode == 0 and os.path.exists(stereo_path):
+                return stereo_path
+            else:
+                # Fallback con soundfile
+                if len(wave.shape) == 1:
+                    wave = np.stack([wave, wave])
+                sf.write(stereo_path, wave.T, 44100)
+                return stereo_path
         else:
+            return audio_path
+    except Exception as e:
+        logger.error(f"Error convirtiendo audio: {e}")
+        return audio_path
+def run_mdx_separation(model_path, filename, model_params, denoise=False):
+    """Ejecutar separación MDX - Simplificado de r3gm"""
+    try:
+        device_base = "cuda" if torch.cuda.is_available() else "cpu"
+        if device_base == "cuda":
+            device = torch.device("cuda:0")
+            processor_num = 0
+            m_threads = 1
+            logger.info("🔧 Usando GPU")
+        else:
+            device = torch.device("cpu")
+            processor_num = -1
+            m_threads = 1
+            logger.info("🔧 Usando CPU")
+        # Obtener configuración por hash
+        model_hash = get_hash(model_path)
+        mp = model_params.get(model_hash)
+        if not mp:
+            logger.warning(f"Hash no encontrado: {model_hash}, usando configuración por defecto")
+            mp = {
+                "compensate": 1.035,
+                "mdx_dim_f_set": 2048,
+                "mdx_dim_t_set": 8,
+                "mdx_n_fft_scale_set": 6144,
+                "primary_stem": "Vocals"
+            }
+        # Crear modelo MDX
+        model = MDXModel(
+            device,
+            dim_f=mp["mdx_dim_f_set"],
+            dim_t=2 ** mp["mdx_dim_t_set"],
+            n_fft=mp["mdx_n_fft_scale_set"],
+            stem_name=mp["primary_stem"],
+            compensation=mp["compensate"],
         )
+        # Crear sesión MDX
+        mdx_sess = MDX(model_path, model, processor=processor_num)
+        # Cargar y procesar audio
+        wave, sr = librosa.load(filename, mono=False, sr=44100)
+        # Normalizar
+        peak = max(np.max(wave), abs(np.min(wave)))
+        if peak > 0:
+            wave /= peak
+        # Procesar
+        if denoise:
+            wave_processed = -(mdx_sess.process_wave(-wave, m_threads)) + (mdx_sess.process_wave(wave, m_threads))
+            wave_processed *= 0.5
+        else:
+            wave_processed = mdx_sess.process_wave(wave, m_threads)
+        # Restaurar peak
+        wave_processed *= peak
+        # Crear archivos de salida
+        timestamp = int(time.time())
+        song_output_dir = os.path.join(output_dir, f"separated_{timestamp}")
+        os.makedirs(song_output_dir, exist_ok=True)
+        base_name = Path(filename).stem
+        stem_name = model.stem_name
+        # Guardar stem principal
+        main_filepath = os.path.join(song_output_dir, f"{base_name}_{stem_name}.wav")
+        sf.write(main_filepath, wave_processed.T, sr)
+        # Guardar stem invertido
+        invert_name = stem_naming.get(stem_name, "Other")
+        invert_filepath = os.path.join(song_output_dir, f"{base_name}_{invert_name}.wav")
+        inverted_audio = (-wave_processed.T * model.compensation) + wave.T
+        sf.write(invert_filepath, inverted_audio, sr)
+        # Limpieza
+        del mdx_sess, wave_processed, wave
+        gc.collect()
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
+        logger.info(f"✅ Separación completada: {stem_name} + {invert_name}")
+        return [main_filepath, invert_filepath]
+    except Exception as e:
+        logger.error(f"❌ Error en separación MDX: {e}")
+        traceback.print_exc()
+        raise
+def separate_multi_instrument(audio_file, models_to_use):
+    """Separar usando múltiples modelos secuencialmente"""
     try:
+        # Cargar configuraciones
+        data_json_path = os.path.join(mdxnet_models_dir, "data.json")
+        with open(data_json_path) as f:
+            model_params = json.load(f)
+        # Convertir audio
+        converted_file = convert_to_stereo_and_wav(audio_file)
+        all_outputs = []
+        for model_name in models_to_use:
+            model_path = os.path.join(mdxnet_models_dir, model_name)
+            if os.path.exists(model_path):
+                logger.info(f"🎵 Procesando con {model_name}")
+                try:
+                    outputs = run_mdx_separation(model_path, converted_file, model_params, denoise=True)
+                    all_outputs.extend(outputs)
+                except Exception as e:
+                    logger.warning(f"⚠️ Error con {model_name}: {e}")
+                    continue
+            else:
+                logger.warning(f"⚠️ Modelo no encontrado: {model_name}")
+        return all_outputs
     except Exception as e:
+        logger.error(f"❌ Error en separación multi-instrumento: {e}")
+        raise
+def setup_models():
+    """Configurar modelos - Descarga automática como r3gm"""
+    try:
+        logger.info("📥 Configurando modelos...")
+        for model in UVR_MODELS:
+            model_url = MDX_DOWNLOAD_LINK + model
+            download_manager(model_url, mdxnet_models_dir)
+        # Crear data.json con configuraciones
+        create_data_json()
+        logger.info("✅