Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

.gitattributes +1 -0
README.md +180 -1
app.py +218 -0
assets/banner.png +3 -0
requirements.txt +2 -0

.gitattributes CHANGED Viewed

@@ -32,3 +32,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/banner.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,8 +1,187 @@
 ---
 pipeline_tag: audio-to-audio
 tags:
 - music
 - art
 ---
-Modelo de voz del cantante español Quevedo para el modelo so-vits-svc

 ---
 pipeline_tag: audio-to-audio
+language: es
+license: creativeml-openrail-m
 tags:
 - music
 - art
+- voice-cloning
+- so-vits-svc
+- so-vits-svc-fork
+- quevedo
+- spanish
 ---
+<p align="center">
+  <img src="assets/banner.png" alt="Quevedo Voice Model Banner" width="100%">
+</p>
+# 🗣️ Quevedo Voice Model (`so-vits-svc-fork`)
+Este repositorio contiene el modelo de voz del cantante español **Quevedo**, entrenado para su uso con la biblioteca **`so-vits-svc-fork`** (versión 3.10.3+ / 4.0.0+).
+This repository contains the voice model of the Spanish singer **Quevedo**, trained for use with the **`so-vits-svc-fork`** library (version 3.10.3+ / 4.0.0+).
+---
+## 📋 Tabla de Contenidos / Table of Contents
+- [Especificaciones del Modelo / Model Specifications](#-especificaciones-del-modelo--model-specifications)
+- [Estructura del Repositorio / Repository Structure](#-estructura-del-repositorio--repository-structure)
+- [Instalación Rápida / Quick Installation](#-instalación-rápida--quick-installation)
+- [Uso por Consola (CLI) / CLI Usage](#-uso-por-consola-cli--cli-usage)
+- [Uso por Python API / Python API Usage](#-uso-por-python-api--python-api-usage)
+- [Interfaz Web (Gradio WebUI) / Web Interface](#-interfaz-web-gradio-webui--web-interface)
+- [Despliegue en Hugging Face Spaces / Hugging Face Spaces Deployment](#-despliegue-en-hugging-face-spaces--hugging-face-spaces-deployment)
+- [Consejos de Configuración / Optimization & Tips](#-consejos-de-configuración--optimization--tips)
+- [Aviso de Uso Ético / Ethical Disclaimer](#-aviso-de-uso-ético--ethical-disclaimer)
+---
+## 📊 Especificaciones del Modelo / Model Specifications
+| Característica / Feature | Valor / Value |
+| --- | --- |
+| **Speaker ID / Nombre** | `quevedo` (Index: `0`) |
+| **Frecuencia de Muestreo / Sampling Rate** | `44100 Hz` (44.1 kHz) |
+| **Algoritmo Base / Architecture** | VITS with SoftVC content encoder (HuBERT) |
+| **Versión del Fork / Fork Version** | `so-vits-svc-fork` v3.x / v4.x |
+| **Tipo de Modelo / Pipeline** | Audio-to-Audio (Singing/Speech Voice Conversion) |
+---
+## 📁 Estructura del Repositorio / Repository Structure
+- `G_777.pth`: Pesos del generador del modelo (Git LFS).
+- `config.json`: Archivo de configuración del modelo que incluye los parámetros de entrenamiento y el índice del speaker.
+- `app.py`: Interfaz gráfica interactiva y profesional construida con **Gradio**.
+- `requirements.txt`: Dependencias requeridas para la ejecución de la UI y la inferencia.
+- `assets/banner.png`: Imagen de portada representativa para el repositorio.
+---
+## 🛠️ Instalación Rápida / Quick Installation
+Para empezar a utilizar el modelo en tu ordenador local, primero debes configurar tu entorno de Python (se recomienda Python 3.10 o 3.11):
+```bash
+# 1. Clonar el repositorio / Clone repository
+git clone https://huggingface.co/lagosproject/quevedo
+cd quevedo
+# 2. Crear y activar un entorno virtual / Create & activate virtual environment
+python3 -m venv venv
+source venv/bin/activate  # En Windows usa: venv\Scripts\activate
+# 3. Instalar dependencias / Install dependencies
+pip install -r requirements.txt
+```
+> [!IMPORTANT]
+> Se requiere tener instalado **FFmpeg** en tu sistema para el procesamiento de archivos de audio. Si eres usuario de Ubuntu/Debian ejecuta `sudo apt install ffmpeg`, o en Windows/macOS instálalo usando tu gestor de paquetes favorito (ej: `brew install ffmpeg` o `choco install ffmpeg`).
+---
+## 💻 Uso por Consola (CLI) / CLI Usage
+Puedes realizar conversiones de voz directamente desde tu terminal utilizando el comando unificado `svc`:
+```bash
+# Inferencia básica / Basic inference
+svc infer path/to/input.wav -m G_777.pth -c config.json -s quevedo -o output.wav
+# Inferencia con ajuste de tono (+3 semitonos para voces más agudas) / Inference with +3 semitones pitch shift
+svc infer path/to/input.wav -m G_777.pth -c config.json -s quevedo -t 3 -fm crepe -o output.wav
+```
+### Parámetros útiles de CLI:
+*   `-m` / `--model-path`: Ruta al modelo generador (`G_777.pth`).
+*   `-c` / `--config-path`: Ruta a la configuración (`config.json`).
+*   `-s` / `--spk-list`: Nombre del speaker (`quevedo`).
+*   `-t` / `--trans`: Ajuste de tono en semitones (usa números negativos para hacer la voz más grave, y positivos para hacerla más aguda).
+*   `-fm` / `--f0-method`: Método de pitch tracking. Opciones recomendadas: `crepe` (mejor calidad) o `dio` (más rápido).
+---
+## 🐍 Uso por Python API / Python API Usage
+Si quieres integrar la conversión de voz directamente dentro de tus scripts en Python:
+```python
+from pathlib import Path
+from so_vits_svc_fork.inference.main import infer
+# Definición de rutas
+input_audio = Path("mi_entrada.wav")
+output_audio = Path("quevedo_output.wav")
+model_path = Path("G_777.pth")
+config_path = Path("config.json")
+# Invocación de la inferencia
+infer(
+    input_path=input_audio,
+    output_path=output_audio,
+    model_path=model_path,
+    config_path=config_path,
+    recursive=False,
+    speaker="quevedo",
+    transpose=0,              # Cambiar si el tono original difiere mucho del de Quevedo
+    auto_predict_f0=False,    # False para cantar (mantiene la melodía), True para hablar
+    f0_method="crepe",        # Crepe ofrece la mejor precisión de tono
+    noise_scale=0.4
+)
+print(f"Conversión finalizada: {output_audio}")
+```
+---
+## 🎨 Interfaz Web (Gradio WebUI) / Web Interface
+El repositorio incluye una WebUI moderna y estilizada construida con Gradio. Para lanzarla localmente, ejecuta:
+```bash
+python app.py
+```
+Una vez iniciado, abre tu navegador en `http://localhost:7860` para acceder a la aplicación web.
+### Captura de Características / Feature highlights:
+- **Arrastrar y soltar (Drag and Drop):** Permite subir archivos fácilmente o grabar directamente usando el micrófono.
+- **Acceso Avanzado:** Controla el Pitch Shift, el método F0 predictor (`crepe`, `dio`, `harvest`), y la Escala de Ruido de forma visual.
+- **Bilingüe:** Totalmente adaptado en inglés y español.
+- **Estilo Moderno:** Diseñado con un tema oscuro tipo "glassmorphism" en tonos azul y púrpura de alta calidad.
+---
+## 🚀 Despliegue en Hugging Face Spaces / Hugging Face Spaces Deployment
+Si quieres hacer este modelo interactivo directamente en Hugging Face para que cualquier persona del mundo lo pruebe sin instalar nada localmente:
+1. Crea un nuevo **Space** en tu cuenta de Hugging Face.
+2. Selecciona **Gradio** como el SDK del Space.
+3. Elige el hardware correspondiente (CPU básica gratuita es suficiente, aunque una GPU aumentará drásticamente la velocidad).
+4. Sube todos los archivos de este repositorio a tu Space (incluyendo `app.py`, `requirements.txt`, `config.json`, `G_777.pth` y `assets/`).
+5. El Space se compilará automáticamente y lanzará la interfaz web de manera pública y gratuita.
+---
+## 💡 Consejos de Configuración / Optimization & Tips
+Para obtener la mejor calidad de audio al clonar la voz de Quevedo:
+*   **Ajuste de Tono (Pitch Shift):** Quevedo tiene un registro de barítono medio/bajo muy característico y profundo.
+    *   Si tu audio de entrada es cantado por una **voz femenina**, debes aplicar un pitch shift negativo substancial (típicamente entre **-8 y -12 semitonos**) para que suene natural.
+    *   Si el origen es una **voz masculina aguda/tenor**, ajusta el pitch a **-3 a -6 semitonos**.
+    *   Si es una **voz masculina grave/barítono**, puedes mantenerlo en **0**.
+*   **Voz de Canto vs Voz Hablada:**
+    *   Para canciones, asegúrate de tener desactivada la opción `Auto Predicción de F0`. Esto preservará las notas musicales del cantante original.
+    *   Para diálogos o voz de doblaje, activa `Auto Predicción de F0` para que el modelo aplique la entonación y prosodia típica de Quevedo al texto hablado.
+*   **Preparación del Audio de Entrada:**
+    *   Usa siempre audios de entrada limpios (acapellas). Cualquier música de fondo, eco, reverberación o ruido ambiental se distorsionará y arruinará la calidad de conversión.
+    *   Si tus audios son muy largos (más de 30-45 segundos), divídelos en pequeños segmentos para evitar errores por falta de memoria (Out of Memory).
+---
+## ⚠️ Aviso de Uso Ético / Ethical Disclaimer
+Este modelo ha sido desarrollado con fines artísticos, educativos y de investigación científica. **No está diseñado para ser usado en suplantaciones de identidad con fines fraudulentos o difamatorios.**
+*   Si publicas música o covers creados con este modelo, debes aclarar explícitamente en el título y descripción que se trata de un cover creado mediante Inteligencia Artificial (ej: "Cover IA").
+*   Respeta las directrices éticas locales y los derechos morales del artista original. El desarrollador de este repositorio no se hace responsable del uso indebido del modelo por parte de terceros.

app.py ADDED Viewed

	@@ -0,0 +1,218 @@

+import os
+import json
+from pathlib import Path
+import gradio as gr
+# Setup paths
+MODEL_PATH = Path("G_777.pth")
+CONFIG_PATH = Path("config.json")
+BANNER_PATH = Path("assets/banner.png")
+# Dynamic speaker loader
+speakers = ["quevedo"]
+if CONFIG_PATH.exists():
+    try:
+        with open(CONFIG_PATH, "r", encoding="utf-8") as f:
+            config_data = json.load(f)
+            if "spk" in config_data:
+                speakers = list(config_data["spk"].keys())
+    except Exception as e:
+        print(f"Error loading speakers from config: {e}")
+# Inference function
+def convert_voice(input_audio, speaker, transpose, auto_predict_f0, f0_method, noise_scale):
+    if input_audio is None:
+        return None, "Por favor, sube un archivo de audio o usa el micrófono / Please upload an audio file or use the microphone."
+    input_path = Path(input_audio)
+    output_path = input_path.parent / f"{input_path.stem}_quevedo.wav"
+    # Lazy import to avoid startup errors if so-vits-svc-fork is not yet installed
+    try:
+        from so_vits_svc_fork.inference.main import infer
+    except ImportError:
+        return None, (
+            "Error: 'so-vits-svc-fork' no está instalado en este entorno.\n"
+            "Ejecuta: pip install so-vits-svc-fork\n\n"
+            "Error: 'so-vits-svc-fork' is not installed in this environment.\n"
+            "Run: pip install so-vits-svc-fork"
+        )
+    if not MODEL_PATH.exists():
+        return None, f"Error: No se encontró el archivo del modelo {MODEL_PATH} / Model file {MODEL_PATH} not found."
+    if not CONFIG_PATH.exists():
+        return None, f"Error: No se encontró el archivo de configuración {CONFIG_PATH} / Config file {CONFIG_PATH} not found."
+    try:
+        # Perform inference using the fork's main infer function
+        infer(
+            input_path=input_path,
+            output_path=output_path,
+            model_path=MODEL_PATH,
+            config_path=CONFIG_PATH,
+            recursive=False,
+            speaker=speaker,
+            transpose=int(transpose),
+            auto_predict_f0=bool(auto_predict_f0),
+            noise_scale=float(noise_scale),
+            f0_method=f0_method
+        )
+        if output_path.exists():
+            return str(output_path), "¡Conversión completada con éxito! / Conversion completed successfully!"
+        else:
+            return None, "Error al generar el archivo de salida / Output file was not generated."
+    except Exception as e:
+        return None, f"Error durante la inferencia / Error during inference: {str(e)}"
+# Custom CSS for premium styling matching the blue-purple theme
+custom_css = """
+body {
+    background-color: #0b0c10;
+}
+.gradio-container {
+    background-color: #0b0c10 !important;
+    font-family: 'Outfit', 'Inter', sans-serif !important;
+    max-width: 900px !important;
+    margin: 0 auto !important;
+    border-radius: 12px;
+}
+.header-area {
+    text-align: center;
+    padding: 20px 0;
+}
+.header-title {
+    color: #4f46e5;
+    background: linear-gradient(90deg, #818cf8 0%, #c084fc 100%);
+    -webkit-background-clip: text;
+    -webkit-text-fill-color: transparent;
+    font-weight: 800 !important;
+    font-size: 2.5rem !important;
+    margin-bottom: 0.5rem;
+}
+.header-desc {
+    color: #9ca3af;
+    font-size: 1.1rem;
+    margin-bottom: 20px;
+}
+.main-box {
+    background: rgba(17, 24, 39, 0.7);
+    border: 1px solid rgba(255, 255, 255, 0.1);
+    backdrop-filter: blur(10px);
+    border-radius: 16px;
+    padding: 20px;
+    margin-bottom: 20px;
+}
+.convert-btn {
+    background: linear-gradient(135deg, #6366f1 0%, #a855f7 100%) !important;
+    border: none !important;
+    color: white !important;
+    font-weight: bold !important;
+    transition: all 0.3s ease !important;
+}
+.convert-btn:hover {
+    transform: translateY(-2px);
+    box-shadow: 0 4px 20px rgba(139, 92, 246, 0.4);
+}
+"""
+# Build Gradio UI
+with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
+    # Banner/Header
+    with gr.Row():
+        if BANNER_PATH.exists():
+            gr.Image(str(BANNER_PATH), show_label=False, container=False, interactive=False)
+    with gr.Row(elem_classes=["header-area"]):
+        gr.HTML(
+            "<h1 class='header-title'>🗣️ Quevedo Voice Model (so-vits-svc-fork)</h1>"
+            "<p class='header-desc'>Convierte cualquier archivo de voz o canto en la voz de Quevedo.</p>"
+            "<p style='color: #6b7280; font-size: 0.9rem; margin-top: -10px;'>"
+            "Convert any voice or singing file into the voice of Quevedo.</p>"
+        )
+    # Main conversion section
+    with gr.Row(elem_classes=["main-box"]):
+        with gr.Column(scale=1):
+            gr.Markdown("### 📥 1. Entrada de Audio / Audio Input")
+            input_audio = gr.Audio(
+                label="Audio a Convertir (Voz limpia / Acapella)",
+                type="filepath",
+                sources=["upload", "microphone"]
+            )
+            gr.Markdown("### ⚙️ 2. Parámetros de Conversión / Parameters")
+            speaker = gr.Dropdown(
+                choices=speakers,
+                value=speakers[0],
+                label="Speaker (Personaje)"
+            )
+            transpose = gr.Slider(
+                minimum=-12,
+                maximum=12,
+                value=0,
+                step=1,
+                label="Ajuste de Tono (Semitonos) / Pitch Shift (Semitones)",
+                info="Aumenta para voces femeninas a masculinas (ej: -5 a -12), o disminuye para masculinas a femeninas."
+            )
+            with gr.Accordion("Parámetros Avanzados / Advanced Options", open=False):
+                auto_predict_f0 = gr.Checkbox(
+                    value=False,
+                    label="Auto Predicción de F0 / Auto Predict F0",
+                    info="Recomendado para voz hablada. DESMARCAR para canto / Recommended for speech, UNCHECK for singing."
+                )
+                f0_method = gr.Dropdown(
+                    choices=["crepe", "crepe-tiny", "parselmouth", "dio", "harvest"],
+                    value="crepe",
+                    label="F0 Predictor (Algoritmo de Tono)",
+                    info="crepe es el de mayor calidad pero más lento; dio es el más rápido."
+                )
+                noise_scale = gr.Slider(
+                    minimum=0.1,
+                    maximum=1.0,
+                    value=0.4,
+                    step=0.05,
+                    label="Escala de Ruido / Noise Scale",
+                    info="Controla la vibración/varianza del tono (0.4 es estándar)."
+                )
+        with gr.Column(scale=1):
+            gr.Markdown("### 📤 3. Resultado / Output")
+            output_audio = gr.Audio(
+                label="Audio Convertido (Quevedo)",
+                type="filepath"
+            )
+            status_output = gr.Textbox(
+                label="Estado / Status",
+                value="Listo / Ready",
+                interactive=False
+            )
+            submit_btn = gr.Button(
+                "Convertir Voz / Convert 🚀",
+                variant="primary",
+                elem_classes=["convert-btn"]
+            )
+            submit_btn.click(
+                fn=convert_voice,
+                inputs=[input_audio, speaker, transpose, auto_predict_f0, f0_method, noise_scale],
+                outputs=[output_audio, status_output]
+            )
+    # Footer
+    gr.HTML(
+        "<div style='text-align: center; color: #4b5563; font-size: 0.85rem; padding: 20px 0;'>"
+        "Modelo para fines de demostración artística y de investigación. "
+        "Usa so-vits-svc-fork para la inferencia.<br>"
+        "Developed with 💜 for the open voice community.</div>"
+    )
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)

assets/banner.png ADDED Viewed

Git LFS Details

SHA256: f5b1a24adac630a6dd86b26eda89683e2cb7ee9234d317ea4b09baabf0dcc10d
Pointer size: 131 Bytes
Size of remote file: 913 kB

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ so-vits-svc-fork>=3.10.3
2	+ gradio>=4.0.0