Spaces:

0notexist0
/

AudioOn

Sleeping

App Files Files Community

0notexist0 commited on 13 days ago

Commit

e8f826b

verified ·

1 Parent(s): 002e398

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -19

app.py CHANGED Viewed

@@ -2,44 +2,66 @@ import gradio as gr
 from huggingface_hub import InferenceClient
 import os
-# Usa os.environ.get per richiamare il Secret che hai creato senza scriverlo in chiaro
 API_TOKEN = os.environ.get("htoken")
-# Inizializza il client ufficiale
-client = InferenceClient(token=API_TOKEN)
-def genera_audio(testo, modello):
     try:
-        if not testo.strip():
-            return "Errore: Inserisci del testo.", None
-        # Determina l'ID esatto del modello
-        model_id = "suno/bark-small" if modello == "Suno Bark" else "facebook/mms-tts-ita"
-        # Chiamata API ufficiale per l'audio text-to-speech
         audio_bytes = client.text_to_speech(testo, model=model_id)
-        # Gradio gestisce i byte e crea il player audio in automatico
-        return "Generazione completata con successo!", audio_bytes
     except Exception as e:
-        return f"Errore durante l'inferenza: {str(e)}", None
 # Creazione dell'interfaccia UI
 with gr.Blocks(theme=gr.themes.Soft()) as interfaccia:
-    gr.Markdown("# Generatore Audio IA (Backend Diretto)")
     with gr.Row():
-        testo_input = gr.Textbox(label="Testo da generare", placeholder="Scrivi qui...")
         modello_dropdown = gr.Dropdown(
-            choices=["Suno Bark", "Facebook MMS Ita"],
-            value="Suno Bark",
-            label="Scegli il Modello"
         )
     pulsante = gr.Button("Genera Audio", variant="primary")
-    status_output = gr.Textbox(label="Stato Console")
     audio_output = gr.Audio(label="Player Audio", autoplay=True)
     # Collegamento dell'interfaccia alla logica Python

 from huggingface_hub import InferenceClient
 import os
+# Recupera il token in modo sicuro (Se restituisce None, lo segnaleremo nell'interfaccia)
 API_TOKEN = os.environ.get("htoken")
+# Dizionario dei migliori modelli gratuiti e Open Source disponibili per Text-to-Speech
+MODELLI_DISPONIBILI = {
+    "Suno Bark Small (Multilingua, Espressivo ma lento)": "suno/bark-small",
+    "Microsoft SpeechT5 (Inglese, Veloce e stabilissimo)": "microsoft/speecht5_tts",
+    "Facebook MMS Italiano (Italiano, Veloce)": "facebook/mms-tts-ita",
+    "Facebook MMS Inglese (Inglese, Veloce)": "facebook/mms-tts-eng",
+    "ESPnet VITS (Inglese, Altissima qualità vocale)": "espnet/kan-bayashi_ljspeech_vits"
+}
+def genera_audio(testo, nome_modello):
+    # 1. Controllo hardware: Verifichiamo che il container abbia letto il token
+    if not API_TOKEN:
+        return "ERRORE CRITICO: Il Token è vuoto. Devi fare 'Restart this Space' nelle impostazioni per caricare il Secret 'htoken'.", None
+    if not testo.strip():
+        return "Errore: Inserisci del testo.", None
+    # 2. Recupera l'ID esatto del modello in base alla scelta dell'utente
+    model_id = MODELLI_DISPONIBILI.get(nome_modello)
     try:
+        # Inizializza il client ufficiale
+        client = InferenceClient(token=API_TOKEN)
+        # Chiamata API ufficiale per l'audio
         audio_bytes = client.text_to_speech(testo, model=model_id)
+        return f"Successo! Audio generato utilizzando il modello: {model_id}", audio_bytes
     except Exception as e:
+        errore_str = str(e)
+        messaggio_errore = f"Errore durante l'inferenza: {errore_str}\n\n"
+        # Analisi degli errori più comuni per aiutarti nel debug
+        if "401" in errore_str or "Invalid username" in errore_str:
+            messaggio_errore += "💡 SOLUZIONE: Il tuo Token non ha i permessi corretti o lo Space non è stato riavviato. Controlla che il token sia 'Finegrained' e fai Restart."
+        elif "503" in errore_str or "loading" in errore_str.lower():
+            messaggio_errore += "💡 SOLUZIONE: Questo specifico modello è in letargo sui server. Riprova tra 30 secondi o scegli un altro modello dal menu."
+        return messaggio_errore, None
 # Creazione dell'interfaccia UI
 with gr.Blocks(theme=gr.themes.Soft()) as interfaccia:
+    gr.Markdown("# Generatore Audio IA Multi-Modello")
+    gr.Markdown("Scegli tra i migliori modelli Open Source gratuiti. *Nota: i modelli inglesi hanno spesso una qualità vocale superiore su Hugging Face.*")
     with gr.Row():
+        testo_input = gr.Textbox(label="Testo da generare", placeholder="Scrivi qui il tuo prompt...", lines=3)
         modello_dropdown = gr.Dropdown(
+            choices=list(MODELLI_DISPONIBILI.keys()),
+            value="Suno Bark Small (Multilingua, Espressivo ma lento)",
+            label="Scegli il Modello IA"
         )
     pulsante = gr.Button("Genera Audio", variant="primary")
+    status_output = gr.Textbox(label="Stato Console", lines=4)
     audio_output = gr.Audio(label="Player Audio", autoplay=True)
     # Collegamento dell'interfaccia alla logica Python