Spaces:

mramirez2001
/

EvaluadorOpenAI

Sleeping

App Files Files Community

mramirez2001 commited on Sep 27, 2025

Commit

b4d513c

verified ·

1 Parent(s): dea71a5

Upload app.py

Browse files

Files changed (1) hide show

app.py +67 -71

app.py CHANGED Viewed

@@ -4,73 +4,65 @@ import gradio as gr
 import os
 from openai import OpenAI
 import json
 # --- 1. Configurar el Cliente de OpenAI ---
-# La clave de API se cargará de forma segura desde los "Secrets" de Hugging Face
 try:
     client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))
     api_key_found = True
 except TypeError:
     api_key_found = False
-# --- 2. El Prompt: El Cerebro de la Operación ---
-# Este prompt le dice a GPT-4o cómo actuar y qué analizar.
 SYSTEM_PROMPT = """
-Eres un experto evaluador de inglés como segundo idioma (ESL) con un doctorado en fonética.
-Tu tarea es analizar un audio, la transcripción del usuario y la transcripción generada por Whisper.
-Debes calificar la pronunciación general en una escala de 0 a 100.
-Tu análisis debe ser profundo, considerando:
-1.  **Precisión (Accuracy):** Compara la transcripción del usuario con la de Whisper para detectar palabras omitidas o incorrectas.
-2.  **Fluidez (Fluency):** Analiza el ritmo, la cadencia y la presencia de pausas o muletillas (uh, um).
-3.  **Prosodia (Prosody):** Evalúa la entonación y el acento de la frase. ¿Suena natural o monótono?
-Devuelve tu análisis únicamente en un formato JSON estricto con la siguiente estructura:
 {
     "calificacion_general_100": integer,
-    "nivel_mcerl_estimado": "string (ej. A2)",
-    "analisis_fluidez": "string (un párrafo corto)",
-    "analisis_precision": "string (un párrafo corto)",
-    "palabras_a_mejorar": [
-        {"palabra": "string", "error_detectado": "string (ej. pronunciado como '...')" }
     ]
 }
 """
-# --- 3. La Función Principal que se Conecta a Gradio ---
 def evaluate_pronunciation_openai(audio_input, user_transcript):
-    """
-    Toma un audio y un texto, los envía a la API de OpenAI y formatea la respuesta.
-    """
     if not api_key_found:
-        raise gr.Error("Clave de API de OpenAI no encontrada. Asegúrate de configurarla en los 'Secrets' de tu Space.")
     if audio_input is None or not user_transcript:
-        return 0, "N/A", "N/A", "N/A", [("Por favor, proporciona un audio y una transcripción.", None)]
-    sr, waveform = audio_input # Gradio nos da el audio
-    # Guardar temporalmente el audio para enviarlo a la API
     temp_audio_path = "temp_audio.wav"
-    import soundfile as sf
     sf.write(temp_audio_path, waveform, sr)
-    # 1. Transcribir el audio con la API de Whisper de OpenAI
-    print("Transcribiendo audio con Whisper API...")
     with open(temp_audio_path, "rb") as audio_file:
-        ai_transcript = client.audio.transcriptions.create(
-            model="whisper-1",
-            file=audio_file
-        ).text
-    # 2. Construir el prompt final para el modelo de lenguaje
     user_prompt = f"""
-    Evalúa el audio proporcionado.
-    Transcripción del usuario: "{user_transcript}"
-    Transcripción generada por la IA (Whisper): "{ai_transcript}"
     """
-    # 3. Llamar a la API de Chat (GPT-4o) para la evaluación
-    print("Enviando a GPT-4o para evaluación...")
     response = client.chat.completions.create(
         model="gpt-4o",
         response_format={"type": "json_object"},
@@ -80,58 +72,62 @@ def evaluate_pronunciation_openai(audio_input, user_transcript):
         ]
     )
-    # 4. Procesar y formatear la respuesta JSON
     try:
         result = json.loads(response.choices[0].message.content)
-        score = result.get("calificacion_general_100", 0)
-        level = result.get("nivel_mcerl_estimado", "N/A")
-        fluency = result.get("analisis_fluidez", "")
-        accuracy = result.get("analisis_precision", "")
-        highlighted_feedback = []
-        # Crear retroalimentación visual a partir de la transcripción de la IA
-        words_to_improve = {item['palabra'].upper() for item in result.get("palabras_a_mejorar", [])}
-        for word in ai_transcript.split():
-            if word.upper().strip(".,?!") in words_to_improve:
-                highlighted_feedback.append((word, "Mejorar"))
-            else:
-                highlighted_feedback.append(word)
-        return score, level, fluency, accuracy, highlighted_feedback
     except (json.JSONDecodeError, KeyError) as e:
-        print(f"Error al parsear la respuesta de la API: {e}")
-        return 0, "Error", "Error", "Error", [("La respuesta de la API no tuvo el formato esperado.", None)]
-# --- 5. Definir y Lanzar la Interfaz de Gradio (Versión Corregida) ---
 description = """
-Sube un audio y escribe la transcripción. La IA de OpenAI (Whisper + GPT-4o)
-analizará tu pronunciación, fluidez y prosodia para darte una calificación completa
-y una retroalimentación detallada.
 """
 demo = gr.Interface(
     fn=evaluate_pronunciation_openai,
     inputs=[
         gr.Audio(type="numpy", label="Sube tu Audio (.wav o .mp3)"),
-        gr.Textbox(lines=5, label="Escribe la Transcripción Aquí")
     ],
     outputs=[
         gr.Number(label="Calificación General (0-100)"),
-        gr.Textbox(label="Nivel MCERL Estimado"),
-        gr.Textbox(label="Análisis de Fluidez"),
-        gr.Textbox(label="Análisis de Precisión"),
-        gr.HighlightedText(
-            label="Retroalimentación por Palabra",
-            color_map={"Mejorar": "yellow"}
-        )
     ],
-    title="🤖 Evaluador de Pronunciación con OpenAI API",
     description=description,
-    # --- AJUSTE CLAVE ---
-    # Asegúrate de que 'audio_ejemplo.mp3' es el nombre exacto
-    # del archivo que subiste a tu Space.
-    examples=[["mark_is_going_to_see_elephant.wav", "MARK IS GOING TO SEE ELEPHANT"]]
 )
 if __name__ == "__main__":

 import os
 from openai import OpenAI
 import json
+import soundfile as sf
 # --- 1. Configurar el Cliente de OpenAI ---
 try:
     client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))
     api_key_found = True
 except TypeError:
     api_key_found = False
+# --- 2. El NUEVO Prompt: Más Técnico y Preciso ---
 SYSTEM_PROMPT = """
+Eres un lingüista computacional y experto en fonética inglesa, especializado en la evaluación de acentos para hablantes de inglés como segundo idioma (ESL).
+Tu tarea es realizar un análisis fonético detallado de un audio, comparando la pronunciación del hablante con un modelo de Inglés Americano General (General American English).
+Debes basar tu análisis en estos tres pilares:
+1.  **Precisión Fonética (Phonetic Accuracy):** Compara la transcripción de Whisper con la transcripción de referencia. Para cada palabra, analiza si los fonemas clave fueron producidos correctamente.
+2.  **Prosodia (Prosody):** Evalúa el ritmo, la entonación y el acento de la frase. ¿La entonación sube y baja de forma natural? ¿Se acentúan las palabras correctas?
+3.  **Vinculación (Linking/Liaison):** Observa si el hablante conecta las palabras de manera fluida (ej. "is a" suena como /ɪzə/).
+Tu respuesta DEBE ser un objeto JSON válido, sin texto adicional antes o después. La estructura es la siguiente:
 {
     "calificacion_general_100": integer,
+    "calificacion_precision_fonetica_100": integer,
+    "analisis_general": "string (Un resumen de dos o tres líneas sobre los puntos fuertes y las áreas de mejora principales del hablante.)",
+    "feedback_fonetico_por_palabra": [
+        {
+            "palabra": "string",
+            "ipa_correcta": "string (La transcripción fonética correcta en IPA, ej. /ˈreɪn.boʊ/)",
+            "error_detectado": "string (Describe el error fonético, ej. 'La vocal /eɪ/ se pronunció como /e/ de forma monoptonga.')",
+            "sugerencia": "string (Un consejo práctico para corregirlo, ej. 'Asegúrate de deslizar la lengua de la posición de 'e' a la de 'i' para crear el diptongo.')"
+        }
     ]
 }
 """
+# --- 3. La Función Principal (Actualizada para el nuevo JSON) ---
 def evaluate_pronunciation_openai(audio_input, user_transcript):
     if not api_key_found:
+        raise gr.Error("Clave de API de OpenAI no encontrada.")
     if audio_input is None or not user_transcript:
+        # Devuelve valores por defecto para todos los outputs
+        return 0, 0, "Por favor, proporciona un audio y una transcripción.", "### Retroalimentación Detallada\nEsperando análisis..."
+    sr, waveform = audio_input
     temp_audio_path = "temp_audio.wav"
     sf.write(temp_audio_path, waveform, sr)
+    print("Transcribiendo audio...")
     with open(temp_audio_path, "rb") as audio_file:
+        ai_transcript = client.audio.transcriptions.create(model="whisper-1", file=audio_file).text
     user_prompt = f"""
+    Realiza el análisis fonético del audio proporcionado.
+    Frase de referencia (lo que el usuario intentaba decir): "{user_transcript}"
+    Transcripción generada por Whisper (lo que realmente se dijo): "{ai_transcript}"
     """
+    print("Enviando a GPT-4o para evaluación fonética...")
     response = client.chat.completions.create(
         model="gpt-4o",
         response_format={"type": "json_object"},
         ]
     )
     try:
         result = json.loads(response.choices[0].message.content)
+        # Extraer datos del nuevo formato JSON
+        score_general = result.get("calificacion_general_100", 0)
+        score_phonetics = result.get("calificacion_precision_fonetica_100", 0)
+        analysis = result.get("analisis_general", "No se proporcionó análisis.")
+        feedback_list = result.get("feedback_fonetico_por_palabra", [])
+        # Formatear el feedback detallado como Markdown para una mejor visualización
+        markdown_feedback = "### Retroalimentación Fonética Detallada\n---\n"
+        if not feedback_list:
+            markdown_feedback += "¡Excelente pronunciación! No se detectaron errores específicos."
+        else:
+            for item in feedback_list:
+                markdown_feedback += f"**Palabra:** `{item.get('palabra', 'N/A')}`\n"
+                markdown_feedback += f"- **IPA Correcta:** `{item.get('ipa_correcta', 'N/A')}`\n"
+                markdown_feedback += f"- **Error Detectado:** {item.get('error_detectado', 'N/A')}\n"
+                markdown_feedback += f"- **Sugerencia:** {item.get('sugerencia', 'N/A')}\n\n"
+        return score_general, score_phonetics, analysis, markdown_feedback
     except (json.JSONDecodeError, KeyError) as e:
+        print(f"Error al procesar la respuesta de la API: {e}")
+        error_message = "La respuesta de la API no tuvo el formato JSON esperado. Inténtalo de nuevo."
+        return 0, 0, error_message, f"### Error\n---\n{error_message}"
+# --- 4. Definir y Lanzar la Interfaz de Gradio (Actualizada) ---
 description = """
+Usa la frase estándar para una evaluación completa o prueba con tus propias frases.
+Sube tu audio y la transcripción. La IA analizará tu pronunciación fonema por fonema.
 """
+# IMPORTANTE: Graba un audio diciendo la frase de ejemplo y guárdalo
+# con este nombre en la misma carpeta que tu app.py
+audio_ejemplo_path = "mark_is_going_to_see_elephant.wav"
+frase_ejemplo_texto = "MARK IS GOING TO SEE ELEPHANT"
 demo = gr.Interface(
     fn=evaluate_pronunciation_openai,
     inputs=[
         gr.Audio(type="numpy", label="Sube tu Audio (.wav o .mp3)"),
+        gr.Textbox(lines=3, label="Escribe la Transcripción de Referencia", value=frase_ejemplo_texto)
     ],
     outputs=[
         gr.Number(label="Calificación General (0-100)"),
+        gr.Number(label="Precisión Fonética (0-100)"),
+        gr.Textbox(label="Análisis General"),
+        gr.Markdown(label="Feedback Detallado por Palabra") # CAMBIO: Markdown para mejor visualización
     ],
+    title="🤖 Evaluador Fonético de Pronunciación (v2)",
     description=description,
+    examples=[
+        [audio_ejemplo_path, frase_ejemplo_texto]
+    ]
 )
 if __name__ == "__main__":