Spaces:

mramirez2001
/

EvaluadorOpenAI

Sleeping

App Files Files Community

mramirez2001 commited on Sep 27, 2025

Commit

e4e7415

verified ·

1 Parent(s): 5b37622

Upload 3 files

Browse files

Files changed (4) hide show

.gitattributes +1 -0
ES_SP_A2_23_4_14_B.mp3 +3 -0
app.py +135 -0
requirements.txt +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+ES_SP_A2_23_4_14_B.mp3 filter=lfs diff=lfs merge=lfs -text

ES_SP_A2_23_4_14_B.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fb735b421820d07a0ab9433fe54c6feb4889e5e2300b241429ac6d0862a541d
+size 4498911

app.py ADDED Viewed

	@@ -0,0 +1,135 @@

+# app.py
+import gradio as gr
+import os
+from openai import OpenAI
+import json
+# --- 1. Configurar el Cliente de OpenAI ---
+# La clave de API se cargará de forma segura desde los "Secrets" de Hugging Face
+try:
+    client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))
+    api_key_found = True
+except TypeError:
+    api_key_found = False
+# --- 2. El Prompt: El Cerebro de la Operación ---
+# Este prompt le dice a GPT-4o cómo actuar y qué analizar.
+SYSTEM_PROMPT = """
+Eres un experto evaluador de inglés como segundo idioma (ESL) con un doctorado en fonética.
+Tu tarea es analizar un audio, la transcripción del usuario y la transcripción generada por Whisper.
+Debes calificar la pronunciación general en una escala de 0 a 100.
+Tu análisis debe ser profundo, considerando:
+1.  **Precisión (Accuracy):** Compara la transcripción del usuario con la de Whisper para detectar palabras omitidas o incorrectas.
+2.  **Fluidez (Fluency):** Analiza el ritmo, la cadencia y la presencia de pausas o muletillas (uh, um).
+3.  **Prosodia (Prosody):** Evalúa la entonación y el acento de la frase. ¿Suena natural o monótono?
+Devuelve tu análisis únicamente en un formato JSON estricto con la siguiente estructura:
+{
+    "calificacion_general_100": integer,
+    "nivel_mcerl_estimado": "string (ej. A2)",
+    "analisis_fluidez": "string (un párrafo corto)",
+    "analisis_precision": "string (un párrafo corto)",
+    "palabras_a_mejorar": [
+        {"palabra": "string", "error_detectado": "string (ej. pronunciado como '...')" }
+    ]
+}
+"""
+# --- 3. La Función Principal que se Conecta a Gradio ---
+def evaluate_pronunciation_openai(audio_input, user_transcript):
+    """
+    Toma un audio y un texto, los envía a la API de OpenAI y formatea la respuesta.
+    """
+    if not api_key_found:
+        raise gr.Error("Clave de API de OpenAI no encontrada. Asegúrate de configurarla en los 'Secrets' de tu Space.")
+    if audio_input is None or not user_transcript:
+        return 0, "N/A", "N/A", "N/A", [("Por favor, proporciona un audio y una transcripción.", None)]
+    sr, waveform = audio_input # Gradio nos da el audio
+    # Guardar temporalmente el audio para enviarlo a la API
+    temp_audio_path = "temp_audio.wav"
+    import soundfile as sf
+    sf.write(temp_audio_path, waveform, sr)
+    # 1. Transcribir el audio con la API de Whisper de OpenAI
+    print("Transcribiendo audio con Whisper API...")
+    with open(temp_audio_path, "rb") as audio_file:
+        ai_transcript = client.audio.transcriptions.create(
+            model="whisper-1",
+            file=audio_file
+        ).text
+    # 2. Construir el prompt final para el modelo de lenguaje
+    user_prompt = f"""
+    Evalúa el audio proporcionado.
+    Transcripción del usuario: "{user_transcript}"
+    Transcripción generada por la IA (Whisper): "{ai_transcript}"
+    """
+    # 3. Llamar a la API de Chat (GPT-4o) para la evaluación
+    print("Enviando a GPT-4o para evaluación...")
+    response = client.chat.completions.create(
+        model="gpt-4o",
+        response_format={"type": "json_object"},
+        messages=[
+            {"role": "system", "content": SYSTEM_PROMPT},
+            {"role": "user", "content": user_prompt}
+        ]
+    )
+    # 4. Procesar y formatear la respuesta JSON
+    try:
+        result = json.loads(response.choices[0].message.content)
+        score = result.get("calificacion_general_100", 0)
+        level = result.get("nivel_mcerl_estimado", "N/A")
+        fluency = result.get("analisis_fluidez", "")
+        accuracy = result.get("analisis_precision", "")
+        highlighted_feedback = []
+        # Crear retroalimentación visual a partir de la transcripción de la IA
+        words_to_improve = {item['palabra'].upper() for item in result.get("palabras_a_mejorar", [])}
+        for word in ai_transcript.split():
+            if word.upper().strip(".,?!") in words_to_improve:
+                highlighted_feedback.append((word, "Mejorar"))
+            else:
+                highlighted_feedback.append(word)
+        return score, level, fluency, accuracy, highlighted_feedback
+    except (json.JSONDecodeError, KeyError) as e:
+        print(f"Error al parsear la respuesta de la API: {e}")
+        return 0, "Error", "Error", "Error", [("La respuesta de la API no tuvo el formato esperado.", None)]
+# --- 5. Definir y Lanzar la Interfaz de Gradio ---
+description = """
+Sube un audio y escribe la transcripción. La IA de OpenAI (Whisper + GPT-4o)
+analizará tu pronunciación, fluidez y prosodia para darte una calificación completa
+y una retroalimentación detallada.
+"""
+demo = gr.Interface(
+    fn=evaluate_pronunciation_openai,
+    inputs=[
+        gr.Audio(type="numpy", label="Sube tu Audio (.wav o .mp3)"),
+        gr.Textbox(lines=5, label="Escribe la Transcripción Aquí")
+    ],
+    outputs=[
+        gr.Number(label="Calificación General (0-100)"),
+        gr.Textbox(label="Nivel MCERL Estimado"),
+        gr.Textbox(label="Análisis de Fluidez"),
+        gr.Textbox(label="Análisis de Precisión"),
+        gr.HighlightedText(
+            label="Retroalimentación por Palabra",
+            color_map={"Mejorar": "yellow"}
+        )
+    ],
+    title="🤖 Evaluador de Pronunciación con OpenAI API",
+    description=description,
+    examples=[["audio_ejemplo.mp3", "MARK IS GOING TO SEE ELEPHANT"]]
+)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+gradio
+openai
+soundfile