Spaces:

Kesherat
/

blade-inspection-demo

Sleeping

App Files Files Community

Kesheratmex commited on Aug 19

Commit

5d8f144

1 Parent(s): 1fe3c0d

Add GPT image analysis and Markdown output for AI insights

Browse files

Files changed (1) hide show

app.py +112 -6

app.py CHANGED Viewed

@@ -240,6 +240,95 @@ def _extract_video(d):
 def _extract_path(d):
     return (d.get("path") if isinstance(d, dict) else d)
 def _check_token(token: str):
@@ -899,6 +988,9 @@ with gr.Blocks(
         output_video = gr.Video(label="Vídeo anotado", visible=False)
         output_image = gr.Image(label="Imagen anotada", visible=False)
         # Hidden JSON components for API chaining
         json_video = gr.JSON(visible=False)
         json_image = gr.JSON(visible=False)
@@ -906,19 +998,33 @@ with gr.Blocks(
         # Functions to show/hide outputs based on active tab and update content
         def _update_video_output(json_result):
             if json_result and json_result.get("video"):
-                return gr.Video(value=json_result["video"], visible=True), gr.Image(visible=False)
-            return gr.Video(visible=False), gr.Image(visible=False)
         def _update_image_output(json_result):
             if json_result and json_result.get("path"):
-                return gr.Video(visible=False), gr.Image(value=json_result["path"], visible=True)
-            return gr.Video(visible=False), gr.Image(visible=False)
         # Wire up the detection events with proper output visibility
         ev_video = btn_detect.click(fn=infer_media, inputs=video_input, outputs=json_video, api_name="infer_media")
-        ev_video.then(_update_video_output, inputs=json_video, outputs=[output_video, output_image])
         ev_image = btn_detect.click(fn=infer_media, inputs=image_input, outputs=json_image, api_name="infer_media_1")
-        ev_image.then(_update_image_output, inputs=json_image, outputs=[output_video, output_image])
     # Wire the gate
     btn_enter.click(fn=_check_token, inputs=[gate_token], outputs=[gate_group, app_group, gate_status])

 def _extract_path(d):
     return (d.get("path") if isinstance(d, dict) else d)
+def analyze_image_with_gpt(image_path, detections_summary=""):
+    """
+    Analiza una imagen directamente con GPT para obtener observaciones adicionales
+    que el modelo YOLO podría haber perdido.
+    """
+    try:
+        GPTClass = _load_gptoss_wrapper()
+        if not GPTClass:
+            return "Análisis de IA no disponible (GPT wrapper no configurado)"
+        # Obtener características visuales básicas de la imagen
+        visual_features = compute_visual_features(image_path, [])
+        # Construir descripción visual básica
+        visual_desc = ""
+        if visual_features:
+            brightness = visual_features.get("brightness", 0)
+            contrast = visual_features.get("contrast", 0)
+            blur = visual_features.get("blur", 0)
+            dominant_rgb = visual_features.get("dominant_rgb", [])
+            bright_desc = "brillante" if brightness > 130 else ("tenue" if brightness < 80 else "moderadamente iluminada")
+            contrast_desc = "alto contraste" if contrast > 60 else ("bajo contraste" if contrast < 30 else "contraste moderado")
+            blur_desc = "borrosa" if blur < 100 else "nítida"
+            visual_desc = f"La imagen aparece {bright_desc}, con {contrast_desc}, y está {blur_desc}."
+            if dominant_rgb:
+                visual_desc += f" Color dominante aproximado: RGB{dominant_rgb}."
+        # Construir prompt en español para análisis visual directo
+        prompt = f"""Eres un experto en inspección de palas de aerogeneradores. Analiza esta imagen de una pala de aerogenerador y proporciona un análisis detallado en español.
+INFORMACIÓN TÉCNICA DE LA IMAGEN:
+{visual_desc}
+DETECCIONES AUTOMÁTICAS DEL MODELO YOLO:
+{detections_summary if detections_summary else "No se detectaron defectos automáticamente"}
+INSTRUCCIONES PARA TU ANÁLISIS:
+1. Describe lo que observas en la superficie de la pala (color, textura, condiciones generales)
+2. Identifica cualquier anomalía, defecto o área de preocupación que puedas ver visualmente
+3. Menciona específicamente si observas algo que el modelo automático YOLO podría haber perdido
+4. Evalúa el estado general de la pala (excelente, bueno, regular, malo, crítico)
+5. Proporciona recomendaciones específicas de mantenimiento
+ÁREAS ESPECÍFICAS A REVISAR:
+- Borde de ataque (leading edge)
+- Borde de salida (trailing edge)
+- Superficie de la pala
+- Uniones y conexiones
+- Grietas, erosión, decoloración
+- Daños por rayos, impactos de aves
+- Acumulación de suciedad o hielo
+IMPORTANTE:
+- Responde SOLO en español
+- Sé específico sobre ubicaciones y tipos de defectos
+- Si no ves defectos obvios, menciona las características positivas
+- Compara tus observaciones con las detecciones automáticas
+Formato de respuesta:
+## 🔍 Análisis Visual Detallado
+**Estado General:** [tu evaluación del estado]
+**Observaciones Principales:**
+[describe lo que ves en la superficie, colores, texturas]
+**Defectos o Anomalías Detectadas:**
+[cualquier problema que observes, incluso si YOLO no lo detectó]
+**Comparación con Detección Automática:**
+[comenta sobre las detecciones YOLO vs lo que tú observas]
+**Recomendaciones:**
+[acciones específicas recomendadas]
+"""
+        model_id = os.getenv("MODEL_ID", "gpt-oss-120")
+        wrapper = GPTClass(model=model_id)
+        # Generar análisis
+        analysis = wrapper.generate(prompt, max_tokens=1000, temperature=0.2)
+        return analysis
+    except Exception as e:
+        return f"Error en el análisis de IA: {str(e)}"
 def _check_token(token: str):
         output_video = gr.Video(label="Vídeo anotado", visible=False)
         output_image = gr.Image(label="Imagen anotada", visible=False)
+        # Analysis text below the image
+        analysis_text = gr.Markdown(label="Análisis de IA", visible=False)
         # Hidden JSON components for API chaining
         json_video = gr.JSON(visible=False)
         json_image = gr.JSON(visible=False)
         # Functions to show/hide outputs based on active tab and update content
         def _update_video_output(json_result):
             if json_result and json_result.get("video"):
+                return gr.Video(value=json_result["video"], visible=True), gr.Image(visible=False), gr.Markdown(visible=False)
+            return gr.Video(visible=False), gr.Image(visible=False), gr.Markdown(visible=False)
         def _update_image_output(json_result):
             if json_result and json_result.get("path"):
+                # Generar resumen de detecciones para el análisis GPT
+                classes = json_result.get("classes", {})
+                if classes:
+                    detections_summary = "Detecciones automáticas: " + ", ".join([f"{k}: {v}" for k, v in classes.items()])
+                else:
+                    detections_summary = "No se detectaron defectos automáticamente"
+                # Obtener análisis de GPT
+                analysis = analyze_image_with_gpt(json_result["path"], detections_summary)
+                return (
+                    gr.Video(visible=False),
+                    gr.Image(value=json_result["path"], visible=True),
+                    gr.Markdown(value=analysis, visible=True)
+                )
+            return gr.Video(visible=False), gr.Image(visible=False), gr.Markdown(visible=False)
         # Wire up the detection events with proper output visibility
         ev_video = btn_detect.click(fn=infer_media, inputs=video_input, outputs=json_video, api_name="infer_media")
+        ev_video.then(_update_video_output, inputs=json_video, outputs=[output_video, output_image, analysis_text])
         ev_image = btn_detect.click(fn=infer_media, inputs=image_input, outputs=json_image, api_name="infer_media_1")
+        ev_image.then(_update_image_output, inputs=json_image, outputs=[output_video, output_image, analysis_text])
     # Wire the gate
     btn_enter.click(fn=_check_token, inputs=[gate_token], outputs=[gate_group, app_group, gate_status])

**Add GPT image analysis and Markdown output for AI insights**

Add GPT image analysis and Markdown output for AI insights