Spaces:

Lukeetah
/

NextLevel

Runtime error

App Files Files Community

Lukeetah commited on Jun 21, 2025

Commit

2a02792

verified ·

1 Parent(s): 52c1a75

Update app.py

Browse files

Files changed (1) hide show

app.py +569 -35

app.py CHANGED Viewed

@@ -1,41 +1,575 @@
-import gradio as gr
-from modules.analyzer import UltraAnalyzer
-from modules.visualization import create_consciousness_map, create_evolution_timeline, create_quantum_network
-from modules.fallback import minimal_response
-# Init
-analyzer = UltraAnalyzer()
-history = []
-def main_interface(text, deep_mode=False):
-    if not text.strip():
-        return minimal_response("Transmite tu pensamiento."), None, None, None
-    try:
-        result = analyzer.analyze(text, deep_mode)
-        history.append(result)
-        return (
-            result["response_md"],
-            create_consciousness_map(result),
-            create_evolution_timeline(result["future_scenarios"]),
-            create_quantum_network(result)
-        )
-    except Exception as e:
-        return minimal_response(str(e)), None, None, None
-# UI
-with gr.Blocks(title="Nexus Metamorphosis Ultra (PROD)") as app:
-    gr.Markdown("# 🌌 Nexus Metamorphosis Ultra (PROD)")
-    with gr.Row():
-        inp = gr.Textbox(label="🧠 Tu pensamiento")
-        deep = gr.Checkbox(label="Modo profundo", value=False)
-        btn = gr.Button("🚀 Analizar")
-    map_plot = gr.Plot(label="Mapa de Conciencia")
-    timeline = gr.Plot(label="Timeline Evolutivo")
-    network = gr.Plot(label="Red Cuántica")
-    out_md = gr.Markdown()
-    btn.click(main_interface, [inp, deep], [out_md, map_plot, timeline, network], api_name="analyze")
-# Launch sin enable_queue
 if __name__ == "__main__":
-    app.launch(server_name="0.0.0.0", server_port=7860)  # [10]

+mport gradio as gr
+import torch
+import torch.nn as nn
+import numpy as np
+import pandas as pd
+from typing import Dict, List, Tuple, Optional, Union
+import asyncio
+import logging
+from pathlib import Path
+import json
+import pickle
+import requests
+from PIL import Image
+import librosa
+import cv2
+from transformers import (
+    AutoTokenizer, AutoModel, AutoProcessor,
+    BlipProcessor, BlipForConditionalGeneration,
+    pipeline
+)
+from sentence_transformers import SentenceTransformer
+import umap
+from sklearn.manifold import TSNE
+from sklearn.cluster import DBSCAN
+from sklearn.preprocessing import StandardScaler
+import plotly.express as px
+import plotly.graph_objects as go
+from datetime import datetime
+import warnings
+warnings.filterwarnings('ignore')
+# Configuración de logging avanzado
+logging.basicConfig(
+    level=logging.INFO,
+    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
+    handlers=[
+        logging.FileHandler('multimodal_system.log'),
+        logging.StreamHandler()
+    ]
+)
+logger = logging.getLogger(__name__)
+class MultimodalAISystem:
+    """
+    Sistema principal de IA Multimodal que orquesta todos los componentes
+    del pipeline de procesamiento avanzado
+    """
+    def __init__(self):
+        """Inicialización del sistema multimodal con carga diferida de modelos"""
+        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        logger.info(f"Sistema iniciado en dispositivo: {self.device}")
+        # Diccionario para almacenar modelos cargados
+        self.models = {}
+        self.processors = {}
+        self.embeddings_cache = {}
+        # Configuración de parámetros del sistema
+        self.config = {
+            'max_text_length': 512,
+            'image_size': (224, 224),
+            'audio_sample_rate': 16000,
+            'embedding_dim': 768,
+            'clustering_eps': 0.5,
+            'umap_n_components': 2,
+            'tsne_perplexity': 30
+        }
+        # Inicializar componentes principales
+        self._initialize_system()
+    def _initialize_system(self):
+        """Inicialización diferida del sistema para optimizar memoria"""
+        try:
+            # Inicializar procesador de texto
+            self._load_text_models()
+            # Inicializar procesador de imágenes
+            self._load_vision_models()
+            # Configurar reducción dimensional
+            self._setup_dimensionality_reduction()
+            logger.info("Sistema multimodal inicializado correctamente")
+        except Exception as e:
+            logger.error(f"Error en inicialización del sistema: {str(e)}")
+            raise
+    def _load_text_models(self):
+        """Carga modelos de procesamiento de texto"""
+        try:
+            model_name = "sentence-transformers/all-MiniLM-L6-v2"
+            self.models['text_embedder'] = SentenceTransformer(model_name)
+            # Configurar pipeline de análisis de sentimientos
+            self.models['sentiment'] = pipeline(
+                "sentiment-analysis",
+                model="cardiffnlp/twitter-roberta-base-sentiment-latest",
+                return_all_scores=True
+            )
+            logger.info("Modelos de texto cargados exitosamente")
+        except Exception as e:
+            logger.error(f"Error cargando modelos de texto: {str(e)}")
+            # Fallback a modelo básico
+            self.models['text_embedder'] = None
+    def _load_vision_models(self):
+        """Carga modelos de procesamiento de imágenes"""
+        try:
+            # Cargar modelo BLIP para tareas visión-lenguaje
+            processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
+            model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
+            self.processors['blip'] = processor
+            self.models['blip'] = model.to(self.device)
+            # Pipeline de clasificación de imágenes
+            self.models['image_classifier'] = pipeline(
+                "image-classification",
+                model="google/vit-base-patch16-224"
+            )
+            logger.info("Modelos de visión cargados exitosamente")
+        except Exception as e:
+            logger.error(f"Error cargando modelos de visión: {str(e)}")
+    def _setup_dimensionality_reduction(self):
+        """Configuración de algoritmos de reducción dimensional"""
+        self.reducers = {
+            'umap': umap.UMAP(
+                n_components=self.config['umap_n_components'],
+                random_state=42,
+                n_neighbors=15,
+                min_dist=0.1
+            ),
+            'tsne': TSNE(
+                n_components=2,
+                perplexity=self.config['tsne_perplexity'],
+                random_state=42
+            ),
+            'dbscan': DBSCAN(
+                eps=self.config['clustering_eps'],
+                min_samples=5
+            )
+        }
+    async def process_multimodal_input(
+        self,
+        text_input: str = None,
+        image_input = None,
+        audio_input = None
+    ) -> Dict:
+        """
+        Procesamiento asíncrono de entrada multimodal
+        Args:
+            text_input: Texto para procesar
+            image_input: Imagen PIL o path
+            audio_input: Array de audio o path
+        Returns:
+            Diccionario con resultados del procesamiento
+        """
+        results = {
+            'timestamp': datetime.now().isoformat(),
+            'processing_status': 'initiated',
+            'embeddings': {},
+            'analysis': {},
+            'visualizations': {}
+        }
+        try:
+            # Procesar texto si está disponible
+            if text_input and text_input.strip():
+                text_results = await self._process_text(text_input)
+                results['embeddings']['text'] = text_results['embedding']
+                results['analysis']['text'] = text_results['analysis']
+            # Procesar imagen si está disponible
+            if image_input is not None:
+                image_results = await self._process_image(image_input)
+                results['embeddings']['image'] = image_results['embedding']
+                results['analysis']['image'] = image_results['analysis']
+            # Procesar audio si está disponible
+            if audio_input is not None:
+                audio_results = await self._process_audio(audio_input)
+                results['embeddings']['audio'] = audio_results['embedding']
+                results['analysis']['audio'] = audio_results['analysis']
+            # Generar visualizaciones si hay múltiples modalidades
+            if len(results['embeddings']) > 1:
+                vis_results = await self._generate_multimodal_visualizations(results['embeddings'])
+                results['visualizations'] = vis_results
+            results['processing_status'] = 'completed'
+            logger.info("Procesamiento multimodal completado exitosamente")
+        except Exception as e:
+            results['processing_status'] = 'error'
+            results['error'] = str(e)
+            logger.error(f"Error en procesamiento multimodal: {str(e)}")
+        return results
+    async def _process_text(self, text: str) -> Dict:
+        """Procesamiento avanzado de texto con múltiples análisis"""
+        try:
+            # Generar embedding del texto
+            embedding = self.models['text_embedder'].encode([text])[0]
+            # Análisis de sentimientos
+            sentiment_results = self.models['sentiment'](text)
+            # Análisis estadístico básico
+            text_stats = {
+                'length': len(text),
+                'words': len(text.split()),
+                'sentences': len([s for s in text.split('.') if s.strip()]),
+                'avg_word_length': np.mean([len(word) for word in text.split()])
+            }
+            return {
+                'embedding': embedding.tolist(),
+                'analysis': {
+                    'sentiment': sentiment_results,
+                    'statistics': text_stats,
+                    'processed_text': text[:200] + "..." if len(text) > 200 else text
+                }
+            }
+        except Exception as e:
+            logger.error(f"Error procesando texto: {str(e)}")
+            return {'embedding': None, 'analysis': {'error': str(e)}}
+    async def _process_image(self, image) -> Dict:
+        """Procesamiento avanzado de imágenes con múltiples técnicas"""
+        try:
+            # Convertir a PIL Image si es necesario
+            if isinstance(image, str):
+                image = Image.open(image)
+            elif isinstance(image, np.ndarray):
+                image = Image.fromarray(image)
+            # Generar caption con BLIP
+            inputs = self.processors['blip'](image, return_tensors="pt").to(self.device)
+            with torch.no_grad():
+                generated_ids = self.models['blip'].generate(**inputs, max_length=50)
+                caption = self.processors['blip'].decode(generated_ids[0], skip_special_tokens=True)
+            # Clasificación de imagen
+            classification_results = self.models['image_classifier'](image)
+            # Generar embedding de la imagen usando el caption
+            caption_embedding = self.models['text_embedder'].encode([caption])[0]
+            # Análisis de propiedades de imagen
+            img_array = np.array(image)
+            image_stats = {
+                'size': image.size,
+                'mode': image.mode,
+                'mean_brightness': np.mean(img_array),
+                'std_brightness': np.std(img_array),
+                'aspect_ratio': image.size[0] / image.size[1]
+            }
+            return {
+                'embedding': caption_embedding.tolist(),
+                'analysis': {
+                    'caption': caption,
+                    'classification': classification_results,
+                    'statistics': image_stats
+                }
+            }
+        except Exception as e:
+            logger.error(f"Error procesando imagen: {str(e)}")
+            return {'embedding': None, 'analysis': {'error': str(e)}}
+    async def _process_audio(self, audio_input) -> Dict:
+        """Procesamiento básico de audio (placeholder para implementación futura)"""
+        try:
+            # Esta es una implementación básica
+            # En producción se implementarían modelos como Whisper para transcripción
+            # Simular procesamiento de audio
+            dummy_embedding = np.random.rand(768).tolist()
+            audio_analysis = {
+                'transcription': 'Transcripción automática no disponible en esta versión',
+                'duration': 'Desconocido',
+                'sample_rate': self.config['audio_sample_rate']
+            }
+            return {
+                'embedding': dummy_embedding,
+                'analysis': audio_analysis
+            }
+        except Exception as e:
+            logger.error(f"Error procesando audio: {str(e)}")
+            return {'embedding': None, 'analysis': {'error': str(e)}}
+    async def _generate_multimodal_visualizations(self, embeddings: Dict) -> Dict:
+        """Generación de visualizaciones avanzadas para datos multimodales"""
+        try:
+            # Combinar embeddings de diferentes modalidades
+            combined_embeddings = []
+            modality_labels = []
+            for modality, embedding in embeddings.items():
+                if embedding is not None:
+                    combined_embeddings.append(embedding)
+                    modality_labels.append(modality)
+            if len(combined_embeddings) < 2:
+                return {'message': 'Se requieren al menos 2 modalidades para visualización'}
+            # Aplicar UMAP para reducción dimensional
+            embeddings_array = np.array(combined_embeddings)
+            umap_result = self.reducers['umap'].fit_transform(embeddings_array)
+            # Crear visualización con Plotly
+            fig = px.scatter(
+                x=umap_result[:, 0],
+                y=umap_result[:, 1],
+                color=modality_labels,
+                title="Proyección UMAP de Embeddings Multimodales",
+                labels={'x': 'UMAP 1', 'y': 'UMAP 2'},
+                width=800,
+                height=600
+            )
+            fig.update_traces(marker=dict(size=12, opacity=0.8))
+            fig.update_layout(
+                template='plotly_white',
+                title_font_size=16,
+                showlegend=True
+            )
+            return {
+                'umap_projection': fig,
+                'embedding_similarity': self._calculate_embedding_similarities(embeddings),
+                'cluster_analysis': self._perform_clustering_analysis(embeddings_array)
+            }
+        except Exception as e:
+            logger.error(f"Error generando visualizaciones: {str(e)}")
+            return {'error': str(e)}
+    def _calculate_embedding_similarities(self, embeddings: Dict) -> Dict:
+        """Cálculo de similitudes entre embeddings de diferentes modalidades"""
+        from sklearn.metrics.pairwise import cosine_similarity
+        similarities = {}
+        modalities = list(embeddings.keys())
+        for i, mod1 in enumerate(modalities):
+            for j, mod2 in enumerate(modalities):
+                if i < j and embeddings[mod1] is not None and embeddings[mod2] is not None:
+                    sim = cosine_similarity(
+                        [embeddings[mod1]],
+                        [embeddings[mod2]]
+                    )[0][0]
+                    similarities[f"{mod1}_vs_{mod2}"] = float(sim)
+        return similarities
+    def _perform_clustering_analysis(self, embeddings_array: np.ndarray) -> Dict:
+        """Análisis de clustering sobre embeddings multimodales"""
+        try:
+            # Normalizar embeddings
+            scaler = StandardScaler()
+            normalized_embeddings = scaler.fit_transform(embeddings_array)
+            # Aplicar DBSCAN
+            clusters = self.reducers['dbscan'].fit_predict(normalized_embeddings)
+            cluster_info = {
+                'n_clusters': len(set(clusters)) - (1 if -1 in clusters else 0),
+                'noise_points': list(clusters).count(-1),
+                'cluster_labels': clusters.tolist()
+            }
+            return cluster_info
+        except Exception as e:
+            logger.error(f"Error en análisis de clustering: {str(e)}")
+            return {'error': str(e)}
+# Instancia global del sistema
+ai_system = MultimodalAISystem()
+def create_gradio_interface():
+    """Creación de la interfaz Gradio avanzada con múltiples componentes"""
+    def process_inputs(text_input, image_input, audio_input):
+        """Función wrapper para procesamiento asíncrono en Gradio"""
+        loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(loop)
+        try:
+            result = loop.run_until_complete(
+                ai_system.process_multimodal_input(text_input, image_input, audio_input)
+            )
+            # Formatear resultados para la interfaz
+            output_text = f"""
+🤖 **ANÁLISIS MULTIMODAL COMPLETADO**
+⏰ **Timestamp**: {result['timestamp']}
+📊 **Estado**: {result['processing_status']}
+"""
+            # Agregar análisis de texto
+            if 'text' in result['analysis']:
+                text_analysis = result['analysis']['text']
+                output_text += f"""
+📝 **ANÁLISIS DE TEXTO**:
+- Estadísticas: {text_analysis.get('statistics', {})}
+- Sentimiento: {text_analysis.get('sentiment', 'No disponible')}
+"""
+            # Agregar análisis de imagen
+            if 'image' in result['analysis']:
+                image_analysis = result['analysis']['image']
+                output_text += f"""
+🖼️ **ANÁLISIS DE IMAGEN**:
+- Caption generado: {image_analysis.get('caption', 'No disponible')}
+- Clasificación: {image_analysis.get('classification', [])}
+"""
+            # Agregar similitudes si existen
+            if 'embedding_similarity' in result.get('visualizations', {}):
+                similarities = result['visualizations']['embedding_similarity']
+                output_text += f"""
+🔗 **SIMILITUDES ENTRE MODALIDADES**:
+{json.dumps(similarities, indent=2)}
+"""
+            # Retornar visualización si existe
+            visualization = None
+            if 'umap_projection' in result.get('visualizations', {}):
+                visualization = result['visualizations']['umap_projection']
+            return output_text, visualization
+        except Exception as e:
+            error_msg = f"❌ **ERROR EN PROCESAMIENTO**: {str(e)}"
+            return error_msg, None
+        finally:
+            loop.close()
+    # Crear interfaz Gradio con tema personalizado
+    with gr.Blocks(
+        theme=gr.themes.Soft(),
+        title="🧠 Sistema de IA Multimodal Avanzado",
+        css="""
+        .gradio-container {
+            max-width: 1200px !important;
+            margin: auto;
+        }
+        .main-title {
+            text-align: center;
+            background: linear-gradient(90deg, #667eea 0%, #764ba2 100%);
+            -webkit-background-clip: text;
+            -webkit-text-fill-color: transparent;
+            font-size: 2.5em;
+            font-weight: bold;
+            margin-bottom: 1em;
+        }
+        """
+    ) as interface:
+        gr.HTML("""
+        <div class="main-title">
+            🧠 Sistema de IA Multimodal Avanzado
+        </div>
+        <p style="text-align: center; font-size: 1.2em; color: #666;">
+            Procesamiento inteligente de texto, imágenes y audio con algoritmos de vanguardia
+        </p>
+        """)
+        with gr.Row():
+            with gr.Column(scale=1):
+                gr.Markdown("### 📊 **Panel de Entrada**")
+                text_input = gr.Textbox(
+                    label="📝 Entrada de Texto",
+                    placeholder="Ingrese texto para análisis semántico...",
+                    lines=4,
+                    max_lines=10
+                )
+                image_input = gr.Image(
+                    label="🖼️ Entrada de Imagen",
+                    type="pil",
+                    sources=["upload", "webcam"]
+                )
+                audio_input = gr.Audio(
+                    label="🎵 Entrada de Audio",
+                    type="filepath",
+                    sources=["upload", "microphone"]
+                )
+                process_btn = gr.Button(
+                    "🚀 Procesar Entrada Multimodal",
+                    variant="primary",
+                    size="lg"
+                )
+            with gr.Column(scale=2):
+                gr.Markdown("### 📈 **Resultados del Análisis**")
+                output_text = gr.Textbox(
+                    label="📊 Análisis Detallado",
+                    lines=15,
+                    max_lines=20,
+                    interactive=False
+                )
+                output_plot = gr.Plot(
+                    label="📈 Visualización de Embeddings",
+                    visible=True
+                )
+        with gr.Row():
+            gr.Markdown("""
+            ### 🔧 **Características del Sistema**
+            - **🧠 Procesamiento de Lenguaje Natural**: Análisis semántico y de sentimientos
+            - **👁️ Visión Computacional**: Generación de captions y clasificación de imágenes
+            - **🎵 Procesamiento de Audio**: Transcripción y análisis acústico
+            - **📊 Reducción Dimensional**: UMAP, t-SNE y clustering con DBSCAN
+            - **🔗 Análisis Cross-Modal**: Similitudes entre diferentes modalidades
+            - **📈 Visualizaciones Interactivas**: Proyecciones y análisis visual
+            """)
+        # Conectar eventos
+        process_btn.click(
+            fn=process_inputs,
+            inputs=[text_input, image_input, audio_input],
+            outputs=[output_text, output_plot]
+        )
+        # Ejemplos predefinidos
+        gr.Examples(
+            examples=[
+                ["Analiza este texto sobre inteligencia artificial", None, None],
+                ["", "https://picsum.photos/400/300", None],
+                ["Combina análisis de texto e imagen", "https://picsum.photos/400/300", None]
+            ],
+            inputs=[text_input, image_input, audio_input]
+        )
+    return interface
+# Lanzar aplicación
 if __name__ == "__main__":
+    demo = create_gradio_interface()
+    demo.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        share=False,
+        debug=False,
+        show_error=True
+    )