Spaces:

danimera2912
/

asistente_accesibilidad_multimedia

Sleeping

App Files Files Community

danimera2912 commited on Jan 28

Commit

732feed

1 Parent(s): 2da6dd2

documentacion

Browse files

Files changed (2) hide show

DOCUMENTACION.md +167 -0
app.py +0 -4

DOCUMENTACION.md ADDED Viewed

	@@ -0,0 +1,167 @@

+# Asistente de Accesibilidad Multimedia
+## 1. Definición del Problema
+Las personas con discapacidad visual o barreras lingüísticas enfrentan dificultades significativas para acceder al contenido visual en internet y medios digitales. Las imágenes, que representan gran parte del contenido en redes sociales, sitios web y documentos, quedan inaccesibles para estos colectivos.
+El problema específico que se aborda es que no existe una herramienta integrada que permita:
+- Generar descripciones textuales automáticas de imágenes
+- Traducir esas descripciones a múltiples idiomas
+- Proporcionar contexto emocional sobre el contenido de la imagen
+## 2. Solución Propuesta
+Una aplicación que combina múltiples modelos de IA para crear un pipeline de accesibilidad completo:
+```
+IMAGEN --> [Descripción] --> [Análisis Emocional] --> [Traducción Multilingüe]
+```
+### 2.1 Input (Entrada)
+| Elemento | Tipo | Descripción |
+|----------|------|-------------|
+| Imagen | Archivo (JPG, PNG, WEBP) | Imagen a analizar. Cualquier resolución, se redimensiona automáticamente |
+| Idiomas | Selección múltiple | Idiomas destino para traducción (Español, Francés, Alemán) |
+| Opciones | Checkbox | Incluir o no el análisis de sentimiento |
+### 2.2 Output (Salida)
+| Elemento | Tipo | Descripción |
+|----------|------|-------------|
+| Descripción original | Texto (inglés) | Descripción generada de la imagen |
+| Sentimiento | Etiqueta + Explicación | Clasificación emocional (Muy Negativo a Muy Positivo) |
+| Confianza | Porcentaje | Nivel de certeza del análisis de sentimiento |
+| Traducciones | Texto por idioma | Descripción traducida a cada idioma seleccionado |
+| Tiempo de procesamiento | Segundos | Métrica de rendimiento |
+## 3. Modelos Utilizados
+### 3.1 BLIP - Descripción de Imágenes
+| Aspecto | Detalle |
+|---------|---------|
+| Modelo | Salesforce/blip-image-captioning-base |
+| Tarea | Image-to-Text (Imagen a Texto) |
+| Arquitectura | Vision Transformer (ViT) + Decoder de lenguaje |
+| Clasificación | Modelo multimodal (visión + lenguaje) |
+| Tipo de aprendizaje | Supervisado, preentrenado en COCO + web data |
+| Parámetros | Aproximadamente 385 millones |
+Limitaciones:
+- Genera descripciones solo en inglés
+- Puede fallar con imágenes abstractas o muy específicas
+- No reconoce texto en imágenes (OCR limitado)
+- Descripciones genéricas para escenas complejas
+### 3.2 BERT Multilingual - Análisis de Sentimiento
+Este modelo recibe la descripción generada por BLIP y determina el tono emocional del contenido. Por ejemplo, si BLIP genera "a dog playing in a sunny park with children", el modelo detecta palabras positivas (playing, sunny) y clasifica el texto como positivo. Esto permite al usuario saber no solo qué hay en la imagen, sino también qué sensación transmite.
+| Aspecto | Detalle |
+|---------|---------|
+| Modelo | nlptown/bert-base-multilingual-uncased-sentiment |
+| Tarea | Text Classification (Clasificación de texto) |
+| Arquitectura | BERT (Bidirectional Encoder Representations) |
+| Clasificación | Modelo de lenguaje (NLP) - Clasificación |
+| Tipo de aprendizaje | Supervisado, fine-tuned en reviews |
+| Parámetros | Aproximadamente 110 millones |
+Funcionamiento paso a paso:
+1. Recibe el texto de la descripción en inglés
+2. Tokeniza y analiza el contexto bidireccional de las palabras
+3. Clasifica en una escala de 1 a 5 estrellas
+4. La aplicación traduce esa clasificación a etiquetas comprensibles (Muy Negativo, Negativo, Neutral, Positivo, Muy Positivo)
+Limitaciones:
+- Entrenado principalmente en reviews de productos, por lo que puede no ser ideal para descripciones de imágenes
+- La escala de 1-5 estrellas puede no capturar matices emocionales complejos
+- Máximo 512 tokens de entrada
+- Puede malinterpretar descripciones neutrales de imágenes como ligeramente negativas o positivas
+### 3.3 Helsinki-NLP OPUS-MT - Traducción
+| Aspecto | Detalle |
+|---------|---------|
+| Modelos | Helsinki-NLP/opus-mt-en-es, opus-mt-en-fr, opus-mt-en-de |
+| Tarea | Translation / Text-to-Text (Texto a Texto) |
+| Arquitectura | Transformer (Encoder-Decoder) basado en Marian NMT |
+| Clasificación | Modelo de lenguaje (NLP) - Seq2Seq |
+| Tipo de aprendizaje | Supervisado, entrenado en corpus OPUS |
+| Parámetros | Aproximadamente 74 millones cada uno |
+Limitaciones:
+- Solo traduce desde inglés (unidireccional)
+- Puede perder matices culturales o expresiones idiomáticas
+- Calidad variable según la complejidad del texto
+- No maneja bien términos técnicos poco comunes
+## 4. Clasificación General de los Modelos
+| Modelo | Por Tarea | Por Arquitectura | Por Modalidad | Por Aprendizaje |
+|--------|-----------|------------------|---------------|-----------------|
+| BLIP | Generación | Transformer (ViT + LM) | Multimodal | Supervisado |
+| BERT Sentiment | Clasificación | Transformer (Encoder) | Unimodal (texto) | Supervisado |
+| OPUS-MT | Traducción | Transformer (Enc-Dec) | Unimodal (texto) | Supervisado |
+## 5. Valoración de la Solución
+### 5.1 Idoneidad
+Fortalezas:
+- Pipeline completo que resuelve el problema de accesibilidad de forma integral
+- Modelos probados y ampliamente utilizados en la comunidad
+- Interfaz intuitiva con opciones configurables por el usuario
+- No requiere conocimientos técnicos para su uso
+- Gratuito y de código abierto
+Áreas de mejora:
+- Las descripciones se generan inicialmente en inglés, lo que añade un paso de traducción
+- El modelo de sentimiento está optimizado para reviews, no para descripciones de imágenes
+- Actualmente limitado a 3 idiomas de traducción
+### 5.2 Aplicabilidad
+| Caso de uso | Viabilidad |
+|-------------|------------|
+| Redes sociales accesibles | Alta |
+| Educación inclusiva | Alta |
+| Documentación accesible | Media-Alta |
+| Uso profesional en tiempo real | Media (debido a la latencia) |
+## 6. Rendimiento
+### 6.1 Métricas de Tiempo (CPU)
+| Operación | Tiempo aproximado |
+|-----------|-------------------|
+| Carga inicial de modelos | 30-60 segundos |
+| Generación de descripción | 2-5 segundos |
+| Análisis de sentimiento | Menos de 1 segundo |
+| Traducción (por idioma) | 1-2 segundos |
+| Pipeline completo | 5-10 segundos |
+### 6.2 Consumo de Recursos
+- RAM necesaria: aproximadamente 4GB para todos los modelos
+- Almacenamiento: aproximadamente 2GB (modelos descargados)
+- GPU: Opcional, mejora los tiempos entre 3 y 5 veces
+### 6.3 Justificación de Aplicabilidad
+El tiempo de procesamiento de 5-10 segundos por imagen es aceptable para:
+- Uso personal y educativo
+- Procesamiento por lotes (no en tiempo real)
+- Herramientas de accesibilidad asíncronas
+No resulta recomendado para:
+- Streaming de video en tiempo real
+- APIs de alta concurrencia sin GPU
+## 7. Tecnologías Utilizadas
+- Hugging Face Transformers: Carga y ejecución de modelos
+- Gradio: Interfaz web interactiva
+- PyTorch: Backend de deep learning
+- Python 3.10+: Lenguaje de programación

app.py CHANGED Viewed

@@ -277,10 +277,6 @@ with gr.Blocks(title="Asistente de Accesibilidad Multimedia") as demo:
     | Helsinki-NLP/opus-mt-en-es | Translation | Traduce de ingles a espanol |
     | Helsinki-NLP/opus-mt-en-fr | Translation | Traduce de ingles a frances |
     | Helsinki-NLP/opus-mt-en-de | Translation | Traduce de ingles a aleman |
-    ---
-    Desarrollado por Daniel Mera | IES Rafael Alberti | Enero 2026
     """)

     | Helsinki-NLP/opus-mt-en-es | Translation | Traduce de ingles a espanol |
     | Helsinki-NLP/opus-mt-en-fr | Translation | Traduce de ingles a frances |
     | Helsinki-NLP/opus-mt-en-de | Translation | Traduce de ingles a aleman |
     """)