danimera2912 commited on
Commit
732feed
1 Parent(s): 2da6dd2

documentacion

Browse files
Files changed (2) hide show
  1. DOCUMENTACION.md +167 -0
  2. app.py +0 -4
DOCUMENTACION.md ADDED
@@ -0,0 +1,167 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Asistente de Accesibilidad Multimedia
2
+
3
+ ## 1. Definici贸n del Problema
4
+
5
+ Las personas con discapacidad visual o barreras ling眉铆sticas enfrentan dificultades significativas para acceder al contenido visual en internet y medios digitales. Las im谩genes, que representan gran parte del contenido en redes sociales, sitios web y documentos, quedan inaccesibles para estos colectivos.
6
+
7
+ El problema espec铆fico que se aborda es que no existe una herramienta integrada que permita:
8
+ - Generar descripciones textuales autom谩ticas de im谩genes
9
+ - Traducir esas descripciones a m煤ltiples idiomas
10
+ - Proporcionar contexto emocional sobre el contenido de la imagen
11
+
12
+ ## 2. Soluci贸n Propuesta
13
+
14
+ Una aplicaci贸n que combina m煤ltiples modelos de IA para crear un pipeline de accesibilidad completo:
15
+
16
+ ```
17
+ IMAGEN --> [Descripci贸n] --> [An谩lisis Emocional] --> [Traducci贸n Multiling眉e]
18
+ ```
19
+
20
+ ### 2.1 Input (Entrada)
21
+
22
+ | Elemento | Tipo | Descripci贸n |
23
+ |----------|------|-------------|
24
+ | Imagen | Archivo (JPG, PNG, WEBP) | Imagen a analizar. Cualquier resoluci贸n, se redimensiona autom谩ticamente |
25
+ | Idiomas | Selecci贸n m煤ltiple | Idiomas destino para traducci贸n (Espa帽ol, Franc茅s, Alem谩n) |
26
+ | Opciones | Checkbox | Incluir o no el an谩lisis de sentimiento |
27
+
28
+ ### 2.2 Output (Salida)
29
+
30
+ | Elemento | Tipo | Descripci贸n |
31
+ |----------|------|-------------|
32
+ | Descripci贸n original | Texto (ingl茅s) | Descripci贸n generada de la imagen |
33
+ | Sentimiento | Etiqueta + Explicaci贸n | Clasificaci贸n emocional (Muy Negativo a Muy Positivo) |
34
+ | Confianza | Porcentaje | Nivel de certeza del an谩lisis de sentimiento |
35
+ | Traducciones | Texto por idioma | Descripci贸n traducida a cada idioma seleccionado |
36
+ | Tiempo de procesamiento | Segundos | M茅trica de rendimiento |
37
+
38
+ ## 3. Modelos Utilizados
39
+
40
+ ### 3.1 BLIP - Descripci贸n de Im谩genes
41
+
42
+ | Aspecto | Detalle |
43
+ |---------|---------|
44
+ | Modelo | Salesforce/blip-image-captioning-base |
45
+ | Tarea | Image-to-Text (Imagen a Texto) |
46
+ | Arquitectura | Vision Transformer (ViT) + Decoder de lenguaje |
47
+ | Clasificaci贸n | Modelo multimodal (visi贸n + lenguaje) |
48
+ | Tipo de aprendizaje | Supervisado, preentrenado en COCO + web data |
49
+ | Par谩metros | Aproximadamente 385 millones |
50
+
51
+ Limitaciones:
52
+ - Genera descripciones solo en ingl茅s
53
+ - Puede fallar con im谩genes abstractas o muy espec铆ficas
54
+ - No reconoce texto en im谩genes (OCR limitado)
55
+ - Descripciones gen茅ricas para escenas complejas
56
+
57
+ ### 3.2 BERT Multilingual - An谩lisis de Sentimiento
58
+
59
+ Este modelo recibe la descripci贸n generada por BLIP y determina el tono emocional del contenido. Por ejemplo, si BLIP genera "a dog playing in a sunny park with children", el modelo detecta palabras positivas (playing, sunny) y clasifica el texto como positivo. Esto permite al usuario saber no solo qu茅 hay en la imagen, sino tambi茅n qu茅 sensaci贸n transmite.
60
+
61
+ | Aspecto | Detalle |
62
+ |---------|---------|
63
+ | Modelo | nlptown/bert-base-multilingual-uncased-sentiment |
64
+ | Tarea | Text Classification (Clasificaci贸n de texto) |
65
+ | Arquitectura | BERT (Bidirectional Encoder Representations) |
66
+ | Clasificaci贸n | Modelo de lenguaje (NLP) - Clasificaci贸n |
67
+ | Tipo de aprendizaje | Supervisado, fine-tuned en reviews |
68
+ | Par谩metros | Aproximadamente 110 millones |
69
+
70
+ Funcionamiento paso a paso:
71
+ 1. Recibe el texto de la descripci贸n en ingl茅s
72
+ 2. Tokeniza y analiza el contexto bidireccional de las palabras
73
+ 3. Clasifica en una escala de 1 a 5 estrellas
74
+ 4. La aplicaci贸n traduce esa clasificaci贸n a etiquetas comprensibles (Muy Negativo, Negativo, Neutral, Positivo, Muy Positivo)
75
+
76
+ Limitaciones:
77
+ - Entrenado principalmente en reviews de productos, por lo que puede no ser ideal para descripciones de im谩genes
78
+ - La escala de 1-5 estrellas puede no capturar matices emocionales complejos
79
+ - M谩ximo 512 tokens de entrada
80
+ - Puede malinterpretar descripciones neutrales de im谩genes como ligeramente negativas o positivas
81
+
82
+ ### 3.3 Helsinki-NLP OPUS-MT - Traducci贸n
83
+
84
+ | Aspecto | Detalle |
85
+ |---------|---------|
86
+ | Modelos | Helsinki-NLP/opus-mt-en-es, opus-mt-en-fr, opus-mt-en-de |
87
+ | Tarea | Translation / Text-to-Text (Texto a Texto) |
88
+ | Arquitectura | Transformer (Encoder-Decoder) basado en Marian NMT |
89
+ | Clasificaci贸n | Modelo de lenguaje (NLP) - Seq2Seq |
90
+ | Tipo de aprendizaje | Supervisado, entrenado en corpus OPUS |
91
+ | Par谩metros | Aproximadamente 74 millones cada uno |
92
+
93
+ Limitaciones:
94
+ - Solo traduce desde ingl茅s (unidireccional)
95
+ - Puede perder matices culturales o expresiones idiom谩ticas
96
+ - Calidad variable seg煤n la complejidad del texto
97
+ - No maneja bien t茅rminos t茅cnicos poco comunes
98
+
99
+ ## 4. Clasificaci贸n General de los Modelos
100
+
101
+ | Modelo | Por Tarea | Por Arquitectura | Por Modalidad | Por Aprendizaje |
102
+ |--------|-----------|------------------|---------------|-----------------|
103
+ | BLIP | Generaci贸n | Transformer (ViT + LM) | Multimodal | Supervisado |
104
+ | BERT Sentiment | Clasificaci贸n | Transformer (Encoder) | Unimodal (texto) | Supervisado |
105
+ | OPUS-MT | Traducci贸n | Transformer (Enc-Dec) | Unimodal (texto) | Supervisado |
106
+
107
+ ## 5. Valoraci贸n de la Soluci贸n
108
+
109
+ ### 5.1 Idoneidad
110
+
111
+ Fortalezas:
112
+ - Pipeline completo que resuelve el problema de accesibilidad de forma integral
113
+ - Modelos probados y ampliamente utilizados en la comunidad
114
+ - Interfaz intuitiva con opciones configurables por el usuario
115
+ - No requiere conocimientos t茅cnicos para su uso
116
+ - Gratuito y de c贸digo abierto
117
+
118
+ 脕reas de mejora:
119
+ - Las descripciones se generan inicialmente en ingl茅s, lo que a帽ade un paso de traducci贸n
120
+ - El modelo de sentimiento est谩 optimizado para reviews, no para descripciones de im谩genes
121
+ - Actualmente limitado a 3 idiomas de traducci贸n
122
+
123
+ ### 5.2 Aplicabilidad
124
+
125
+ | Caso de uso | Viabilidad |
126
+ |-------------|------------|
127
+ | Redes sociales accesibles | Alta |
128
+ | Educaci贸n inclusiva | Alta |
129
+ | Documentaci贸n accesible | Media-Alta |
130
+ | Uso profesional en tiempo real | Media (debido a la latencia) |
131
+
132
+ ## 6. Rendimiento
133
+
134
+ ### 6.1 M茅tricas de Tiempo (CPU)
135
+
136
+ | Operaci贸n | Tiempo aproximado |
137
+ |-----------|-------------------|
138
+ | Carga inicial de modelos | 30-60 segundos |
139
+ | Generaci贸n de descripci贸n | 2-5 segundos |
140
+ | An谩lisis de sentimiento | Menos de 1 segundo |
141
+ | Traducci贸n (por idioma) | 1-2 segundos |
142
+ | Pipeline completo | 5-10 segundos |
143
+
144
+ ### 6.2 Consumo de Recursos
145
+
146
+ - RAM necesaria: aproximadamente 4GB para todos los modelos
147
+ - Almacenamiento: aproximadamente 2GB (modelos descargados)
148
+ - GPU: Opcional, mejora los tiempos entre 3 y 5 veces
149
+
150
+ ### 6.3 Justificaci贸n de Aplicabilidad
151
+
152
+ El tiempo de procesamiento de 5-10 segundos por imagen es aceptable para:
153
+ - Uso personal y educativo
154
+ - Procesamiento por lotes (no en tiempo real)
155
+ - Herramientas de accesibilidad as铆ncronas
156
+
157
+ No resulta recomendado para:
158
+ - Streaming de video en tiempo real
159
+ - APIs de alta concurrencia sin GPU
160
+
161
+ ## 7. Tecnolog铆as Utilizadas
162
+
163
+ - Hugging Face Transformers: Carga y ejecuci贸n de modelos
164
+ - Gradio: Interfaz web interactiva
165
+ - PyTorch: Backend de deep learning
166
+ - Python 3.10+: Lenguaje de programaci贸n
167
+
app.py CHANGED
@@ -277,10 +277,6 @@ with gr.Blocks(title="Asistente de Accesibilidad Multimedia") as demo:
277
  | Helsinki-NLP/opus-mt-en-es | Translation | Traduce de ingles a espanol |
278
  | Helsinki-NLP/opus-mt-en-fr | Translation | Traduce de ingles a frances |
279
  | Helsinki-NLP/opus-mt-en-de | Translation | Traduce de ingles a aleman |
280
-
281
- ---
282
-
283
- Desarrollado por Daniel Mera | IES Rafael Alberti | Enero 2026
284
  """)
285
 
286
 
 
277
  | Helsinki-NLP/opus-mt-en-es | Translation | Traduce de ingles a espanol |
278
  | Helsinki-NLP/opus-mt-en-fr | Translation | Traduce de ingles a frances |
279
  | Helsinki-NLP/opus-mt-en-de | Translation | Traduce de ingles a aleman |
 
 
 
 
280
  """)
281
 
282