Spaces:
Sleeping
Sleeping
Update README.md
Browse files
README.md
CHANGED
|
@@ -10,8 +10,44 @@ pinned: false
|
|
| 10 |
short_description: Comment on an image in writing and through audio.
|
| 11 |
---
|
| 12 |
|
| 13 |
-
#
|
| 14 |
|
| 15 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 16 |
|
| 17 |
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
|
|
|
|
| 10 |
short_description: Comment on an image in writing and through audio.
|
| 11 |
---
|
| 12 |
|
| 13 |
+
# Descripción del Proyecto
|
| 14 |
|
| 15 |
+
## **Generación Automática de Comentarios en Texto y Audio a partir de Imágenes**
|
| 16 |
+
|
| 17 |
+
Este proyecto utiliza modelos avanzados de inteligencia artificial para generar descripciones automáticas de imágenes y luego convertir esas descripciones en audio. A través de una interfaz interactiva desarrollada con **Gradio**, los usuarios pueden cargar una fotografía y recibir una respuesta en dos formatos:
|
| 18 |
+
|
| 19 |
+
1. **Texto**: El modelo de IA genera una descripción detallada de la imagen cargada.
|
| 20 |
+
2. **Audio**: A partir de la descripción generada en texto, se utiliza un modelo de **síntesis de voz** para convertir el texto en una locución de alta calidad.
|
| 21 |
+
|
| 22 |
+
## **Flujo de Trabajo**
|
| 23 |
+
|
| 24 |
+
1. **Entrada de la Imagen**: El usuario carga una fotografía en la aplicación.
|
| 25 |
+
2. **Generación de Descripción en Texto**: Usamos el modelo `Salesforce/blip-image-captioning-large`, un modelo preentrenado de tipo **image-to-text**, para analizar la imagen y generar una descripción detallada en texto.
|
| 26 |
+
3. **Generación de Audio**: La descripción generada en texto se usa como entrada para el modelo `microsoft/speecht5_tts`, que convierte el texto en una salida de voz en formato de audio.
|
| 27 |
+
|
| 28 |
+
## **Modelos Utilizados**
|
| 29 |
+
|
| 30 |
+
- **Salesforce/blip-image-captioning-large**:
|
| 31 |
+
- Tipo: **Image-to-Text**.
|
| 32 |
+
- Este modelo es responsable de generar descripciones detalladas y coherentes a partir de imágenes. Es ideal para tareas de captioning (generación de texto a partir de imágenes) y proporciona una representación precisa del contenido visual.
|
| 33 |
+
|
| 34 |
+
- **microsoft/speecht5_tts**:
|
| 35 |
+
- Tipo: **Text-to-Speech**.
|
| 36 |
+
- Este modelo convierte el texto generado por `blip-image-captioning-large` en una locución fluida y natural, utilizando tecnologías avanzadas de síntesis de voz (TTS). El modelo puede leer el texto en voz alta de manera clara, adecuada para aplicaciones de accesibilidad o experiencias interactivas.
|
| 37 |
+
|
| 38 |
+
## **Características Principales**
|
| 39 |
+
|
| 40 |
+
- **Interfaz Gradio**: La interfaz está construida con **Gradio**, proporcionando una experiencia simple y directa donde los usuarios pueden cargar imágenes y escuchar o leer la descripción generada.
|
| 41 |
+
- **Generación de Texto y Audio**: Dos tipos de salida se generan para cada imagen: texto descriptivo y voz sintética, lo que lo convierte en una herramienta accesible tanto para usuarios visuales como auditivos.
|
| 42 |
+
- **Aplicaciones Potenciales**:
|
| 43 |
+
- **Accesibilidad**: Ayuda a personas con discapacidades visuales a comprender el contenido de las imágenes.
|
| 44 |
+
- **Educación**: Puede utilizarse en entornos educativos para mejorar la interacción con contenidos visuales.
|
| 45 |
+
- **Automatización**: Útil en sistemas automatizados que requieren análisis y descripción de imágenes en tiempo real.
|
| 46 |
+
|
| 47 |
+
## **Instrucciones de Uso**
|
| 48 |
+
|
| 49 |
+
1. **Sube una imagen**: Haz clic en el área de carga para elegir una fotografía desde tu dispositivo.
|
| 50 |
+
2. **Obtén la descripción**: La aplicación generará automáticamente una descripción de la imagen en formato de texto.
|
| 51 |
+
3. **Escucha la descripción**: El texto generado se convierte en una locución, que puedes escuchar a través de la aplicación.
|
| 52 |
|
| 53 |
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
|