Spaces:

DGutierrez81
/

CommentImage

Sleeping

App Files Files Community

DGutierrez81 commited on Nov 17, 2024

Commit

e120916

verified ·

1 Parent(s): 605860b

Update README.md

Browse files

Files changed (1) hide show

README.md +38 -2

README.md CHANGED Viewed

@@ -10,8 +10,44 @@ pinned: false
 short_description: Comment on an image in writing and through audio.
 ---
-# Nombre del Proyecto
-¡Bienvenido a mi Space en Hugging Face! 🚀
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 short_description: Comment on an image in writing and through audio.
 ---
+# Descripción del Proyecto
+## **Generación Automática de Comentarios en Texto y Audio a partir de Imágenes**
+Este proyecto utiliza modelos avanzados de inteligencia artificial para generar descripciones automáticas de imágenes y luego convertir esas descripciones en audio. A través de una interfaz interactiva desarrollada con **Gradio**, los usuarios pueden cargar una fotografía y recibir una respuesta en dos formatos:
+1. **Texto**: El modelo de IA genera una descripción detallada de la imagen cargada.
+2. **Audio**: A partir de la descripción generada en texto, se utiliza un modelo de **síntesis de voz** para convertir el texto en una locución de alta calidad.
+## **Flujo de Trabajo**
+1. **Entrada de la Imagen**: El usuario carga una fotografía en la aplicación.
+2. **Generación de Descripción en Texto**: Usamos el modelo `Salesforce/blip-image-captioning-large`, un modelo preentrenado de tipo **image-to-text**, para analizar la imagen y generar una descripción detallada en texto.
+3. **Generación de Audio**: La descripción generada en texto se usa como entrada para el modelo `microsoft/speecht5_tts`, que convierte el texto en una salida de voz en formato de audio.
+## **Modelos Utilizados**
+- **Salesforce/blip-image-captioning-large**:
+  - Tipo: **Image-to-Text**.
+  - Este modelo es responsable de generar descripciones detalladas y coherentes a partir de imágenes. Es ideal para tareas de captioning (generación de texto a partir de imágenes) y proporciona una representación precisa del contenido visual.
+- **microsoft/speecht5_tts**:
+  - Tipo: **Text-to-Speech**.
+  - Este modelo convierte el texto generado por `blip-image-captioning-large` en una locución fluida y natural, utilizando tecnologías avanzadas de síntesis de voz (TTS). El modelo puede leer el texto en voz alta de manera clara, adecuada para aplicaciones de accesibilidad o experiencias interactivas.
+## **Características Principales**
+- **Interfaz Gradio**: La interfaz está construida con **Gradio**, proporcionando una experiencia simple y directa donde los usuarios pueden cargar imágenes y escuchar o leer la descripción generada.
+- **Generación de Texto y Audio**: Dos tipos de salida se generan para cada imagen: texto descriptivo y voz sintética, lo que lo convierte en una herramienta accesible tanto para usuarios visuales como auditivos.
+- **Aplicaciones Potenciales**:
+  - **Accesibilidad**: Ayuda a personas con discapacidades visuales a comprender el contenido de las imágenes.
+  - **Educación**: Puede utilizarse en entornos educativos para mejorar la interacción con contenidos visuales.
+  - **Automatización**: Útil en sistemas automatizados que requieren análisis y descripción de imágenes en tiempo real.
+## **Instrucciones de Uso**
+1. **Sube una imagen**: Haz clic en el área de carga para elegir una fotografía desde tu dispositivo.
+2. **Obtén la descripción**: La aplicación generará automáticamente una descripción de la imagen en formato de texto.
+3. **Escucha la descripción**: El texto generado se convierte en una locución, que puedes escuchar a través de la aplicación.
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference