Spaces:
Sleeping
Sleeping
| title: Proyectomod | |
| emoji: 👁 | |
| colorFrom: red | |
| colorTo: green | |
| sdk: gradio | |
| sdk_version: 5.6.0 | |
| app_file: app.py | |
| pinned: false | |
| short_description: Descripción de una imagen leída | |
| Problemática a solucionar: | |
| Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual. | |
| Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip | |
| en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI. | |
| input - El input necesario es la imagen a describir, que se puede subir directamente o mediante "clipboard". | |
| output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control. | |
| Puntos débiles: | |
| Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar. | |
| Modelos usados: | |
| facebook/fastspeech2-en-ljspeech - Se usa por medio de una API. | |
| La generación del audio es bastante rápida, se demora de media 3 segundos, es un modelo pequeño de tipo Text to Speech. | |
| Salesforce/blip-image-captioning-large - El procesamiento se demora un poco. | |
| Crear la descripción de la imagen le lleva una media de 120 segundos, es un modelo pequeño de tipo Image to Text. | |
| Descripción: | |
| El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto. | |