Spaces:

MaykaGR
/

proyectomod

Sleeping

App Files Files Community

proyectomod / README.md

MaykaGR

Update README.md

82177ec verified about 1 year ago

preview code

raw

history blame contribute delete

1.69 kB

	---
	title: Proyectomod
	emoji: 👁
	colorFrom: red
	colorTo: green
	sdk: gradio
	sdk_version: 5.6.0
	app_file: app.py
	pinned: false
	short_description: Descripción de una imagen leída
	---


	Problemática a solucionar:

	Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual.
	Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip
	en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI.

	input - El input necesario es la imagen a describir, que se puede subir directamente o mediante "clipboard".

	output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control.

	Puntos débiles:

	Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar.

	Modelos usados:

	facebook/fastspeech2-en-ljspeech - Se usa por medio de una API.

	La generación del audio es bastante rápida, se demora de media 3 segundos, es un modelo pequeño de tipo Text to Speech.


	Salesforce/blip-image-captioning-large - El procesamiento se demora un poco.

	Crear la descripción de la imagen le lleva una media de 120 segundos, es un modelo pequeño de tipo Image to Text.

	Descripción:

	El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.