Spaces:

MaykaGR
/

proyectomod

Sleeping

MaykaGR commited on Nov 25, 2024

Commit

5cf76a1

verified ·

1 Parent(s): 50bec4f

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -11,5 +11,23 @@ short_description: Descripción de una imagen leída
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.

 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+Problemática a solucionar:
+  Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual.
+  Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip
+  en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI.
+  input - El input necesario es la url o ruta dónde se encuentre la imagen que se desea describir
+  output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control
+  Puntos débiles:
+  Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar.
+Modelos usados:
+stabilityai/stable-audio-open-1.0
+ El mayor problema encontrado ha sido conseguir enlazar el acceso al repositorio a la programación
+Salesforce/blip-image-captioning-large
+Descripción:
 El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.