lmah commited on
Commit
cbfc0a3
·
verified ·
1 Parent(s): 2c82426

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +37 -1
README.md CHANGED
@@ -8,6 +8,42 @@ sdk_version: 5.6.0
8
  app_file: app.py
9
  pinned: false
10
  short_description: 'Proyecto 1: Una aplicación práctica usando modelos'
11
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12
 
13
  Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
8
  app_file: app.py
9
  pinned: false
10
  short_description: 'Proyecto 1: Una aplicación práctica usando modelos'
11
+ --------------------------------------------------------------------------------------------------
12
+ ## Generación de Contenido Multimedia a partir de Texto
13
+
14
+ ### Definición del Problema
15
+ El problema que queremos resolver es la generación de contenido multimedia a partir de texto. Específicamente, queremos convertir
16
+ texto en voz y generar una imagen relacionada con el contenido del texto. Esta solución puede ser útil en aplicaciones educativas,
17
+ de entretenimiento y accesibilidad.
18
+
19
+ ### Descripción del Input
20
+ - **Texto**: El usuario debe proporcionar un texto que describa el contenido que desea convertir en voz y la imagen que desea generar.
21
+ - El texto debe tener entre 3 y 2000 caracteres.
22
+
23
+ ### Descripción del Output
24
+ - **Audio**: Un archivo de audio generado a partir del texto proporcionado.
25
+ - **Imagen**: Una imagen generada que represente el contenido del texto proporcionado.
26
+
27
+ ### Descripción de los Modelos Utilizados
28
+ 1. **SpeechT5 (TTS task)**:
29
+ - **Descripción**: SpeechT5 es un modelo de texto a voz (Text-to-Speech) que convierte texto en audio. Utiliza un vocoder para generar
30
+ - el audio final.
31
+ - **Clasificación**: Modelo de síntesis de voz.
32
+ - **Limitaciones**: La calidad del audio generado puede variar dependiendo del texto y del vocoder utilizado.
33
+ - Además, puede requerir ajustes finos para diferentes idiomas y acentos.
34
+
35
+ 2. **Runware API**:
36
+ - **Descripción**: La API de Runware se utiliza para generar imágenes a partir de descripciones textuales.
37
+ - Utiliza modelos preentrenados para interpretar el texto y generar imágenes relevantes.
38
+ - **Clasificación**: Modelo de generación de imágenes.
39
+ - **Limitaciones**: La calidad y relevancia de las imágenes generadas pueden variar dependiendo de la descripción textual proporcionada.
40
+ - Además, la API puede tener limitaciones en términos de número de solicitudes y tiempo de respuesta.
41
+
42
+ ### Limitaciones de los Modelos
43
+ - **SpeechT5**: La calidad del audio puede variar y puede requerir ajustes para diferentes idiomas y acentos.
44
+ - **Runware API**: La calidad y relevancia de las imágenes generadas pueden variar y la API puede tener limitaciones en términos de
45
+ - número de solicitudes y tiempo de respuesta.
46
+
47
+
48
 
49
  Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference