Update README.md
Browse files
README.md
CHANGED
|
@@ -8,6 +8,42 @@ sdk_version: 5.6.0
|
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
| 10 |
short_description: 'Proyecto 1: Una aplicación práctica usando modelos'
|
| 11 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 12 |
|
| 13 |
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
|
|
|
|
| 8 |
app_file: app.py
|
| 9 |
pinned: false
|
| 10 |
short_description: 'Proyecto 1: Una aplicación práctica usando modelos'
|
| 11 |
+
--------------------------------------------------------------------------------------------------
|
| 12 |
+
## Generación de Contenido Multimedia a partir de Texto
|
| 13 |
+
|
| 14 |
+
### Definición del Problema
|
| 15 |
+
El problema que queremos resolver es la generación de contenido multimedia a partir de texto. Específicamente, queremos convertir
|
| 16 |
+
texto en voz y generar una imagen relacionada con el contenido del texto. Esta solución puede ser útil en aplicaciones educativas,
|
| 17 |
+
de entretenimiento y accesibilidad.
|
| 18 |
+
|
| 19 |
+
### Descripción del Input
|
| 20 |
+
- **Texto**: El usuario debe proporcionar un texto que describa el contenido que desea convertir en voz y la imagen que desea generar.
|
| 21 |
+
- El texto debe tener entre 3 y 2000 caracteres.
|
| 22 |
+
|
| 23 |
+
### Descripción del Output
|
| 24 |
+
- **Audio**: Un archivo de audio generado a partir del texto proporcionado.
|
| 25 |
+
- **Imagen**: Una imagen generada que represente el contenido del texto proporcionado.
|
| 26 |
+
|
| 27 |
+
### Descripción de los Modelos Utilizados
|
| 28 |
+
1. **SpeechT5 (TTS task)**:
|
| 29 |
+
- **Descripción**: SpeechT5 es un modelo de texto a voz (Text-to-Speech) que convierte texto en audio. Utiliza un vocoder para generar
|
| 30 |
+
- el audio final.
|
| 31 |
+
- **Clasificación**: Modelo de síntesis de voz.
|
| 32 |
+
- **Limitaciones**: La calidad del audio generado puede variar dependiendo del texto y del vocoder utilizado.
|
| 33 |
+
- Además, puede requerir ajustes finos para diferentes idiomas y acentos.
|
| 34 |
+
|
| 35 |
+
2. **Runware API**:
|
| 36 |
+
- **Descripción**: La API de Runware se utiliza para generar imágenes a partir de descripciones textuales.
|
| 37 |
+
- Utiliza modelos preentrenados para interpretar el texto y generar imágenes relevantes.
|
| 38 |
+
- **Clasificación**: Modelo de generación de imágenes.
|
| 39 |
+
- **Limitaciones**: La calidad y relevancia de las imágenes generadas pueden variar dependiendo de la descripción textual proporcionada.
|
| 40 |
+
- Además, la API puede tener limitaciones en términos de número de solicitudes y tiempo de respuesta.
|
| 41 |
+
|
| 42 |
+
### Limitaciones de los Modelos
|
| 43 |
+
- **SpeechT5**: La calidad del audio puede variar y puede requerir ajustes para diferentes idiomas y acentos.
|
| 44 |
+
- **Runware API**: La calidad y relevancia de las imágenes generadas pueden variar y la API puede tener limitaciones en términos de
|
| 45 |
+
- número de solicitudes y tiempo de respuesta.
|
| 46 |
+
|
| 47 |
+
|
| 48 |
|
| 49 |
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
|