app-estudio / README.md
igna7's picture
add app files
0ce0464 verified
---
title: Aplicación de Estudio con IA
license: mit
colorFrom: blue
colorTo: purple
sdk: gradio
sdkVersion: 6.5.1
app_file: app.py
pinned: false
short_description: Una aplicación que resume y lee en voz alta un texto.
---
# Proyecto 1: Aplicación de Estudio con IA (Resumen + Audio)
## Descripción del Proyecto
Este proyecto consiste en una aplicación web diseñada para ayudar a estudiantes a procesar grandes cantidades de información textual. La aplicación permite introducir apuntes o textos académicos largos, generar un resumen y posteriormente escucharlo en voz alta.
Combina dos modelos de Inteligencia Artificial de Hugging Face para resolver una necesidad concreta: optimizar el tiempo de estudio mediante la síntesis y el aprendizaje auditivo.
## Objetivos
1. **Facilitar el estudio**: Convertir textos densos en resúmenes manejables.
2. **Accesibilidad**: Permitir el consumo de la información mediante audio (Text-to-Speech).
3. **Integración de Modelos**: Combinar eficazmente modelos de NLP (Procesamiento de Lenguaje Natural) y TTS (Texto a Voz).
## Modelos Utilizados
El proyecto integra los siguientes modelos de **Hugging Face**:
### 1. Modelo de Resumen: `mrm8488/bert2bert-shared-spanish-finetuned-summarization`
* **Tipo**: Sequence-to-Sequence (Encoder-Decoder).
* **Justificación**: Este modelo ha sido afinado específicamente para resumir textos en español. A diferencia de otros modelos multilingües, ofrece una sintaxis y gramática más natural en español.
* **Limitación**: El modelo tiene un límite de entrada de 512 tokens.
* **Solución Implementada**: Se ha desarrollado un algoritmo de **"Micro-Chunking"**. El sistema divide el texto largo en fragmentos lógicos (párrafos de ~200 tokens), resume cada uno individualmente y concatena los resultados. Esto permite resumir textos de cualquier longitud sin perder información importante.
### 2. Modelo de Texto a Voz (TTS): `facebook/mms-tts-spa`
* **Tipo**: VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech).
* **Justificación**: Parte del proyecto Massively Multilingual Speech (MMS) de Meta. Es ligero, rápido (funciona bien en CPU) y tiene una pronunciación en español muy clara y natural.
* **Limitación**: No lee bien la mayoría de los números; hay que escribirlos en texto.
## Estructura del Proyecto
* `app.py`: Aplicación principal (interfaz gráfica con **Gradio**).
* `services/`: Lógica de negocio e integración con los modelos.
* `summarization_service.py`: Implementación del modelo BERT2BERT y el algoritmo de chunking.
* `tts_service.py`: Implementación del modelo de voz.
* `requirements.txt`: Dependencias del proyecto.
## Instalación y Ejecución
Para ejecutar este proyecto localmente:
1. **Instalar dependencias**:
```bash
pip install -r requirements.txt
```
2. **Iniciar la aplicación**:
```bash
python app.py
```
3. **Abrir en el navegador**:
La aplicación estará disponible en `http://localhost:7860`.