Spaces:

igna7
/

app-estudio

Sleeping

App Files Files Community

app-estudio / README.md

igna7

add app files

0ce0464 verified 4 months ago

preview code

raw

history blame contribute delete

3.13 kB

	---
	title: Aplicación de Estudio con IA
	license: mit
	colorFrom: blue
	colorTo: purple
	sdk: gradio
	sdkVersion: 6.5.1
	app_file: app.py
	pinned: false
	short_description: Una aplicación que resume y lee en voz alta un texto.
	---

	# Proyecto 1: Aplicación de Estudio con IA (Resumen + Audio)

	## Descripción del Proyecto

	Este proyecto consiste en una aplicación web diseñada para ayudar a estudiantes a procesar grandes cantidades de información textual. La aplicación permite introducir apuntes o textos académicos largos, generar un resumen y posteriormente escucharlo en voz alta.

	Combina dos modelos de Inteligencia Artificial de Hugging Face para resolver una necesidad concreta: optimizar el tiempo de estudio mediante la síntesis y el aprendizaje auditivo.

	## Objetivos

	1. Facilitar el estudio: Convertir textos densos en resúmenes manejables.
	2. Accesibilidad: Permitir el consumo de la información mediante audio (Text-to-Speech).
	3. Integración de Modelos: Combinar eficazmente modelos de NLP (Procesamiento de Lenguaje Natural) y TTS (Texto a Voz).

	## Modelos Utilizados

	El proyecto integra los siguientes modelos de Hugging Face:

	### 1. Modelo de Resumen: `mrm8488/bert2bert-shared-spanish-finetuned-summarization`
	* Tipo: Sequence-to-Sequence (Encoder-Decoder).
	* Justificación: Este modelo ha sido afinado específicamente para resumir textos en español. A diferencia de otros modelos multilingües, ofrece una sintaxis y gramática más natural en español.
	* Limitación: El modelo tiene un límite de entrada de 512 tokens.
	* Solución Implementada: Se ha desarrollado un algoritmo de "Micro-Chunking". El sistema divide el texto largo en fragmentos lógicos (párrafos de ~200 tokens), resume cada uno individualmente y concatena los resultados. Esto permite resumir textos de cualquier longitud sin perder información importante.

	### 2. Modelo de Texto a Voz (TTS): `facebook/mms-tts-spa`
	* Tipo: VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech).
	* Justificación: Parte del proyecto Massively Multilingual Speech (MMS) de Meta. Es ligero, rápido (funciona bien en CPU) y tiene una pronunciación en español muy clara y natural.
	* Limitación: No lee bien la mayoría de los números; hay que escribirlos en texto.

	## Estructura del Proyecto

	* `app.py`: Aplicación principal (interfaz gráfica con Gradio).
	* `services/`: Lógica de negocio e integración con los modelos.
	* `summarization_service.py`: Implementación del modelo BERT2BERT y el algoritmo de chunking.
	* `tts_service.py`: Implementación del modelo de voz.
	* `requirements.txt`: Dependencias del proyecto.

	## Instalación y Ejecución

	Para ejecutar este proyecto localmente:

	1. Instalar dependencias:
	```bash
	pip install -r requirements.txt
	```

	2. Iniciar la aplicación:
	```bash
	python app.py
	```

	3. Abrir en el navegador:
	La aplicación estará disponible en `http://localhost:7860`.