app-estudio / README.md
igna7's picture
add app files
0ce0464 verified

A newer version of the Gradio SDK is available: 6.15.2

Upgrade
metadata
title: Aplicación de Estudio con IA
license: mit
colorFrom: blue
colorTo: purple
sdk: gradio
sdkVersion: 6.5.1
app_file: app.py
pinned: false
short_description: Una aplicación que resume y lee en voz alta un texto.

Proyecto 1: Aplicación de Estudio con IA (Resumen + Audio)

Descripción del Proyecto

Este proyecto consiste en una aplicación web diseñada para ayudar a estudiantes a procesar grandes cantidades de información textual. La aplicación permite introducir apuntes o textos académicos largos, generar un resumen y posteriormente escucharlo en voz alta.

Combina dos modelos de Inteligencia Artificial de Hugging Face para resolver una necesidad concreta: optimizar el tiempo de estudio mediante la síntesis y el aprendizaje auditivo.

Objetivos

  1. Facilitar el estudio: Convertir textos densos en resúmenes manejables.
  2. Accesibilidad: Permitir el consumo de la información mediante audio (Text-to-Speech).
  3. Integración de Modelos: Combinar eficazmente modelos de NLP (Procesamiento de Lenguaje Natural) y TTS (Texto a Voz).

Modelos Utilizados

El proyecto integra los siguientes modelos de Hugging Face:

1. Modelo de Resumen: mrm8488/bert2bert-shared-spanish-finetuned-summarization

  • Tipo: Sequence-to-Sequence (Encoder-Decoder).
  • Justificación: Este modelo ha sido afinado específicamente para resumir textos en español. A diferencia de otros modelos multilingües, ofrece una sintaxis y gramática más natural en español.
  • Limitación: El modelo tiene un límite de entrada de 512 tokens.
  • Solución Implementada: Se ha desarrollado un algoritmo de "Micro-Chunking". El sistema divide el texto largo en fragmentos lógicos (párrafos de ~200 tokens), resume cada uno individualmente y concatena los resultados. Esto permite resumir textos de cualquier longitud sin perder información importante.

2. Modelo de Texto a Voz (TTS): facebook/mms-tts-spa

  • Tipo: VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech).
  • Justificación: Parte del proyecto Massively Multilingual Speech (MMS) de Meta. Es ligero, rápido (funciona bien en CPU) y tiene una pronunciación en español muy clara y natural.
  • Limitación: No lee bien la mayoría de los números; hay que escribirlos en texto.

Estructura del Proyecto

  • app.py: Aplicación principal (interfaz gráfica con Gradio).
  • services/: Lógica de negocio e integración con los modelos.
    • summarization_service.py: Implementación del modelo BERT2BERT y el algoritmo de chunking.
    • tts_service.py: Implementación del modelo de voz.
  • requirements.txt: Dependencias del proyecto.

Instalación y Ejecución

Para ejecutar este proyecto localmente:

  1. Instalar dependencias:

    pip install -r requirements.txt
    
  2. Iniciar la aplicación:

    python app.py
    
  3. Abrir en el navegador: La aplicación estará disponible en http://localhost:7860.