Spaces:

Armando117
/

pdfreaderwithgTTTS

Runtime error

App Files Files Community

Armando117 commited on Dec 11, 2023

Commit

52cf223

1 Parent(s): e4cf4a7

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -5

app.py CHANGED Viewed

@@ -43,13 +43,18 @@ Este conversor utiliza las siguientes bibliotecas:
 # Descripción de la arquitectura de gTTS
 desc_gtts = """
-**Arquitectura de Aprendizaje Automático de gTTS (Google Text-to-Speech):**
-- `gTTS` es un wrapper de Python que interactúa con el API de Google Text-to-Speech. Este API utiliza modelos avanzados de aprendizaje automático desarrollados por Google para convertir texto en voz natural.
-- La tecnología subyacente se basa en redes neuronales de síntesis de voz, específicamente en modelos de síntesis de voz WaveNet desarrollados por DeepMind. Estos modelos utilizan una red neuronal convolucional profunda para generar ondas sonoras directamente a partir de texto.
-- WaveNet es capaz de producir una voz que suena más natural y humana en comparación con los métodos tradicionales de síntesis de voz basados en texto. Esto se logra modelando la secuencia de sonidos de habla y capturando las características únicas de la voz humana.
-- Además, Google continúa mejorando estos modelos con avances en el campo del procesamiento del lenguaje natural y el aprendizaje profundo para ofrecer una variedad de voces y acentos, así como una mejor interpretación del texto a voz.
 """
 # Crear la interfaz de Gradio usando gr.Blocks
 with gr.Blocks() as iface:
     gr.Markdown("## Conversor de PDF a Audio")

 # Descripción de la arquitectura de gTTS
 desc_gtts = """
+**Arquitectura de Aprendizaje Automático de Google Text-to-Speech (utilizada por gTTS):**
+- El núcleo de Google Text-to-Speech es su capacidad para convertir texto en voz que suena extremadamente natural y humana. Esto se logra a través de modelos de aprendizaje automático de vanguardia, que incluyen redes neuronales profundas y técnicas de procesamiento del lenguaje natural.
+- Uno de los avances más significativos en la tecnología TTS de Google es el uso de modelos de red neuronal WaveNet, desarrollados por DeepMind. Estos modelos representan un gran salto respecto a los anteriores sistemas TTS basados en concatenación o parametrización.
+- WaveNet utiliza una red neuronal convolucional profunda para generar audio. A diferencia de los sistemas TTS tradicionales que concatenan pedazos de audio grabados, WaveNet genera el habla directamente a partir del texto en una forma más fluida y realista, capturando las sutilezas del habla humana, como el tono y la cadencia.
+- Este enfoque permite a WaveNet modelar la variabilidad y riqueza de la voz humana, generando resultados que pueden ser indistinguibles de la voz humana real. Además, puede adaptarse para producir diferentes estilos de habla y acentos, lo que lo hace extremadamente versátil.
+- Google Text-to-Speech, accedido a través de gTTS, aplica constantemente actualizaciones y mejoras en sus modelos, incorporando los últimos avances en inteligencia artificial y aprendizaje automático, lo que garantiza una calidad de voz y una precisión en la pronunciación cada vez mejores.
 """
 # Crear la interfaz de Gradio usando gr.Blocks
 with gr.Blocks() as iface:
     gr.Markdown("## Conversor de PDF a Audio")