Spaces:

lambdaofgod
/

page2speech

Sleeping

lambdaofgod commited on Feb 13, 2025

Commit

9043fad

1 Parent(s): 3e2e994

yet another take on ZeroGPU...

Files changed (2) hide show

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import requests
 from bs4 import BeautifulSoup
 from kokoro_tts import generate_audio
 import logging
 logging.basicConfig(level=logging.INFO)
@@ -123,6 +124,7 @@ def get_voice_choices(lang_code):
     return []
 def text_to_audio(text, lang_code, voice, progress=gr.Progress()):
     try:
         audio_data = generate_audio(text, voice=voice, progress=progress)

 from bs4 import BeautifulSoup
 from kokoro_tts import generate_audio
 import logging
+import spaces
 logging.basicConfig(level=logging.INFO)
     return []
+@spaces.GPU(duration=60)
 def text_to_audio(text, lang_code, voice, progress=gr.Progress()):
     try:
         audio_data = generate_audio(text, voice=voice, progress=progress)

kokoro_tts.py CHANGED Viewed

@@ -4,21 +4,6 @@ import numpy as np
 import logging
-try:
-    import spaces
-    @spaces.GPU(duration=60)
-    def get_generator(pipeline, text, voice, speed, split_pattern):
-        return pipeline(text, voice=voice, speed=speed, split_pattern=r"\.")
-    logging.info("Running TTS in spaces")
-except:
-    logging.info("Spaces not available")
-    def get_generator(pipeline, text, voice, speed, split_pattern):
-        return pipeline(text, voice=voice, speed=speed, split_pattern=r"\.")
 pipeline = KPipeline(lang_code="a")
 try:
     pipeline = pipeline.to("cuda")
@@ -46,7 +31,7 @@ def generate_audio(
     Returns:
         numpy.ndarray: Combined audio data at 24kHz sample rate
     """
-    generator = get_generator(pipeline, text, voice, speed, split_pattern="\.")
     all_audio = []
     segments = list(generator)  # Get total number of segments
@@ -65,10 +50,3 @@ def generate_audio(
     # Concatenate all audio segments
     combined_audio = np.concatenate(all_audio)
     return combined_audio
-if __name__ == "__main__":
-    # Example usage
-    sample_text = "Hello world"
-    audio_data = generate_audio(sample_text)
-    sf.write("out.wav", audio_data, 24000)

 import logging
 pipeline = KPipeline(lang_code="a")
 try:
     pipeline = pipeline.to("cuda")
     Returns:
         numpy.ndarray: Combined audio data at 24kHz sample rate
     """
+    generator = pipeline(text, voice=voice, speed=speed, split_pattern=r"\.")
     all_audio = []
     segments = list(generator)  # Get total number of segments
     # Concatenate all audio segments
     combined_audio = np.concatenate(all_audio)
     return combined_audio