Spaces:

hoangquocviet
/

edge-api

Sleeping

App Files Files Community

hoangquocviet commited on about 1 month ago

Commit

69ea9fc

verified ·

1 Parent(s): 8e36413

Update text_to_speech.py

Browse files

Files changed (1) hide show

text_to_speech.py +11 -12

text_to_speech.py CHANGED Viewed

@@ -15,7 +15,6 @@ from .utils import (
     remove_directory_contents,
     remove_files,
     run_command,
-    write_chunked,
 )
 import numpy as np
 from typing import Any, Dict
@@ -60,7 +59,7 @@ def error_handling_in_tts(error, segment, TRANSLATE_AUDIO_TO, filename):
         # Read audio data from the TemporaryFile using soundfile
         audio_data, samplerate = sf.read(f)
         f.close()  # Close the TemporaryFile
-        write_chunked(
             filename, audio_data, samplerate, format="ogg", subtype="vorbis"
         )
@@ -74,7 +73,7 @@ def error_handling_in_tts(error, segment, TRANSLATE_AUDIO_TO, filename):
         sample_rate_aux = 22050
         duration = float(segment["end"]) - float(segment["start"])
         data = np.zeros(int(sample_rate_aux * duration)).astype(np.float32)
-        write_chunked(
             filename, data, sample_rate_aux, format="ogg", subtype="vorbis"
         )
         logger.error("Audio will be replaced -> [silent audio].")
@@ -182,7 +181,7 @@ def segments_egde_tts(filtered_edge_segments, TRANSLATE_AUDIO_TO, is_gui):
             # os.remove(temp_file)
             # Save file
-            write_chunked(
                 file=filename,
                 samplerate=sample_rate,
                 data=data,
@@ -257,7 +256,7 @@ def segments_bark_tts(
                 speech_output.cpu().numpy().squeeze().astype(np.float32),
                 sampling_rate,
             )
-            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -363,7 +362,7 @@ def segments_vits_tts(filtered_vits_segments, TRANSLATE_AUDIO_TO):
                 sampling_rate,
             )
             # Save file
-            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -668,7 +667,7 @@ def segments_coqui_tts(
                 sampling_rate,
             )
             # Save file
-            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -702,7 +701,7 @@ def piper_tts_voices_list():
     # 1. Tải voices.json gốc từ hệ thống để giữ các giọng mặc định
     file_path = download_manager(
-        url="https://huggingface.co/rhasspy/piper-voices/resolve/main/voices.json",
         path="./PIPER_MODELS",
     )
@@ -932,7 +931,7 @@ def segments_vits_onnx_tts(filtered_onnx_vits_segments, TRANSLATE_AUDIO_TO):
                 sampling_rate,
             )
             # Save file
-            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -1002,7 +1001,7 @@ def segments_openai_tts(
                 sampling_rate,
             )
-            write_chunked(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
@@ -1586,7 +1585,7 @@ def toneconverter_freevc(
                 target_wav=original_wav_audio_segment,
             )
-            write_chunked(
                 file=save_path,
                 samplerate=tts.voice_converter.vc_config.audio.output_sample_rate,
                 data=wav,
@@ -1648,4 +1647,4 @@ if __name__ == "__main__":
         tts_voice03="en-GB-SoniaNeural-Female",
         tts_voice04="en-NZ-MitchellNeural-Male",
         tts_voice05="en-GB-MaisieNeural-Female",
-    )

     remove_directory_contents,
     remove_files,
     run_command,
 )
 import numpy as np
 from typing import Any, Dict
         # Read audio data from the TemporaryFile using soundfile
         audio_data, samplerate = sf.read(f)
         f.close()  # Close the TemporaryFile
+        sf.write(
             filename, audio_data, samplerate, format="ogg", subtype="vorbis"
         )
         sample_rate_aux = 22050
         duration = float(segment["end"]) - float(segment["start"])
         data = np.zeros(int(sample_rate_aux * duration)).astype(np.float32)
+        sf.write(
             filename, data, sample_rate_aux, format="ogg", subtype="vorbis"
         )
         logger.error("Audio will be replaced -> [silent audio].")
             # os.remove(temp_file)
             # Save file
+            sf.write(
                 file=filename,
                 samplerate=sample_rate,
                 data=data,
                 speech_output.cpu().numpy().squeeze().astype(np.float32),
                 sampling_rate,
             )
+            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 sampling_rate,
             )
             # Save file
+            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 sampling_rate,
             )
             # Save file
+            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
     # 1. Tải voices.json gốc từ hệ thống để giữ các giọng mặc định
     file_path = download_manager(
+        url="https://huggingface.co/hoangquocviet/piper-voices/resolve/main/voices.json",
         path="./PIPER_MODELS",
     )
                 sampling_rate,
             )
             # Save file
+            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 sampling_rate,
             )
+            sf.write(
                 file=filename,
                 samplerate=sampling_rate,
                 data=data_tts,
                 target_wav=original_wav_audio_segment,
             )
+            sf.write(
                 file=save_path,
                 samplerate=tts.voice_converter.vc_config.audio.output_sample_rate,
                 data=wav,
         tts_voice03="en-GB-SoniaNeural-Female",
         tts_voice04="en-NZ-MitchellNeural-Male",
         tts_voice05="en-GB-MaisieNeural-Female",
+    )