Spaces:

fffiloni
/

bark-transformers-example

Paused

fffiloni commited on Aug 21, 2023

Commit

c77ae43

1 Parent(s): 3b2c590

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -58,46 +58,50 @@ def infer(text_prompt):
     Cutting text in chunks
     —
     """)
-    input_waves = []
     text_chunks = split_text_into_sentences(text_prompt)
-    for i, chunk in enumerate(text_chunks):
-        print(chunk)
-        result = generate(chunk, i, "wav")
-        print(result)
-        input_waves.append(result)
     output_wav = 'full_story.wav'
-    join_wav_files(input_waves, output_wav)
     return 'full_story.wav'
-def generate(text_prompt, i, out_type):
     text_prompt = text_prompt
     inputs = processor(text_prompt).to(device)
     with torch.inference_mode():
         speech_output = model.generate(**inputs)
-    audio_array = speech_output[0].cpu().numpy().squeeze()
-    print(f'AUDIO_ARRAY: {audio_array}')
-    # Assuming audio_array contains audio data and the sampling rate
-    sampling_rate = model.generation_config.sample_rate
-    print(f'sampling_rate: {sampling_rate}')
-    if out_type == "numpy":
-        return (sampling_rate, audio_array)
-    elif out_type == "wav":
-        #If you want to return a WAV file :
-        # Ensure the audio data is properly scaled (between -1 and 1 for 16-bit audio)
-        audio_data = np.int16(audio_array * 32767)  # Scale for 16-bit signed integer
-        write_wav(f"output_{i}.wav", sampling_rate, audio_data)
-        return f"output_{i}.wav"
 with gr.Blocks() as demo:

     Cutting text in chunks
     —
     """)
     text_chunks = split_text_into_sentences(text_prompt)
+    result = generate(text_chunks, "wav")
+    print(result)
     output_wav = 'full_story.wav'
+    join_wav_files(result, output_wav)
     return 'full_story.wav'
+def generate(text_prompt, out_type):
     text_prompt = text_prompt
     inputs = processor(text_prompt).to(device)
     with torch.inference_mode():
         speech_output = model.generate(**inputs)
+    input_waves = []
+    for i, speech_out in enumerate(speech_output):
+        audio_array = speech_out.cpu().numpy().squeeze()
+        print(f'AUDIO_ARRAY: {audio_array}')
+        # Assuming audio_array contains audio data and the sampling rate
+        sampling_rate = model.generation_config.sample_rate
+        print(f'sampling_rate: {sampling_rate}')
+        if out_type == "numpy":
+            input_waves.append(sampling_rate, audio_array)
+        elif out_type == "wav":
+            #If you want to return a WAV file :
+            # Ensure the audio data is properly scaled (between -1 and 1 for 16-bit audio)
+            audio_data = np.int16(audio_array * 32767)  # Scale for 16-bit signed integer
+            write_wav(f"output_{i}.wav", sampling_rate, audio_data)
+            input_waves.append(f"output_{i}.wav")
+    return input_waves
 with gr.Blocks() as demo: