Spaces:

RP-Azul
/

P1

Sleeping

RP-Azul commited on Nov 4, 2024

Commit

359777d

verified ·

1 Parent(s): 7954582

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,31 +12,27 @@ pipe1 = pipeline("automatic-speech-recognition", model="openai/whisper-base")
 #pipe3.to("cuda" if torch.cuda.is_available() else "cpu")
 def audio_to_image(audio):
-        # Load the audio file and convert it to a numpy array
-        audio_data, _ = sf.read(audio)  # Load audio file
-        audio_array = np.array(audio_data)  # Convert to numpy array
-        # Transcribe the audio input
-        transcription = pipe1(audio_array)
-        #transcription = pipe1(audio)
-        transcription_text = transcription['text']
-        #summary = pipe2(transcription_text, max_length=50, min_length=10, do_sample=False)
-        #summary_text = summary[0]['summary_text']
-        #prompt = summary_text
-        #image = pipe3(prompt).images[0]
-        #return image
-        #print("Transcription:", transcription_text)
-        #print("Summary:", summary_text)
-        #return transcription_text, summary_text
-        return transcription_text
-#demo = gr.Interface(fn=audio_to_image, inputs=gr.Audio(), outputs="image")
-#demo = gr.Interface(fn=audio_to_image, inputs=gr.Audio(), outputs=[gr.Textbox(label="Transcription"), gr.Textbox(label="Summary")])
-demo = gr.Interface(fn=audio_to_image, inputs=gr.Audio(), outputs="text")
 demo.launch(share=True)

 #pipe3.to("cuda" if torch.cuda.is_available() else "cpu")
 def audio_to_image(audio):
+    # Load the audio file
+    audio_data, sample_rate = sf.read(audio)
+    # Convert to mono if the audio has more than one channel
+    if len(audio_data.shape) > 1:
+        audio_data = np.mean(audio_data, axis=1)  # Averaging channels to convert to mono
+    # Resample the audio to 16 kHz if it's not already at 16 kHz
+    if sample_rate != 16000:
+        audio_data = librosa.resample(audio_data, orig_sr=sample_rate, target_sr=16000)
+    # Convert to numpy array with float32 data type
+    audio_array = np.array(audio_data).astype(np.float32)
+    # Transcribe the audio input
+    transcription = pipe1(audio_array, sampling_rate=16000)
+    transcription_text = transcription['text']
+    # Print and return the transcription text
+    print("Transcription:", transcription_text)
+    return transcription_text
+demo = gr.Interface(fn=audio_to_text, inputs=gr.Audio(), outputs="text")
 demo.launch(share=True)