Spaces:

eleferrand
/

ASR_Creole

Sleeping

App Files Files Community

eleferrand commited on Jun 9, 2025

Commit

014fbd7

verified ·

1 Parent(s): ffc5786

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -6

app.py CHANGED Viewed

@@ -23,7 +23,7 @@ model = AutoModelForCTC.from_pretrained(MODEL_NAME)
 def transcribe(audio_file):
-    output = []
     try:
         audio, rate = librosa.load(audio_file, sr=16000)
@@ -39,14 +39,15 @@ def transcribe(audio_file):
                 start=ind
                 transc = transcription.replace("[UNK]", "")
                 print(transc)
-                output.append((start,ind,transc))
         else:
             input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
             with torch.no_grad():
                 logits = model(input_values).logits
             predicted_ids = torch.argmax(logits, dim=-1)
             transcription = processor.batch_decode(predicted_ids)[0]
-            output.append(((0,len(audio)/rate),transcription))
         return output
@@ -141,7 +142,7 @@ def toggle_language(switch):
 with gr.Blocks() as demo:
     # lang_switch = gr.Checkbox(label="切換到繁體中文 (Switch to Traditional Chinese)")
-    title = gr.Markdown("Yupik ASR Transcription & Correction System")
     step1 = gr.Markdown("Step 1: Audio Upload & Transcription")
     # Audio input and playback (Original section)
@@ -153,14 +154,14 @@ with gr.Blocks() as demo:
     with gr.Row():  # Added this Row to position the button below the audio input
         transcribe_button = gr.Button("Transcribe Audio")
-    original_text = gr.Textbox(label="Original Transcription", interactive=False, lines=5)
     corrected_text = gr.Textbox(label="Corrected Transcription", interactive=True, lines=5)
     step3 = gr.Markdown("Step 3: User Information")
     with gr.Row():
         age_input = gr.Slider(minimum=0, maximum=100, step=1, label="Age", value=25)
-        native_speaker_input = gr.Checkbox(label="Native Yupik Speaker?", value=True)
     step4 = gr.Markdown("Step 4: Save & Download")

 def transcribe(audio_file):
+    output = ""
     try:
         audio, rate = librosa.load(audio_file, sr=16000)
                 start=ind
                 transc = transcription.replace("[UNK]", "")
                 print(transc)
+                output= output+f"{start} - {ind}: {transc}\n"
         else:
             input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
             with torch.no_grad():
                 logits = model(input_values).logits
             predicted_ids = torch.argmax(logits, dim=-1)
             transcription = processor.batch_decode(predicted_ids)[0]
+            transc = transcription.replace("[UNK]", "")
+            output=output+f"0 - {len(audio)/rate}: {transc}"
         return output
 with gr.Blocks() as demo:
     # lang_switch = gr.Checkbox(label="切換到繁體中文 (Switch to Traditional Chinese)")
+    title = gr.Markdown("Creole ASR Transcription & Correction System")
     step1 = gr.Markdown("Step 1: Audio Upload & Transcription")
     # Audio input and playback (Original section)
     with gr.Row():  # Added this Row to position the button below the audio input
         transcribe_button = gr.Button("Transcribe Audio")
+    original_text = gr.Textbox(label="Transcription", interactive=False, lines=5)
     corrected_text = gr.Textbox(label="Corrected Transcription", interactive=True, lines=5)
     step3 = gr.Markdown("Step 3: User Information")
     with gr.Row():
         age_input = gr.Slider(minimum=0, maximum=100, step=1, label="Age", value=25)
+        native_speaker_input = gr.Checkbox(label="Native Creole Speaker?", value=True)
     step4 = gr.Markdown("Step 4: Save & Download")