Wav2vecTest

Sleeping

App Files Files Community

palli23 commited on 27 days ago

Commit

5f7601c

verified ·

1 Parent(s): a4070be

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -23

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py — Your original working version + repetition_penalty=1.2 + ngram=3
 import os
 os.environ["OMP_NUM_THREADS"] = "1"
@@ -19,31 +19,19 @@ def transcribe_3min(audio_path):
         return "Hlaðið upp hljóðskrá"
     pipe = pipeline(
-        "automatic-speech-recognition",
-        #model="palli23/whisper-tiny-icelandic-distilled-v3",
-        #model = "palli23/whisper-tiny-distilled-spjallromur-polish-v3",
-        #odel = "palli23/whisper-tiny-distilled-spjallromur-polish-v5",
-        #model="palli23/whisper-tiny-distilled-samromur-spjallromur-polish",
-        #model="palli23/whisper-tiny-samromur-spjallromur",
-        model="palli23/whisper-small-sam_spjall",
-        torch_dtype=torch.float16,
-        device=0,  # GPU inside @spaces.GPU
     )
     result = pipe(
         audio_path,
-        chunk_length_s=30,
-        batch_size=8,
-        return_timestamps=False,  # ← no timestamps, as you want
-        generate_kwargs={
-            "num_beams": 5,  #var beam size 1
-            "repetition_penalty": 1.2,     # ← exactly what you asked for
-            "no_repeat_ngram_size": 3,     # ← exactly what you asked for
-            "temperature": 0.0,
-        }
     )
-    # Clean memory so ZeroGPU lives forever
     del pipe
     gc.collect()
     torch.cuda.empty_cache()
@@ -54,8 +42,8 @@ def transcribe_3min(audio_path):
 # UI – clean and simple
 # ——————————————————————————————
 with gr.Blocks() as demo:
-    gr.Markdown("# Íslenskt ASR – 3 mínútur")
-    gr.Markdown("**palli23/whisper-small-sam_spjall** · mjög lágur WER · allt að 5 mín hljóð")
     gr.Markdown("**Hafa samband:** pallinr1@protonmail.com")
     audio_in = gr.Audio(type="filepath", label="Hlaðið upp .mp3 / .wav")
@@ -72,4 +60,4 @@ demo.launch(
     server_name="0.0.0.0",
     server_port=7860,
     auth=None
-)

+# app.py — wav2vec2 CTC ASR (ZeroGPU safe)
 import os
 os.environ["OMP_NUM_THREADS"] = "1"
         return "Hlaðið upp hljóðskrá"
     pipe = pipeline(
+        task="automatic-speech-recognition",
+        model="palli23/wav2vec2-xlsr-300m-icelandic",
+        # model="palli23/wav2vec2-icelandic-multi-aug-v2-5e-6",  # ← alt model (commented)
+        torch_dtype=torch.float32,  # wav2vec2 requires fp32
+        device=0,
     )
     result = pipe(
         audio_path,
+        chunk_length_s=20,  # safe chunking for wav2vec2
     )
+    # Clean memory so ZeroGPU survives
     del pipe
     gc.collect()
     torch.cuda.empty_cache()
 # UI – clean and simple
 # ——————————————————————————————
 with gr.Blocks() as demo:
+    gr.Markdown("# Íslenskt ASR – wav2vec2")
+    gr.Markdown("**palli23/wav2vec2-xlsr-300m-icelandic** · CTC · mjög hraðvirkt")
     gr.Markdown("**Hafa samband:** pallinr1@protonmail.com")
     audio_in = gr.Audio(type="filepath", label="Hlaðið upp .mp3 / .wav")
     server_name="0.0.0.0",
     server_port=7860,
     auth=None
+)