Spaces:

nykodmar
/

Full-Context-Czech-ASR-FileSource

Runtime error

App Files Files Community

nykodmar commited on Apr 20, 2022

Commit

4f4a842

1 Parent(s): 91d8e15

Init commit

Browse files

Files changed (3) hide show

app.py +57 -0
packages.txt +2 -0
requirements.txt +5 -0

app.py ADDED Viewed

	@@ -0,0 +1,57 @@

+import gradio as gr
+import os
+import librosa
+from transformers import  Wav2Vec2ProcessorWithLM, AutoModelForCTC, Wav2Vec2CTCTokenizer, Wav2Vec2FeatureExtractor
+import torch
+model_name = os.getenv("MODEL_NAME")
+auth_token = os.getenv("API_TOKEN")
+# Load models
+tokenizer = Wav2Vec2CTCTokenizer.from_pretrained(model_name, eos_token=None, bos_token=None, use_auth_token=auth_token)
+processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name, use_auth_token=auth_token)
+feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name, use_auth_token=auth_token)
+decoder = processor.decoder
+processor = Wav2Vec2ProcessorWithLM(feature_extractor=feature_extractor, tokenizer=tokenizer, decoder=decoder)
+model = AutoModelForCTC.from_pretrained(model_name, use_auth_token=auth_token)
+def load_data(input_file):
+  # Read the file
+  speech, sample_rate = librosa.load(input_file)
+  # Make it 1-D
+  if len(speech.shape) > 1:
+      speech = speech[:,0] + speech[:,1]
+  # Resampling at 16KHz
+  if sample_rate !=16_000:
+    speech = librosa.resample(speech, sample_rate, 16_000)
+  return speech
+def transcribe(input_file):
+    audio = load_data(input_file)
+    # audio = input_file
+    # Tokenize
+    input_values = processor(audio, return_tensors="pt", sampling_rate=16_000).input_values
+    # Take logits
+    with torch.no_grad():
+        logits = model(input_values).logits.cpu().numpy()[0]
+    # Decode
+    text = decoder.decode(logits, beam_width=30)
+    return text
+gr.Interface(
+    fn=transcribe,
+    inputs=gr.inputs.Audio(source="upload", type="filepath"),
+    outputs="text").launch()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ffmpeg
2	+ libsndfile1

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+torch
+transformers
+librosa
+pyctcdecode
+https://github.com/kpu/kenlm/archive/master.zip