lang_id_testing_2

Runtime error

App Files Files Community

barto17 commited on Sep 25, 2023

Commit

0c25646

1 Parent(s): b2dca93

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -8

app.py CHANGED Viewed

@@ -59,16 +59,34 @@ LANGUANGE_MAP = {
  }
-processor = WhisperProcessor.from_pretrained(model_id)
-model = WhisperForConditionalGeneration.from_pretrained(model_id)
-model.eval()
-model.to(device)
-bos_token_id = processor.tokenizer.all_special_ids[-106]
-decoder_input_ids = torch.tensor([bos_token_id]).to(device)
 def detect_language(sentence):
@@ -80,7 +98,18 @@ def detect_language(sentence):
     predictions = torch.nn.functional.softmax(output.logits, dim=-1)
     probability, pred_idx = torch.max(predictions, dim=-1)
     language = LANGUANGE_MAP[pred_idx.item()]
-    return language, probability.item()
 def process_audio_file(file, sampling_rate):
@@ -123,7 +152,7 @@ def transcribe(Microphone, File_Upload):
     language, probability = detect_language(transcription)
     return transcription.capitalize(), language, probability
 examples=['sample1.mp3', 'sample2.mp3', 'sample3.mp3']
 examples = [[f"./{f}"] for f in examples]

  }
+from pytube import YouTube
+import whisper
+# define function for transcription
+def transcribe(Microphone, File_Upload):
+    warn_output = ""
+    if (Microphone is not None) and (File_Upload is not None):
+        warn_output = "WARNING: You've uploaded an audio file and used the microphone. " \
+                      "The recorded file from the microphone will be used and the uploaded audio will be discarded.\n"
+        file = Microphone
+    elif (Microphone is None) and (File_Upload is None):
+        return "ERROR: You have to either use the microphone or upload an audio file"
+    elif Microphone is not None:
+        file = Microphone
+    else:
+        file = File_Upload
+    language = None
+    options = whisper.DecodingOptions(without_timestamps=True)
+    loaded_model = whisper.load_model("base")
+    transcript = loaded_model.transcribe(file, language=language)
+    return detect_language(transcript["text"])
 def detect_language(sentence):
     predictions = torch.nn.functional.softmax(output.logits, dim=-1)
     probability, pred_idx = torch.max(predictions, dim=-1)
     language = LANGUANGE_MAP[pred_idx.item()]
+    return sentence, language, probability.item()
+"""
+processor = WhisperProcessor.from_pretrained(model_id)
+model = WhisperForConditionalGeneration.from_pretrained(model_id)
+model.eval()
+model.to(device)
+bos_token_id = processor.tokenizer.all_special_ids[-106]
+decoder_input_ids = torch.tensor([bos_token_id]).to(device)
 def process_audio_file(file, sampling_rate):
     language, probability = detect_language(transcription)
     return transcription.capitalize(), language, probability
+"""
 examples=['sample1.mp3', 'sample2.mp3', 'sample3.mp3']
 examples = [[f"./{f}"] for f in examples]