Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

	@@ -1 +1,33 @@
1	- ~~please [click here](https://github.com/hassanaliemon/BanglaASR/blob/main/asr_colab_infer.ipynb) and start inferencing at colab~~

+```python
+import librosa
+import torch
+import torchaudio
+import numpy as np
+from transformers import WhisperTokenizer
+from transformers import WhisperProcessor
+from transformers import WhisperFeatureExtractor
+from transformers import WhisperForConditionalGeneration
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+audio_path = "https://huggingface.co/hassanaliemon/BanglaASR/resolve/main/test_audio/common_voice_bn_31255511.mp3"
+model_path = "hassanaliemon/BanglaASR"
+feature_extractor = WhisperFeatureExtractor.from_pretrained(model_path)
+tokenizer = WhisperTokenizer.from_pretrained(model_path)
+processor = WhisperProcessor.from_pretrained(model_path)
+model = WhisperForConditionalGeneration.from_pretrained(model_path).to(device)
+speech_array, sampling_rate = torchaudio.load(audio_path, format="mp3")
+speech_array = speech_array[0].numpy()
+speech_array = librosa.resample(np.asarray(speech_array), orig_sr=sampling_rate, target_sr=16000)
+input_features = feature_extractor(speech_array, sampling_rate=16000, return_tensors="pt").input_features
+predicted_ids = model.generate(inputs=input_features.to(device))[0]
+transcription = processor.decode(predicted_ids, skip_special_tokens=True)
+print(transcription)
+```