Spaces:

MeBai
/

openai-whisper-large-v3-turbo-dev

Build error

MeBai commited on Oct 21, 2024

Commit

bc437c2

verified ·

1 Parent(s): 86f9703

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,17 @@
 import gradio as gr
-from transformers import WhisperProcessor, WhisperForConditionalGeneration
 from datasets import load_dataset
 import torch
 # import librosa
 # 加载 Whisper 模型和 processor
-model_name = "openai/whisper-large-v3-turbo"
-processor = WhisperProcessor.from_pretrained(model_name)
-model = WhisperForConditionalGeneration.from_pretrained(model_name)
 # 加载数据集 bigcode/the-stack
@@ -16,17 +20,20 @@ ds = load_dataset("CoIR-Retrieval/CodeSearchNet-php-queries-corpus")
 def transcribe(audio_path):
     # 加载音频文件并转换为信号
     # audio, sr = librosa.load(audio_path, sr=16000)
-    input_values = processor(audio_path, return_tensors="pt", sampling_rate=16000).input_values
-    # 模型推理
-    with torch.no_grad():
-        logits = model(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)
     # 返回转录结果
-    return transcription[0]
 # Gradio 界面

 import gradio as gr
+# from transformers import WhisperProcessor, WhisperForConditionalGeneration
 from datasets import load_dataset
+from transformers import pipeline
 import torch
 # import librosa
 # 加载 Whisper 模型和 processor
+# model_name = "openai/whisper-large-v3-turbo"
+# processor = WhisperProcessor.from_pretrained(model_name)
+# model = WhisperForConditionalGeneration.from_pretrained(model_name)
+model = pipeline("automatic-speech-recognition", model="ylacombe/whisper-large-v3-turbo", chunk_length_s=30, device=0)
 # 加载数据集 bigcode/the-stack
 def transcribe(audio_path):
     # 加载音频文件并转换为信号
     # audio, sr = librosa.load(audio_path, sr=16000)
+    # input_values = processor(audio_path, return_tensors="pt", sampling_rate=16000).["text"]
+    # # 模型推理
+    # with torch.no_grad():
+    #     logits = model(input_values).logits
+    # predicted_ids = torch.argmax(logits, dim=-1)
+    # transcription = processor.batch_decode(predicted_ids)
+    transcription = model(audio_path,batch_size=1000, generate_kwargs={"task": "transcribe"}, return_timestamps=True)["text"]
+    # result = pipe(sample)
     # 返回转录结果
+    return transcription
 # Gradio 界面