Spaces:

EpistemeAI
/

AudioGemma

Sleeping

legolasyiu commited on Jan 19

Commit

d4f45f5

verified ·

1 Parent(s): dcfe34b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -21,17 +21,20 @@ def convert_audio_to_text(audio_file):
     prompt = "Transcribe the audio."
-    inputs = processor(
-        text=prompt,
-        audio=waveform.squeeze(),
-        sampling_rate=sample_rate,
-        return_tensors="pt"
-    ).to(model.device)
-    with torch.no_grad():
-        output = model.generate(**inputs, max_new_tokens=512)
-    result = processor.decode(output[0], skip_special_tokens=True)
     return result

     prompt = "Transcribe the audio."
+    inputs = processor.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        tokenize=True, return_dict=True,
+        return_tensors="pt",
+    )
+    outputs = model.generate(**input_ids, max_new_tokens=512)
+    result = processor.batch_decode(
+        outputs,
+        skip_special_tokens=False,
+        clean_up_tokenization_spaces=False
+    )
     return result