microsoft
/

VibeVoice-ASR-HF

@@ -62,18 +62,15 @@ library_name: transformers
 ---
-## VibeVoice-ASR
 [![GitHub](https://img.shields.io/badge/GitHub-Repo-black?logo=github)](https://github.com/microsoft/VibeVoice)
 [![Live Playground](https://img.shields.io/badge/Live-Playground-green?logo=gradio)](https://aka.ms/vibevoice-asr)
 [![Technical Report](https://img.shields.io/badge/arXiv-2601.18184-b31b1b?logo=arxiv)](https://arxiv.org/pdf/2601.18184)
 **VibeVoice-ASR** is a unified speech-to-text model designed to handle **60-minute long-form audio** in a single pass, generating structured transcriptions containing **Who (Speaker), When (Timestamps), and What (Content)**, with support for **Customized Hotwords** and over **50 languages**.
-➡️ **Code:** [microsoft/VibeVoice](https://github.com/microsoft/VibeVoice)<br>
 ➡️ **Demo:** [VibeVoice-ASR-Demo](https://aka.ms/vibevoice-asr)<br>
 ➡️ **Report:** [VibeVoice-ASR Technical Report](https://arxiv.org/pdf/2601.18184)<br>
-➡️ **Finetuning:** [Finetuning](https://github.com/microsoft/VibeVoice/blob/main/finetuning-asr/README.md)<br>
-➡️ **vLLM:** [vLLM-VibeVoice-ASR](https://github.com/microsoft/VibeVoice/blob/main/docs/vibevoice-vllm-asr.md)<br>
 <p align="left">
   <img src="figures/VibeVoice_ASR_archi.png" alt="VibeVoice-ASR Architecture" height="250px">
@@ -100,9 +97,13 @@ library_name: transformers
 ### Setup
-VibeVoice ASR is not yet merged into Transformers but can be used by pulling the source code from the following fork:
 ```
-pip install git+https://github.com/ebezzam/transformers.git@vibevoice_asr
 ```
 ### Loading model
@@ -110,7 +111,7 @@ pip install git+https://github.com/ebezzam/transformers.git@vibevoice_asr
 ```python
 from transformers import AutoProcessor, VibeVoiceForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id)
 ```
@@ -128,7 +129,7 @@ The example below transcribes the following audio.
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
@@ -199,7 +200,7 @@ Below we transcribe an audio where the speaker (with a German accent) talks abou
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
@@ -237,7 +238,7 @@ Batch inference is possible by passing a list of audio and (if provided) a list
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
@@ -266,7 +267,7 @@ However, if chunks of 60 seconds are too large for your device, the `tokenizer_c
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
 tokenizer_chunk_size = 64000    # default is 1440000 (60s @ 24kHz)
-model_id = "bezzam/VibeVoice-ASR-7B"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
@@ -290,7 +291,7 @@ VibeVoice ASR also accepts chat template inputs (`apply_transcription_request` i
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
@@ -339,7 +340,7 @@ VibeVoice ASR can be trained with the loss outputted by the model.
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 model.train()
@@ -392,7 +393,7 @@ import time
 import torch
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 num_warmup = 5
 num_runs = 20
@@ -475,7 +476,7 @@ The model can be used as a pipeline, but you will have to define your own method
 ```python
 from transformers import pipeline
-model_id = "bezzam/VibeVoice-ASR-7B"
 pipe = pipeline("any-to-any", model=model_id, device_map="auto")
 chat_template = [
     {

 ---
+## VibeVoice-ASR (Transformers-compatible version)
 [![GitHub](https://img.shields.io/badge/GitHub-Repo-black?logo=github)](https://github.com/microsoft/VibeVoice)
 [![Live Playground](https://img.shields.io/badge/Live-Playground-green?logo=gradio)](https://aka.ms/vibevoice-asr)
 [![Technical Report](https://img.shields.io/badge/arXiv-2601.18184-b31b1b?logo=arxiv)](https://arxiv.org/pdf/2601.18184)
 **VibeVoice-ASR** is a unified speech-to-text model designed to handle **60-minute long-form audio** in a single pass, generating structured transcriptions containing **Who (Speaker), When (Timestamps), and What (Content)**, with support for **Customized Hotwords** and over **50 languages**.
 ➡️ **Demo:** [VibeVoice-ASR-Demo](https://aka.ms/vibevoice-asr)<br>
 ➡️ **Report:** [VibeVoice-ASR Technical Report](https://arxiv.org/pdf/2601.18184)<br>
 <p align="left">
   <img src="figures/VibeVoice_ASR_archi.png" alt="VibeVoice-ASR Architecture" height="250px">
 ### Setup
 ```
+pip install transformers
+```
+However, if you're here early and VibeVoice ASR is not yet part of an official Transformers release, it can be used by installing from the source code:
+```
+pip install git+https://github.com/huggingface/transformers.git
 ```
 ### Loading model
 ```python
 from transformers import AutoProcessor, VibeVoiceForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id)
 ```
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
 tokenizer_chunk_size = 64000    # default is 1440000 (60s @ 24kHz)
+model_id = "microsoft/VibeVoice-ASR-HF"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 model.train()
 import torch
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 num_warmup = 5
 num_runs = 20
 ```python
 from transformers import pipeline
+model_id = "microsoft/VibeVoice-ASR-HF"
 pipe = pipeline("any-to-any", model=model_id, device_map="auto")
 chat_template = [
     {