microsoft
/

VibeVoice-ASR-HF

@@ -62,7 +62,7 @@ library_name: transformers
 ---
-## VibeVoice-ASR
 [![GitHub](https://img.shields.io/badge/GitHub-Repo-black?logo=github)](https://github.com/microsoft/VibeVoice)
 [![Live Playground](https://img.shields.io/badge/Live-Playground-green?logo=gradio)](https://aka.ms/vibevoice-asr)
 [![Technical Report](https://img.shields.io/badge/arXiv-2601.18184-b31b1b?logo=arxiv)](https://arxiv.org/pdf/2601.18184)
@@ -100,9 +100,9 @@ library_name: transformers
 ### Setup
-VibeVoice ASR is not yet merged into Transformers but can be used by pulling the source code from the following fork:
 ```
-pip install git+https://github.com/ebezzam/transformers.git@vibevoice_asr
 ```
 ### Loading model
@@ -110,7 +110,7 @@ pip install git+https://github.com/ebezzam/transformers.git@vibevoice_asr
 ```python
 from transformers import AutoProcessor, VibeVoiceForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id)
 ```
@@ -128,7 +128,7 @@ The example below transcribes the following audio.
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
@@ -199,7 +199,7 @@ Below we transcribe an audio where the speaker (with a German accent) talks abou
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
@@ -237,7 +237,7 @@ Batch inference is possible by passing a list of audio and (if provided) a list
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
@@ -266,7 +266,7 @@ However, if chunks of 60 seconds are too large for your device, the `tokenizer_c
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
 tokenizer_chunk_size = 64000    # default is 1440000 (60s @ 24kHz)
-model_id = "bezzam/VibeVoice-ASR-7B"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
@@ -290,7 +290,7 @@ VibeVoice ASR also accepts chat template inputs (`apply_transcription_request` i
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
@@ -339,7 +339,7 @@ VibeVoice ASR can be trained with the loss outputted by the model.
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 model.train()
@@ -392,7 +392,7 @@ import time
 import torch
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
-model_id = "bezzam/VibeVoice-ASR-7B"
 num_warmup = 5
 num_runs = 20
@@ -475,7 +475,7 @@ The model can be used as a pipeline, but you will have to define your own method
 ```python
 from transformers import pipeline
-model_id = "bezzam/VibeVoice-ASR-7B"
 pipe = pipeline("any-to-any", model=model_id, device_map="auto")
 chat_template = [
     {

 ---
+## VibeVoice-ASR (Transformers-compatible version)
 [![GitHub](https://img.shields.io/badge/GitHub-Repo-black?logo=github)](https://github.com/microsoft/VibeVoice)
 [![Live Playground](https://img.shields.io/badge/Live-Playground-green?logo=gradio)](https://aka.ms/vibevoice-asr)
 [![Technical Report](https://img.shields.io/badge/arXiv-2601.18184-b31b1b?logo=arxiv)](https://arxiv.org/pdf/2601.18184)
 ### Setup
+Until VibeVoice ASR is part of an official Transformers release, it can be used by installing from the source code:
 ```
+pip install git+https://github.com/huggingface/transformers.git
 ```
 ### Loading model
 ```python
 from transformers import AutoProcessor, VibeVoiceForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id)
 ```
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 print(f"Model loaded on {model.device} with dtype {model.dtype}")
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
 tokenizer_chunk_size = 64000    # default is 1440000 (60s @ 24kHz)
+model_id = "microsoft/VibeVoice-ASR-HF"
 audio = [
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/realtime_model/vibevoice_tts_german.wav",
     "https://huggingface.co/datasets/bezzam/vibevoice_samples/resolve/main/example_output/VibeVoice-1.5B_output.wav"
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 ```python
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 processor = AutoProcessor.from_pretrained(model_id)
 model = VibeVoiceAsrForConditionalGeneration.from_pretrained(model_id, device_map="auto")
 model.train()
 import torch
 from transformers import AutoProcessor, VibeVoiceAsrForConditionalGeneration
+model_id = "microsoft/VibeVoice-ASR-HF"
 num_warmup = 5
 num_runs = 20
 ```python
 from transformers import pipeline
+model_id = "microsoft/VibeVoice-ASR-HF"
 pipe = pipeline("any-to-any", model=model_id, device_map="auto")
 chat_template = [
     {