Vikhrmodels
/

Borealis-5b-it

@@ -23,10 +23,10 @@ class BorealisProcessor(ProcessorMixin):
     feature_extractor_class = "WhisperFeatureExtractor"
     tokenizer_class = "AutoTokenizer"
-    # Audio tokens
     audio_token = "<|AUDIO|>"
     audio_bos_token = "<|start_of_audio|>"
-    audio_eos_token = "<|end_of_audio|>"
     def __init__(
         self,

     feature_extractor_class = "WhisperFeatureExtractor"
     tokenizer_class = "AutoTokenizer"
+    # Audio tokens (checkpoint has only 2 special tokens: 151669 and 151670)
     audio_token = "<|AUDIO|>"
     audio_bos_token = "<|start_of_audio|>"
+    audio_eos_token = "<|start_of_audio|>"  # Reuse bos token since only 2 audio tokens in vocab
     def __init__(
         self,