Update README.md
Browse files
README.md
CHANGED
|
@@ -1,75 +1,74 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
language:
|
| 4 |
-
- ru
|
| 5 |
-
pipeline_tag: automatic-speech-recognition
|
| 6 |
-
---
|
| 7 |
-
|
| 8 |
-
|
| 9 |
-
## Borealis
|
| 10 |
-
|
| 11 |
-
### Описание
|
| 12 |
-
|
| 13 |
-
**Borealis** - это наша первая ASR модель для русского языка. В этом репозитории представлен чекопинт, который видел примерно `7000` часов аудио на русском языке. Важным отличием от других моделей является то, что тут есть поддержка пунктуации в распознанных аудио. Арихитектура во много вдохновлена [Voxtral](https://mistral.ai/news/voxtral), но отличается в некоторых моментах
|
| 14 |
-
|
| 15 |
-
|
| 16 |
-
|
| 17 |
-
|
| 18 |
-
|
| 19 |
-
### Использование
|
| 20 |
-
|
| 21 |
-
```python
|
| 22 |
-
from transformers import AutoModelForCausalLM, AutoTokenizer, AutoFeatureExtractor
|
| 23 |
-
import torch
|
| 24 |
-
import librosa
|
| 25 |
-
|
| 26 |
-
model = AutoModelForCausalLM.from_pretrained("Vikhrmodels/Borealis", trust_remote_code=True)
|
| 27 |
-
tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/Borealis")
|
| 28 |
-
extractor = AutoFeatureExtractor.from_pretrained("Vikhrmodels/Borealis")
|
| 29 |
-
|
| 30 |
-
generation_params = {
|
| 31 |
-
"max_new_tokens": 350,
|
| 32 |
-
"do_sample": True,
|
| 33 |
-
"top_p": 0.9,
|
| 34 |
-
"top_k": 50,
|
| 35 |
-
"temperature": 0.2,
|
| 36 |
-
}
|
| 37 |
-
|
| 38 |
-
model.eval()
|
| 39 |
-
model.to("cuda")
|
| 40 |
-
|
| 41 |
-
waveform, sr = librosa.load("path/to/your/audio.wav", sr=16_000)
|
| 42 |
-
|
| 43 |
-
proc = extractor(
|
| 44 |
-
waveform,
|
| 45 |
-
sampling_rate=sr,
|
| 46 |
-
padding="max_length",
|
| 47 |
-
max_length=480_000,
|
| 48 |
-
return_tensors="pt",
|
| 49 |
-
)
|
| 50 |
-
|
| 51 |
-
mel = proc.input_features.squeeze(0).to(device)
|
| 52 |
-
|
| 53 |
-
|
| 54 |
-
with torch.inference_mode():
|
| 55 |
-
transcript = model.generate(mel=mel, att_mask=att_mask, **generation_params)
|
| 56 |
-
|
| 57 |
-
print(transcript)
|
| 58 |
-
```
|
| 59 |
-
|
| 60 |
-
### Метрики модели
|
| 61 |
-
|
| 62 |
-
Ниже представлены замеры `Borealis` на фоне остальных открытых моделей, который поддерживают русский язык. Бенчмарк мы скоро выложим в открытый доступ
|
| 63 |
-
|
| 64 |
-
|
| 65 |
-
|
| 66 |
-
|
| 67 |
-
|
|
| 68 |
-
|
|
| 69 |
-
|
|
| 70 |
-
|
|
| 71 |
-
|
|
| 72 |
-
|
|
| 73 |
-
|
|
| 74 |
-
| GigaAM-ASR-V2-
|
| 75 |
-
| GigaAM-ASR-V2-CTC | 6.45% | — | 5.26% | 3.42% | 7.72% | 3.01% | 12.86% |
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
language:
|
| 4 |
+
- ru
|
| 5 |
+
pipeline_tag: automatic-speech-recognition
|
| 6 |
+
---
|
| 7 |
+
|
| 8 |
+
|
| 9 |
+
## Borealis
|
| 10 |
+
|
| 11 |
+
### Описание
|
| 12 |
+
|
| 13 |
+
**Borealis** - это наша первая ASR модель для русского языка. В этом репозитории представлен чекопинт, который видел примерно `7000` часов аудио на русском языке. Важным отличием от других моделей является то, что тут есть поддержка пунктуации в распознанных аудио. Арихитектура во много вдохновлена [Voxtral](https://mistral.ai/news/voxtral), но отличается в некоторых моментах
|
| 14 |
+
|
| 15 |
+
|
| 16 |
+
|
| 17 |
+
|
| 18 |
+
|
| 19 |
+
### Использование
|
| 20 |
+
|
| 21 |
+
```python
|
| 22 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer, AutoFeatureExtractor
|
| 23 |
+
import torch
|
| 24 |
+
import librosa
|
| 25 |
+
|
| 26 |
+
model = AutoModelForCausalLM.from_pretrained("Vikhrmodels/Borealis", trust_remote_code=True)
|
| 27 |
+
tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/Borealis")
|
| 28 |
+
extractor = AutoFeatureExtractor.from_pretrained("Vikhrmodels/Borealis")
|
| 29 |
+
|
| 30 |
+
generation_params = {
|
| 31 |
+
"max_new_tokens": 350,
|
| 32 |
+
"do_sample": True,
|
| 33 |
+
"top_p": 0.9,
|
| 34 |
+
"top_k": 50,
|
| 35 |
+
"temperature": 0.2,
|
| 36 |
+
}
|
| 37 |
+
|
| 38 |
+
model.eval()
|
| 39 |
+
model.to("cuda")
|
| 40 |
+
|
| 41 |
+
waveform, sr = librosa.load("path/to/your/audio.wav", sr=16_000)
|
| 42 |
+
|
| 43 |
+
proc = extractor(
|
| 44 |
+
waveform,
|
| 45 |
+
sampling_rate=sr,
|
| 46 |
+
padding="max_length",
|
| 47 |
+
max_length=480_000,
|
| 48 |
+
return_tensors="pt",
|
| 49 |
+
)
|
| 50 |
+
|
| 51 |
+
mel = proc.input_features.squeeze(0).to(device)
|
| 52 |
+
|
| 53 |
+
|
| 54 |
+
with torch.inference_mode():
|
| 55 |
+
transcript = model.generate(mel=mel, att_mask=att_mask, **generation_params)
|
| 56 |
+
|
| 57 |
+
print(transcript)
|
| 58 |
+
```
|
| 59 |
+
|
| 60 |
+
### Метрики модели
|
| 61 |
+
|
| 62 |
+
Ниже представлены замеры `Borealis` на фоне остальных открытых моделей, который поддерживают русский язык. Бенчмарк мы скоро выложим в открытый доступ
|
| 63 |
+
|
| 64 |
+
| Модель | Средний WER | RuLS | CV 22.0 | Books | Speak | Sova |
|
| 65 |
+
|---|---:|---:|---:|---:|---:|---:|
|
| 66 |
+
| Borealis | 6.95% | 6.30% | 3.02% | **6.41%** | **1.98%** | 17.04% |
|
| 67 |
+
| openai/whisper-large-v3 | 10.74% | 11.62% | 7.51% | 12.19% | 2.74% | 19.65% |
|
| 68 |
+
| bond005/whisper-podlodka-turbo | 9.38% | 11.91% | 6.36% | 8.96% | 3.14% | 16.55% |
|
| 69 |
+
| openai/whisper-large-v3-turbo | 11.30% | 11.88% | 8.17% | 13.29% | 2.80% | 20.37% |
|
| 70 |
+
| bond005/whisper-large-v3-ru-podlodka | 10.76% | 10.24% | 7.80% | 10.31% | 3.23% | 22.21% |
|
| 71 |
+
| nvidia/canary-1b-v2 | 13.52% | 20.16% | 9.12% | 11.45% | 4.97% | 21.89% |
|
| 72 |
+
| VOSK-model-ru-0.42 | 11.30% | 12.06% | 11.87% | 10.80% | 2.61% | 19.15% |
|
| 73 |
+
| GigaAM-ASR-V2-RNNT | **5.85%** | **5.24%** | **2.85%** | 8.06% | 3.08% | **10.01%** |
|
| 74 |
+
| GigaAM-ASR-V2-CTC | 6.45% | 5.26% | 3.42% | 7.72% | 3.01% | 12.86% |
|
|
|