Anonumous commited on
Commit
e0a1c22
·
verified ·
1 Parent(s): aa2b49b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +74 -75
README.md CHANGED
@@ -1,75 +1,74 @@
1
- ---
2
- license: apache-2.0
3
- language:
4
- - ru
5
- pipeline_tag: automatic-speech-recognition
6
- ---
7
-
8
-
9
- ## Borealis
10
-
11
- ### Описание
12
-
13
- **Borealis** - это наша первая ASR модель для русского языка. В этом репозитории представлен чекопинт, который видел примерно `7000` часов аудио на русском языке. Важным отличием от других моделей является то, что тут есть поддержка пунктуации в распознанных аудио. Арихитектура во много вдохновлена [Voxtral](https://mistral.ai/news/voxtral), но отличается в некоторых моментах
14
-
15
-
16
-
17
-
18
-
19
- ### Использование
20
-
21
- ```python
22
- from transformers import AutoModelForCausalLM, AutoTokenizer, AutoFeatureExtractor
23
- import torch
24
- import librosa
25
-
26
- model = AutoModelForCausalLM.from_pretrained("Vikhrmodels/Borealis", trust_remote_code=True)
27
- tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/Borealis")
28
- extractor = AutoFeatureExtractor.from_pretrained("Vikhrmodels/Borealis")
29
-
30
- generation_params = {
31
- "max_new_tokens": 350,
32
- "do_sample": True,
33
- "top_p": 0.9,
34
- "top_k": 50,
35
- "temperature": 0.2,
36
- }
37
-
38
- model.eval()
39
- model.to("cuda")
40
-
41
- waveform, sr = librosa.load("path/to/your/audio.wav", sr=16_000)
42
-
43
- proc = extractor(
44
- waveform,
45
- sampling_rate=sr,
46
- padding="max_length",
47
- max_length=480_000,
48
- return_tensors="pt",
49
- )
50
-
51
- mel = proc.input_features.squeeze(0).to(device)
52
-
53
-
54
- with torch.inference_mode():
55
- transcript = model.generate(mel=mel, att_mask=att_mask, **generation_params)
56
-
57
- print(transcript)
58
- ```
59
-
60
- ### Метрики модели
61
-
62
- Ниже представлены замеры `Borealis` на фоне остальных открытых моделей, который поддерживают русский язык. Бенчмарк мы скоро выложим в открытый доступ
63
-
64
-
65
- | Модель | Средний WER | Средний CER | RuLS | CV 22.0 | Books | Speak | Sova |
66
- |---|---:|---:|---:|---:|---:|---:|---:|
67
- | Borealis | 6.95% | **2.44% 🏆** | 6.30% | 3.02% | **6.41% 🏆** | **1.98% 🏆** | 17.04% |
68
- | openai/whisper-large-v3 | 10.74% | — | 11.62% | 7.51% | 12.19% | 2.74% | 19.65% |
69
- | bond005/whisper-podlodka-turbo | 9.38% | — | 11.91% | 6.36% | 8.96% | 3.14% | 16.55% |
70
- | openai/whisper-large-v3-turbo | 11.30% | — | 11.88% | 8.17% | 13.29% | 2.80% | 20.37% |
71
- | bond005/whisper-large-v3-ru-podlodka | 10.76% | — | 10.24% | 7.80% | 10.31% | 3.23% | 22.21% |
72
- | nvidia/canary-1b-v2 | 13.52% | — | 20.16% | 9.12% | 11.45% | 4.97% | 21.89% |
73
- | VOSK-model-ru-0.42 | 11.30% | — | 12.06% | 11.87% | 10.80% | 2.61% | 19.15% |
74
- | GigaAM-ASR-V2-RNNT | **5.85% 🏆** | — | **5.24% 🏆** | **2.85% 🏆** | 8.06% | 3.08% | **10.01% 🏆** |
75
- | GigaAM-ASR-V2-CTC | 6.45% | — | 5.26% | 3.42% | 7.72% | 3.01% | 12.86% |
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - ru
5
+ pipeline_tag: automatic-speech-recognition
6
+ ---
7
+
8
+
9
+ ## Borealis
10
+
11
+ ### Описание
12
+
13
+ **Borealis** - это наша первая ASR модель для русского языка. В этом репозитории представлен чекопинт, который видел примерно `7000` часов аудио на русском языке. Важным отличием от других моделей является то, что тут есть поддержка пунктуации в распознанных аудио. Арихитектура во много вдохновлена [Voxtral](https://mistral.ai/news/voxtral), но отличается в некоторых моментах
14
+
15
+
16
+
17
+
18
+
19
+ ### Использование
20
+
21
+ ```python
22
+ from transformers import AutoModelForCausalLM, AutoTokenizer, AutoFeatureExtractor
23
+ import torch
24
+ import librosa
25
+
26
+ model = AutoModelForCausalLM.from_pretrained("Vikhrmodels/Borealis", trust_remote_code=True)
27
+ tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/Borealis")
28
+ extractor = AutoFeatureExtractor.from_pretrained("Vikhrmodels/Borealis")
29
+
30
+ generation_params = {
31
+ "max_new_tokens": 350,
32
+ "do_sample": True,
33
+ "top_p": 0.9,
34
+ "top_k": 50,
35
+ "temperature": 0.2,
36
+ }
37
+
38
+ model.eval()
39
+ model.to("cuda")
40
+
41
+ waveform, sr = librosa.load("path/to/your/audio.wav", sr=16_000)
42
+
43
+ proc = extractor(
44
+ waveform,
45
+ sampling_rate=sr,
46
+ padding="max_length",
47
+ max_length=480_000,
48
+ return_tensors="pt",
49
+ )
50
+
51
+ mel = proc.input_features.squeeze(0).to(device)
52
+
53
+
54
+ with torch.inference_mode():
55
+ transcript = model.generate(mel=mel, att_mask=att_mask, **generation_params)
56
+
57
+ print(transcript)
58
+ ```
59
+
60
+ ### Метрики модели
61
+
62
+ Ниже представлены замеры `Borealis` на фоне остальных открытых моделей, который поддерживают русский язык. Бенчмарк мы скоро выложим в открытый доступ
63
+
64
+ | Модель | Средний WER | RuLS | CV 22.0 | Books | Speak | Sova |
65
+ |---|---:|---:|---:|---:|---:|---:|
66
+ | Borealis | 6.95% | 6.30% | 3.02% | **6.41%** | **1.98%** | 17.04% |
67
+ | openai/whisper-large-v3 | 10.74% | 11.62% | 7.51% | 12.19% | 2.74% | 19.65% |
68
+ | bond005/whisper-podlodka-turbo | 9.38% | 11.91% | 6.36% | 8.96% | 3.14% | 16.55% |
69
+ | openai/whisper-large-v3-turbo | 11.30% | 11.88% | 8.17% | 13.29% | 2.80% | 20.37% |
70
+ | bond005/whisper-large-v3-ru-podlodka | 10.76% | 10.24% | 7.80% | 10.31% | 3.23% | 22.21% |
71
+ | nvidia/canary-1b-v2 | 13.52% | 20.16% | 9.12% | 11.45% | 4.97% | 21.89% |
72
+ | VOSK-model-ru-0.42 | 11.30% | 12.06% | 11.87% | 10.80% | 2.61% | 19.15% |
73
+ | GigaAM-ASR-V2-RNNT | **5.85%** | **5.24%** | **2.85%** | 8.06% | 3.08% | **10.01%** |
74
+ | GigaAM-ASR-V2-CTC | 6.45% | 5.26% | 3.42% | 7.72% | 3.01% | 12.86% |