Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,74 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: apache-2.0
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: apache-2.0
|
| 3 |
+
language:
|
| 4 |
+
- it
|
| 5 |
+
- en
|
| 6 |
+
metrics:
|
| 7 |
+
- wer
|
| 8 |
+
pipeline_tag: automatic-speech-recognition
|
| 9 |
+
tags:
|
| 10 |
+
- audio
|
| 11 |
+
- automatic-speech-recognition
|
| 12 |
+
- hf-asr-leaderboard
|
| 13 |
+
library_name: ctranslate2
|
| 14 |
+
---
|
| 15 |
+
|
| 16 |
+
# Litus whisper-small-ita for CTranslate2
|
| 17 |
+
|
| 18 |
+
La repo contiene la conversione di [litus-ai/whisper-small-ita](https://huggingface.co/litus-ai/whisper-small-ita/) al formato di [CTranslate2](https://github.com/OpenNMT/CTranslate2).
|
| 19 |
+
|
| 20 |
+
Questo modello può essere usato su CTranslate2 o su progetti affini tipo:[faster-whisper](https://github.com/systran/faster-whisper).
|
| 21 |
+
|
| 22 |
+
# Descrizione del Modello
|
| 23 |
+
Questo modello è una versione di [openai/whisper-small](https://huggingface.co/openai/whisper-small) ottimizzata per la lingua italiana, addestrata utilizzando una parte dei dati proprietari di [Litus AI](https://litus.ai/it/).
|
| 24 |
+
`litus-ai/whisper-small-ita` rappresenta un ottimo compromesso value/cost ed è ottimale per contesti in cui il budget computazionale è limitato,
|
| 25 |
+
ma è comunque necessaria una trascrizione accurata del parlato.
|
| 26 |
+
|
| 27 |
+
# Particolarità del Modello
|
| 28 |
+
La peculiarità principale del modello è l'integrazione di token speciali che arricchiscono la trascrizione con meta-informazioni:
|
| 29 |
+
|
| 30 |
+
- Elementi paralinguistici: `[LAUGH]`, `[MHMH]`, `[SIGH]`, `[UHM]`
|
| 31 |
+
- Qualità audio: `[NOISE]`, `[UNINT]` (non intelligibile)
|
| 32 |
+
- Caratteristiche del parlato: `[AUTOCOR]` (autocorrezioni), `[L-EN]` (code-switching inglese)
|
| 33 |
+
|
| 34 |
+
Questi token consentono una trascrizione più ricca che cattura non solo il contenuto verbale ma anche elementi contestuali rilevanti.
|
| 35 |
+
|
| 36 |
+
# Evaluation
|
| 37 |
+
Nel seguente grafico puoi trovare l'Accuracy di `openai/whisper-small`, `openai/whisper-medium`, `litus-ai/whisper-small-ita` e il modello proprietario di Litus AI, `litus-proprietary`,
|
| 38 |
+
su benchmark proprietari per meeting e chiamate vocali in lingua italiana.
|
| 39 |
+
|
| 40 |
+
<div style="width: auto; margin-left: auto; margin-right: auto">
|
| 41 |
+
<img src="https://huggingface.co/litus-ai/whisper-small-ita/resolve/main/Models%20Accuracy.png" alt="Litus AI eval">
|
| 42 |
+
</div>
|
| 43 |
+
<hr style="margin-top: 1.0em; margin-bottom: 1.0em;">
|
| 44 |
+
<!-- header end -->
|
| 45 |
+
|
| 46 |
+
# Come usare il modello
|
| 47 |
+
Puoi utlizzare devilteo911/whisper-small-ita-ct2 tramite faster-whisper:
|
| 48 |
+
|
| 49 |
+
```python
|
| 50 |
+
from faster_whisper import WhisperModel
|
| 51 |
+
|
| 52 |
+
model = WhisperModel("devilteo911/whisper-small-ita-ct2")
|
| 53 |
+
|
| 54 |
+
segments, info = model.transcribe("audio.mp3")
|
| 55 |
+
for segment in segments:
|
| 56 |
+
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
|
| 57 |
+
|
| 58 |
+
```
|
| 59 |
+
|
| 60 |
+
## Dettagli sulla conversione
|
| 61 |
+
|
| 62 |
+
Il modello originale è stato convertito usando questo comando:
|
| 63 |
+
|
| 64 |
+
```
|
| 65 |
+
ct2-transformers-converter --model litus-ai/whisper-small-ita --output_dir whisper-small-ita-ct2 \
|
| 66 |
+
--copy_files tokenizer_config.json preprocessor_config.json vocab.json normalizer.json merges.txt \
|
| 67 |
+
added_tokens.json generation_config.json special_tokens_map.json --quantization float16
|
| 68 |
+
```
|
| 69 |
+
|
| 70 |
+
Nota che i pesi del modello sono salvati in FP16. Questo tipo può essere cambiato al momento del caricamento del modello usando il parametro [`compute_type` option in CTranslate2](https://opennmt.net/CTranslate2/quantization.html).
|
| 71 |
+
|
| 72 |
+
# Conclusions
|
| 73 |
+
Per qualsiasi informazione sull'architettura sui dati utilizzati per il pretraining e l'intended use ti preghiamo di
|
| 74 |
+
rivolgerti al [Paper](https://arxiv.org/abs/2212.04356), la [Model Card](https://huggingface.co/openai/whisper-small) e la [Repository](https://github.com/openai/whisper) originali.
|