Update README.md (#3)

f401de8 verified 7 months ago

2.32 kB

license: openrail
language:
  - da
datasets:
  - alexandrainst/coral
metrics:
  - wer
  - cer
base_model:
  - syvai/hviske-v2
  - openai/whisper-large-v3
pipeline_tag: automatic-speech-recognition
tags:
  - audio
  - automatic-speech-recognition
  - speaches
library_name: ctranslate2

HviskeTiske

Hviske-Tiske er "nok" den hurtigste danske ASR model. Modellen er en distilleret version af hviske-v2.

I grove tal så øges hastigheden ca. 4x uden store tab i accuracy for hviske-v2, og dermed er det umiddelbart den hurtigste og næsten den mest præcise open source danske transskriberings model.

Ved lange lydfiler (30min +) så ses en forskel på 17 sekunder pr. fil. Samtidig fylder denne model kun ½delen på den nødvendige Vram på GPU. Dermed mindre krav til hardware for at køre den

HviskeV2 turbo model for CTranslate2

Modellen konverterre syvai/hviske-v2 til CTranslate2 model format for dermed at kunne køre transskriberingerne markant hurtigere.

Modellen kan blive brugt i python bibliotekker der understøtter CTranslate2 så som faster-whisper.

Example

from faster_whisper import WhisperModel

model = WhisperModel("pluttodk/hviske-tiske")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

Konvertering

Den originalle model er konverteret med følgende logik Github

Model vægtene er gemt i FP16, da det giver størst performance mæssigt Note that the model weights are saved in FP16. This type can be changed when the model is loaded using the compute_type option in CTranslate2.

Performance:

Performance er evalueret på alexandrainst/coral, hvor alle lydbider er 5 sekunder. Dermed er det retvisende for performance i dette tilfælde. Ved simple test tyder det på at performance går igen ved større lydfiler. (herunder note at faster-whisper-large-v3-turbo-ct2 præstere bedst ved 30 sekunders lydfiler)

Performance

Hastighed

For at teste hastighed, er der kørt på følgende længder lyd, hvor CER og WER fordeler sig også som i ovenstående plot

5 sekunder
10 sekunder
30 sekunder
1 minut
10 minutter
30 minutter