Kviskr punctuation (norsk) — INT8 ONNX
Tegnsettings- og truecasing-modellen som brukes av Kviskr (lokal norsk diktering for macOS) til å sette komma, punktum, spørsmålstegn og store bokstaver i rå verbatim-transkripsjon — helt på enheten.
Dette er en INT8-kvantisert ONNX-eksport av
1-800-BAD-CODE/xlm-roberta_punctuation_fullstop_truecase
(XLM-RoBERTa token-klassifiserer, 47 språk, Apache 2.0), med bool-utganger
castet til int64 for ONNX Runtime-kompatibilitet på macOS. En
token-klassifiserer kan strukturelt ikke droppe, endre eller legge til ord.
Filer
| Fil | Innhold |
|---|---|
model_embed.onnx |
INT8-kvantisert modell (~279 MB) |
tokenizer.json |
XLM-R-tokenizer (swift-transformers-kompatibel) |
tokenizer_config.json, config.json |
tokenizer-/modellkonfig |
Målt på norsk (eval-gate 2026-06-10)
Evaluert på ekte verbatim-ASR-output (NB-Whisper large verbatim) over Nasjonalbibliotekets eval-sett (200 klipp, mange stemmer, fem domener) + et fasit-merket dikteringssett:
- Ord-bevaring: 0/230 brudd (modellen endret aldri et ord)
- Sluttegn-F1 0,81, komma-F1 0,53, truecasing 97,0 % (round-trip)
- Case+tegn-feilrate på diktering: 29,6 % (rå) → 9,8 % (med modellen)
Lisens
Apache 2.0, samme som basismodellen. Kvantisering og eval av Kviskr.
- Downloads last month
- -