Kviskr punctuation (norsk) — INT8 ONNX

Tegnsettings- og truecasing-modellen som brukes av Kviskr (lokal norsk diktering for macOS) til å sette komma, punktum, spørsmålstegn og store bokstaver i rå verbatim-transkripsjon — helt på enheten.

Dette er en INT8-kvantisert ONNX-eksport av 1-800-BAD-CODE/xlm-roberta_punctuation_fullstop_truecase (XLM-RoBERTa token-klassifiserer, 47 språk, Apache 2.0), med bool-utganger castet til int64 for ONNX Runtime-kompatibilitet på macOS. En token-klassifiserer kan strukturelt ikke droppe, endre eller legge til ord.

Filer

Fil	Innhold
`model_embed.onnx`	INT8-kvantisert modell (~279 MB)
`tokenizer.json`	XLM-R-tokenizer (swift-transformers-kompatibel)
`tokenizer_config.json`, `config.json`	tokenizer-/modellkonfig

Målt på norsk (eval-gate 2026-06-10)

Evaluert på ekte verbatim-ASR-output (NB-Whisper large verbatim) over Nasjonalbibliotekets eval-sett (200 klipp, mange stemmer, fem domener) + et fasit-merket dikteringssett:

Ord-bevaring: 0/230 brudd (modellen endret aldri et ord)
Sluttegn-F1 0,81, komma-F1 0,53, truecasing 97,0 % (round-trip)
Case+tegn-feilrate på diktering: 29,6 % (rå) → 9,8 % (med modellen)

Lisens

Apache 2.0, samme som basismodellen. Kvantisering og eval av Kviskr.

Downloads last month: -

Model tree for skolfus/kviskr-punctuation-no

Base model

1-800-BAD-CODE/xlm-roberta_punctuation_fullstop_truecase

Quantized

(2)

this model