Kviskr punctuation (norsk) — INT8 ONNX

Tegnsettings- og truecasing-modellen som brukes av Kviskr (lokal norsk diktering for macOS) til å sette komma, punktum, spørsmålstegn og store bokstaver i rå verbatim-transkripsjon — helt på enheten.

Dette er en INT8-kvantisert ONNX-eksport av 1-800-BAD-CODE/xlm-roberta_punctuation_fullstop_truecase (XLM-RoBERTa token-klassifiserer, 47 språk, Apache 2.0), med bool-utganger castet til int64 for ONNX Runtime-kompatibilitet på macOS. En token-klassifiserer kan strukturelt ikke droppe, endre eller legge til ord.

Filer

Fil Innhold
model_embed.onnx INT8-kvantisert modell (~279 MB)
tokenizer.json XLM-R-tokenizer (swift-transformers-kompatibel)
tokenizer_config.json, config.json tokenizer-/modellkonfig

Målt på norsk (eval-gate 2026-06-10)

Evaluert på ekte verbatim-ASR-output (NB-Whisper large verbatim) over Nasjonalbibliotekets eval-sett (200 klipp, mange stemmer, fem domener) + et fasit-merket dikteringssett:

  • Ord-bevaring: 0/230 brudd (modellen endret aldri et ord)
  • Sluttegn-F1 0,81, komma-F1 0,53, truecasing 97,0 % (round-trip)
  • Case+tegn-feilrate på diktering: 29,6 % (rå) → 9,8 % (med modellen)

Lisens

Apache 2.0, samme som basismodellen. Kvantisering og eval av Kviskr.

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for skolfus/kviskr-punctuation-no