NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark
Paper • 2504.07749 • Published • 1
En finjustert versjon av Mistral Small 4 (119B MoE) som slår samtlige publiserte modeller på 7 av 8 kjerneoppgaver i NorEval-benchmarken.
| Oppgave | m51-NorskMistral | NorEval #1 |
|---|---|---|
| Commonsense-resonnering (BM) | 75.7% | 72.2% |
| Commonsense-resonnering (NN) | 63.2% | 52.6% |
| Open-book QA (BM) | 95.7% | 87.4% |
| Open-book QA (NN) | 93.3% | 88.9% |
| Truthfulness (BM) | 77.9% | 74.6% |
| Truthfulness (NN) | 82.5% | 73.7% |
| Norsk kunnskap -- NRK Quiz (BM) | 66.5% | 63.7% |
| Norsk kunnskap -- NRK Quiz (NN) | 65.1% | 71.9% |
| Gjennomsnitt | 76.8% | 73.1% |
Evaluert med loglikelihood scoring, multi-prompt best-of-5 (5 ulike prompt-varianter per oppgave), 16-shot for NorOBQA, 0-shot for alle andre. Full test-sett, ingen subsample.
from transformers import Mistral3ForConditionalGeneration, AutoTokenizer
from peft import PeftModel
import torch
base_model = "mistralai/Mistral-Small-4-2503"
adapter = "dervig/m51Lab-NorskMistral-119B"
model = Mistral3ForConditionalGeneration.from_pretrained(
base_model, torch_dtype=torch.bfloat16, device_map="auto"
)
model = PeftModel.from_pretrained(model, adapter)
model = model.merge_and_unload()
tokenizer = AutoTokenizer.from_pretrained(base_model)
For bruk med llama.cpp, Ollama, Open WebUI eller LM Studio, se m51Lab-NorskMistral-119B-GGUF.
Apache 2.0 (samme som base-modellen)
Bygget av m51.ai.