m51Lab-NorskMistral-119B

En finjustert versjon av Mistral Small 4 (119B MoE) som slår samtlige publiserte modeller på 7 av 8 kjerneoppgaver i NorEval-benchmarken.

Resultater på NorEval

Oppgave	m51-NorskMistral	NorEval #1
Commonsense-resonnering (BM)	75.7%	72.2%
Commonsense-resonnering (NN)	63.2%	52.6%
Open-book QA (BM)	95.7%	87.4%
Open-book QA (NN)	93.3%	88.9%
Truthfulness (BM)	77.9%	74.6%
Truthfulness (NN)	82.5%	73.7%
Norsk kunnskap -- NRK Quiz (BM)	66.5%	63.7%
Norsk kunnskap -- NRK Quiz (NN)	65.1%	71.9%
Gjennomsnitt	76.8%	73.1%

Evaluert med loglikelihood scoring, multi-prompt best-of-5 (5 ulike prompt-varianter per oppgave), 16-shot for NorOBQA, 0-shot for alle andre. Full test-sett, ingen subsample.

Modelldetaljer

Base: Mistral Small 4 119B MoE (128 eksperter, 4 aktive per token)
Adapter: LoRA r=32, alpha=64
Treningsdata: 13.375 norske og engelske eksempler (kontaminasjonssjekket mot NorEval)
Trening: 2 epoker, 3 timer på 7x NVIDIA H100 80GB med FSDP2
Presisjon: BF16

Bruk

from transformers import Mistral3ForConditionalGeneration, AutoTokenizer
from peft import PeftModel
import torch

base_model = "mistralai/Mistral-Small-4-2503"
adapter = "dervig/m51Lab-NorskMistral-119B"

model = Mistral3ForConditionalGeneration.from_pretrained(
    base_model, torch_dtype=torch.bfloat16, device_map="auto"
)
model = PeftModel.from_pretrained(model, adapter)
model = model.merge_and_unload()

tokenizer = AutoTokenizer.from_pretrained(base_model)

GGUF

For bruk med llama.cpp, Ollama, Open WebUI eller LM Studio, se m51Lab-NorskMistral-119B-GGUF.

Hardware-krav

LoRA (denne repoen): 2x H100 80GB eller tilsvarende (238 GB BF16 base + adapter)
GGUF Q4_K_M: 1x H100 80GB (tight) eller 96+ GB unified memory (Mac M-series)

Kreditering

Base-modell: Mistral Small 4 av Mistral AI, Apache 2.0
NorEval-benchmark: NorEval: A Comprehensive Benchmark for Norwegian Language Models av Language Technology Group, Universitetet i Oslo (ACL 2025)
Treningsdata:
- NbAiLab / Nasjonalbiblioteket: norwegian-alpaca, torgersen-alpaca, ndla_npk_conversational_nb_to_nn, nynorsk_dpo
- teknium/OpenHermes-2.5

Lisens

Apache 2.0 (samme som base-modellen)

Om m51

Bygget av m51.ai.

Downloads last month: 2

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for dervig/m51Lab-NorskMistral-119B

NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark

Paper • 2504.07749 • Published Apr 10, 2025 • 1