m51Lab-NorskMistral-119B

En finjustert versjon av Mistral Small 4 (119B MoE) som slår samtlige publiserte modeller på 7 av 8 kjerneoppgaver i NorEval-benchmarken.

Resultater på NorEval

Oppgave m51-NorskMistral NorEval #1
Commonsense-resonnering (BM) 75.7% 72.2%
Commonsense-resonnering (NN) 63.2% 52.6%
Open-book QA (BM) 95.7% 87.4%
Open-book QA (NN) 93.3% 88.9%
Truthfulness (BM) 77.9% 74.6%
Truthfulness (NN) 82.5% 73.7%
Norsk kunnskap -- NRK Quiz (BM) 66.5% 63.7%
Norsk kunnskap -- NRK Quiz (NN) 65.1% 71.9%
Gjennomsnitt 76.8% 73.1%

Evaluert med loglikelihood scoring, multi-prompt best-of-5 (5 ulike prompt-varianter per oppgave), 16-shot for NorOBQA, 0-shot for alle andre. Full test-sett, ingen subsample.

Modelldetaljer

  • Base: Mistral Small 4 119B MoE (128 eksperter, 4 aktive per token)
  • Adapter: LoRA r=32, alpha=64
  • Treningsdata: 13.375 norske og engelske eksempler (kontaminasjonssjekket mot NorEval)
  • Trening: 2 epoker, 3 timer på 7x NVIDIA H100 80GB med FSDP2
  • Presisjon: BF16

Bruk

from transformers import Mistral3ForConditionalGeneration, AutoTokenizer
from peft import PeftModel
import torch

base_model = "mistralai/Mistral-Small-4-2503"
adapter = "dervig/m51Lab-NorskMistral-119B"

model = Mistral3ForConditionalGeneration.from_pretrained(
    base_model, torch_dtype=torch.bfloat16, device_map="auto"
)
model = PeftModel.from_pretrained(model, adapter)
model = model.merge_and_unload()

tokenizer = AutoTokenizer.from_pretrained(base_model)

GGUF

For bruk med llama.cpp, Ollama, Open WebUI eller LM Studio, se m51Lab-NorskMistral-119B-GGUF.

Hardware-krav

  • LoRA (denne repoen): 2x H100 80GB eller tilsvarende (238 GB BF16 base + adapter)
  • GGUF Q4_K_M: 1x H100 80GB (tight) eller 96+ GB unified memory (Mac M-series)

Kreditering

Lisens

Apache 2.0 (samme som base-modellen)

Om m51

Bygget av m51.ai.

Downloads last month
38
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for dervig/m51Lab-NorskMistral-119B