m51Lab-NorskMistral-119B-GGUF

GGUF-kvantiserte versjoner av m51Lab-NorskMistral-119B.

Tilgjengelige filer

Fil	Kvantisering	Størrelse	Beskrivelse
`m51Lab-NorskMistral-119B-Q4_K_M.gguf`	Q4_K_M	68 GB	Standard versjon, 4.85 bits per weight
`m51Lab-NorskMistral-119B-thinking-Q4_K_M.gguf`	Q4_K_M	68 GB	Med thinking/reasoning aktivert (chain-of-thought)

Forskjell mellom standard og thinking

Standard: Svarer direkte. Raskere, enklere svar.
Thinking: Modellen resonnerer steg-for-steg i en skjult <think>-blokk før den svarer. Gir bedre svar på logikk- og resonneringsspørsmål, men bruker flere tokens.

Bruk med llama.cpp

# Standard
llama-server -m m51Lab-NorskMistral-119B-Q4_K_M.gguf -ngl 99 -fa off --host 0.0.0.0 --port 8080

# Thinking
llama-server -m m51Lab-NorskMistral-119B-thinking-Q4_K_M.gguf -ngl 99 -fa off --host 0.0.0.0 --port 8080 \
  --reasoning on --reasoning-budget 4096 --reasoning-format deepseek

Åpne http://localhost:8080 i nettleseren for det innebygde chat-grensesnittet.

Bruk med Ollama

# Lag en Modelfile
cat > Modelfile << 'EOF'
FROM m51Lab-NorskMistral-119B-Q4_K_M.gguf
PARAMETER num_gpu 99
EOF

ollama create m51-norskmistral -f Modelfile
ollama run m51-norskmistral

NorEval-resultater

Oppgave	Resultat	NorEval #1
Commonsense-resonnering (BM)	75.7%	72.2%
Commonsense-resonnering (NN)	63.2%	52.6%
Open-book QA (BM)	95.7%	87.4%
Open-book QA (NN)	93.3%	88.9%
Truthfulness (BM)	77.9%	74.6%
Truthfulness (NN)	82.5%	73.7%
Norsk kunnskap (BM)	66.5%	63.7%
Norsk kunnskap (NN)	65.1%	71.9%
Gjennomsnitt	76.8%	73.1%

Hardware-krav

Oppsett	VRAM/RAM	Ytelse
2x H100 80GB	160 GB VRAM	154 tok/s generering
1x H100 80GB	80 GB VRAM	Fungerer men tight, delvis CPU fallback
Mac M2/M3/M4 Max 128GB	128 GB unified	Bør fungere, ca 5-15 tok/s
Mac M2/M3/M4 Ultra 192GB	192 GB unified	Komfortabelt, ca 10-20 tok/s

Viktig: MoE-arkitekturen (128 eksperter) krever at alle vekter ligger i minne, selv om bare 4 eksperter er aktive per token. Minimum ~70 GB RAM/VRAM for Q4_K_M.

Tekniske detaljer

Arkitektur: Mistral Small 4 119B MoE (128 eksperter, 4 aktive)
Kvantisering: Q4_K_M via llama.cpp (build b8680)
Bits per weight: 4.85
Flash attention: Deaktivert (broken for Mistral4 på CUDA/Metal, bruk -fa off)

Kreditering

Base-modell: Mistral Small 4 av Mistral AI, Apache 2.0
NorEval-benchmark: NorEval: A Comprehensive Benchmark for Norwegian Language Models av Language Technology Group, Universitetet i Oslo (ACL 2025)
Treningsdata: Se LoRA-repoen for fullstendig liste
GGUF-konvertering: llama.cpp av Georgi Gerganov et al.

Lisens

Apache 2.0 (samme som base-modellen)

Om m51

Bygget av m51.ai.

Downloads last month: 116

GGUF

Model size

119B params

Architecture

mistral4

Hardware compatibility

4-bit

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for dervig/m51Lab-NorskMistral-119B-GGUF

NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark

Paper • 2504.07749 • Published Apr 10, 2025 • 1