NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark
Paper • 2504.07749 • Published • 1
GGUF-kvantiserte versjoner av m51Lab-NorskMistral-119B.
| Fil | Kvantisering | Størrelse | Beskrivelse |
|---|---|---|---|
m51Lab-NorskMistral-119B-Q4_K_M.gguf |
Q4_K_M | 68 GB | Standard versjon, 4.85 bits per weight |
m51Lab-NorskMistral-119B-thinking-Q4_K_M.gguf |
Q4_K_M | 68 GB | Med thinking/reasoning aktivert (chain-of-thought) |
<think>-blokk før den svarer. Gir bedre svar på logikk- og resonneringsspørsmål, men bruker flere tokens.# Standard
llama-server -m m51Lab-NorskMistral-119B-Q4_K_M.gguf -ngl 99 -fa off --host 0.0.0.0 --port 8080
# Thinking
llama-server -m m51Lab-NorskMistral-119B-thinking-Q4_K_M.gguf -ngl 99 -fa off --host 0.0.0.0 --port 8080 \
--reasoning on --reasoning-budget 4096 --reasoning-format deepseek
Åpne http://localhost:8080 i nettleseren for det innebygde chat-grensesnittet.
# Lag en Modelfile
cat > Modelfile << 'EOF'
FROM m51Lab-NorskMistral-119B-Q4_K_M.gguf
PARAMETER num_gpu 99
EOF
ollama create m51-norskmistral -f Modelfile
ollama run m51-norskmistral
| Oppgave | Resultat | NorEval #1 |
|---|---|---|
| Commonsense-resonnering (BM) | 75.7% | 72.2% |
| Commonsense-resonnering (NN) | 63.2% | 52.6% |
| Open-book QA (BM) | 95.7% | 87.4% |
| Open-book QA (NN) | 93.3% | 88.9% |
| Truthfulness (BM) | 77.9% | 74.6% |
| Truthfulness (NN) | 82.5% | 73.7% |
| Norsk kunnskap (BM) | 66.5% | 63.7% |
| Norsk kunnskap (NN) | 65.1% | 71.9% |
| Gjennomsnitt | 76.8% | 73.1% |
| Oppsett | VRAM/RAM | Ytelse |
|---|---|---|
| 2x H100 80GB | 160 GB VRAM | 154 tok/s generering |
| 1x H100 80GB | 80 GB VRAM | Fungerer men tight, delvis CPU fallback |
| Mac M2/M3/M4 Max 128GB | 128 GB unified | Bør fungere, ca 5-15 tok/s |
| Mac M2/M3/M4 Ultra 192GB | 192 GB unified | Komfortabelt, ca 10-20 tok/s |
Viktig: MoE-arkitekturen (128 eksperter) krever at alle vekter ligger i minne, selv om bare 4 eksperter er aktive per token. Minimum ~70 GB RAM/VRAM for Q4_K_M.
-fa off)Apache 2.0 (samme som base-modellen)
Bygget av m51.ai.
4-bit