m51Lab-NorskMistral-119B-GGUF

GGUF-kvantiserte versjoner av m51Lab-NorskMistral-119B.

Tilgjengelige filer

Fil Kvantisering Størrelse Beskrivelse
m51Lab-NorskMistral-119B-Q4_K_M.gguf Q4_K_M 68 GB Standard versjon, 4.85 bits per weight
m51Lab-NorskMistral-119B-thinking-Q4_K_M.gguf Q4_K_M 68 GB Med thinking/reasoning aktivert (chain-of-thought)

Forskjell mellom standard og thinking

  • Standard: Svarer direkte. Raskere, enklere svar.
  • Thinking: Modellen resonnerer steg-for-steg i en skjult <think>-blokk før den svarer. Gir bedre svar på logikk- og resonneringsspørsmål, men bruker flere tokens.

Bruk med llama.cpp

# Standard
llama-server -m m51Lab-NorskMistral-119B-Q4_K_M.gguf -ngl 99 -fa off --host 0.0.0.0 --port 8080

# Thinking
llama-server -m m51Lab-NorskMistral-119B-thinking-Q4_K_M.gguf -ngl 99 -fa off --host 0.0.0.0 --port 8080 \
  --reasoning on --reasoning-budget 4096 --reasoning-format deepseek

Åpne http://localhost:8080 i nettleseren for det innebygde chat-grensesnittet.

Bruk med Ollama

# Lag en Modelfile
cat > Modelfile << 'EOF'
FROM m51Lab-NorskMistral-119B-Q4_K_M.gguf
PARAMETER num_gpu 99
EOF

ollama create m51-norskmistral -f Modelfile
ollama run m51-norskmistral

NorEval-resultater

Oppgave Resultat NorEval #1
Commonsense-resonnering (BM) 75.7% 72.2%
Commonsense-resonnering (NN) 63.2% 52.6%
Open-book QA (BM) 95.7% 87.4%
Open-book QA (NN) 93.3% 88.9%
Truthfulness (BM) 77.9% 74.6%
Truthfulness (NN) 82.5% 73.7%
Norsk kunnskap (BM) 66.5% 63.7%
Norsk kunnskap (NN) 65.1% 71.9%
Gjennomsnitt 76.8% 73.1%

Hardware-krav

Oppsett VRAM/RAM Ytelse
2x H100 80GB 160 GB VRAM 154 tok/s generering
1x H100 80GB 80 GB VRAM Fungerer men tight, delvis CPU fallback
Mac M2/M3/M4 Max 128GB 128 GB unified Bør fungere, ca 5-15 tok/s
Mac M2/M3/M4 Ultra 192GB 192 GB unified Komfortabelt, ca 10-20 tok/s

Viktig: MoE-arkitekturen (128 eksperter) krever at alle vekter ligger i minne, selv om bare 4 eksperter er aktive per token. Minimum ~70 GB RAM/VRAM for Q4_K_M.

Tekniske detaljer

  • Arkitektur: Mistral Small 4 119B MoE (128 eksperter, 4 aktive)
  • Kvantisering: Q4_K_M via llama.cpp (build b8680)
  • Bits per weight: 4.85
  • Flash attention: Deaktivert (broken for Mistral4 på CUDA/Metal, bruk -fa off)

Kreditering

Lisens

Apache 2.0 (samme som base-modellen)

Om m51

Bygget av m51.ai.

Downloads last month
116
GGUF
Model size
119B params
Architecture
mistral4
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for dervig/m51Lab-NorskMistral-119B-GGUF