Llama.cpp

Contexto

Engine base para rodar modelos GGUF em hardware legado (RX 580). Foco em performance com baixo overhead usando backend Vulkan.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release

./build/bin/llama-cli \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  -p "Seu prompt aqui"

./build/bin/llama-server \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  --port 8080

Parâmetro	Valor	Descrição
-ngl	35	Camadas na GPU (ajustar por modelo)
--ctx-size	2048	Contexto (menor = menos VRAM)
--batch-size	512	Tamanho do batch
-t	8	Threads CPU