# Llama.cpp ## Contexto Engine base para rodar modelos GGUF em hardware legado (RX 580). Foco em performance com baixo overhead usando backend Vulkan. ## Compilação com Vulkan (Windows) ```bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp cmake -B build -DGGML_VULKAN=ON cmake --build build --config Release ``` ## Comando de Execução Básico ```bash ./build/bin/llama-cli \ -m models/mistral-7b-q4_k_m.gguf \ -ngl 35 \ --ctx-size 2048 \ -p "Seu prompt aqui" ``` ## Servidor API (compatível OpenAI) ```bash ./build/bin/llama-server \ -m models/mistral-7b-q4_k_m.gguf \ -ngl 35 \ --ctx-size 2048 \ --port 8080 ``` ## Parâmetros Chave | Parâmetro | Valor | Descrição | |----------------|--------|--------------------------------------| | -ngl | 35 | Camadas na GPU (ajustar por modelo) | | --ctx-size | 2048 | Contexto (menor = menos VRAM) | | --batch-size | 512 | Tamanho do batch | | -t | 8 | Threads CPU | ## Modelos Testados | Modelo | Quantização | Status | |-------------------|-------------|-----------| | Mistral 7B | Q4_K_M | OK | | Llama 3.1 8B | Q4_K_M | OK | | Flux Schnell | GGUF | OK | ## Configurações Chave - Usar backend Vulkan para descarregar processamento na GPU - Evitar "inchaço" de camadas de abstração desnecessárias - ROCM não necessário — Vulkan cobre bem a RX 580