| # Llama.cpp |
|
|
| ## Contexto |
| Engine base para rodar modelos GGUF em hardware legado (RX 580). |
| Foco em performance com baixo overhead usando backend Vulkan. |
|
|
| ## Compilação com Vulkan (Windows) |
| ```bash |
| git clone https://github.com/ggerganov/llama.cpp |
| cd llama.cpp |
| cmake -B build -DGGML_VULKAN=ON |
| cmake --build build --config Release |
| ``` |
|
|
| ## Comando de Execução Básico |
| ```bash |
| ./build/bin/llama-cli \ |
| -m models/mistral-7b-q4_k_m.gguf \ |
| -ngl 35 \ |
| --ctx-size 2048 \ |
| -p "Seu prompt aqui" |
| ``` |
|
|
| ## Servidor API (compatível OpenAI) |
| ```bash |
| ./build/bin/llama-server \ |
| -m models/mistral-7b-q4_k_m.gguf \ |
| -ngl 35 \ |
| --ctx-size 2048 \ |
| --port 8080 |
| ``` |
|
|
| ## Parâmetros Chave |
|
|
| | Parâmetro | Valor | Descrição | |
| |----------------|--------|--------------------------------------| |
| | -ngl | 35 | Camadas na GPU (ajustar por modelo) | |
| | --ctx-size | 2048 | Contexto (menor = menos VRAM) | |
| | --batch-size | 512 | Tamanho do batch | |
| | -t | 8 | Threads CPU | |
|
|
| ## Modelos Testados |
|
|
| | Modelo | Quantização | Status | |
| |-------------------|-------------|-----------| |
| | Mistral 7B | Q4_K_M | OK | |
| | Llama 3.1 8B | Q4_K_M | OK | |
| | Flux Schnell | GGUF | OK | |
|
|
| ## Configurações Chave |
| - Usar backend Vulkan para descarregar processamento na GPU |
| - Evitar "inchaço" de camadas de abstração desnecessárias |
| - ROCM não necessário — Vulkan cobre bem a RX 580 |
|
|