File size: 1,548 Bytes
471c462 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 | # Llama.cpp
## Contexto
Engine base para rodar modelos GGUF em hardware legado (RX 580).
Foco em performance com baixo overhead usando backend Vulkan.
## Compilação com Vulkan (Windows)
```bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release
```
## Comando de Execução Básico
```bash
./build/bin/llama-cli \
-m models/mistral-7b-q4_k_m.gguf \
-ngl 35 \
--ctx-size 2048 \
-p "Seu prompt aqui"
```
## Servidor API (compatível OpenAI)
```bash
./build/bin/llama-server \
-m models/mistral-7b-q4_k_m.gguf \
-ngl 35 \
--ctx-size 2048 \
--port 8080
```
## Parâmetros Chave
| Parâmetro | Valor | Descrição |
|----------------|--------|--------------------------------------|
| -ngl | 35 | Camadas na GPU (ajustar por modelo) |
| --ctx-size | 2048 | Contexto (menor = menos VRAM) |
| --batch-size | 512 | Tamanho do batch |
| -t | 8 | Threads CPU |
## Modelos Testados
| Modelo | Quantização | Status |
|-------------------|-------------|-----------|
| Mistral 7B | Q4_K_M | OK |
| Llama 3.1 8B | Q4_K_M | OK |
| Flux Schnell | GGUF | OK |
## Configurações Chave
- Usar backend Vulkan para descarregar processamento na GPU
- Evitar "inchaço" de camadas de abstração desnecessárias
- ROCM não necessário — Vulkan cobre bem a RX 580
|