# Llama.cpp

## Contexto
Engine base para rodar modelos GGUF em hardware legado (RX 580).
Foco em performance com baixo overhead usando backend Vulkan.

## Compilação com Vulkan (Windows)
```bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release
```

## Comando de Execução Básico
```bash
./build/bin/llama-cli \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  -p "Seu prompt aqui"
```

## Servidor API (compatível OpenAI)
```bash
./build/bin/llama-server \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  --port 8080
```

## Parâmetros Chave

| Parâmetro      | Valor  | Descrição                           |
|----------------|--------|--------------------------------------|
| -ngl           | 35     | Camadas na GPU (ajustar por modelo)  |
| --ctx-size     | 2048   | Contexto (menor = menos VRAM)        |
| --batch-size   | 512    | Tamanho do batch                     |
| -t             | 8      | Threads CPU                          |

## Modelos Testados

| Modelo            | Quantização | Status    |
|-------------------|-------------|-----------|
| Mistral 7B        | Q4_K_M      | OK        |
| Llama 3.1 8B      | Q4_K_M      | OK        |
| Flux Schnell      | GGUF        | OK        |

## Configurações Chave
- Usar backend Vulkan para descarregar processamento na GPU
- Evitar "inchaço" de camadas de abstração desnecessárias
- ROCM não necessário — Vulkan cobre bem a RX 580