File size: 1,548 Bytes
471c462
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
# Llama.cpp

## Contexto
Engine base para rodar modelos GGUF em hardware legado (RX 580).
Foco em performance com baixo overhead usando backend Vulkan.

## Compilação com Vulkan (Windows)
```bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release
```

## Comando de Execução Básico
```bash
./build/bin/llama-cli \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  -p "Seu prompt aqui"
```

## Servidor API (compatível OpenAI)
```bash
./build/bin/llama-server \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  --port 8080
```

## Parâmetros Chave

| Parâmetro      | Valor  | Descrição                           |
|----------------|--------|--------------------------------------|
| -ngl           | 35     | Camadas na GPU (ajustar por modelo)  |
| --ctx-size     | 2048   | Contexto (menor = menos VRAM)        |
| --batch-size   | 512    | Tamanho do batch                     |
| -t             | 8      | Threads CPU                          |

## Modelos Testados

| Modelo            | Quantização | Status    |
|-------------------|-------------|-----------|
| Mistral 7B        | Q4_K_M      | OK        |
| Llama 3.1 8B      | Q4_K_M      | OK        |
| Flux Schnell      | GGUF        | OK        |

## Configurações Chave
- Usar backend Vulkan para descarregar processamento na GPU
- Evitar "inchaço" de camadas de abstração desnecessárias
- ROCM não necessário — Vulkan cobre bem a RX 580