AIVisionsLab
feat: populate and normalize AIVisionsLab RX580 stack structure
471c462
# Llama.cpp
## Contexto
Engine base para rodar modelos GGUF em hardware legado (RX 580).
Foco em performance com baixo overhead usando backend Vulkan.
## Compilação com Vulkan (Windows)
```bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release
```
## Comando de Execução Básico
```bash
./build/bin/llama-cli \
-m models/mistral-7b-q4_k_m.gguf \
-ngl 35 \
--ctx-size 2048 \
-p "Seu prompt aqui"
```
## Servidor API (compatível OpenAI)
```bash
./build/bin/llama-server \
-m models/mistral-7b-q4_k_m.gguf \
-ngl 35 \
--ctx-size 2048 \
--port 8080
```
## Parâmetros Chave
| Parâmetro | Valor | Descrição |
|----------------|--------|--------------------------------------|
| -ngl | 35 | Camadas na GPU (ajustar por modelo) |
| --ctx-size | 2048 | Contexto (menor = menos VRAM) |
| --batch-size | 512 | Tamanho do batch |
| -t | 8 | Threads CPU |
## Modelos Testados
| Modelo | Quantização | Status |
|-------------------|-------------|-----------|
| Mistral 7B | Q4_K_M | OK |
| Llama 3.1 8B | Q4_K_M | OK |
| Flux Schnell | GGUF | OK |
## Configurações Chave
- Usar backend Vulkan para descarregar processamento na GPU
- Evitar "inchaço" de camadas de abstração desnecessárias
- ROCM não necessário — Vulkan cobre bem a RX 580