AIVisionsLab
feat: populate and normalize AIVisionsLab RX580 stack structure
471c462
Llama.cpp
Contexto
Engine base para rodar modelos GGUF em hardware legado (RX 580).
Foco em performance com baixo overhead usando backend Vulkan.
Compilação com Vulkan (Windows)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release
Comando de Execução Básico
./build/bin/llama-cli \
-m models/mistral-7b-q4_k_m.gguf \
-ngl 35 \
--ctx-size 2048 \
-p "Seu prompt aqui"
Servidor API (compatível OpenAI)
./build/bin/llama-server \
-m models/mistral-7b-q4_k_m.gguf \
-ngl 35 \
--ctx-size 2048 \
--port 8080
Parâmetros Chave
| Parâmetro |
Valor |
Descrição |
| -ngl |
35 |
Camadas na GPU (ajustar por modelo) |
| --ctx-size |
2048 |
Contexto (menor = menos VRAM) |
| --batch-size |
512 |
Tamanho do batch |
| -t |
8 |
Threads CPU |
Modelos Testados
| Modelo |
Quantização |
Status |
| Mistral 7B |
Q4_K_M |
OK |
| Llama 3.1 8B |
Q4_K_M |
OK |
| Flux Schnell |
GGUF |
OK |
Configurações Chave
- Usar backend Vulkan para descarregar processamento na GPU
- Evitar "inchaço" de camadas de abstração desnecessárias
- ROCM não necessário — Vulkan cobre bem a RX 580