AIVisionsLab
feat: populate and normalize AIVisionsLab RX580 stack structure
471c462

Llama.cpp

Contexto

Engine base para rodar modelos GGUF em hardware legado (RX 580). Foco em performance com baixo overhead usando backend Vulkan.

Compilação com Vulkan (Windows)

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release

Comando de Execução Básico

./build/bin/llama-cli \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  -p "Seu prompt aqui"

Servidor API (compatível OpenAI)

./build/bin/llama-server \
  -m models/mistral-7b-q4_k_m.gguf \
  -ngl 35 \
  --ctx-size 2048 \
  --port 8080

Parâmetros Chave

Parâmetro Valor Descrição
-ngl 35 Camadas na GPU (ajustar por modelo)
--ctx-size 2048 Contexto (menor = menos VRAM)
--batch-size 512 Tamanho do batch
-t 8 Threads CPU

Modelos Testados

Modelo Quantização Status
Mistral 7B Q4_K_M OK
Llama 3.1 8B Q4_K_M OK
Flux Schnell GGUF OK

Configurações Chave

  • Usar backend Vulkan para descarregar processamento na GPU
  • Evitar "inchaço" de camadas de abstração desnecessárias
  • ROCM não necessário — Vulkan cobre bem a RX 580