docs/markdown/RX580.md · aivisionslab/ai-local-rx580-stack at main

AIVisionsLab

feat: populate and normalize AIVisionsLab RX580 stack structure

471c462 12 days ago

1.29 kB

	# RX 580 — Benchmarks e Configurações

	## Hardware
	- GPU: RX 580 8GB VRAM
	- Driver AMD: 31.0.21924.61
	- Backend: Vulkan 1.4.341.1

	## Benchmarks LLM (llama.cpp + Vulkan)

	\| Modelo \| Quantização \| VRAM Uso \| Tokens/s (aprox.) \|
	\|-----------------\|-------------\|----------\|-------------------\|
	\| Mistral 7B \| Q4_K_M \| ~5GB \| ~8-12 t/s \|
	\| Mistral 7B \| Q5_K_M \| ~6GB \| ~6-9 t/s \|
	\| Llama 3.1 8B \| Q4_K_M \| ~5.5GB \| ~7-10 t/s \|

	## Benchmarks Imagem (stable-diffusion.cpp + Vulkan)

	\| Modelo \| Formato \| Resolução \| Tempo/imagem (aprox.) \|
	\|------------------\|---------\|-----------\|----------------------\|
	\| Flux Schnell \| GGUF \| 512x512 \| ~30-60s \|
	\| SD 1.5 \| GGUF \| 512x512 \| ~20-40s \|

	## Observações
	- Vulkan funcionando e estável
	- GGUF muito mais leve que safetensors completos
	- Priorizar quantizações Q4_K_M para melhor equilíbrio VRAM/qualidade
	- Evitar modelos >7GB para não saturar VRAM
	- Não usar ROCM — Vulkan é mais estável nessa GPU

	## Otimizações Recomendadas
	- `--n-gpu-layers 35` no llama.cpp (ajustar conforme modelo)
	- `--ctx-size 2048` para economizar VRAM
	- Fechar outros processos antes de rodar modelos grandes