docs/markdown/LLAMA_CPP.md · aivisionslab/ai-local-rx580-stack at main

AIVisionsLab

feat: populate and normalize AIVisionsLab RX580 stack structure

471c462 6 days ago

1.55 kB

	# Llama.cpp

	## Contexto
	Engine base para rodar modelos GGUF em hardware legado (RX 580).
	Foco em performance com baixo overhead usando backend Vulkan.

	## Compilação com Vulkan (Windows)
	```bash
	git clone https://github.com/ggerganov/llama.cpp
	cd llama.cpp
	cmake -B build -DGGML_VULKAN=ON
	cmake --build build --config Release
	```

	## Comando de Execução Básico
	```bash
	./build/bin/llama-cli \
	-m models/mistral-7b-q4_k_m.gguf \
	-ngl 35 \
	--ctx-size 2048 \
	-p "Seu prompt aqui"
	```

	## Servidor API (compatível OpenAI)
	```bash
	./build/bin/llama-server \
	-m models/mistral-7b-q4_k_m.gguf \
	-ngl 35 \
	--ctx-size 2048 \
	--port 8080
	```

	## Parâmetros Chave

	\| Parâmetro \| Valor \| Descrição \|
	\|----------------\|--------\|--------------------------------------\|
	\| -ngl \| 35 \| Camadas na GPU (ajustar por modelo) \|
	\| --ctx-size \| 2048 \| Contexto (menor = menos VRAM) \|
	\| --batch-size \| 512 \| Tamanho do batch \|
	\| -t \| 8 \| Threads CPU \|

	## Modelos Testados

	\| Modelo \| Quantização \| Status \|
	\|-------------------\|-------------\|-----------\|
	\| Mistral 7B \| Q4_K_M \| OK \|
	\| Llama 3.1 8B \| Q4_K_M \| OK \|
	\| Flux Schnell \| GGUF \| OK \|

	## Configurações Chave
	- Usar backend Vulkan para descarregar processamento na GPU
	- Evitar "inchaço" de camadas de abstração desnecessárias
	- ROCM não necessário — Vulkan cobre bem a RX 580