Spaces:

sergey21000
/

chatbot-rag

Running

GitHub Actions

Auto-deploy from GitHub Actions: 524d67045c5a739d46bbfb7a22189756bc63486e

52a23ab 4 months ago

4.98 kB

	# ==============================================================
	# Gradio Environment Variables
	# https://www.gradio.app/main/guides/environment-variables
	# ==============================================================

	GRADIO_SERVER_PORT=7860
	GRADIO_SERVER_NAME=0.0.0.0
	# GRADIO_SERVER_NAME=127.0.0.1

	# GRADIO_DEBUG=0
	# GRADIO_ANALYTICS_ENABLED=False
	# GRADIO_SHARE=True
	# GRADIO_TEMP_DIR=gradio_temp


	# ==============================================================
	# llama.cpp Environment Variables
	# https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
	# ==============================================================

	# ==============================================================
	# llama.cpp выбор LLM модели

	# вариант 1 (для данного чат бота не ставить - не подходит)
	# LLAMA_ARG_MODEL_URL=https://huggingface.co/bartowski/Qwen_Qwen3-0.6B-GGUF/resolve/main/Qwen_Qwen3-0.6B-Q4_K_M.gguf

	# вариант 2
	# LLAMA_ARG_MODEL=llm_models/bartowski_google_gemma-3-1b-it-GGUF_google_gemma-3-1b-it-Q8_0.gguf

	# вариант 3
	LLAMA_ARG_HF_REPO=bartowski/Qwen_Qwen3-0.6B-GGUF:q4_k_m
	# LLAMA_ARG_HF_REPO=bartowski/google_gemma-3-1b-it-GGUF:q8_0

	# вариант 4
	# LLAMA_ARG_HF_REPO=bartowski/Qwen_Qwen3-0.6B-GGUF
	# LLAMA_ARG_HF_FILE=Qwen_Qwen3-0.6B-Q4_K_M.gguf

	# ==============================================================
	# llama.cpp выбор VLLM модели

	# вариант 1
	# gemma-3-4b
	# LLAMA_ARG_MODEL_URL=https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/resolve/main/google_gemma-3-4b-it-Q4_K_M.gguf
	# LLAMA_ARG_MMPROJ_URL=https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/resolve/main/mmproj-google_gemma-3-4b-it-f16.gguf

	# qwen3-vl 4B
	# LLAMA_ARG_MODEL_URL=https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct-GGUF/resolve/main/Qwen3VL-4B-Instruct-Q4_K_M.gguf
	# LLAMA_ARG_MMPROJ_URL=https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct-GGUF/resolve/main/mmproj-Qwen3VL-4B-Instruct-Q8_0.gguf

	# qwen3-vl 2B
	# LLAMA_ARG_MODEL_URL=https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct-GGUF/resolve/main/Qwen3VL-2B-Instruct-Q4_K_M.gguf
	# LLAMA_ARG_MMPROJ_URL=https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct-GGUF/resolve/main/mmproj-Qwen3VL-2B-Instruct-Q8_0.gguf

	# вариант 2
	# LLAMA_ARG_MODEL=D:/models/bartowski_google_gemma-3-4b-it-GGUF_google_gemma-3-4b-it-Q4_K_M.gguf
	# LLAMA_ARG_MMPROJ=D:/models/mmproj-google_gemma-3-4b-it-f16.gguf

	# вариант 3 (mmproj загружается автоматически если доступен)
	# LLAMA_ARG_HF_REPO=Qwen/Qwen3-VL-2B-Instruct-GGUF:q4_k_m
	# LLAMA_ARG_HF_REPO=Qwen/Qwen3-VL-4B-Instruct-GGUF:q4_k_m
	# LLAMA_ARG_HF_REPO=bartowski/google_gemma-3-4b-it-GGUF:q4_k_m

	# отключить автоматическую загрузку файла mmproj (по умолчанию: 1)
	# LLAMA_ARG_MMPROJ_AUTO=0

	# ==============================================================
	# llama.cpp настройки

	LLAMA_ARG_JINJA=1
	LLAMA_ARG_CTX_SIZE=4096
	LLAMA_ARG_N_PARALLEL=1
	LLAMA_ARG_N_GPU_LAYERS=-1

	LLAMA_LOG_VERBOSITY=3
	LLAMA_LOG_COLORS=auto

	LLAMA_ARG_NO_WEBUI=1
	LLAMA_CACHE=llm_models

	# ==============================================================
	# llama.cpp сервер и порт

	LLAMA_ARG_PORT=8081
	LLAMA_ARG_HOST=0.0.0.0


	# ==============================================================
	# HF Environment Variables
	# https://huggingface.co/docs/huggingface_hub/package_reference/environment_variables
	# ==============================================================

	# HF_TOKEN=""


	# ==============================================================
	# Other Environment Variables
	# ==============================================================

	# модель эмбедингов (ID или полный путь)
	EMBED_MODEL_REPO=intfloat/multilingual-e5-small
	# при запуске через докер gte работает только на cuda
	# EMBED_MODEL_REPO=Alibaba-NLP/gte-multilingual-base
	# EMBED_MODEL_REPO=models--sergeyzh--rubert-tiny-turbo\snapshots\93769a3baad2b037e5c2e4312fccf6bcfe082bf1

	# увеличение ожидания запуска сервера llama.cpp
	LLAMACPP_SERVER_TIMEOUT_WAIT=1500

	# прямая ссылка на релиз llama.cpp
	# https://github.com/ggml-org/llama.cpp/releases
	# LLAMACPP_RELEASE_ZIP_URL=https://github.com/ggml-org/llama.cpp/releases/download/b7806/llama-b7806-bin-win-cuda-13.1-x64.zip

	# установка тега релиза llama.cpp вручную
	LLAMACPP_RELEASE_TAG=b7806

	# путь до предварительно скомпилированной llama.cpp
	# LLAMACPP_DIR=""

	# прямая ссылка на llm модель вместо llama.cpp если таковая используется
	# OPENAI_BASE_URL=""

	# включить или отключить режим RAG
	CHATBOT_RAG_ENABLED=1

	# установить уровень логгирования для отладки
	# CHATBOT_LOG_LEVEL=DEBUG