# ============================================================== # Gradio Environment Variables # https://www.gradio.app/main/guides/environment-variables # ============================================================== GRADIO_SERVER_PORT=7860 GRADIO_SERVER_NAME=0.0.0.0 # GRADIO_SERVER_NAME=127.0.0.1 # GRADIO_DEBUG=0 # GRADIO_ANALYTICS_ENABLED=False # GRADIO_SHARE=True # GRADIO_TEMP_DIR=gradio_temp # ============================================================== # llama.cpp Environment Variables # https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md # ============================================================== # ============================================================== # llama.cpp выбор LLM модели # вариант 1 (для данного чат бота не ставить - не подходит) # LLAMA_ARG_MODEL_URL=https://huggingface.co/bartowski/Qwen_Qwen3-0.6B-GGUF/resolve/main/Qwen_Qwen3-0.6B-Q4_K_M.gguf # вариант 2 # LLAMA_ARG_MODEL=llm_models/bartowski_google_gemma-3-1b-it-GGUF_google_gemma-3-1b-it-Q8_0.gguf # вариант 3 LLAMA_ARG_HF_REPO=bartowski/Qwen_Qwen3-0.6B-GGUF:q4_k_m # LLAMA_ARG_HF_REPO=bartowski/google_gemma-3-1b-it-GGUF:q8_0 # вариант 4 # LLAMA_ARG_HF_REPO=bartowski/Qwen_Qwen3-0.6B-GGUF # LLAMA_ARG_HF_FILE=Qwen_Qwen3-0.6B-Q4_K_M.gguf # ============================================================== # llama.cpp выбор VLLM модели # вариант 1 # gemma-3-4b # LLAMA_ARG_MODEL_URL=https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/resolve/main/google_gemma-3-4b-it-Q4_K_M.gguf # LLAMA_ARG_MMPROJ_URL=https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/resolve/main/mmproj-google_gemma-3-4b-it-f16.gguf # qwen3-vl 4B # LLAMA_ARG_MODEL_URL=https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct-GGUF/resolve/main/Qwen3VL-4B-Instruct-Q4_K_M.gguf # LLAMA_ARG_MMPROJ_URL=https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct-GGUF/resolve/main/mmproj-Qwen3VL-4B-Instruct-Q8_0.gguf # qwen3-vl 2B # LLAMA_ARG_MODEL_URL=https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct-GGUF/resolve/main/Qwen3VL-2B-Instruct-Q4_K_M.gguf # LLAMA_ARG_MMPROJ_URL=https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct-GGUF/resolve/main/mmproj-Qwen3VL-2B-Instruct-Q8_0.gguf # вариант 2 # LLAMA_ARG_MODEL=D:/models/bartowski_google_gemma-3-4b-it-GGUF_google_gemma-3-4b-it-Q4_K_M.gguf # LLAMA_ARG_MMPROJ=D:/models/mmproj-google_gemma-3-4b-it-f16.gguf # вариант 3 (mmproj загружается автоматически если доступен) # LLAMA_ARG_HF_REPO=Qwen/Qwen3-VL-2B-Instruct-GGUF:q4_k_m # LLAMA_ARG_HF_REPO=Qwen/Qwen3-VL-4B-Instruct-GGUF:q4_k_m # LLAMA_ARG_HF_REPO=bartowski/google_gemma-3-4b-it-GGUF:q4_k_m # отключить автоматическую загрузку файла mmproj (по умолчанию: 1) # LLAMA_ARG_MMPROJ_AUTO=0 # ============================================================== # llama.cpp настройки LLAMA_ARG_JINJA=1 LLAMA_ARG_CTX_SIZE=4096 LLAMA_ARG_N_PARALLEL=1 LLAMA_ARG_N_GPU_LAYERS=-1 LLAMA_LOG_VERBOSITY=3 LLAMA_LOG_COLORS=auto LLAMA_ARG_NO_WEBUI=1 LLAMA_CACHE=llm_models # ============================================================== # llama.cpp сервер и порт LLAMA_ARG_PORT=8081 LLAMA_ARG_HOST=0.0.0.0 # ============================================================== # HF Environment Variables # https://huggingface.co/docs/huggingface_hub/package_reference/environment_variables # ============================================================== # HF_TOKEN="" # ============================================================== # Other Environment Variables # ============================================================== # модель эмбедингов (ID или полный путь) EMBED_MODEL_REPO=intfloat/multilingual-e5-small # при запуске через докер gte работает только на cuda # EMBED_MODEL_REPO=Alibaba-NLP/gte-multilingual-base # EMBED_MODEL_REPO=models--sergeyzh--rubert-tiny-turbo\snapshots\93769a3baad2b037e5c2e4312fccf6bcfe082bf1 # увеличение ожидания запуска сервера llama.cpp LLAMACPP_SERVER_TIMEOUT_WAIT=1500 # прямая ссылка на релиз llama.cpp # https://github.com/ggml-org/llama.cpp/releases # LLAMACPP_RELEASE_ZIP_URL=https://github.com/ggml-org/llama.cpp/releases/download/b7806/llama-b7806-bin-win-cuda-13.1-x64.zip # установка тега релиза llama.cpp вручную LLAMACPP_RELEASE_TAG=b7806 # путь до предварительно скомпилированной llama.cpp # LLAMACPP_DIR="" # прямая ссылка на llm модель вместо llama.cpp если таковая используется # OPENAI_BASE_URL="" # включить или отключить режим RAG CHATBOT_RAG_ENABLED=1 # установить уровень логгирования для отладки # CHATBOT_LOG_LEVEL=DEBUG