File size: 4,983 Bytes
57b6938
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
52a23ab
 
 
 
 
57b6938
 
6a80b9a
57b6938
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
# ==============================================================
# Gradio Environment Variables
# https://www.gradio.app/main/guides/environment-variables
# ==============================================================

GRADIO_SERVER_PORT=7860
GRADIO_SERVER_NAME=0.0.0.0
# GRADIO_SERVER_NAME=127.0.0.1

# GRADIO_DEBUG=0
# GRADIO_ANALYTICS_ENABLED=False
# GRADIO_SHARE=True
# GRADIO_TEMP_DIR=gradio_temp


# ==============================================================
# llama.cpp Environment Variables
# https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
# ==============================================================

# ==============================================================
# llama.cpp выбор LLM модели

# вариант 1 (для данного чат бота не ставить - не подходит)
# LLAMA_ARG_MODEL_URL=https://huggingface.co/bartowski/Qwen_Qwen3-0.6B-GGUF/resolve/main/Qwen_Qwen3-0.6B-Q4_K_M.gguf

# вариант 2
# LLAMA_ARG_MODEL=llm_models/bartowski_google_gemma-3-1b-it-GGUF_google_gemma-3-1b-it-Q8_0.gguf

# вариант 3
LLAMA_ARG_HF_REPO=bartowski/Qwen_Qwen3-0.6B-GGUF:q4_k_m
# LLAMA_ARG_HF_REPO=bartowski/google_gemma-3-1b-it-GGUF:q8_0

# вариант 4
# LLAMA_ARG_HF_REPO=bartowski/Qwen_Qwen3-0.6B-GGUF
# LLAMA_ARG_HF_FILE=Qwen_Qwen3-0.6B-Q4_K_M.gguf

# ==============================================================
# llama.cpp выбор VLLM модели

# вариант 1
# gemma-3-4b
# LLAMA_ARG_MODEL_URL=https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/resolve/main/google_gemma-3-4b-it-Q4_K_M.gguf
# LLAMA_ARG_MMPROJ_URL=https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/resolve/main/mmproj-google_gemma-3-4b-it-f16.gguf

# qwen3-vl 4B
# LLAMA_ARG_MODEL_URL=https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct-GGUF/resolve/main/Qwen3VL-4B-Instruct-Q4_K_M.gguf
# LLAMA_ARG_MMPROJ_URL=https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct-GGUF/resolve/main/mmproj-Qwen3VL-4B-Instruct-Q8_0.gguf

# qwen3-vl 2B
# LLAMA_ARG_MODEL_URL=https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct-GGUF/resolve/main/Qwen3VL-2B-Instruct-Q4_K_M.gguf
# LLAMA_ARG_MMPROJ_URL=https://huggingface.co/Qwen/Qwen3-VL-2B-Instruct-GGUF/resolve/main/mmproj-Qwen3VL-2B-Instruct-Q8_0.gguf

# вариант 2
# LLAMA_ARG_MODEL=D:/models/bartowski_google_gemma-3-4b-it-GGUF_google_gemma-3-4b-it-Q4_K_M.gguf
# LLAMA_ARG_MMPROJ=D:/models/mmproj-google_gemma-3-4b-it-f16.gguf

# вариант 3 (mmproj загружается автоматически если доступен)
# LLAMA_ARG_HF_REPO=Qwen/Qwen3-VL-2B-Instruct-GGUF:q4_k_m
# LLAMA_ARG_HF_REPO=Qwen/Qwen3-VL-4B-Instruct-GGUF:q4_k_m
# LLAMA_ARG_HF_REPO=bartowski/google_gemma-3-4b-it-GGUF:q4_k_m

# отключить автоматическую загрузку файла mmproj (по умолчанию: 1)
# LLAMA_ARG_MMPROJ_AUTO=0

# ==============================================================
# llama.cpp настройки

LLAMA_ARG_JINJA=1
LLAMA_ARG_CTX_SIZE=4096
LLAMA_ARG_N_PARALLEL=1
LLAMA_ARG_N_GPU_LAYERS=-1

LLAMA_LOG_VERBOSITY=3
LLAMA_LOG_COLORS=auto

LLAMA_ARG_NO_WEBUI=1
LLAMA_CACHE=llm_models

# ==============================================================
# llama.cpp сервер и порт

LLAMA_ARG_PORT=8081
LLAMA_ARG_HOST=0.0.0.0


# ==============================================================
# HF Environment Variables
# https://huggingface.co/docs/huggingface_hub/package_reference/environment_variables
# ==============================================================

# HF_TOKEN=""


# ==============================================================
# Other Environment Variables
# ==============================================================

# модель эмбедингов (ID или полный путь)
EMBED_MODEL_REPO=intfloat/multilingual-e5-small
# при запуске через докер gte работает только на cuda
# EMBED_MODEL_REPO=Alibaba-NLP/gte-multilingual-base
# EMBED_MODEL_REPO=models--sergeyzh--rubert-tiny-turbo\snapshots\93769a3baad2b037e5c2e4312fccf6bcfe082bf1

# увеличение ожидания запуска сервера llama.cpp
LLAMACPP_SERVER_TIMEOUT_WAIT=1500

# прямая ссылка на релиз llama.cpp
# https://github.com/ggml-org/llama.cpp/releases
# LLAMACPP_RELEASE_ZIP_URL=https://github.com/ggml-org/llama.cpp/releases/download/b7806/llama-b7806-bin-win-cuda-13.1-x64.zip

# установка тега релиза llama.cpp вручную
LLAMACPP_RELEASE_TAG=b7806

# путь до предварительно скомпилированной llama.cpp
# LLAMACPP_DIR=""

# прямая ссылка на llm модель вместо llama.cpp если таковая используется  
# OPENAI_BASE_URL=""

# включить или отключить режим RAG
CHATBOT_RAG_ENABLED=1

# установить уровень логгирования для отладки
# CHATBOT_LOG_LEVEL=DEBUG