Spaces:

ivanm151
/

diagram

Sleeping

ivanm151 commited on Feb 2

Commit

fe749bd

1 Parent(s): deed5a7

qwen

Files changed (4) hide show

Dockerfile CHANGED Viewed

@@ -1,5 +1,6 @@
 FROM python:3.11-slim
 RUN apt-get update && apt-get install -y --no-install-recommends \
     build-essential \
     libopenblas-dev \
@@ -10,20 +11,18 @@ RUN useradd -m -u 1000 user
 USER user
 ENV HOME=/home/user \
     PATH=/home/user/.local/bin:$PATH \
-    HF_HOME=/tmp/hf
 WORKDIR $HOME/app
-# Сначала requirements для кэша слоёв
 COPY --chown=user requirements.txt .
 RUN pip install --no-cache-dir --user -r requirements.txt
-# Важно: компилируем llama-cpp-python с BLAS
-RUN CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" \
-    FORCE_CMAKE=1 \
     pip install --no-cache-dir --user llama-cpp-python --upgrade --force-reinstall --no-cache-dir
-# Копируем весь проект, включая weights/
 COPY --chown=user . .
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860", "--workers", "1"]

 FROM python:3.11-slim
+# Устанавливаем зависимости для BLAS и компиляции llama-cpp-python
 RUN apt-get update && apt-get install -y --no-install-recommends \
     build-essential \
     libopenblas-dev \
 USER user
 ENV HOME=/home/user \
     PATH=/home/user/.local/bin:$PATH \
+    HF_HOME=/tmp/hf \
+    LLAMA_CPP_NO_OPENMP=0
 WORKDIR $HOME/app
 COPY --chown=user requirements.txt .
 RUN pip install --no-cache-dir --user -r requirements.txt
+# Важно: FORCE_CMAKE=1 для лучшей компиляции с BLAS
+RUN CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" FORCE_CMAKE=1 \
     pip install --no-cache-dir --user llama-cpp-python --upgrade --force-reinstall --no-cache-dir
 COPY --chown=user . .
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860", "--workers", "1"]

models.py CHANGED Viewed

@@ -1,29 +1,19 @@
 from llama_cpp import Llama
-import os
-# Путь к файлу GGUF внутри контейнера
-WEIGHTS_DIR = "/home/user/app/weights"
-MODEL_FILE = "Qwen2.5-7B.gguf"  # qwen2.5-7b-instruct-q5_k_m.gguf
-GGUF_PATH = os.path.join(WEIGHTS_DIR, MODEL_FILE)
 llm = None
 def load_model():
     global llm
-    if not os.path.exists(GGUF_PATH):
-        raise FileNotFoundError(f"GGUF файл не найден: {GGUF_PATH}. Проверь имя файла и наличие в weights/")
-    print(f"Загружаем модель: {GGUF_PATH}")
     llm = Llama(
-        model_path=GGUF_PATH,
-        n_ctx=8192,  # контекст — достаточно для длинных описаний
-        n_threads=0,  # 0 = использовать все доступные ядра CPU
-        n_gpu_layers=0,  # строго CPU
-        n_batch=512,
-        verbose=True  # чтобы видеть загрузку и токены/сек в логах
     )
-    print("Модель загружена успешно")
     return llm

 from llama_cpp import Llama
+# Выбери подходящий квант (поменяй по вкусу)
+GGUF_MODEL = "https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-GGUF/resolve/main/Qwen2.5-7B-Instruct-Q5_K_M.gguf"
+# Или локально: "./weights/Qwen2.5-7B-Instruct-Q5_K_M.gguf" — но в HF Spaces лучше скачивать с HF
 llm = None
 def load_model():
     global llm
     llm = Llama(
+        model_path=GGUF_MODEL,          # или локальный путь
+        n_ctx=8192,                     # контекст — хватит для описаний + промпта
+        n_threads=0,                    # 0 = все доступные CPU-ядра
+        n_gpu_layers=0,                 # 0 = чистый CPU
+        n_batch=512,                    # батч для промпта
+        verbose=False
     )
     return llm

weights/best.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:abecca16bf2464d7ac0679d2ec1921779a2264d6d69b2a1ce3b2259977bad107
+size 6252842

weights/file DELETED Viewed

File without changes