Spaces:

ivanm151
/

diagram

Sleeping

App Files Files Community

ivanm151 commited on 28 days ago

Commit

4e282b0

1 Parent(s): 1c127e7

wheel fix 1

Browse files

Files changed (3) hide show

Dockerfile +0 -8
models.py +35 -9
requirements.txt +6 -1

Dockerfile CHANGED Viewed

@@ -1,8 +1,6 @@
 FROM python:3.11-slim
-# Устанавливаем только нужное для сборки + OpenBLAS
 RUN apt-get update && apt-get install -y --no-install-recommends \
-    build-essential \
     libopenblas-dev \
     && rm -rf /var/lib/apt/lists/*
@@ -17,12 +15,6 @@ WORKDIR $HOME/app
 COPY --chown=user requirements.txt .
 RUN pip install --no-cache-dir --user -r requirements.txt
-# Компиляция llama-cpp-python с OpenBLAS
-RUN CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" \
-    FORCE_CMAKE=1 \
-    pip install --no-cache-dir --user llama-cpp-python --upgrade --force-reinstall --no-cache-dir
-# Копируем код и модель (если скачал в weights/)
 COPY --chown=user . .
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860", "--workers", "1"]

 FROM python:3.11-slim
 RUN apt-get update && apt-get install -y --no-install-recommends \
     libopenblas-dev \
     && rm -rf /var/lib/apt/lists/*
 COPY --chown=user requirements.txt .
 RUN pip install --no-cache-dir --user -r requirements.txt
 COPY --chown=user . .
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860", "--workers", "1"]

models.py CHANGED Viewed

@@ -1,19 +1,45 @@
 from llama_cpp import Llama
-# Выбери подходящий квант (поменяй по вкусу)
-GGUF_MODEL = "https://huggingface.co/bartowski/Qwen2.5-7B-Instruct-GGUF/resolve/main/Qwen2.5-7B-Instruct-Q5_K_M.gguf"
-# Или локально: "./weights/Qwen2.5-7B-Instruct-Q5_K_M.gguf" — но в HF Spaces лучше скачивать с HF
 llm = None
 def load_model():
     global llm
     llm = Llama(
-        model_path=GGUF_MODEL,          # или локальный путь
-        n_ctx=8192,                     # контекст — хватит для описаний + промпта
-        n_threads=0,                    # 0 = все доступные CPU-ядра
-        n_gpu_layers=0,                 # 0 = чистый CPU
-        n_batch=512,                    # батч для промпта
-        verbose=False
     )
     return llm

 from llama_cpp import Llama
+from huggingface_hub import hf_hub_download
+import os
+# Параметры модели (Q5_K_M — хороший баланс скорость/качество на CPU)
+REPO_ID = "bartowski/Qwen2.5-7B-Instruct-GGUF"
+FILENAME = "Qwen2.5-7B-Instruct-Q5_K_M.gguf"  # если хочешь другой квант — Q4_K_M (быстрее), Q6_K (лучше качество)
+# Директория кэша (в HF Spaces /tmp сохраняется между перезапусками, модель не скачивается заново)
+CACHE_DIR = "/tmp/hf/models"
+os.makedirs(CACHE_DIR, exist_ok=True)
 llm = None
 def load_model():
     global llm
+    if llm is not None:
+        return llm  # уже загружено — не тратим время
+    print(f"Скачиваем/находим модель {REPO_ID}/{FILENAME} ... (первый раз ~5–15 мин на HF CPU)")
+    # Скачивание (или берём из кэша, если уже есть)
+    model_path = hf_hub_download(
+        repo_id=REPO_ID,
+        filename=FILENAME,
+        cache_dir=CACHE_DIR,
+        local_dir=CACHE_DIR,  # сохраняем явно
+        local_dir_use_symlinks=False  # без ссылок, чтобы файл был физически
+    )
+    print(f"Путь к модели: {model_path}")
     llm = Llama(
+        model_path=model_path,
+        n_ctx=8192,  # контекст — достаточно для длинных описаний + промпта
+        n_threads=0,  # все доступные ядра CPU
+        n_gpu_layers=0,  # строго CPU
+        n_batch=512,
+        verbose=True  # логи в консоль Spaces — увидишь токены/сек
     )
+    print("Модель Qwen2.5-7B-Instruct успешно загружена в CPU-режиме")
     return llm

requirements.txt CHANGED Viewed

@@ -1,4 +1,9 @@
 fastapi>=0.115.0
 uvicorn[standard]>=0.30.0
 pydantic>=2.8.0
-llama-cpp-python>=0.2.80

 fastapi>=0.115.0
 uvicorn[standard]>=0.30.0
 pydantic>=2.8.0
+# Предкомпилированный wheel для HF Spaces CPU (Luigi — свежий на январь 2026, с OpenBLAS)
+https://huggingface.co/Luigi/llama-cpp-python-wheels-hf-spaces-free-cpu/resolve/main/llama_cpp_python-0.3.22-cp311-cp311-linux_x86_64.whl
+# Для скачивания модели
+huggingface-hub>=0.20.0