Spaces:

VOIDER
/

VisualQuality-R1-7B

Build error

App Files Files Community

VOIDER commited on Jan 6

Commit

eb0bb84

verified ·

1 Parent(s): d7d7f03

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -33

app.py CHANGED Viewed

@@ -2,24 +2,25 @@ import os
 import sys
 import subprocess
-# --- БЛОК УСТАНОВКИ БИБЛИОТЕК ПРИ ЗАПУСКЕ ---
-# Это позволяет избежать ошибок сборки и компилировать библиотеку уже в работающем контейнере
 try:
     import llama_cpp
     print("Библиотека llama-cpp-python уже установлена.")
 except ImportError:
-    print("Установка llama-cpp-python... (Это может занять пару минут при первом запуске)")
-    # Устанавливаем версию 0.3.16 (или новее), которая поддерживает Qwen2-VL
     subprocess.check_call([
         sys.executable, "-m", "pip", "install",
-        "llama-cpp-python"
     ])
-    print("Установка завершена! Запускаем приложение...")
     import llama_cpp
-# ------------------------------------------
 import gradio as gr
-from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 import base64
 import io
@@ -40,13 +41,26 @@ def load_model():
                 repo_id=REPO_ID,
                 filename=MODEL_FILENAME
             )
-            # Инициализация модели
             llm = Llama(
                 model_path=model_path,
-                n_ctx=8192,           # Контекст
-                n_gpu_layers=0,       # 0 слоев на GPU (работаем на CPU)
                 verbose=True,
-                chat_format="chatml-function-calling"
             )
             print("Модель успешно загружена!")
         except Exception as e:
@@ -56,14 +70,15 @@ def load_model():
 def image_to_base64(image):
     buffered = io.BytesIO()
-    image.save(buffered, format="JPEG")
     return base64.b64encode(buffered.getvalue()).decode('utf-8')
 def evaluate_image(image, progress=gr.Progress()):
     if image is None:
         return "Пожалуйста, загрузите изображение.", ""
-    # Загружаем модель только когда пользователь нажмет кнопку (экономит память при старте)
     progress(0, desc="Загрузка модели...")
     model = load_model()
@@ -93,33 +108,37 @@ def evaluate_image(image, progress=gr.Progress()):
     full_response = ""
     print("Начало генерации...")
-    # Запуск генерации
-    stream = model.create_chat_completion(
-        messages=messages,
-        max_tokens=2048, # Увеличил лимит токенов для длинных рассуждений
-        temperature=0.6,
-        stream=True
-    )
-    for chunk in stream:
-        if "choices" in chunk:
-            delta = chunk["choices"][0]["delta"]
-            if "content" in delta and delta["content"]:
-                content = delta["content"]
-                full_response += content
-                # Стримим ответ в текстовое поле
-                yield full_response, "Вычисляется..."
-    # Поиск оценки в ответе
     score_match = re.search(r'<answer>\s*([\d\.]+)\s*</answer>', full_response)
     final_score = score_match.group(1) if score_match else "Не найдено"
     yield full_response, final_score
-# Интерфейс
 with gr.Blocks(title="VisualQuality-R1 (Q8 GGUF)") as demo:
     gr.Markdown("# 👁️ VisualQuality-R1 (7B Q8)")
-    gr.Markdown("Оценка качества изображений. Запущено на CPU, генерация может занять 1-2 минуты.")
     with gr.Row():
         with gr.Column():
@@ -128,7 +147,6 @@ with gr.Blocks(title="VisualQuality-R1 (Q8 GGUF)") as demo:
         with gr.Column():
             output_score = gr.Label(label="Итоговая оценка")
-            # Исправлено: убрал аргумент show_copy_button, вызывавший ошибку
             output_text = gr.Textbox(label="Ход мыслей (CoT) и ответ", lines=15)
     run_btn.click(

 import sys
 import subprocess
+# --- УСТАНОВКА БИБЛИОТЕК ---
 try:
     import llama_cpp
+    from llama_cpp import Llama
     print("Библиотека llama-cpp-python уже установлена.")
 except ImportError:
+    print("Установка llama-cpp-python...")
+    # Ставим последнюю версию без привязки к 0.3.16, чтобы получить все фиксы для Qwen2-VL
     subprocess.check_call([
         sys.executable, "-m", "pip", "install",
+        "llama-cpp-python",
+        "--upgrade",
+        "--extra-index-url", "https://abetlen.github.io/llama-cpp-python/whl/cpu"
     ])
+    print("Установка завершена! Перезапуск...")
     import llama_cpp
+    from llama_cpp import Llama
 import gradio as gr
 from huggingface_hub import hf_hub_download
 import base64
 import io
                 repo_id=REPO_ID,
                 filename=MODEL_FILENAME
             )
+            # Пытаемся найти специфичный хендлер для Qwen2-VL (появился в новых версиях)
+            chat_handler = None
+            try:
+                # Проверяем, есть ли встроенная поддержка Qwen2-VL в chat_format
+                from llama_cpp.llama_chat_format import Qwen2VLChatHandler
+                print("Используем Qwen2VLChatHandler")
+                chat_handler = Qwen2VLChatHandler()
+            except ImportError:
+                print("Специфичный Qwen2VLChatHandler не найден, используем стандартный режим.")
+                # В новых версиях llama.cpp поддержка может быть нативной без Python-хендлера,
+                # если не переопределять chat_format.
             llm = Llama(
                 model_path=model_path,
+                n_ctx=16384,          # Увеличили контекст для изображений
+                n_gpu_layers=0,       # CPU
                 verbose=True,
+                chat_handler=chat_handler, # Передаем хендлер если нашли
+                # ВАЖНО: Убрали chat_format="chatml...", чтобы не ломать vision-логику
             )
             print("Модель успешно загружена!")
         except Exception as e:
 def image_to_base64(image):
     buffered = io.BytesIO()
+    # Конвертируем в RGB и JPEG для совместимости
+    image = image.convert("RGB")
+    image.save(buffered, format="JPEG", quality=95)
     return base64.b64encode(buffered.getvalue()).decode('utf-8')
 def evaluate_image(image, progress=gr.Progress()):
     if image is None:
         return "Пожалуйста, загрузите изображение.", ""
     progress(0, desc="Загрузка модели...")
     model = load_model()
     full_response = ""
     print("Начало генерации...")
+    try:
+        stream = model.create_chat_completion(
+            messages=messages,
+            max_tokens=1024,
+            temperature=0.6,
+            stream=True
+        )
+        for chunk in stream:
+            if "choices" in chunk:
+                delta = chunk["choices"][0]["delta"]
+                if "content" in delta and delta["content"]:
+                    content = delta["content"]
+                    full_response += content
+                    yield full_response, "Вычисляется..."
+    except ValueError as e:
+        # Если снова ошибка токенов, выводим понятное сообщение
+        error_msg = f"Ошибка генерации: {e}. Возможно, модель не распознала изображение как Vision-контент."
+        print(error_msg)
+        yield error_msg, "Ошибка"
+        return
+    # Поиск оценки
     score_match = re.search(r'<answer>\s*([\d\.]+)\s*</answer>', full_response)
     final_score = score_match.group(1) if score_match else "Не найдено"
     yield full_response, final_score
 with gr.Blocks(title="VisualQuality-R1 (Q8 GGUF)") as demo:
     gr.Markdown("# 👁️ VisualQuality-R1 (7B Q8)")
+    gr.Markdown("Оценка качества изображений. Запущено на CPU.")
     with gr.Row():
         with gr.Column():
         with gr.Column():
             output_score = gr.Label(label="Итоговая оценка")
             output_text = gr.Textbox(label="Ход мыслей (CoT) и ответ", lines=15)
     run_btn.click(