Spaces:

KoDer123
/

Nerealnost

Sleeping

App Files Files Community

KoDer123 commited on Mar 5

Commit

66b58b6

verified ·

1 Parent(s): a388086

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -17

app.py CHANGED Viewed

@@ -38,12 +38,10 @@ logger.info(f"Используем директорию для хранения:
 # Настраиваем пути для сохранения моделей
 CACHE_DIR = os.path.join(DISK_DIR, "models_cache")
 TORCH_HOME = os.path.join(DISK_DIR, "torch_home")
-OFFLOAD_DIR = os.path.join(DISK_DIR, "offload")
 # Создаем директории
 os.makedirs(CACHE_DIR, exist_ok=True)
 os.makedirs(TORCH_HOME, exist_ok=True)
-os.makedirs(OFFLOAD_DIR, exist_ok=True)
 # Устанавливаем переменные окружения для управления кэшированием
 os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
@@ -65,7 +63,7 @@ logger.info("Информация о дисках перед загрузкой:
 check_disk_space("/")
 check_disk_space(DISK_DIR)
-# Загрузка модели и токенизатора (исправлен лишний пробел в имени)
 model_name = "KoDer123/Nerealnost_8M"
 # Глобальные переменные для модели
@@ -96,7 +94,6 @@ def load_model():
         # Определяем оптимальный режим загрузки
         model_kwargs = {
             "cache_dir": CACHE_DIR,
-            "local_files_only": False,
             "trust_remote_code": True
         }
@@ -104,17 +101,12 @@ def load_model():
         if torch.cuda.is_available():
             logger.info("Загружаем модель в режиме GPU...")
             model_kwargs.update({
-                "device_map": "auto",
                 "torch_dtype": torch.float16,
             })
         else:
             logger.info("Загружаем модель в режиме CPU...")
-            model_kwargs.update({
-                "device_map": "cpu",
-                "torch_dtype": torch.float32,
-                "low_cpu_mem_usage": True,
-                "offload_folder": OFFLOAD_DIR
-            })
         # Загружаем модель
         model = AutoModelForCausalLM.from_pretrained(
@@ -122,9 +114,11 @@ def load_model():
             **model_kwargs
         )
-        # Проверяем, на каком устройстве размещена модель
-        device_info = next(model.parameters()).device
-        logger.info(f"Модель успешно загружена на устройство: {device_info}")
         is_model_loaded = True
         return "Модель успешно загружена"
@@ -163,7 +157,7 @@ def respond(
     # Проверяем, загружена ли модель
     if not is_model_loaded or model is None or tokenizer is None:
-        return "Модель не загружена или произошла ошибка при загрузке. Проверьте имя модели 'KoDer123/Nerealnost_8M'."
     # Замеряем время
     start_time = time.time()
@@ -187,7 +181,7 @@ def respond(
         # Генерация ответа
         outputs = model.generate(
-            **inputs,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p,
@@ -221,7 +215,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     with gr.Row():
         with gr.Column(scale=4):
-            chatbot = gr.Chatbot(label="Диалог")
             user_input = gr.Textbox(
                 placeholder="Введите ваш вопрос здесь...",
                 label="Ваш вопрос",

 # Настраиваем пути для сохранения моделей
 CACHE_DIR = os.path.join(DISK_DIR, "models_cache")
 TORCH_HOME = os.path.join(DISK_DIR, "torch_home")
 # Создаем директории
 os.makedirs(CACHE_DIR, exist_ok=True)
 os.makedirs(TORCH_HOME, exist_ok=True)
 # Устанавливаем переменные окружения для управления кэшированием
 os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
 check_disk_space("/")
 check_disk_space(DISK_DIR)
+# Загрузка модели и токенизатора
 model_name = "KoDer123/Nerealnost_8M"
 # Глобальные переменные для модели
         # Определяем оптимальный режим загрузки
         model_kwargs = {
             "cache_dir": CACHE_DIR,
             "trust_remote_code": True
         }
         if torch.cuda.is_available():
             logger.info("Загружаем модель в режиме GPU...")
             model_kwargs.update({
                 "torch_dtype": torch.float16,
             })
         else:
             logger.info("Загружаем модель в режиме CPU...")
+            # Удаляем параметры, требующие Accelerate
+            # Без параметров device_map и low_cpu_mem_usage
         # Загружаем модель
         model = AutoModelForCausalLM.from_pretrained(
             **model_kwargs
         )
+        # Переносим модель на доступное устройство
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        model = model.to(device)
+        logger.info(f"Модель успешно загружена на устройство: {device}")
         is_model_loaded = True
         return "Модель успешно загружена"
     # Проверяем, загружена ли модель
     if not is_model_loaded or model is None or tokenizer is None:
+        return "Модель не загружена или произошла ошибка при загрузке. Проверьте логи для получения дополнительной информации."
     # Замеряем время
     start_time = time.time()
         # Генерация ответа
         outputs = model.generate(
+            inputs.input_ids,  # Передаем только input_ids, не весь словарь
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p,
     with gr.Row():
         with gr.Column(scale=4):
+            chatbot = gr.Chatbot(label="Диалог", type="messages")  # Исправление типа чатбота
             user_input = gr.Textbox(
                 placeholder="Введите ваш вопрос здесь...",
                 label="Ваш вопрос",