Spaces:

DINGDINGBELLS
/

clicklezGPT

Running

App Files Files Community

DINGDINGBELLS commited on Feb 26

Commit

f988f4f

verified ·

1 Parent(s): a99daad

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -13

app.py CHANGED Viewed

@@ -2,36 +2,46 @@ import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
 MODEL_ID = "."
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
-    torch_dtype=torch.float32,
     low_cpu_mem_usage=True,
-    device_map="cpu"
 )
 def predict(message, history):
-    # НИКАКОГО системного промпта в начале.
-    # Сразу начинаем со структуры диалога.
-    prompt = ""
     for msg in history:
-        # Просто переносим роли, которые понимает модель (User/Bot)
         role = "User" if msg["role"] == "user" else "Bot"
         prompt += f"{role}: {msg['content']}\n"
-    # Добавляем текущий ввод
     prompt += f"User: {message}\nBot:"
-    inputs = tokenizer(prompt, return_tensors="pt")
-    streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         **inputs,
         streamer=streamer,
-        max_new_tokens=100,
         do_sample=True,
         temperature=0.7,
         repetition_penalty=1.2,
@@ -43,13 +53,18 @@ def predict(message, history):
     partial_message = ""
     for new_token in streamer:
-        # Если модель в порыве шизы начнет писать за "User:", обрезаем
         if "User:" in new_token:
             break
         partial_message += new_token
         yield partial_message
-demo = gr.ChatInterface(predict, type="messages")
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=7860)

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
+import os
+# Папка для экстренного сброса весов, если RAM все равно будет не хватать
+os.makedirs("offload", exist_ok=True)
 MODEL_ID = "."
+print("🍌 BananaGPT: Загрузка в float16...")
+# Загружаем токенизатор
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+# Загружаем модель: float16 режет потребление памяти в 2 раза
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
+    torch_dtype=torch.float16,
     low_cpu_mem_usage=True,
+    device_map="auto",
+    offload_folder="offload"
 )
 def predict(message, history):
+    # ПУСТОЙ промпт (никаких системных инструкций, как ты и просил)
+    prompt = ""
+    # СТРУКТУРА: переносим историю диалога
     for msg in history:
         role = "User" if msg["role"] == "user" else "Bot"
         prompt += f"{role}: {msg['content']}\n"
+    # ЗАПРОС: добавляем текущее сообщение
     prompt += f"User: {message}\nBot:"
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    streamer = TextIteratorStreamer(tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         **inputs,
         streamer=streamer,
+        max_new_tokens=128,
         do_sample=True,
         temperature=0.7,
         repetition_penalty=1.2,
     partial_message = ""
     for new_token in streamer:
         if "User:" in new_token:
             break
         partial_message += new_token
         yield partial_message
+# Интерфейс
+demo = gr.ChatInterface(
+    predict,
+    type="messages",
+    title="BananaGPT (float16)"
+)
 if __name__ == "__main__":
+    # Запуск на порту 7860 для HF Spaces
+    demo.queue().launch(server_name="0.0.0.0", server_port=7860)