textgenerationAI

Running

App Files Files Community

dedlepexa commited on Apr 13

Commit

050542e

verified ·

1 Parent(s): 6c64016

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -21

app.py CHANGED Viewed

@@ -28,27 +28,27 @@ class Message(BaseModel):
 def generate_ai(message: str):
-    prompt = f"User: {message}\nAssistant:"
     inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
-       outputs = model.generate(
-    **inputs,
-    max_new_tokens=60,
-    min_new_tokens=20,   # 🔥 важно
-    do_sample=True,
-    temperature=0.7,
-    top_p=0.9,
-    eos_token_id=tokenizer.eos_token_id
-)
     input_length = inputs.input_ids.shape[1]
-generated_tokens = outputs[0][input_length:]
-reply = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
-    if "Assistant:" in reply:
-        reply = reply.split("Assistant:")[-1].strip()
     return reply
@@ -59,15 +59,13 @@ def worker():
         if queue:
             message = queue.pop(0)
-            # Генерация
             reply = generate_ai(message)
-            # Сохраняем результат
             if message in db:
                 db[message]["status"] = "done"
                 db[message]["reply"] = reply
-        time.sleep(0.1)
 # запускаем поток
@@ -83,14 +81,13 @@ async def root():
 @app.get("/ask")
 async def ask(message: str):
-    # если уже есть — не добавляем повторно
     if message not in db:
         db[message] = {"status": "pending", "reply": ""}
         queue.append(message)
         # ограничение до 40
         if len(db) > MAX_HISTORY:
-            db.popitem(last=False)  # удаляем старый
     return PlainTextResponse("accepted")

 def generate_ai(message: str):
+    # 🔥 Улучшенный prompt
+    prompt = f"User: {message}\nAssistant: Answer clearly and fully:\n"
     inputs = tokenizer(prompt, return_tensors="pt")
     with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=60,
+            min_new_tokens=20,   # 🔥 чтобы не обрывал
+            do_sample=True,
+            temperature=0.7,
+            top_p=0.9,
+            eos_token_id=tokenizer.eos_token_id
+        )
+    # 🔥 ВАЖНО: декодим только НОВЫЕ токены
     input_length = inputs.input_ids.shape[1]
+    generated_tokens = outputs[0][input_length:]
+    reply = tokenizer.decode(generated_tokens, skip_special_tokens=True).strip()
     return reply
         if queue:
             message = queue.pop(0)
             reply = generate_ai(message)
             if message in db:
                 db[message]["status"] = "done"
                 db[message]["reply"] = reply
+        time.sleep(0.05)  # чуть быстрее
 # запускаем поток
 @app.get("/ask")
 async def ask(message: str):
     if message not in db:
         db[message] = {"status": "pending", "reply": ""}
         queue.append(message)
         # ограничение до 40
         if len(db) > MAX_HISTORY:
+            db.popitem(last=False)
     return PlainTextResponse("accepted")