smart-moderator

Sleeping

Utiric commited on Aug 19

Commit

607fa02

verified ·

1 Parent(s): 692a239

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -41,7 +41,7 @@ def build_prompt(message, history, system_message, max_ctx_tokens=1024):
                 break
 def respond_stream(message, history, system_message, max_tokens, temperature, top_p):
-    user_id = "default"  # API bağlarsan burada kullanıcı ID'si ile değiştir
     past = sessions.get(user_id)
     if past is None:
@@ -66,26 +66,21 @@ def respond_stream(message, history, system_message, max_tokens, temperature, to
         kwargs={**inputs, **{k: v for k, v in gen_kwargs.items() if v is not None}, "streamer": streamer}
     )
-    start_time = time.time()
     token_count = 0
     with torch.inference_mode():
         thread.start()
         for token_text in streamer:
             token_count += 1
-            yield token_text  # Token anında kullanıcıya akar
         thread.join()
     end_time = time.time()
     tps = token_count / (end_time - start_time) if (end_time - start_time) > 0 else 0
-    # KV cache güncelle
-    # generate() ile streamer kullanıldığında past_key_values doğrudan dönmez,
-    # bu yüzden cache'i burada güncellemek için model.forward tabanlı bir yapı kurmak gerekir.
-    # Basitlik için bu örnekte cache ilk turdan sonra sıfırlanıyor.
-    sessions[user_id] = None  # İstersen burayı ileri seviye cache yönetimi ile değiştirebilirsin.
-    yield f"\n\n⚡ **Hız:** {tps:.2f} token/sn"
 demo = gr.ChatInterface(
     respond_stream,

                 break
 def respond_stream(message, history, system_message, max_tokens, temperature, top_p):
+    user_id = "default"
     past = sessions.get(user_id)
     if past is None:
         kwargs={**inputs, **{k: v for k, v in gen_kwargs.items() if v is not None}, "streamer": streamer}
     )
+    partial_text = ""  # Biriken metin
     token_count = 0
+    start_time = time.time()
     with torch.inference_mode():
         thread.start()
         for token_text in streamer:
             token_count += 1
+            partial_text += token_text  # Yeni token'ı ekle
+            yield partial_text  # Tamamını gönder (append efekti)
         thread.join()
     end_time = time.time()
     tps = token_count / (end_time - start_time) if (end_time - start_time) > 0 else 0
+    yield partial_text + f"\n\n⚡ **Hız:** {tps:.2f} token/sn"
 demo = gr.ChatInterface(
     respond_stream,