Spaces:

FrostIce
/

Close-SFG

Sleeping

App Files Files Community

FrostIce commited on Aug 10, 2025

Commit

4d21fdb

verified ·

1 Parent(s): 98fad21

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -29

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import re
 import numpy as np
 import json
 from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
-from transformers_stream_generator import patch_streaming
 import gradio as gr
 # Применяем патч для streaming
@@ -82,31 +81,16 @@ def find_tool_calls_buffer(buffer: str):
     return blocks, buffer
 # === Генерация ===
-def generate_stream(prompt, max_new_tokens=256, temperature=0.7, top_p=0.9):
-    if isinstance(prompt, str):
-        messages = [{"role": "user", "content": prompt}]
-    else:
-        messages = prompt
-    try:
-        inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
-        inputs = inputs.to(model.device)
-    except Exception as e:
-        yield f"Ошибка: {e}"
-        return
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     def generate():
         with torch.no_grad():
             model.generate(
-                inputs,
-                max_new_tokens=int(max_new_tokens),
-                temperature=float(temperature),
-                top_p=float(top_p),
-                do_sample=True,
-                pad_token_id=tokenizer.pad_token_id,
-                eos_token_id=tokenizer.eos_token_id,
                 streamer=streamer,
                 use_cache=True
             )
@@ -114,14 +98,8 @@ def generate_stream(prompt, max_new_tokens=256, temperature=0.7, top_p=0.9):
     thread = threading.Thread(target=generate)
     thread.start()
-    buffer = ""
-    for new_text in streamer:
-        buffer += new_text
-        blocks, _ = find_tool_calls_buffer(buffer)
-        for block in blocks:
-            result = execute_tool_calls([block["data"]])
-            buffer = buffer.replace(block["block"], f"\n\n{result}\n\n")
-        yield buffer
 # === Gradio ===
 with gr.Blocks() as demo:

 import numpy as np
 import json
 from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 import gradio as gr
 # Применяем патч для streaming
     return blocks, buffer
 # === Генерация ===
+def generate_stream(prompt):
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     def generate():
         with torch.no_grad():
             model.generate(
+                **inputs,
+                max_new_tokens=256,
+                temperature=0.7,
                 streamer=streamer,
                 use_cache=True
             )
     thread = threading.Thread(target=generate)
     thread.start()
+    for text in streamer:
+        yield text
 # === Gradio ===
 with gr.Blocks() as demo: