Spaces:

GTee2
/

Aeron

Sleeping

App Files Files Community

GTee2 commited on Nov 18, 2025

Commit

8a4701f

verified ·

1 Parent(s): 8366339

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -12

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStream
 from threading import Thread
 from collections import defaultdict
-app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free FINAL")
 print("Carregando Qwen3-0.6B com transformers atualizado...")
@@ -15,7 +15,7 @@ model = AutoModelForCausalLM.from_pretrained(
     torch_dtype="auto",
     device_map="cpu",
     trust_remote_code=True,
-    low_cpu_mem_usage=True=True
 )
 history_db = defaultdict(list)
@@ -23,7 +23,7 @@ MAX_CONTEXT_TOKENS = 3800
 @app.get("/")
 async def root():
-    return {"message": "Qwen3-0.6B rodando liso na CPU free com transformers novo, chefe! 😈"}
 @app.post("/chat")
 async def chat(request: Request):
@@ -45,21 +45,29 @@ async def chat(request: Request):
     if stream:
         streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-        generation_kwargs = dict(
             input_ids=inputs.input_ids,
             attention_mask=inputs.attention_mask,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
             top_p=0.9,
-            repetition_penalty=1.1,
-            streamer=streamer
         )
-        thread = Thread(target=model.generate, kwargs=generation_kwargs)
-        thread.start()
-        return StreamingResponse(streamer, media_type="text/event-stream")
-    else:
-        outputs = model.generate(**inputs, max_new_tokens=max_tokens, temperature=temperature, do_sample=True, top_p=0.9, repetition_penalty=1.1)
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
@@ -71,4 +79,4 @@ async def chat(request: Request):
         return JSONResponse({"response": resposta})
-print("Qwen3-0.6B carregado e pronto pra foder o WhatsApp 24h por dia de graça! 🔥")

 from threading import Thread
 from collections import defaultdict
+app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free")
 print("Carregando Qwen3-0.6B com transformers atualizado...")
     torch_dtype="auto",
     device_map="cpu",
     trust_remote_code=True,
+    low_cpu_mem_usage=True
 )
 history_db = defaultdict(list)
 @app.get("/")
 async def root():
+    return {"message": "Qwen3-0.6B rodando perfeito na CPU free, chefe! 😈"}
 @app.post("/chat")
 async def chat(request: Request):
     if stream:
         streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+        generation_kwargs = {
+            "input_ids": inputs.input_ids,
+            "attention_mask": inputs.attention_mask,
+            "max_new_tokens": max_tokens,
+            "temperature": temperature,
+            "do_sample": True,
+            "top_p": 0.9,
+            "repetition_penalty": 1.1,
+            "streamer": streamer
+        }
+        thread = Thread(target=model.generate, kwargs=generation_kwargs)
+        thread.start()
+        return StreamingResponse(streamer, media_type="text/event-stream")
+    else:
+        outputs = model.generate(
             input_ids=inputs.input_ids,
             attention_mask=inputs.attention_mask,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
             top_p=0.9,
+            repetition_penalty=1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
         return JSONResponse({"response": resposta})
+print("Qwen3-0.6B carregado e pronto pra dominar o WhatsApp de graça 24/7! 🔥")