Spaces:

GTee2
/

Aeron

Sleeping

App Files Files Community

GTee2 commited on Nov 18, 2025

Commit

8366339

verified ·

1 Parent(s): 299acab

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -30

app.py CHANGED Viewed

@@ -4,23 +4,18 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStream
 from threading import Thread
 from collections import defaultdict
-app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free")
-print("Carregando Qwen3-0.6B (forçando slow tokenizer pra burlar o bug do tokenizers)")
-# <<< AS DUAS LINHAS MÁGICAS >>>
-tokenizer = AutoTokenizer.from_pretrained(
-    "Qwen/Qwen3-0.6B",
-    trust_remote_code=True,
-    use_fast=False          # <─ ESSA LINHA SALVA TUDO
-)
 model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen3-0.6B",
     torch_dtype="auto",
     device_map="cpu",
     trust_remote_code=True,
-    low_cpu_mem_usage=True
 )
 history_db = defaultdict(list)
@@ -28,7 +23,7 @@ MAX_CONTEXT_TOKENS = 3800
 @app.get("/")
 async def root():
-    return {"message": "Qwen3-0.6B tá vivo e foda na CPU free, chefe! (sem bug do tokenizers) 😈"}
 @app.post("/chat")
 async def chat(request: Request):
@@ -43,38 +38,28 @@ async def chat(request: Request):
         return JSONResponse({"error": "prompt vazio, safado"})
     messages = history_db[user_id]
-    full_prompt = ""
-    for role, content in messages:
-        full_prompt += f"<|im_start|>{role}\n{content}<|im_end|>\n"
     full_prompt += f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
     inputs = tokenizer(full_prompt, return_tensors="pt", truncation=True, max_length=4096)
     if stream:
         streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-        generation_kwargs = {
-            "input_ids": inputs.input_ids,
-            "attention_mask": inputs.attention_mask,
-            "max_new_tokens": max_tokens,
-            "temperature": temperature,
-            "do_sample": True,
-            "top_p": 0.9,
-            "repetition_penalty": 1.1,
-            "streamer": streamer
-        }
-        thread = Thread(target=model.generate, kwargs=generation_kwargs)
-        thread.start()
-        return StreamingResponse(streamer, media_type="text/event-stream")
-    else:
-        outputs = model.generate(
             input_ids=inputs.input_ids,
             attention_mask=inputs.attention_mask,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
             top_p=0.9,
-            repetition_penalty=1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
@@ -86,4 +71,4 @@ async def chat(request: Request):
         return JSONResponse({"response": resposta})
-print("Qwen3-0.6B carregado e pronto pra dominar o WhatsApp 24/7 de graça, chefe! 🔥")

 from threading import Thread
 from collections import defaultdict
+app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free FINAL")
+print("Carregando Qwen3-0.6B com transformers atualizado...")
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B", trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen3-0.6B",
     torch_dtype="auto",
     device_map="cpu",
     trust_remote_code=True,
+    low_cpu_mem_usage=True=True
 )
 history_db = defaultdict(list)
 @app.get("/")
 async def root():
+    return {"message": "Qwen3-0.6B rodando liso na CPU free com transformers novo, chefe! 😈"}
 @app.post("/chat")
 async def chat(request: Request):
         return JSONResponse({"error": "prompt vazio, safado"})
     messages = history_db[user_id]
+    full_prompt = "".join([f"<|im_start|>{role}\n{content}<|im_end|>\n" for role, content in messages])
     full_prompt += f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
     inputs = tokenizer(full_prompt, return_tensors="pt", truncation=True, max_length=4096)
     if stream:
         streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+        generation_kwargs = dict(
             input_ids=inputs.input_ids,
             attention_mask=inputs.attention_mask,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
             top_p=0.9,
+            repetition_penalty=1.1,
+            streamer=streamer
         )
+        thread = Thread(target=model.generate, kwargs=generation_kwargs)
+        thread.start()
+        return StreamingResponse(streamer, media_type="text/event-stream")
+    else:
+        outputs = model.generate(**inputs, max_new_tokens=max_tokens, temperature=temperature, do_sample=True, top_p=0.9, repetition_penalty=1.1)
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
         return JSONResponse({"response": resposta})
+print("Qwen3-0.6B carregado e pronto pra foder o WhatsApp 24h por dia de graça! 🔥")