Spaces:

GTee2
/

Aeron

Sleeping

GTee2 commited on Nov 18, 2025

Commit

240f866

verified ·

1 Parent(s): dd95682

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,13 +6,18 @@ from collections import defaultdict
 app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free")
-print("Carregando Qwen3-0.6B em fp16 puro na CPU... (2-4 min na primeira vez)")
-tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B", trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen3-0.6B",
-    torch_dtype="auto",        # deixa o transformers escolher fp16/float16
     device_map="cpu",
     trust_remote_code=True,
     low_cpu_mem_usage=True
@@ -23,7 +28,7 @@ MAX_CONTEXT_TOKENS = 3800
 @app.get("/")
 async def root():
-    return {"message": "Qwen3-0.6B tá vivo e quente na CPU free, chefe! Sem quantização, sem dor de cabeça 😈"}
 @app.post("/chat")
 async def chat(request: Request):
@@ -35,9 +40,8 @@ async def chat(request: Request):
     stream = data.get("stream", False)
     if not prompt:
-        return JSONResponse({"error": "prompt vazio, seu safado"})
-    # Monta histórico
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
@@ -82,4 +86,4 @@ async def chat(request: Request):
         return JSONResponse({"response": resposta})
-print("Qwen3-0.6B carregado! Pode mandar o zap que Mariza tá pronta pra responder 24/7 😏")

 app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free")
+print("Carregando Qwen3-0.6B (forçando slow tokenizer pra burlar o bug do tokenizers)")
+# <<< AS DUAS LINHAS MÁGICAS >>>
+tokenizer = AutoTokenizer.from_pretrained(
+    "Qwen/Qwen3-0.6B",
+    trust_remote_code=True,
+    use_fast=False          # <─ ESSA LINHA SALVA TUDO
+)
 model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen3-0.6B",
+    torch_dtype="auto",
     device_map="cpu",
     trust_remote_code=True,
     low_cpu_mem_usage=True
 @app.get("/")
 async def root():
+    return {"message": "Qwen3-0.6B tá vivo e foda na CPU free, chefe! (sem bug do tokenizers) 😈"}
 @app.post("/chat")
 async def chat(request: Request):
     stream = data.get("stream", False)
     if not prompt:
+        return JSONResponse({"error": "prompt vazio, safado"})
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
         return JSONResponse({"response": resposta})
+print("Qwen3-0.6B carregado e pronto pra dominar o WhatsApp 24/7 de graça, chefe! 🔥")