Spaces:

GTee2
/

Aeron

Sleeping

App Files Files Community

GTee2 commited on Nov 18, 2025

Commit

dd95682

verified ·

1 Parent(s): 2284eab

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -17

app.py CHANGED Viewed

@@ -1,36 +1,29 @@
 from fastapi import FastAPI, Request
 from fastapi.responses import JSONResponse, StreamingResponse
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, BitsAndBytesConfig
 from threading import Thread
 from collections import defaultdict
-app = FastAPI(title="Mariza Koller 1.5B - CPU Free 4bit")
-print("Carregando Qwen2-1.5B em 4-bit na CPU... (3-6 min na primeira vez)")
-quantization_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_quant_type="nf4",
-    bnb_4bit_compute_dtype="float16",
-    bnb_4bit_use_double_quant=True,
-)
-tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-1.5B-Instruct", trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
-    "Qwen/Qwen2-1.5B-Instruct",
     device_map="cpu",
-    quantization_config=quantization_config,
     trust_remote_code=True,
     low_cpu_mem_usage=True
 )
 history_db = defaultdict(list)
-MAX_CONTEXT_TOKENS = 3500
 @app.get("/")
 async def root():
-    return {"message": "Mariza 1.5B 4-bit tá viva e quente na CPU free, chefe! 😈"}
 @app.post("/chat")
 async def chat(request: Request):
@@ -42,8 +35,9 @@ async def chat(request: Request):
     stream = data.get("stream", False)
     if not prompt:
-        return JSONResponse({"error": "prompt vazio, safado"})
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
@@ -88,4 +82,4 @@ async def chat(request: Request):
         return JSONResponse({"response": resposta})
-print("Qwen2-1.5B carregado com sucesso! Mariza tá pronta pra foder o WhatsApp inteiro 😈")

 from fastapi import FastAPI, Request
 from fastapi.responses import JSONResponse, StreamingResponse
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
 from collections import defaultdict
+app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free")
+print("Carregando Qwen3-0.6B em fp16 puro na CPU... (2-4 min na primeira vez)")
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B", trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
+    "Qwen/Qwen3-0.6B",
+    torch_dtype="auto",        # deixa o transformers escolher fp16/float16
     device_map="cpu",
     trust_remote_code=True,
     low_cpu_mem_usage=True
 )
 history_db = defaultdict(list)
+MAX_CONTEXT_TOKENS = 3800
 @app.get("/")
 async def root():
+    return {"message": "Qwen3-0.6B tá vivo e quente na CPU free, chefe! Sem quantização, sem dor de cabeça 😈"}
 @app.post("/chat")
 async def chat(request: Request):
     stream = data.get("stream", False)
     if not prompt:
+        return JSONResponse({"error": "prompt vazio, seu safado"})
+    # Monta histórico
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
         return JSONResponse({"response": resposta})
+print("Qwen3-0.6B carregado! Pode mandar o zap que Mariza tá pronta pra responder 24/7 😏")