Spaces:

GTee2
/

Aeron

Sleeping

App Files Files Community

GTee2 commited on Nov 18, 2025

Commit

7efd208

verified ·

1 Parent(s): 40bdbb6

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -12

app.py CHANGED Viewed

@@ -6,9 +6,9 @@ from collections import defaultdict
 app = FastAPI(title="Mariza Koller 1.5B - CPU Free 4bit 🔥")
-print("🔥 Carregando Qwen2-1.5B em 4-bit na CPU (agora SIM funciona no HF free!)")
-# Configuração 4-bit que roda na CPU do Spaces
 quantization_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
@@ -16,22 +16,26 @@ quantization_config = BitsAndBytesConfig(
     bnb_4bit_use_double_quant=True,
 )
-tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-1.5B-Instruct", trust Tom's_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
-    "Qwen/Qwen2-1.5B-Instruct2",
     device_map="cpu",
     quantization_config=quantization_config,
     trust_remote_code=True,
     low_cpu_mem_usage=True
 )
-# Cache de conversa
 history_db = defaultdict(list)
 MAX_CONTEXT_TOKENS = 3500
 @app.get("/")
 async def root():
-    return {"message": "Mariza 1.5B 4-bit rodando quente na CPU free, chefe! 😈"}
 @app.post("/chat")
 async def chat(request: Request):
@@ -43,9 +47,9 @@ async def chat(request: Request):
     stream = data.get("stream", False)
     if not prompt:
-        return JSONResponse({"error": "manda prompt direito, safado"})
-    # Monta histórico
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
@@ -69,25 +73,28 @@ async def chat(request: Request):
         thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
         return StreamingResponse(streamer, media_type="text/event-stream")
     else:
         outputs = model.generate(
-            **inputs,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
-            top_p=0.9,
             repetition_penalty=1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant")[-1].strip()
         messages.append(("user", prompt))
         messages.append(("assistant", resposta))
-        # Limpa histórico se ficar grande
         while sum(len(tokenizer.encode(c[1])) for c in messages) > MAX_CONTEXT_TOKENS:
             messages.pop(0)
         return JSONResponse({"response": resposta})
-print("✅ Modelo carregado! Mariza tá pronta pra dominar o WhatsApp 😏")

 app = FastAPI(title="Mariza Koller 1.5B - CPU Free 4bit 🔥")
+print("🔥 Carregando Qwen2-1.5B em 4-bit na CPU... (vai levar 3-5 min na primeira vez)")
+# Config 4-bit que funciona na CPU do HF Spaces free
 quantization_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_use_double_quant=True,
 )
+tokenizer = AutoTokenizer.from_pretrained(
+    "Qwen/Qwen2-1.5B-Instruct",
+    trust_remote_code=True
+)
 model = AutoModelForCausalLM.from_pretrained(
+    "Qwen/Qwen2-1.5B-Instruct",
     device_map="cpu",
     quantization_config=quantization_config,
     trust_remote_code=True,
     low_cpu_mem_usage=True
 )
+# Cache de conversa por usuário
 history_db = defaultdict(list)
 MAX_CONTEXT_TOKENS = 3500
 @app.get("/")
 async def root():
+    return {"message": "Mariza 1.5B 4-bit tá viva e quente na CPU free, chefe! 😈"}
 @app.post("/chat")
 async def chat(request: Request):
     stream = data.get("stream", False)
     if not prompt:
+        return JSONResponse({"error": "prompt vazio, safado"})
+    # Monta histórico no formato Qwen2
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
         thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
         return StreamingResponse(streamer, media_type="text/event-stream")
     else:
         outputs = model.generate(
+            input_ids=inputs.input_ids,
+            attention_mask=inputs.attention_mask,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
+            top_p": 0.9,
             repetition_penalty=1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant")[-1].strip()
+        # Salva histórico
         messages.append(("user", prompt))
         messages.append(("assistant", resposta))
+        # Limpa se ficar grande demais
         while sum(len(tokenizer.encode(c[1])) for c in messages) > MAX_CONTEXT_TOKENS:
             messages.pop(0)
         return JSONResponse({"response": resposta})
+print("✅ Qwen2-1.5B carregado com sucesso! Mariza tá pronta pra dominar o zap 😏")