Spaces:

GTee2
/

Aeron

Sleeping

App Files Files Community

GTee2 commited on Nov 18, 2025

Commit

9e4e121

verified ·

1 Parent(s): 7efd208

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -15

app.py CHANGED Viewed

@@ -4,11 +4,10 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStream
 from threading import Thread
 from collections import defaultdict
-app = FastAPI(title="Mariza Koller 1.5B - CPU Free 4bit 🔥")
-print("🔥 Carregando Qwen2-1.5B em 4-bit na CPU... (vai levar 3-5 min na primeira vez)")
-# Config 4-bit que funciona na CPU do HF Spaces free
 quantization_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
@@ -16,10 +15,7 @@ quantization_config = BitsAndBytesConfig(
     bnb_4bit_use_double_quant=True,
 )
-tokenizer = AutoTokenizer.from_pretrained(
-    "Qwen/Qwen2-1.5B-Instruct",
-    trust_remote_code=True
-)
 model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen2-1.5B-Instruct",
@@ -29,7 +25,6 @@ model = AutoModelForCausalLM.from_pretrained(
     low_cpu_mem_usage=True
 )
-# Cache de conversa por usuário
 history_db = defaultdict(list)
 MAX_CONTEXT_TOKENS = 3500
@@ -49,7 +44,6 @@ async def chat(request: Request):
     if not prompt:
         return JSONResponse({"error": "prompt vazio, safado"})
-    # Monta histórico no formato Qwen2
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
@@ -73,7 +67,6 @@ async def chat(request: Request):
         thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
         return StreamingResponse(streamer, media_type="text/event-stream")
     else:
         outputs = model.generate(
             input_ids=inputs.input_ids,
@@ -81,20 +74,18 @@ async def chat(request: Request):
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
-            top_p": 0.9,
             repetition_penalty=1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        resposta = resposta.split("<|im_start|>assistant")[-1].strip()
-        # Salva histórico
         messages.append(("user", prompt))
         messages.append(("assistant", resposta))
-        # Limpa se ficar grande demais
         while sum(len(tokenizer.encode(c[1])) for c in messages) > MAX_CONTEXT_TOKENS:
             messages.pop(0)
         return JSONResponse({"response": resposta})
-print("✅ Qwen2-1.5B carregado com sucesso! Mariza tá pronta pra dominar o zap 😏")

 from threading import Thread
 from collections import defaultdict
+app = FastAPI(title="Mariza Koller 1.5B - CPU Free 4bit")
+print("Carregando Qwen2-1.5B em 4-bit na CPU... (3-6 min na primeira vez)")
 quantization_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_use_double_quant=True,
 )
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-1.5B-Instruct", trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     "Qwen/Qwen2-1.5B-Instruct",
     low_cpu_mem_usage=True
 )
 history_db = defaultdict(list)
 MAX_CONTEXT_TOKENS = 3500
     if not prompt:
         return JSONResponse({"error": "prompt vazio, safado"})
     messages = history_db[user_id]
     full_prompt = ""
     for role, content in messages:
         thread = Thread(target=model.generate, kwargs=generation_kwargs)
         thread.start()
         return StreamingResponse(streamer, media_type="text/event-stream")
     else:
         outputs = model.generate(
             input_ids=inputs.input_ids,
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
+            top_p=0.9,
             repetition_penalty=1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
         messages.append(("user", prompt))
         messages.append(("assistant", resposta))
         while sum(len(tokenizer.encode(c[1])) for c in messages) > MAX_CONTEXT_TOKENS:
             messages.pop(0)
         return JSONResponse({"response": resposta})
+print("Qwen2-1.5B carregado com sucesso! Mariza tá pronta pra foder o WhatsApp inteiro 😈")