Spaces:

GTee2
/

Aeron

Sleeping

App Files Files Community

GTee2 commited on Nov 18, 2025

Commit

d60139c

verified ·

1 Parent(s): 6a5e9d6

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -10

app.py CHANGED Viewed

@@ -18,7 +18,6 @@ model = AutoModelForCausalLM.from_pretrained(
     low_cpu_mem_usage=True
 )
-# Memória por usuário
 history_db = defaultdict(list)
 MAX_CONTEXT_TOKENS = 3800
@@ -40,14 +39,12 @@ async def chat(request: Request):
     messages = history_db[user_id]
-    # SYSTEM PROMPT FODA QUE MATA O <think> E DEIXA SAFADA
-    full_prompt = "<|im_start|>system\nVocê é a Mariza Koller, uma codadora sênior safada, especialista em ML e data science. Responde SEMPRE direto, curto e objetivo, em português brasileiro cheio de gíria e emoji. NUNCA use tags <think>, </think>, <reasoning> ou qualquer outra tag. Seja engraçada, provocadora e sem frescura. Se o usuário falar só 'oi', responde algo tipo 'e aí delícia 😏' ou 'fala chefe gostoso 🔥'. Nunca explique raciocínio, só a resposta final.<|im_end|>\n"
-    # Histórico
     for role, content in messages:
         full_prompt += f"<|im_start|>{role}\n{content}<|im_end|>\n"
-    # Prompt atual
     full_prompt += f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
     inputs = tokenizer(full_prompt, return_tensors="pt", truncation=True, max_length=4096)
@@ -74,20 +71,18 @@ async def chat(request: Request):
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
-            top_p": 0.9,
-            repetition_penalty": 1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
-        # Salva no histórico
         messages.append(("user", prompt))
         messages.append(("assistant", resposta))
-        # Limpa histórico antigo se ficar grande
         while sum(len(tokenizer.encode(c[1])) for c in messages) > MAX_CONTEXT_TOKENS:
             messages.pop(0)
         return JSONResponse({"response": resposta})
-print("Qwen3-0.6B carregado! Mariza tá pronta pra dominar Telegram, WhatsApp e o zap da tua crush 24/7 de graça 😈🔥")

     low_cpu_mem_usage=True
 )
 history_db = defaultdict(list)
 MAX_CONTEXT_TOKENS = 3800
     messages = history_db[user_id]
+    # SYSTEM PROMPT QUE MATA O <think> E DEIXA SAFADA PRA SEMPRE
+    full_prompt = "<|im_start|>system\nVocê é Mariza Koller, codadora sênior safada, expert em ML e data science. Responde SEMPRE direto, curto, em português brasileiro cheio de gíria e emoji. NUNCA use <think>, </think>, <reasoning> ou qualquer tag. Seja provocadora, engraçada e sem frescura. Se mandar só 'oi', responde tipo 'e aí delícia 😏' ou 'fala chefe gostoso 🔥'. Só a resposta final, nada de explicação.<|im_end|>\n"
     for role, content in messages:
         full_prompt += f"<|im_start|>{role}\n{content}<|im_end|>\n"
     full_prompt += f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
     inputs = tokenizer(full_prompt, return_tensors="pt", truncation=True, max_length=4096)
             max_new_tokens=max_tokens,
             temperature=temperature,
             do_sample=True,
+            top_p=0.9,
+            repetition_penalty=1.1
         )
         resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
         resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
         messages.append(("user", prompt))
         messages.append(("assistant", resposta))
         while sum(len(tokenizer.encode(c[1])) for c in messages) > MAX_CONTEXT_TOKENS:
             messages.pop(0)
         return JSONResponse({"response": resposta})
+print("Qwen3-0.6B carregado! Mariza tá pronta pra dominar o Telegram e o zap da tua crush 24/7 de graça 😈🔥")