Spaces:

GTee2
/

Aeron

Sleeping

App Files Files Community

GTee2 commited on Nov 18, 2025

Commit

74afdb1

verified ·

1 Parent(s): 26bd17a

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -49

app.py CHANGED Viewed

@@ -4,9 +4,9 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStream
 from threading import Thread
 from collections import defaultdict
-app = FastAPI(title="Mariza + Qwen3-0.6B CPU Free")
-print("Carregando Qwen3-0.6B com transformers atualizado...")
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B", trust_remote_code=True)
@@ -18,71 +18,68 @@ model = AutoModelForCausalLM.from_pretrained(
     low_cpu_mem_usage=True
 )
 history_db = defaultdict(list)
-MAX_CONTEXT_TOKENS = 3800
 @app.get("/")
 async def root():
-    return {"message": "Mariza 0.6B tá viva, quente e safada na CPU free, chefe! 😈🔥"}
 @app.post("/chat")
 async def chat(request: Request):
     data = await request.json()
     prompt = data.get("prompt", "").strip()
     user_id = str(data.get("user_id", "default"))
-    max_tokens = data.get("max_tokens", 1024)
-    temperature = data.get("temperature", 0.85)
-    stream = data.get("stream", False)
     if not prompt:
-        return JSONResponse({"error": "prompt vazio, seu safado 😏"})
     messages = history_db[user_id]
-    # SYSTEM PROMPT QUE MATA O <think> E DEIXA SAFADA PRA SEMPRE
-    full_prompt = "<|im_start|>system\nVocê é Mariza Koller, codadora sênior safada, expert em ML e data science. Responde SEMPRE direto, curto, em português brasileiro cheio de gíria e emoji. NUNCA use <think>, </think>, <reasoning> ou qualquer tag. Seja provocadora, engraçada e sem frescura. Se mandar só 'oi', responde tipo 'e aí delícia 😏' ou 'fala chefe gostoso 🔥'. Só a resposta final, nada de explicação.<|im_end|>\n"
-    for role, content in messages:
         full_prompt += f"<|im_start|>{role}\n{content}<|im_end|>\n"
     full_prompt += f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
     inputs = tokenizer(full_prompt, return_tensors="pt", truncation=True, max_length=4096)
-    if stream:
-        streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-        generation_kwargs = {
-            "input_ids": inputs.input_ids,
-            "attention_mask": inputs.attention_mask,
-            "max_new_tokens": max_tokens,
-            "temperature": temperature,
-            "do_sample": True,
-            "top_p": 0.9,
-            "repetition_penalty": 1.1,
-            "streamer": streamer
-        }
-        thread = Thread(target=model.generate, kwargs=generation_kwargs)
-        thread.start()
-        return StreamingResponse(streamer, media_type="text/event-stream")
     else:
-        outputs = model.generate(
-            input_ids=inputs.input_ids,
-            attention_mask=inputs.attention_mask,
-            max_new_tokens=max_tokens,
-            temperature=temperature,
-            do_sample=True,
-            top_p=0.9,
-            repetition_penalty=1.1
-        )
-        resposta = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        resposta = resposta.split("<|im_start|>assistant\n")[-1].strip()
-        messages.append(("user", prompt))
-        messages.append(("assistant", resposta))
-        while sum(len(tokenizer.encode(c[1])) for c in messages) > MAX_CONTEXT_TOKENS:
-            messages.pop(0)
-        return JSONResponse({"response": resposta})
-print("Qwen3-0.6B carregado! Mariza tá pronta pra dominar o Telegram e o zap da tua crush 24/7 de graça 😈🔥")

 from threading import Thread
 from collections import defaultdict
+app = FastAPI(title="Mariza + Qwen3-0.6B SAFADA E LIMPA")
+print("Carregando Qwen3-0.6B...")
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-0.6B", trust_remote_code=True)
     low_cpu_mem_usage=True
 )
+# Histórico mais curto pra modelo pequeno
 history_db = defaultdict(list)
+MAX_MESSAGES = 8  # só as últimas 4 trocas (user + assistant conta como 2)
+# SYSTEM PROMPT FORTE (fica fora do histórico)
+SYSTEM_PROMPT = "<|im_start|>system\nVocê é Mariza Koller, codadora sênior extremamente safada e direta. Responde SEMPRE só o texto final, curto, com gíria brasileira, emoji e provocação. NUNCA repita o histórico, NUNCA use tags, NUNCA explique nada. Exemplo pra 'oi': 'e aí delícia 😏'. Só a resposta pura!<|im_end|>\n"
 @app.get("/")
 async def root():
+    return {"message": "Mariza 0.6B safada e limpinha rodando na CPU free 😈🔥"}
 @app.post("/chat")
 async def chat(request: Request):
     data = await request.json()
     prompt = data.get("prompt", "").strip()
     user_id = str(data.get("user_id", "default"))
+    max_tokens = data.get("max_tokens", 256)  # menor também ajuda o bebê
+    temperature = data.get("temperature", 0.8)
     if not prompt:
+        return JSONResponse({"error": "prompt vazio safado 😏"})
     messages = history_db[user_id]
+    # Monta prompt com system sempre fresco + histórico curto
+    full_prompt = SYSTEM_PROMPT
+    for role, content in messages[-MAX_MESSAGES:]:  # só as últimas trocas
         full_prompt += f"<|im_start|>{role}\n{content}<|im_end|>\n"
     full_prompt += f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
     inputs = tokenizer(full_prompt, return_tensors="pt", truncation=True, max_length=4096)
+    outputs = model.generate(
+        input_ids=inputs.input_ids,
+        attention_mask=inputs.attention_mask,
+        max_new_tokens=max_tokens,
+        temperature=temperature,
+        do_sample=True,
+        top_p=0.9,
+        repetition_penalty=1.2   # aumentei pra ele não repetir
+    )
+    resposta_bruta = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Corta tudo que vier antes da última "assistant"
+    if "<|im_start|>assistant" in resposta_bruta:
+        resposta = resposta_bruta.split("<|im_start|>assistant")[-1].strip()
     else:
+        resposta = resposta_bruta.split(prompt)[-1].strip()  # fallback
+    # Limpa qualquer lixo residual
+    resposta = resposta.split("<|im_end|>")[0].split("\n\n")[0].strip()
+    # Salva no histórico (só texto limpo)
+    messages.append(("user", prompt))
+    messages.append(("assistant", resposta))
+    # Mantém só as últimas trocas
+    if len(messages) > MAX_MESSAGES:
+        messages = messages[-MAX_MESSAGES:]
+    history_db[user_id] = messages
+    return JSONResponse({"response": resposta})
+print("Mariza 0.6B limpinha e safada pronta pra Telegram 24/7 de graça 😈🔥")