Spaces:

Batrdj
/

Rdj1

Sleeping

Batrdj commited on Jan 12

Commit

b60e096

verified ·

1 Parent(s): 286d07a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,13 +12,14 @@ app = FastAPI()
 # 🔐 API KEY (keep same)
 API_KEY = "sk-tinyllm-9f3a2c7e8b4d1a6c0e52f91d"
-# ✅ Lightweight CPU model (NLP engine only)
-MODEL_NAME = "Qwen/Qwen1.5-0.5B-Chat"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
-    dtype=torch.float32
 )
 model.eval()
@@ -59,9 +60,6 @@ def chat(
 ):
     check_api_key(authorization)
-    # 🚫 IMPORTANT:
-    # DO NOT inject system identity here.
-    # Your RAG prompt already contains ALL rules.
     messages = [
         {
             "role": "user",
@@ -78,11 +76,11 @@ def chat(
     with torch.no_grad():
         output_ids = model.generate(
             input_ids,
-            max_new_tokens=220,        # controlled output
-            temperature=0.0,           # 🔥 NO hallucination
             top_p=0.7,
             top_k=20,
-            do_sample=False,           # deterministic
             repetition_penalty=1.1,
             eos_token_id=tokenizer.eos_token_id
         )
@@ -92,6 +90,4 @@ def chat(
         skip_special_tokens=True
     ).strip()
-    return {
-        "response": response
-    }

 # 🔐 API KEY (keep same)
 API_KEY = "sk-tinyllm-9f3a2c7e8b4d1a6c0e52f91d"
+# 🔥 BETTER CPU-SAFE MODEL
+MODEL_NAME = "Qwen/Qwen2.5-1.5B-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
+    torch_dtype=torch.float32,
+    device_map="cpu"
 )
 model.eval()
 ):
     check_api_key(authorization)
     messages = [
         {
             "role": "user",
     with torch.no_grad():
         output_ids = model.generate(
             input_ids,
+            max_new_tokens=220,
+            temperature=0.0,        # deterministic (RAG-safe)
             top_p=0.7,
             top_k=20,
+            do_sample=False,
             repetition_penalty=1.1,
             eos_token_id=tokenizer.eos_token_id
         )
         skip_special_tokens=True
     ).strip()
+    return {"response": response}