Spaces:

Batrdj
/

Rdj1

Sleeping

Batrdj commited on Jan 12

Commit

ed3a83e

verified ·

1 Parent(s): 433f86f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,14 +12,13 @@ app = FastAPI()
 # 🔐 API KEY (keep same)
 API_KEY = "sk-tinyllm-9f3a2c7e8b4d1a6c0e52f91d"
-# 🔥 BETTER CPU-SAFE MODEL
-MODEL_NAME = "Qwen/Qwen2.5-1.5B-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
-    torch_dtype=torch.float32,
-    device_map="cpu"
 )
 model.eval()
@@ -60,6 +59,9 @@ def chat(
 ):
     check_api_key(authorization)
     messages = [
         {
             "role": "user",
@@ -76,11 +78,11 @@ def chat(
     with torch.no_grad():
         output_ids = model.generate(
             input_ids,
-            max_new_tokens=220,
-            temperature=0.0,        # deterministic (RAG-safe)
             top_p=0.7,
             top_k=20,
-            do_sample=False,
             repetition_penalty=1.1,
             eos_token_id=tokenizer.eos_token_id
         )
@@ -90,4 +92,6 @@ def chat(
         skip_special_tokens=True
     ).strip()
-    return {"response": response}

 # 🔐 API KEY (keep same)
 API_KEY = "sk-tinyllm-9f3a2c7e8b4d1a6c0e52f91d"
+# ✅ Lightweight CPU model (NLP engine only)
+MODEL_NAME = "Qwen/Qwen1.5-0.5B-Chat"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
+    dtype=torch.float32
 )
 model.eval()
 ):
     check_api_key(authorization)
+    # 🚫 IMPORTANT:
+    # DO NOT inject system identity here.
+    # Your RAG prompt already contains ALL rules.
     messages = [
         {
             "role": "user",
     with torch.no_grad():
         output_ids = model.generate(
             input_ids,
+            max_new_tokens=220,        # controlled output
+            temperature=0.0,           # 🔥 NO hallucination
             top_p=0.7,
             top_k=20,
+            do_sample=False,           # deterministic
             repetition_penalty=1.1,
             eos_token_id=tokenizer.eos_token_id
         )
         skip_special_tokens=True
     ).strip()
+    return {
+        "response": response
+    }