Spaces:

Email-addon
/

GmailAddOn

Sleeping

fsojni commited on May 23, 2025

Commit

9d99ca9

verified ·

1 Parent(s): 50e96a1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -226,16 +226,17 @@ def ingest(req:IngestReq):
     return {"added": len(req.docs)}
 @api.post("/query")
-def rag(req:QueryReq):
     store = kb.get(req.user_id)
     if not store:
         raise HTTPException(404, "No knowledge ingested for this user.")
-    q_vec = embed(req.question)
-    sims  = torch.matmul(store["vecs"], q_vec)
-    topk  = torch.topk(sims, k=min(4, sims.size(0))).indices
     context = "\n".join(store["texts"][i] for i in topk.tolist())
-        SYSTEM_PROMPT = "You are a helpful assistant."
     prompt = build_qwen_prompt(SYSTEM_PROMPT, [context], req.question)
     load_chat()
@@ -244,7 +245,6 @@ def rag(req:QueryReq):
         return_tensors="pt",
         add_special_tokens=False,
     )
     if tokens["input_ids"].size(1) > MAX_PROMPT_TOKENS:
         tokens = {k: v[:, -MAX_PROMPT_TOKENS:] for k, v in tokens.items()}
@@ -255,12 +255,11 @@ def rag(req:QueryReq):
         max_new_tokens=512,
         max_length=MAX_PROMPT_TOKENS + 512,
     )
     full = tokenizer.decode(out[0], skip_special_tokens=True)
     ans  = full.split("<|im_start|>assistant")[-1].strip()
     return {"answer": ans}
 # ---------- 5. run both (FastAPI + Gradio) -----------------------------------
 if __name__ == "__main__":
     # launch Gradio on a background thread

     return {"added": len(req.docs)}
 @api.post("/query")
+def rag(req: QueryReq):
     store = kb.get(req.user_id)
     if not store:
         raise HTTPException(404, "No knowledge ingested for this user.")
+    q_vec  = embed(req.question)
+    sims   = torch.matmul(store["vecs"], q_vec)
+    topk   = torch.topk(sims, k=min(4, sims.size(0))).indices
     context = "\n".join(store["texts"][i] for i in topk.tolist())
+    SYSTEM_PROMPT = "You are a helpful assistant."
     prompt = build_qwen_prompt(SYSTEM_PROMPT, [context], req.question)
     load_chat()
         return_tensors="pt",
         add_special_tokens=False,
     )
     if tokens["input_ids"].size(1) > MAX_PROMPT_TOKENS:
         tokens = {k: v[:, -MAX_PROMPT_TOKENS:] for k, v in tokens.items()}
         max_new_tokens=512,
         max_length=MAX_PROMPT_TOKENS + 512,
     )
     full = tokenizer.decode(out[0], skip_special_tokens=True)
     ans  = full.split("<|im_start|>assistant")[-1].strip()
     return {"answer": ans}
 # ---------- 5. run both (FastAPI + Gradio) -----------------------------------
 if __name__ == "__main__":
     # launch Gradio on a background thread