Spaces:

FabIndy
/

code-education-rag

Running

FabIndy commited on Jan 14

Commit

401a3ff

1 Parent(s): 47b8a7e

Optimize GGUF loading and reduce LLM latency

Files changed (1) hide show

src/rag_core.py CHANGED Viewed

@@ -36,7 +36,7 @@ DB_DIR = Path("db/faiss_code_edu_by_article")
 EMBED_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
 TOP_K_FETCH = 30            # nb de docs candidats récupérés
-TOP_K_FINAL = 4            # nb max envoyés au LLM
 SCORE_THRESHOLD = 1.10      # à ajuster (voir affichage des scores)
 MAX_CHARS_PER_DOC = 800
 SNIPPET_CHARS = 260
@@ -81,7 +81,7 @@ def llm_generate(prompt: str) -> str:
     out = llm.create_chat_completion(
         messages=[{"role": "user", "content": prompt}],
         temperature=0.1,
-        max_tokens=200,
     )
     return out["choices"][0]["message"]["content"].strip()

 EMBED_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
 TOP_K_FETCH = 30            # nb de docs candidats récupérés
+TOP_K_FINAL = 3            # nb max envoyés au LLM
 SCORE_THRESHOLD = 1.10      # à ajuster (voir affichage des scores)
 MAX_CHARS_PER_DOC = 800
 SNIPPET_CHARS = 260
     out = llm.create_chat_completion(
         messages=[{"role": "user", "content": prompt}],
         temperature=0.1,
+        max_tokens=120,
     )
     return out["choices"][0]["message"]["content"].strip()