Spaces:

VietCat
/

RAGSample

Sleeping

App Files Files Community

VietCat commited on Jun 19, 2025

Commit

97f67d5

1 Parent(s): 7dcd77a

fix cache

Browse files

Files changed (2) hide show

rag_core/business.py +34 -32
rag_core/retriever.py +6 -4

rag_core/business.py CHANGED Viewed

@@ -1,61 +1,63 @@
-import os
 import logging
 from rag_core.chunker import chunk_legal_text
 from rag_core.embedder import get_embedding
 from rag_core.retriever import Retriever
 from rag_core.llm import generate_answer
 retriever = Retriever()
 def is_ready():
-    ready = retriever.index is not None
-    logging.info(f"✅ Kiểm tra index sẵn sàng: {ready}")
     return ready
 def build_index():
-    logging.info("🔄 Bắt đầu xây FAISS index từ đầu...")
     try:
         with open("data/raw_law.txt", "r", encoding="utf-8") as f:
             text = f.read()
-        logging.info(f"📄 Đọc văn bản thành công, độ dài: {len(text)} ký tự")
         chunks = chunk_legal_text(text)
-        logging.info(f"✂️ Đã chunk thành {len(chunks)} đoạn")
         retriever.build(chunks, get_embedding)
         logging.info("✅ Xây FAISS index thành công.")
     except Exception as e:
-        logging.exception(f"❌ Lỗi khi xây index: {e}")
-def answer_query(query):
     logging.info(f"❓ Nhận câu hỏi: {query}")
-    if not is_ready():
-        logging.warning("⚠️ Index chưa sẵn sàng khi truy vấn.")
-        return {"error": "Index chưa sẵn sàng. Vui lòng bấm 'Rebuild Index'."}
     try:
         docs = retriever.query(query, get_embedding)
         logging.info(f"📚 Truy xuất được {len(docs)} đoạn liên quan")
         prompt = "\n\n".join(docs) + f"\n\nCâu hỏi: {query}\nTrả lời:"
         answer = generate_answer(prompt)
-        logging.info("✅ Đã tạo câu trả lời thành công.")
         return {"answer": answer}
     except Exception as e:
-        logging.exception(f"❌ Lỗi khi trả lời câu hỏi: {e}")
         return {"error": str(e)}
-def rescan_index():
-    if not is_ready():
-        logging.info("⚠️ Chưa có index, gọi build_index() thay vì rescan.")
-        build_index()
-        return {"status": "✅ Đã tạo mới FAISS index."}
-    logging.info("♻️ Tiến hành rescan và cập nhật các chunk mới...")
-    try:
-        with open("data/raw_law.txt", "r", encoding="utf-8") as f:
-            text = f.read()
-        logging.info(f"📄 Đọc văn bản thành công, độ dài: {len(text)} ký tự")
-        chunks = chunk_legal_text(text)
-        logging.info(f"✂️ Đã chunk thành {len(chunks)} đoạn")
-        retriever.rescan_and_append(chunks, get_embedding)
-        logging.info("✅ Rescan hoàn tất.")
-        return {"status": "✅ Rescan & update thành công."}
-    except Exception as e:
-        logging.exception(f"❌ Lỗi trong quá trình rescan: {e}")
-        return {"status": f"Lỗi: {str(e)}"}

 import logging
 from rag_core.chunker import chunk_legal_text
 from rag_core.embedder import get_embedding
 from rag_core.retriever import Retriever
 from rag_core.llm import generate_answer
+from rag_core.utils import log_timed
 retriever = Retriever()
+ready = retriever.index is not None
 def is_ready():
     return ready
+@log_timed("xây FAISS index")
 def build_index():
+    global ready
+    logging.info("🔄 Bắt đầu xây FAISS index từ file dữ liệu...")
     try:
         with open("data/raw_law.txt", "r", encoding="utf-8") as f:
             text = f.read()
         chunks = chunk_legal_text(text)
         retriever.build(chunks, get_embedding)
+        ready = True
         logging.info("✅ Xây FAISS index thành công.")
     except Exception as e:
+        logging.error(f"❌ Lỗi khi xây index: {e}")
+        raise
+@log_timed("rescan FAISS index")
+def rescan_index():
+    global ready
+    logging.info("🔍 Bắt đầu kiểm tra và cập nhật index...")
+    if retriever.index is None:
+        logging.info("⚠️ Chưa có index. Gọi build_index().")
+        build_index()
+        return {"status": "✅ Tạo mới FAISS index."}
+    else:
+        try:
+            with open("data/raw_law.txt", "r", encoding="utf-8") as f:
+                text = f.read()
+            chunks = chunk_legal_text(text)
+            retriever.rescan_and_append(chunks, get_embedding)
+            logging.info("✅ Đã cập nhật index với các chunk mới.")
+            return {"status": "✅ Rescan & update thành công."}
+        except Exception as e:
+            logging.error(f"❌ Lỗi khi rescan index: {e}")
+            return {"status": f"❌ Lỗi khi rescan: {e}"}
+@log_timed("trả lời câu hỏi")
+def answer_query(query: str) -> str:
     logging.info(f"❓ Nhận câu hỏi: {query}")
+    if not ready:
+        logging.warning("⚠️ Index chưa sẵn sàng.")
+        return {"error": "Index chưa sẵn sàng. Vui lòng bấm 'Xây Index' hoặc gọi API /rescan."}
     try:
         docs = retriever.query(query, get_embedding)
         logging.info(f"📚 Truy xuất được {len(docs)} đoạn liên quan")
         prompt = "\n\n".join(docs) + f"\n\nCâu hỏi: {query}\nTrả lời:"
         answer = generate_answer(prompt)
         return {"answer": answer}
     except Exception as e:
+        logging.error(f"❌ Lỗi khi trả lời câu hỏi: {e}")
         return {"error": str(e)}

rag_core/retriever.py CHANGED Viewed

@@ -5,17 +5,19 @@ import pickle
 import logging
 from rag_core.utils import log_timed
-# Dùng thư mục /data để tránh mất khi restart trên Hugging Face
-INDEX_PATH = "/data/index.faiss"
-META_PATH = "/data/meta.pkl"
 class Retriever:
     def __init__(self):
         if os.path.exists(INDEX_PATH):
             self.index = faiss.read_index(INDEX_PATH)
             with open(META_PATH, "rb") as f:
                 self.texts = pickle.load(f)
         else:
             self.index = None
             self.texts = []
@@ -54,7 +56,7 @@ class Retriever:
         existing_set = set(self.texts)
         new_texts = [t for t in full_texts if t not in existing_set]
         if not new_texts:
-            logging.info("Không có chunk mới để thêm.")
             return
         new_embeddings = []
         for i, t in enumerate(new_texts):

 import logging
 from rag_core.utils import log_timed
+# ✅ Sử dụng thư mục tương đối, tránh bị hiểu nhầm sang /data (root)
+INDEX_PATH = "./data/index.faiss"
+META_PATH = "./data/meta.pkl"
 class Retriever:
     def __init__(self):
         if os.path.exists(INDEX_PATH):
+            logging.info(f"✅ Đã tìm thấy index: {INDEX_PATH}")
             self.index = faiss.read_index(INDEX_PATH)
             with open(META_PATH, "rb") as f:
                 self.texts = pickle.load(f)
         else:
+            logging.info("⚠️ Chưa có index. Cần xây dựng mới.")
             self.index = None
             self.texts = []
         existing_set = set(self.texts)
         new_texts = [t for t in full_texts if t not in existing_set]
         if not new_texts:
+            logging.info("📭 Không có chunk mới để thêm.")
             return
         new_embeddings = []
         for i, t in enumerate(new_texts):