Spaces:

Chatbot-TLU
/

M_chatbot

Sleeping

minh-4T commited on Apr 11

Commit

75f2cf3

1 Parent(s): 7ec7351

compile regex and multi-threaded

Files changed (3) hide show

core/qa_pipeline.py CHANGED Viewed

@@ -12,6 +12,7 @@ from .prompting import create_advanced_prompt
 from .retriever import HybridRetriever
 from .analyze_and_expand import analyze_and_expand_query
 from .llm_utils import safe_invoke, safe_stream
 logger = logging.getLogger(__name__)
@@ -315,22 +316,24 @@ def ask_ai_stream_delta(message: str, history: List, hybrid_retriever) -> Genera
     def fetch_docs(year_hint):
         docs_temp = []
         seen_temp = set()
-        for query in queries:
             current_alpha = 0.4 if "CNTT" in query.upper() else 0.5
-            retrieved = hybrid_retriever.search(
-                query,
-                k=TOP_K_RESULTS,
-                alpha=current_alpha,
-                year_scope=year_hint
-            )
             for doc in retrieved:
                 content_hash = hashlib.sha256(doc.page_content.encode("utf-8")).hexdigest()
                 if content_hash not in seen_temp:
                     docs_temp.append(doc)
                     seen_temp.add(content_hash)
         return docs_temp
     # Tìm tài liệu
     # Cố gắng tìm tài liệu khớp chính xác với năm học người dùng nhắc đến
     all_docs = fetch_docs(year_scope_hint)

 from .retriever import HybridRetriever
 from .analyze_and_expand import analyze_and_expand_query
 from .llm_utils import safe_invoke, safe_stream
+import concurrent.futures
 logger = logging.getLogger(__name__)
     def fetch_docs(year_hint):
         docs_temp = []
         seen_temp = set()
+        def single_search(query):
             current_alpha = 0.4 if "CNTT" in query.upper() else 0.5
+            return hybrid_retriever.search(query, k=TOP_K_RESULTS, alpha=current_alpha, year_scope=year_hint)
+        # Bắn đồng loạt các truy vấn cùng 1 lúc
+        with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
+            results = executor.map(single_search, queries)
+        for retrieved in results:
             for doc in retrieved:
+                # Tối ưu: Dùng id của Qdrant (nếu có) hoặc hash nội dung
                 content_hash = hashlib.sha256(doc.page_content.encode("utf-8")).hexdigest()
                 if content_hash not in seen_temp:
                     docs_temp.append(doc)
                     seen_temp.add(content_hash)
         return docs_temp
     # Tìm tài liệu
     # Cố gắng tìm tài liệu khớp chính xác với năm học người dùng nhắc đến
     all_docs = fetch_docs(year_scope_hint)

core/rerank.py CHANGED Viewed

@@ -8,10 +8,15 @@ logger = logging.getLogger(__name__)
 def advanced_rerank(question: str, docs: List, top_k: int = 5) -> List:
     if not docs:
         return []
-    logger.info("Đang rerank %s tài liệu với Cross-Encoder...", len(docs))
-    pairs = [(question, (doc.page_content or "")[:MAX_RERANK_CHARS]) for doc in docs]
     scores = cross_encoder.predict(pairs, show_progress_bar=False)
-    ranked = sorted(zip(scores, docs), key=lambda x: x[0], reverse=True)
     logger.info("Top 3 điểm: %s", [f"{s:.3f}" for s, _ in ranked[:3]])
     return [doc for score, doc in ranked[:top_k]]

 def advanced_rerank(question: str, docs: List, top_k: int = 5) -> List:
     if not docs:
         return []
+    MAX_DOCS_TO_RERANK = 15
+    pruned_docs = docs[:MAX_DOCS_TO_RERANK]
+    logger.info("Đang rerank %s tài liệu với Cross-Encoder...", len(pruned_docs))
+    pairs = [(question, (doc.page_content or "")[:MAX_RERANK_CHARS]) for doc in pruned_docs]
     scores = cross_encoder.predict(pairs, show_progress_bar=False)
+    ranked = sorted(zip(scores, pruned_docs), key=lambda x: x[0], reverse=True)
     logger.info("Top 3 điểm: %s", [f"{s:.3f}" for s, _ in ranked[:3]])
     return [doc for score, doc in ranked[:top_k]]

core/text_utils.py CHANGED Viewed

@@ -1,24 +1,34 @@
 import re
 def clean_text(text: str) -> str:
     if not text or not text.strip():
         return ""
     # Nối các từ bị gãy ngang do xuống dòng
-    text = re.sub(r'(\w+)-\s*\n\s*(\w+)', r'\1\2', text)
     # \| và < > vào để bảo vệ khung Bảng Markdown và các Placeholder
-    text = re.sub(r'[^\w\s\.,;:!?\-$$\"\'\À-ỹ\n\|<>]', ' ', text)
     # Chuẩn hóa khoảng trắng
-    text = re.sub(r'[ \t]+', ' ', text)
-    text = re.sub(r' +\n', '\n', text)
-    text = re.sub(r'\n +', '\n', text)
     # Giới hạn tối đa 2 dòng trống liên tiếp
-    text = re.sub(r'\n{3,}', '\n\n', text)
     # Sửa lỗi dư khoảng trắng trước dấu câu
-    text = re.sub(r'\s+([.,;:!?])', r'\1', text)
     return text.strip()

 import re
+#Compile regex patterns một lần toàn cục - tránh recompile mỗi lần gọi
+_HYPHENATED_WORD_PATTERN = re.compile(r'(\w+)-\s*\n\s*(\w+)')
+_INVALID_CHARS_PATTERN = re.compile(r'[^\w\s\.,;:!?\-$$\"\'\À-ỹ\n\|<>]')
+_MULTIPLE_SPACES_PATTERN = re.compile(r'[ \t]+')
+_SPACE_BEFORE_NEWLINE_PATTERN = re.compile(r' +\n')
+_SPACE_AFTER_NEWLINE_PATTERN = re.compile(r'\n +')
+_MULTIPLE_NEWLINES_PATTERN = re.compile(r'\n{3,}')
+_SPACE_BEFORE_PUNCTUATION_PATTERN = re.compile(r'\s+([.,;:!?])')
 def clean_text(text: str) -> str:
     if not text or not text.strip():
         return ""
     # Nối các từ bị gãy ngang do xuống dòng
+    text = _HYPHENATED_WORD_PATTERN.sub(r'\1\2', text)
     # \| và < > vào để bảo vệ khung Bảng Markdown và các Placeholder
+    text = _INVALID_CHARS_PATTERN.sub(' ', text)
     # Chuẩn hóa khoảng trắng
+    text = _MULTIPLE_SPACES_PATTERN.sub(' ', text)
+    text = _SPACE_BEFORE_NEWLINE_PATTERN.sub('\n', text)
+    text = _SPACE_AFTER_NEWLINE_PATTERN.sub('\n', text)
     # Giới hạn tối đa 2 dòng trống liên tiếp
+    text = _MULTIPLE_NEWLINES_PATTERN.sub('\n\n', text)
     # Sửa lỗi dư khoảng trắng trước dấu câu
+    text = _SPACE_BEFORE_PUNCTUATION_PATTERN.sub(r'\1', text)
     return text.strip()