Spaces:

TradaAI
/

Chatopus

Sleeping

App Files Files Community

VietCat commited on Aug 25, 2025

Commit

d86fb66

1 Parent(s): 35bff16

fix reranking error

Browse files

Files changed (1) hide show

app/reranker.py +35 -22

app/reranker.py CHANGED Viewed

@@ -143,12 +143,17 @@ class Reranker:
             content = (doc.get("fullcontent") or "").strip()
             docs_content.append(f"{i+1}. {content}")
         batch_prompt = (
-            f"Đánh giá mức độ liên quan giữa câu hỏi và các đoạn luật sau:\n\n"
             f"Câu hỏi: {query}\n\n"
-            f"Các đoạn luật:\n" + "\n".join(docs_content) + "\n\n"
-            f"Trả về điểm số từ 0-10 cho từng đoạn, phân cách bằng dấu phẩy.\n"
-            f"Ví dụ: 8,5,7,3,9"
         )
         try:
@@ -162,31 +167,38 @@ class Reranker:
                 )
                 logger.info(f"[RERANK] Got batch scores from Gemini: {response}")
-                # --- START: Cải thiện logic trích xuất điểm ---
                 scores_text = str(response).strip()
                 scores_line = ""
                 score_strings = []
-                # Ưu tiên tìm dòng có "Kết quả:" hoặc các từ khóa tương tự
-                match = re.search(
-                    r"(?i)(?:Kết quả:|Scores:|Scores\s*:|Trả về:)\s*([0-9.,\s]+)$",
-                    scores_text,
-                    re.MULTILINE,
-                )
-                if match:
-                    scores_line = match.group(1)
-                    logger.debug(
-                        f"[RERANK] Found scores line using keyword: '{scores_line}'"
                     )
-                else:
-                    # Fallback: tìm dòng cuối cùng chỉ chứa số, dấu phẩy, và khoảng trắng
-                    lines = scores_text.split("\n")
                     for line in reversed(lines):
                         line = line.strip()
-                        if line and re.match(r"^[0-9.,\s]+$", line):
-                            scores_line = line
                             logger.debug(
-                                f"[RERANK] Found scores line using fallback pattern: '{scores_line}'"
                             )
                             break
@@ -194,11 +206,12 @@ class Reranker:
                     # Trích xuất tất cả các số từ dòng đã tìm thấy
                     score_strings = re.findall(r"\b\d+(?:\.\d+)?\b", scores_line)
                 else:
                     logger.warning(
                         "[RERANK] Could not find a dedicated score line. Falling back to parsing all numbers from response."
                     )
                     score_strings = re.findall(r"\b\d+(?:\.\d+)?\b", scores_text)
-                # --- END: Cải thiện logic trích xuất điểm ---
                 scores = []
                 for s in score_strings:

             content = (doc.get("fullcontent") or "").strip()
             docs_content.append(f"{i+1}. {content}")
+        # Sửa: Prompt được làm chặt chẽ hơn để yêu cầu LLM chỉ trả về điểm số.
         batch_prompt = (
+            "Bạn là một hệ thống đánh giá. Đánh giá mức độ liên quan giữa câu hỏi và các đoạn luật được đánh số sau đây.\n"
+            "QUY TẮC:\n"
+            "1. Chỉ trả về MỘT DÒNG DUY NHẤT.\n"
+            "2. Dòng đó CHỈ chứa danh sách các điểm số (từ 0 đến 10), mỗi điểm tương ứng với một đoạn luật.\n"
+            "3. Các điểm số phải được phân cách bởi dấu phẩy.\n"
+            "4. KHÔNG giải thích, KHÔNG định dạng markdown, KHÔNG thêm bất kỳ văn bản nào khác.\n\n"
             f"Câu hỏi: {query}\n\n"
+            "Các đoạn luật:\n" + "\n".join(docs_content) + "\n\n"
+            "ĐIỂM SỐ:"
         )
         try:
                 )
                 logger.info(f"[RERANK] Got batch scores from Gemini: {response}")
+                # --- START: Cải thiện logic trích xuất điểm (Sửa lỗi) ---
                 scores_text = str(response).strip()
                 scores_line = ""
                 score_strings = []
+                # Tách response thành các dòng
+                lines = scores_text.split("\n")
+                # Ưu tiên 1: Tìm dòng cuối cùng chỉ chứa số, dấu phẩy, khoảng trắng.
+                # Đây là trường hợp lý tưởng khi LLM tuân thủ prompt nghiêm ngặt.
+                for line in reversed(lines):
+                    line = line.strip()
+                    if line and re.fullmatch(r"[0-9.,\s]+", line):
+                        scores_line = line
+                        logger.debug(
+                            f"[RERANK] Found pure score line (best case): '{scores_line}'"
+                        )
+                        break
+                # Ưu tiên 2: Nếu không tìm thấy, tìm dòng có chứa keyword và điểm số.
+                # Regex này linh hoạt hơn để xử lý markdown và các biến thể keyword.
+                if not scores_line:
+                    keyword_regex = (
+                        r"(?i)(?:Kết quả|Scores|Trả về|Điểm số)[\s\*:]*([0-9.,\s]+)$"
                     )
                     for line in reversed(lines):
                         line = line.strip()
+                        match = re.search(keyword_regex, line)
+                        if match:
+                            scores_line = match.group(1).strip()
                             logger.debug(
+                                f"[RERANK] Found scores line using keyword regex: '{scores_line}'"
                             )
                             break
                     # Trích xuất tất cả các số từ dòng đã tìm thấy
                     score_strings = re.findall(r"\b\d+(?:\.\d+)?\b", scores_line)
                 else:
+                    # Fallback cuối cùng: tìm số trong toàn bộ response nếu các phương pháp trên thất bại.
                     logger.warning(
                         "[RERANK] Could not find a dedicated score line. Falling back to parsing all numbers from response."
                     )
                     score_strings = re.findall(r"\b\d+(?:\.\d+)?\b", scores_text)
+                # --- END: Cải thiện logic trích xuất điểm (Sửa lỗi) ---
                 scores = []
                 for s in score_strings: