Spaces:

TradaAI
/

Chatopus

Running

App Files Files Community

VietCat commited on Jul 8, 2025

Commit

536792d

1 Parent(s): aa8cb73

update new hybrid match_documents

Browse files

Files changed (4) hide show

app/llm.py +1 -1
app/main.py +23 -19
app/reranker.py +3 -3
app/supabase_db.py +11 -3

app/llm.py CHANGED Viewed

@@ -412,7 +412,7 @@ class LLMClient:
             {{
                 "muc_dich": "mục đích của câu hỏi",
-                "phuong_tien": "loại phương tiện giao thông (nếu có)",
                 "hanh_vi_vi_pham": "hành vi vi phạm pháp luật giao thông"
             }}

             {{
                 "muc_dich": "mục đích của câu hỏi",
+                "phuong_tien": "loại phương tiện giao thông (xe máy, ô tô, xe tải, người đi bộ...)",
                 "hanh_vi_vi_pham": "hành vi vi phạm pháp luật giao thông"
             }}

app/main.py CHANGED Viewed

@@ -372,7 +372,11 @@ async def process_business_logic(log_kwargs: Dict[str, Any], page_token: str) ->
                 logger.info(f"[DEBUG] tạo embedding: {action}")
                 embedding = await embedding_client.create_embedding(action)
                 logger.info(f"[DEBUG] embedding: {embedding[:5]} ... (total {len(embedding)})")
-                matches = supabase_client.match_documents(embedding, vehicle_keywords=keywords)
                 logger.info(f"[DEBUG] matches: {matches}")
                 if matches:
                     response = await format_search_results(message, matches, page_token, log_kwargs['recipient_id'])
@@ -438,21 +442,21 @@ async def format_search_results(question: str, matches: List[Dict[str, Any]], pa
         hanhvi = (tieude + "\n" + noidung).strip().replace('\n', ' ')
         full_result_text += f"Thực hiện hành vi:\n{hanhvi}"
         # Cá nhân bị phạt tiền
-        canhantu = arr_to_str(match.get('canhantu'))
-        canhanden = arr_to_str(match.get('canhanden'))
         if canhantu or canhanden:
             full_result_text += f"\nCá nhân sẽ bị phạt tiền từ {canhantu} VNĐ đến {canhanden} VNĐ"
         # Tổ chức bị phạt tiền
-        tochuctu = arr_to_str(match.get('tochuctu'))
-        tochucden = arr_to_str(match.get('tochucden'))
         if tochuctu or tochucden:
             full_result_text += f"\nTổ chức sẽ bị phạt tiền từ {tochuctu} VNĐ đến {tochucden} VNĐ"
         # Hình phạt bổ sung
-        hpbsnoidung = arr_to_str(match.get('hpbsnoidung'), sep="; ")
         if hpbsnoidung:
             full_result_text += f"\nNgoài việc bị phạt tiền, người vi phạm còn bị: {hpbsnoidung}"
         # Biện pháp khắc phục hậu quả
-        bpkpnoidung = arr_to_str(match.get('bpkpnoidung'), sep="; ")
         if bpkpnoidung:
             full_result_text += f"\nNgoài ra, người vi phạm còn bị buộc: {bpkpnoidung}"
@@ -461,18 +465,18 @@ async def format_search_results(question: str, matches: List[Dict[str, Any]], pa
         noidung = (top.get('noidung') or '').strip()
         hanhvi = (tieude + "\n" + noidung).strip().replace('\n', ' ')
         top_result_text += f"Thực hiện hành vi:\n{hanhvi}"
-        canhantu = arr_to_str(top.get('canhantu'))
-        canhanden = arr_to_str(top.get('canhanden'))
         if canhantu or canhanden:
             top_result_text += f"\nCá nhân sẽ bị phạt tiền từ {canhantu} VNĐ đến {canhanden} VNĐ"
-        tochuctu = arr_to_str(top.get('tochuctu'))
-        tochucden = arr_to_str(top.get('tochucden'))
         if tochuctu or tochucden:
             top_result_text += f"\nTổ chức sẽ bị phạt tiền từ {tochuctu} VNĐ đến {tochucden} VNĐ"
-        hpbsnoidung = arr_to_str(top.get('hpbsnoidung'), sep="; ")
         if hpbsnoidung:
             top_result_text += f"\nNgoài việc bị phạt tiền, người vi phạm còn bị: {hpbsnoidung}"
-        bpkpnoidung = arr_to_str(top.get('bpkpnoidung'), sep="; ")
         if bpkpnoidung:
             top_result_text += f"\nNgoài ra, người vi phạm còn bị buộc: {bpkpnoidung}"
     else:
@@ -506,18 +510,18 @@ async def format_search_results(question: str, matches: List[Dict[str, Any]], pa
         noidung = (match.get('noidung') or '').strip()
         if tieude or noidung:
             fallback += f"  - Hành vi: {(tieude + ' ' + noidung).strip()}\n"
-        canhantu = arr_to_str(match.get('canhantu'))
-        canhanden = arr_to_str(match.get('canhanden'))
         if canhantu or canhanden:
             fallback += f"  - Cá nhân bị phạt tiền từ {canhantu} VNĐ đến {canhanden} VNĐ\n"
-        tochuctu = arr_to_str(match.get('tochuctu'))
-        tochucden = arr_to_str(match.get('tochucden'))
         if tochuctu or tochucden:
             fallback += f"  - Tổ chức bị phạt tiền từ {tochuctu} VNĐ đến {tochucden} VNĐ\n"
-        hpbsnoidung = arr_to_str(match.get('hpbsnoidung'), sep="; ")
         if hpbsnoidung:
             fallback += f"  - Hình phạt bổ sung: {hpbsnoidung}\n"
-        bpkpnoidung = arr_to_str(match.get('bpkpnoidung'), sep="; ")
         if bpkpnoidung:
             fallback += f"  - Biện pháp khắc phục hậu quả: {bpkpnoidung}\n"
         fallback += "\n"

                 logger.info(f"[DEBUG] tạo embedding: {action}")
                 embedding = await embedding_client.create_embedding(action)
                 logger.info(f"[DEBUG] embedding: {embedding[:5]} ... (total {len(embedding)})")
+                matches = supabase_client.match_documents(
+                    embedding,
+                    vehicle_keywords=keywords,
+                    user_question=action
+                )
                 logger.info(f"[DEBUG] matches: {matches}")
                 if matches:
                     response = await format_search_results(message, matches, page_token, log_kwargs['recipient_id'])
         hanhvi = (tieude + "\n" + noidung).strip().replace('\n', ' ')
         full_result_text += f"Thực hiện hành vi:\n{hanhvi}"
         # Cá nhân bị phạt tiền
+        canhantu = arr_to_str(match.get('canhanTu'))
+        canhanden = arr_to_str(match.get('canhanDen'))
         if canhantu or canhanden:
             full_result_text += f"\nCá nhân sẽ bị phạt tiền từ {canhantu} VNĐ đến {canhanden} VNĐ"
         # Tổ chức bị phạt tiền
+        tochuctu = arr_to_str(match.get('tochucTu'))
+        tochucden = arr_to_str(match.get('tochucDen'))
         if tochuctu or tochucden:
             full_result_text += f"\nTổ chức sẽ bị phạt tiền từ {tochuctu} VNĐ đến {tochucden} VNĐ"
         # Hình phạt bổ sung
+        hpbsnoidung = arr_to_str(match.get('hpbsNoidung'), sep="; ")
         if hpbsnoidung:
             full_result_text += f"\nNgoài việc bị phạt tiền, người vi phạm còn bị: {hpbsnoidung}"
         # Biện pháp khắc phục hậu quả
+        bpkpnoidung = arr_to_str(match.get('bpkpNoidung'), sep="; ")
         if bpkpnoidung:
             full_result_text += f"\nNgoài ra, người vi phạm còn bị buộc: {bpkpnoidung}"
         noidung = (top.get('noidung') or '').strip()
         hanhvi = (tieude + "\n" + noidung).strip().replace('\n', ' ')
         top_result_text += f"Thực hiện hành vi:\n{hanhvi}"
+        canhantu = arr_to_str(top.get('canhanTu'))
+        canhanden = arr_to_str(top.get('canhanDen'))
         if canhantu or canhanden:
             top_result_text += f"\nCá nhân sẽ bị phạt tiền từ {canhantu} VNĐ đến {canhanden} VNĐ"
+        tochuctu = arr_to_str(top.get('tochucTu'))
+        tochucden = arr_to_str(top.get('tochucDen'))
         if tochuctu or tochucden:
             top_result_text += f"\nTổ chức sẽ bị phạt tiền từ {tochuctu} VNĐ đến {tochucden} VNĐ"
+        hpbsnoidung = arr_to_str(top.get('hpbsNoidung'), sep="; ")
         if hpbsnoidung:
             top_result_text += f"\nNgoài việc bị phạt tiền, người vi phạm còn bị: {hpbsnoidung}"
+        bpkpnoidung = arr_to_str(top.get('bpkpNoidung'), sep="; ")
         if bpkpnoidung:
             top_result_text += f"\nNgoài ra, người vi phạm còn bị buộc: {bpkpnoidung}"
     else:
         noidung = (match.get('noidung') or '').strip()
         if tieude or noidung:
             fallback += f"  - Hành vi: {(tieude + ' ' + noidung).strip()}\n"
+        canhantu = arr_to_str(match.get('canhanTu'))
+        canhanden = arr_to_str(match.get('canhanDen'))
         if canhantu or canhanden:
             fallback += f"  - Cá nhân bị phạt tiền từ {canhantu} VNĐ đến {canhanden} VNĐ\n"
+        tochuctu = arr_to_str(match.get('tochucTu'))
+        tochucden = arr_to_str(match.get('tochucDen'))
         if tochuctu or tochucden:
             fallback += f"  - Tổ chức bị phạt tiền từ {tochuctu} VNĐ đến {tochucden} VNĐ\n"
+        hpbsnoidung = arr_to_str(match.get('hpbsNoidung'), sep="; ")
         if hpbsnoidung:
             fallback += f"  - Hình phạt bổ sung: {hpbsnoidung}\n"
+        bpkpnoidung = arr_to_str(match.get('bpkpNoidung'), sep="; ")
         if bpkpnoidung:
             fallback += f"  - Biện pháp khắc phục hậu quả: {bpkpnoidung}\n"
         fallback += "\n"

app/reranker.py CHANGED Viewed

@@ -58,9 +58,9 @@ class Reranker:
         if not docs:
             return []
-        # Giới hạn số docs để rerank (tối đa 10 docs)
-        docs_to_rerank = docs[:10] if len(docs) > 10 else docs
-        logger.info(f"[RERANK] Will rerank {len(docs_to_rerank)} docs (limited from {len(docs)})")
         # Process docs với concurrency
         batch_size = 5  # Process 5 docs cùng lúc

         if not docs:
             return []
+        # Rerank toàn bộ docs, không giới hạn 10 docs
+        docs_to_rerank = docs
+        logger.info(f"[RERANK] Will rerank {len(docs_to_rerank)} docs (no limit)")
         # Process docs với concurrency
         batch_size = 5  # Process 5 docs cùng lúc

app/supabase_db.py CHANGED Viewed

@@ -32,17 +32,25 @@ class SupabaseClient:
             return None
     @timing_decorator_sync
-    def match_documents(self, embedding: List[float], match_count: int = 20, vehicle_keywords: Optional[List[str]] = None):
         """
         Truy vấn vector similarity search qua RPC match_documents.
         Input: embedding (list[float]), match_count (int), vehicle_keywords (list[str] hoặc None)
         Output: list[dict] kết quả truy vấn.
         """
         try:
             payload = {
                 'query_embedding': embedding,
-                'match_threshold': 0.1,
-                'match_count': match_count
             }
             if vehicle_keywords:
                 vehicle_columns = [VEHICLE_KEYWORD_TO_COLUMN[k] for k in vehicle_keywords if k in VEHICLE_KEYWORD_TO_COLUMN]

             return None
     @timing_decorator_sync
+    def match_documents(self, embedding: List[float], match_count: int = 20, vehicle_keywords: Optional[List[str]] = None, user_question: str = '', min_rank_threshold: float = 0.05, rrf_k: int = 60):
         """
         Truy vấn vector similarity search qua RPC match_documents.
         Input: embedding (list[float]), match_count (int), vehicle_keywords (list[str] hoặc None)
         Output: list[dict] kết quả truy vấn.
         """
+        # Chuẩn bị chuỗi truy vấn trong Python
+        # Tách từ và nối bằng '|'
+        or_query_tsquery = " | ".join(user_question.split())
         try:
             payload = {
+                'or_query_tsquery': or_query_tsquery,
                 'query_embedding': embedding,
+                'match_count': match_count,
+                'min_rank_threshold': min_rank_threshold,
+                'vehicle_filters': None,
+                'rrf_k': rrf_k
             }
             if vehicle_keywords:
                 vehicle_columns = [VEHICLE_KEYWORD_TO_COLUMN[k] for k in vehicle_keywords if k in VEHICLE_KEYWORD_TO_COLUMN]