Spaces:

TradaAI
/

Chatopus

Running

App Files Files Community

VietCat commited on Jul 29, 2025

Commit

d79c9dd

1 Parent(s): 01775a7

update analyze flow

Browse files

Files changed (3) hide show

app/constants.py +1 -1
app/llm.py +16 -11
app/message_processor.py +53 -29

app/constants.py CHANGED Viewed

@@ -192,4 +192,4 @@ FOUND_REGULATIONS_MESSAGES = [
 ]
 SHEET_RANGE = 'chat!A2:N'
-VERSION_NUMBER = 123456798

 ]
 SHEET_RANGE = 'chat!A2:N'
+VERSION_NUMBER = 123456799

app/llm.py CHANGED Viewed

@@ -370,17 +370,16 @@ class LLMClient:
         Bạn là một chuyên gia phân tích ngôn ngữ tự nhiên (NLP) chuyên xử lý các câu hỏi về luật giao thông Việt Nam. Nhiệm vụ của bạn là đọc kỹ **lịch sử trò chuyện** và **câu hỏi mới nhất** của người dùng để trích xuất thông tin vào một cấu trúc JSON duy nhất. Chỉ trả về đối tượng JSON, không thêm bất kỳ giải thích nào.
         Định dạng JSON bắt buộc:
         {{
             "muc_dich": "...",
             "phuong_tien": "...",
-            "tu_khoa": "...",
             "cau_hoi": "..."
         }}
         Hướng dẫn chi tiết cho từng trường:
-        **muc_dich**: Phải là một trong các giá trị sau:
         - "hỏi về mức phạt"
         - "hỏi về quy tắc giao thông"
         - "hỏi về báo hiệu đường bộ"
@@ -388,23 +387,29 @@ class LLMClient:
         - "thông tin cá nhân của AI"
         - "khác"
-        **Phải dựa vào câu hỏi mới nhất để xác định.**
         **phuong_tien**: Tên phương tiện được đề cập trong câu hỏi mới hoặc trong lịch sử gần nhất. Nếu không có, để chuỗi rỗng "".
-        **tu_khoa**: Là cụm từ hoặc từ khóa ngắn gọn và phù hợp nhất để **tìm kiếm nội dung liên quan đến câu hỏi**. Có thể là tên hành vi vi phạm, thuật ngữ pháp lý, hoặc khái niệm về quy tắc/báo hiệu/vi phạm. Nếu không có thông tin rõ ràng, để chuỗi rỗng "".
         **cau_hoi**: Diễn đạt lại câu hỏi mới nhất của người dùng thành một câu hỏi hoàn chỉnh, kết hợp ngữ cảnh từ lịch sử nếu cần, sử dụng đúng thuật ngữ pháp lý.
         VÍ DỤ MẪU:
-        Câu hỏi đầu vào: "ô tô vượt đèn đỏ phạt nhiêu?"
         Kết quả JSON mong muốn:
         {{
             "muc_dich": "hỏi về mức phạt",
-            "phuong_tien": "Ô tô",
-            "tu_khoa": "Không chấp hành hiệu lệnh của đèn tín hiệu giao thông",
-            "cau_hoi": "Mức xử phạt cho hành vi ô tô không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
         }}
         Bây giờ, hãy phân tích lịch sử và câu hỏi sau và chỉ trả về đối tượng JSON.
@@ -412,7 +417,7 @@ class LLMClient:
         Lịch sử trò chuyện:
         "{conversation_context}"
-        Câu hỏi:
         "{text}"
         """.strip()

         Bạn là một chuyên gia phân tích ngôn ngữ tự nhiên (NLP) chuyên xử lý các câu hỏi về luật giao thông Việt Nam. Nhiệm vụ của bạn là đọc kỹ **lịch sử trò chuyện** và **câu hỏi mới nhất** của người dùng để trích xuất thông tin vào một cấu trúc JSON duy nhất. Chỉ trả về đối tượng JSON, không thêm bất kỳ giải thích nào.
         Định dạng JSON bắt buộc:
         {{
             "muc_dich": "...",
             "phuong_tien": "...",
+            "tu_khoa": [...],
             "cau_hoi": "..."
         }}
         Hướng dẫn chi tiết cho từng trường:
+        **muc_dich**: Phải là một trong các giá trị sau, dựa vào **câu hỏi mới nhất**:
         - "hỏi về mức phạt"
         - "hỏi về quy tắc giao thông"
         - "hỏi về báo hiệu đường bộ"
         - "thông tin cá nhân của AI"
         - "khác"
         **phuong_tien**: Tên phương tiện được đề cập trong câu hỏi mới hoặc trong lịch sử gần nhất. Nếu không có, để chuỗi rỗng "".
+        **tu_khoa**: **MỘT DANH SÁCH (LIST) các thuật ngữ pháp lý** ngắn gọn, chính xác nhất để tìm kiếm trong cơ sở dữ liệu luật.
+        - **Chuyển đổi ngôn ngữ**: Chuyển đổi ngôn ngữ đời thường của người dùng (ví dụ: "vượt đèn đỏ") thành thuật ngữ pháp lý chính xác (ví dụ: "Không chấp hành hiệu lệnh của đèn tín hiệu giao thông").
+        - **Trích xuất nhiều từ khóa**: Nếu câu hỏi phức tạp, hãy trích xuất nhiều từ khóa liên quan. Ví dụ: "vượt đèn đỏ khi đang say rượu" -> ["Không chấp hành hiệu lệnh của đèn tín hiệu giao thông", "Điều khiển xe trên đường mà trong máu hoặc hơi thở có nồng độ cồn"].
+        - **Xử lý ngữ cảnh không hài lòng**: Đọc kỹ lịch sử. Nếu người dùng hỏi lại hoặc thể hiện không hài lòng (ví dụ: "không phải", "ý tôi là..."), hãy tạo ra một bộ từ khóa **MỚI** và **KHÁC** với các từ khóa đã dùng trong lượt hỏi trước (được ghi trong `(từ khóa đã dùng: ...)` của lịch sử) để tìm kiếm thông tin chính xác hơn.
         **cau_hoi**: Diễn đạt lại câu hỏi mới nhất của người dùng thành một câu hỏi hoàn chỉnh, kết hợp ngữ cảnh từ lịch sử nếu cần, sử dụng đúng thuật ngữ pháp lý.
         VÍ DỤ MẪU:
+        Lịch sử trò chuyện:
+        "Người dùng: xe máy đi vào đường cấm thì sao? (từ khóa đã dùng: đi vào khu vực cấm)
+        Trợ lý: Mức phạt cho hành vi đi vào khu vực cấm là..."
+        Câu hỏi mới nhất: "không phải, ý tôi là đi vào đường cao tốc cơ"
         Kết quả JSON mong muốn:
         {{
             "muc_dich": "hỏi về mức phạt",
+            "phuong_tien": "Xe máy",
+            "tu_khoa": ["Điều khiển xe đi vào đường cao tốc"],
+            "cau_hoi": "Mức xử phạt cho hành vi xe máy đi vào đường cao tốc là bao nhiêu?"
         }}
         Bây giờ, hãy phân tích lịch sử và câu hỏi sau và chỉ trả về đối tượng JSON.
         Lịch sử trò chuyện:
         "{conversation_context}"
+        Câu hỏi mới nhất:
         "{text}"
         """.strip()

app/message_processor.py CHANGED Viewed

@@ -102,29 +102,44 @@ class MessageProcessor:
         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
-        tu_khoa = None
         cau_hoi = None
-        if isinstance(llm_analysis, dict):
-            keywords = [self.normalize_vehicle_keyword(llm_analysis.get('phuong_tien', ''))]
-            muc_dich = llm_analysis.get('muc_dich')
-            tu_khoa = llm_analysis.get('tu_khoa')
-            cau_hoi = llm_analysis.get('cau_hoi')
-        elif isinstance(llm_analysis, list) and len(llm_analysis) > 0:
-            keywords = [self.normalize_vehicle_keyword(llm_analysis[0].get('phuong_tien', ''))]
-            muc_dich = llm_analysis[0].get('muc_dich')
-            tu_khoa = llm_analysis[0].get('tu_khoa')
-            cau_hoi = llm_analysis[0].get('cau_hoi')
         else:
             keywords = extract_keywords(message_text, VEHICLE_KEYWORDS)
             cau_hoi = message_text
             for kw in keywords: cau_hoi = cau_hoi.replace(kw, "")
             cau_hoi = cau_hoi.strip()
-        logger.info(f"[DEBUG] Phương tiện: {keywords} - Hành vi: {tu_khoa} - Mục đích: {muc_dich} - Câu hỏi: {cau_hoi}")
         conv.update({
             'originalcommand': command, 'originalcontent': remaining_text, 'originalvehicle': ','.join(keywords),
-            'originalaction': tu_khoa, 'originalpurpose': muc_dich, 'originalquestion': cau_hoi or ""
         })
         muc_dich_to_use = muc_dich or conv.get('originalpurpose')
@@ -174,22 +189,29 @@ class MessageProcessor:
             return max([self.get_latest_timestamp(item) for item in ts_value]) if ts_value else 0
         return 0
-    def get_llm_history(self, history: List):
         sorted_history = sorted(history, key=lambda row: self.get_latest_timestamp(row.get('timestamp', 0)))
-        total_chars = 0
-        MAX_CONTEXT_CHARS = 20_000
-        conversation_context = []
-        for row in reversed(sorted_history):
-            temp_blocks = []
-            if row.get('originaltext'):
-                temp_blocks.append({"role": "user", "content": row['originaltext']})
-            if row.get('systemresponse'):
-                temp_blocks.append({"role": "assistant", "content": row['systemresponse']})
-            temp_total = sum(len(block['content']) for block in temp_blocks)
-            if total_chars + temp_total > MAX_CONTEXT_CHARS: continue
-            conversation_context = temp_blocks + conversation_context
-            total_chars += temp_total
-        return conversation_context
     def flatten_timestamp(self, ts):
         flat = []
@@ -272,6 +294,7 @@ class MessageProcessor:
         vehicle = conv.get('originalvehicle', '')
         action = conv.get('originalaction', '')
         question = conv.get('originalquestion', '')
         if not action and not question:
              return "Để tra cứu mức phạt, bạn vui lòng cung cấp hành vi vi phạm nhé."
@@ -285,6 +308,7 @@ class MessageProcessor:
             loop = asyncio.get_event_loop()
             match_count = get_settings().match_count
             matches = await loop.run_in_executor(
                 None,
                 lambda: self.channel.supabase.match_documents(
@@ -300,7 +324,7 @@ class MessageProcessor:
             else:
                 response = "Xin lỗi, tôi không tìm thấy thông tin phù hợp với hành vi bạn mô tả."
         except Exception as e:
-            logger.error(f"Lỗi khi tra cứu mức phạt: {e}")
             response = "Đã có lỗi xảy ra trong quá trình tra cứu. Vui lòng thử lại sau."
         conv['isdone'] = True

         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
+        tu_khoa_list = [] # Sửa: đổi tên thành tu_khoa_list và khởi tạo là list rỗng
         cau_hoi = None
+        # Sửa: Đơn giản hóa logic, vì LLM giờ luôn trả về 1 dict
+        analysis_data = None
+        if isinstance(llm_analysis, list) and llm_analysis:
+            analysis_data = llm_analysis[0]
+        elif isinstance(llm_analysis, dict):
+            analysis_data = llm_analysis
+        if analysis_data:
+            # Lấy phương tiện và chuẩn hóa
+            phuong_tien = self.normalize_vehicle_keyword(analysis_data.get('phuong_tien', ''))
+            keywords = [phuong_tien] if phuong_tien else []
+            muc_dich = analysis_data.get('muc_dich')
+            # Lấy danh sách từ khóa, đảm bảo nó là list
+            raw_tu_khoa = analysis_data.get('tu_khoa', [])
+            if isinstance(raw_tu_khoa, list):
+                tu_khoa_list = raw_tu_khoa
+            elif isinstance(raw_tu_khoa, str) and raw_tu_khoa:
+                tu_khoa_list = [raw_tu_khoa] # Chuyển string thành list 1 phần tử
+            cau_hoi = analysis_data.get('cau_hoi')
         else:
+            # Fallback logic cũ nếu LLM không phân tích được
             keywords = extract_keywords(message_text, VEHICLE_KEYWORDS)
             cau_hoi = message_text
             for kw in keywords: cau_hoi = cau_hoi.replace(kw, "")
             cau_hoi = cau_hoi.strip()
+        # Sửa: Log danh sách từ khóa
+        logger.info(f"[DEBUG] Phương tiện: {keywords} - Từ khóa pháp lý: {tu_khoa_list} - Mục đích: {muc_dich} - Câu hỏi: {cau_hoi}")
         conv.update({
             'originalcommand': command, 'originalcontent': remaining_text, 'originalvehicle': ','.join(keywords),
+            'originalaction': ' '.join(tu_khoa_list), 'originalpurpose': muc_dich, 'originalquestion': cau_hoi or ""
         })
         muc_dich_to_use = muc_dich or conv.get('originalpurpose')
             return max([self.get_latest_timestamp(item) for item in ts_value]) if ts_value else 0
         return 0
+    def get_llm_history(self, history: List[Dict[str, Any]]) -> str:
+        """
+        Định dạng lịch sử hội thoại thành một chuỗi văn bản duy nhất,
+        bao gồm cả các từ khóa đã sử dụng để cung cấp ngữ cảnh cho LLM.
+        """
         sorted_history = sorted(history, key=lambda row: self.get_latest_timestamp(row.get('timestamp', 0)))
+        # Lấy 5 lượt hội thoại gần nhất để tránh context quá dài
+        recent_history = sorted_history[-5:]
+        context_lines = []
+        for row in recent_history:
+            user_text = row.get('originaltext', '').strip()
+            assistant_text = row.get('systemresponse', '').strip()
+            keywords_used = row.get('originalaction', '').strip()
+            if user_text:
+                context_lines.append(f"Người dùng: {user_text} (từ khóa đã dùng: {keywords_used})")
+            if assistant_text:
+                context_lines.append(f"Trợ lý: {assistant_text}")
+        return "\n".join(context_lines)
     def flatten_timestamp(self, ts):
         flat = []
         vehicle = conv.get('originalvehicle', '')
         action = conv.get('originalaction', '')
         question = conv.get('originalquestion', '')
         if not action and not question:
              return "Để tra cứu mức phạt, bạn vui lòng cung cấp hành vi vi phạm nhé."
             loop = asyncio.get_event_loop()
             match_count = get_settings().match_count
             matches = await loop.run_in_executor(
                 None,
                 lambda: self.channel.supabase.match_documents(
             else:
                 response = "Xin lỗi, tôi không tìm thấy thông tin phù hợp với hành vi bạn mô tả."
         except Exception as e:
+            logger.error(f"Lỗi khi tra cứu mức phạt: {e}\n{traceback.format_exc()}")
             response = "Đã có lỗi xảy ra trong quá trình tra cứu. Vui lòng thử lại sau."
         conv['isdone'] = True