Spaces:

VietCat
/

FBChatBot

Sleeping

App Files Files Community

VietCat commited on Jul 26, 2025

Commit

f6866df

1 Parent(s): 56edd5b

add history to analyze

Browse files

Files changed (3) hide show

app/constants.py +1 -1
app/llm.py +10 -8
app/message_processor.py +39 -36

app/constants.py CHANGED Viewed

@@ -192,4 +192,4 @@ FOUND_REGULATIONS_MESSAGES = [
 ]
 SHEET_RANGE = 'chat!A2:N'
-VERSION_NUMBER = 123456789

 ]
 SHEET_RANGE = 'chat!A2:N'
+VERSION_NUMBER = 123456790

app/llm.py CHANGED Viewed

@@ -393,7 +393,8 @@ class LLMClient:
     @timing_decorator_async
     async def analyze(
         self,
-        text: str,
         **kwargs
     ) -> List[Dict[str, Any]]:
         """
@@ -408,7 +409,7 @@ class LLMClient:
         """
         prompt = f"""
-            Nhiệm vụ: Với mỗi câu hỏi, trích xuất thông tin ra một đối tượng JSON duy nhất. Kết quả phải ngắn gọn, chính xác và chỉ sử dụng thuật ngữ trong các văn bản pháp luật.
             Định dạng JSON bắt buộc:
             {{
@@ -420,10 +421,10 @@ class LLMClient:
             Hướng dẫn chi tiết cho từng trường:
-                muc_dich: Phải là một trong các giá trị sau: "hỏi về mức phạt", "hỏi về quy tắc giao thông", "hỏi về báo hiệu đường bộ", "hỏi về quy trình xử lý vi phạm giao thông", "thông tin cá nhân của AI", "khác".
-                phuong_tien: Tên phương tiện nếu có, ngược lại để chuỗi rỗng "".
-                hanh_vi: Nêu tên gọi pháp lý của hành vi của câu hỏi một cách súc tích và trực tiếp nhất. Tuyệt đối không diễn giải dài dòng hoặc dùng thuật ngữ đời thường
-                cau_hoi: Diễn đạt lại thành một câu hỏi ngắn gọn và trực tiếp về mục đích đã xác định, sử dụng đúng thuật ngữ pháp lý.
             VÍ DỤ MẪU:
@@ -436,8 +437,9 @@ class LLMClient:
                 "cau_hoi": "Mức xử phạt cho hành vi ô tô không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
             }}
-            BÂY GIỜ, ÁP DỤNG VỚI CÂU HỎI SAU:
             Câu hỏi:
             \"{text}\"

     @timing_decorator_async
     async def analyze(
         self,
+        text: str,
+        conversation_context: str,
         **kwargs
     ) -> List[Dict[str, Any]]:
         """
         """
         prompt = f"""
+            Bạn là một chuyên gia phân tích ngôn ngữ tự nhiên (NLP) chuyên xử lý các câu hỏi về luật giao thông Việt Nam. Nhiệm vụ của bạn là đọc kỹ **lịch sử trò chuyện** và **câu hỏi mới nhất** của người dùng để trích xuất thông tin vào một cấu trúc JSON duy nhất. Chỉ trả về đối tượng JSON, không thêm bất kỳ giải thích nào.
             Định dạng JSON bắt buộc:
             {{
             Hướng dẫn chi tiết cho từng trường:
+            **muc_dich**: Phải là một trong các giá trị sau: "hỏi về mức phạt", "hỏi về quy tắc giao thông", "hỏi về báo hiệu đường bộ", "hỏi về quy trình xử lý vi phạm giao thông", "thông tin cá nhân của AI", "khác". **Phải dựa vào câu hỏi mới nhất để xác định.**
+            **phuong_tien**: Tên phương tiện được đề cập trong câu hỏi mới hoặc trong lịch sử gần nhất. Nếu không có, để chuỗi rỗng "".
+            **hanh_vi**: Tên gọi pháp lý của hành vi. **Sử dụng lịch sử trò chuyện để xác định hành vi nếu câu hỏi mới không đề cập đến.** Nếu không có hành vi cụ thể, để chuỗi rỗng "".
+            **cau_hoi**: Diễn đạt lại câu hỏi mới nhất của người dùng thành một câu hỏi hoàn chỉnh, kết hợp ngữ cảnh từ lịch sử nếu cần, sử dụng đúng thuật ngữ pháp lý.
             VÍ DỤ MẪU:
                 "cau_hoi": "Mức xử phạt cho hành vi ô tô không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
             }}
+            Bây giờ, hãy phân tích lịch sử và câu hỏi sau và chỉ trả về đối tượng JSON.
+            Lịch sử trò chuyện:
+            \"{conversation_context}\"
             Câu hỏi:
             \"{text}\"

app/message_processor.py CHANGED Viewed

@@ -112,7 +112,7 @@ class MessageProcessor:
         from app.constants import VEHICLE_KEYWORDS
         command, remaining_text = extract_command(message_text)
-        llm_analysis = await self.channel.llm.analyze(message_text)
         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
@@ -148,41 +148,7 @@ class MessageProcessor:
         muc_dich_to_use = muc_dich or conv.get('originalpurpose')
         logger.info(f"[DEBUG] Định hướng mục đích xử lý: {muc_dich_to_use}")
-        MAX_CONTEXT_CHARS = 20_000
-        conversation_context = []
-        total_chars = 0
-        def get_latest_timestamp(ts_value):
-            if isinstance(ts_value, (int, float)): return int(ts_value)
-            if isinstance(ts_value, str):
-                try: return int(json.loads(ts_value))
-                except:
-                    try: return int(ts_value)
-                    except: return 0
-            if isinstance(ts_value, list):
-                if not ts_value: return 0
-                return max([get_latest_timestamp(item) for item in ts_value]) if ts_value else 0
-            return 0
-        sorted_history = sorted(history, key=lambda row: get_latest_timestamp(row.get('timestamp', 0)))
-        for row in reversed(sorted_history):
-            temp_blocks = []
-            # --- SỬA LỖI THỨ TỰ LỊCH SỬ TẠI ĐÂY ---
-            # Đảm bảo lượt nói của user luôn được thêm vào trước.
-            if row.get('originaltext'):
-                temp_blocks.append({"role": "user", "content": row['originaltext']})
-            # Lượt nói của trợ lý ảo được thêm vào sau.
-            if row.get('systemresponse'):
-                temp_blocks.append({"role": "assistant", "content": row['systemresponse']})
-            temp_total = sum(len(block['content']) for block in temp_blocks)
-            if total_chars + temp_total > MAX_CONTEXT_CHARS: continue
-            # Thêm cặp hỏi-đáp vào đầu danh sách context, duy trì thứ tự thời gian
-            conversation_context = temp_blocks + conversation_context
-            total_chars += temp_total
         response = None
         if not command:
@@ -217,6 +183,43 @@ class MessageProcessor:
         logger.info(f"Chuẩn bị ghi/cập nhật dữ liệu cuối cùng vào sheet: {conv}")
         await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**conv))
         return
     def flatten_timestamp(self, ts):
         flat = []

         from app.constants import VEHICLE_KEYWORDS
         command, remaining_text = extract_command(message_text)
+        llm_analysis = await self.channel.llm.analyze(message_text, self.get_llm_history(history))
         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
         muc_dich_to_use = muc_dich or conv.get('originalpurpose')
         logger.info(f"[DEBUG] Định hướng mục đích xử lý: {muc_dich_to_use}")
+        conversation_context = self.get_llm_history(history)
         response = None
         if not command:
         logger.info(f"Chuẩn bị ghi/cập nhật dữ liệu cuối cùng vào sheet: {conv}")
         await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**conv))
         return
+    def get_latest_timestamp(self,ts_value):
+            if isinstance(ts_value, (int, float)): return int(ts_value)
+            if isinstance(ts_value, str):
+                try: return int(json.loads(ts_value))
+                except:
+                    try: return int(ts_value)
+                    except: return 0
+            if isinstance(ts_value, list):
+                if not ts_value: return 0
+                return max([self.get_latest_timestamp(item) for item in ts_value]) if ts_value else 0
+            return 0
+    def get_llm_history(self, history: List):
+        sorted_history = sorted(history, key=lambda row: self.get_latest_timestamp(row.get('timestamp', 0)))
+        total_chars = 0
+        MAX_CONTEXT_CHARS = 20_000
+        conversation_context = []
+        for row in reversed(sorted_history):
+            temp_blocks = []
+            # --- SỬA LỖI THỨ TỰ LỊCH SỬ TẠI ĐÂY ---
+            # Đảm bảo lượt nói của user luôn được thêm vào trước.
+            if row.get('originaltext'):
+                temp_blocks.append({"role": "user", "content": row['originaltext']})
+            # Lượt nói của trợ lý ảo được thêm vào sau.
+            if row.get('systemresponse'):
+                temp_blocks.append({"role": "assistant", "content": row['systemresponse']})
+            temp_total = sum(len(block['content']) for block in temp_blocks)
+            if total_chars + temp_total > MAX_CONTEXT_CHARS: continue
+            # Thêm cặp hỏi-đáp vào đầu danh sách context, duy trì thứ tự thời gian
+            conversation_context = temp_blocks + conversation_context
+            total_chars += temp_total
+        return conversation_context
     def flatten_timestamp(self, ts):
         flat = []