Spaces:

VietCat
/

FBChatBot

Sleeping

App Files Files Community

VietCat commited on Jul 26, 2025

Commit

0dfd3e3

1 Parent(s): e6bc1bf

quick fix timestamp

Browse files

Files changed (2) hide show

app/message_processor.py +111 -189
app/sheets.py +107 -69

app/message_processor.py CHANGED Viewed

@@ -1,7 +1,7 @@
 from typing import Dict, Any, List, Optional
 import asyncio
 import traceback
-import json # <<< THÊM DÒNG NÀY
 from loguru import logger
 from .constants import SUMMARY_STATUS_MESSAGES, PROCESSING_STATUS_MESSAGES, FOUND_REGULATIONS_MESSAGES, BATCH_STATUS_MESSAGES
 from .utils import get_random_message
@@ -22,8 +22,6 @@ class MessageProcessor:
         )
     async def process_message(self, message_data: Dict[str, Any]):
-        # Refactor logic từ main.py vào đây
-        # Lưu ý: self.channel.supabase, self.channel.llm, ...
         if not message_data or not isinstance(message_data, dict):
             logger.error(f"[ERROR] Invalid message_data: {message_data}")
             return
@@ -39,12 +37,10 @@ class MessageProcessor:
         attachments = message_data.get('attachments', [])
         logger.bind(user_id=sender_id, page_id=page_id, message=message_text).info("Processing message")
-        # Nếu không có message_text và attachments, không xử lý
         if not message_text and not attachments:
             logger.info(f"[DEBUG] Không có message_text và attachments, không xử lý...")
             return
-        # Lấy toàn bộ history (không lọc isdone)
         loop = asyncio.get_event_loop()
         sheets_client = self.channel.get_sheets_client()
         history = await loop.run_in_executor(
@@ -52,13 +48,16 @@ class MessageProcessor:
         )
         logger.info(f"[DEBUG] history: {history}")
-        # Chống trùng: nếu đã có bản ghi với sender_id, page_id, timestamp thì bỏ qua
         for row in history:
-            if str(row.get('timestamp')) == str(timestamp) and str(row.get('recipient_id')) == str(sender_id) and str(row.get('page_id')) == str(page_id):
-                logger.info("[DUPLICATE] Message duplicate, skipping log.")
-                return
-        # Luôn lưu mỗi message thành 1 bản ghi mới
         log_kwargs = {
             'conversation_id': None,
             'recipient_id': sender_id,
@@ -77,31 +76,27 @@ class MessageProcessor:
         }
         logger.info(f"[DEBUG] Message cơ bản: {log_kwargs}")
-        conv = None
         conv = await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**log_kwargs))
         if not conv:
             logger.error("Không thể tạo conversation mới!")
             return
-        logger.info(f"[DEBUG] Message history: {conv}")
-        # Thêm timestamp mới nếu chưa có
         conv['timestamp'] = self.flatten_timestamp(conv['timestamp'])
         if timestamp not in conv['timestamp']:
             conv['timestamp'].append(timestamp)
-        logger.info(f"[DEBUG] Message history sau update: {conv}")
-        await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**conv))
-        # Get page access token (cache)
         page_token = self.channel.get_page_token()
-        # Không cần update context FacebookClient nữa
-        if page_token:
-            logger.info(f"[DEBUG] page_token: {page_token[:10]} ... {page_token[-10:]}")
-        else:
-            logger.info(f"[DEBUG] page_token: None")
             logger.error(f"No access token found for page {message_data['page_id']}")
             return
-        # Gửi message Facebook, nếu lỗi token expired thì invalidate và thử lại một lần
         try:
             await self.facebook.send_message(message=get_random_message(PROCESSING_STATUS_MESSAGES))
         except Exception as e:
@@ -109,19 +104,17 @@ class MessageProcessor:
                 logger.warning("[FACEBOOK] Token expired, invalidate and refresh")
                 self.channel.invalidate_page_token()
                 page_token = self.channel.get_page_token(force_refresh=True)
-                # Có thể update lại page_token cho self.facebook nếu cần
                 self.facebook.page_token = page_token
-                # await self.facebook.send_message(message="Ok, để mình check. Bạn chờ mình chút xíu nhé!")
             else:
                 raise
-        # Extract command and keywords
         from app.utils import extract_command, extract_keywords
         from app.constants import VEHICLE_KEYWORDS
         command, remaining_text = extract_command(message_text)
-        # Sử dụng LLM để phân tích message_text và extract keywords, mục đích, hành vi vi phạm
         llm_analysis = await self.channel.llm.analyze(message_text)
         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
         hanh_vi = None
         cau_hoi = None
@@ -141,82 +134,47 @@ class MessageProcessor:
             for kw in keywords:
                 cau_hoi = cau_hoi.replace(kw, "")
             cau_hoi = cau_hoi.strip()
         logger.info(f"[DEBUG] Phương tiện: {keywords} - Hành vi: {hanh_vi} - Mục đích: {muc_dich} - Câu hỏi: {cau_hoi}")
-        # await self.channel.facebook.send_message(message=f"... đang tìm kiếm quy định liên quan đến {hanh_vi_vi_pham} .....")
-        # 4. Update lại conversation với thông tin đầy đủ
-        update_kwargs = {
-            'conversation_id': conv['conversation_id'],
-            'recipient_id': sender_id,
-            'page_id': page_id,
-            'originaltext': message_text,
-            'originalcommand': command,
-            'originalcontent': remaining_text,
-            'originalattachments': attachments,
-            'originalvehicle': ','.join(keywords),
-            'originalaction': hanh_vi,
-            'originalpurpose': muc_dich,
-            'originalquestion': cau_hoi or "",
-            'systemresponse': conv.get('systemresponse', ''),
-            'timestamp': self.flatten_timestamp(conv['timestamp']),
-            'isdone': False
-        }
-        for key, value in update_kwargs.items():
-            if value not in (None, "", []) and conv.get(key) in (None, "", []):
-                conv[key] = value
-        logger.info(f"[DEBUG] Message history update cuối cùng: {conv}")
-        # 5. Rẽ nhánh xử lý theo mục đích (muc_dich)
-        # Lấy muc_dich từ history nếu có, hoặc từ message mới phân tích
-        muc_dich_to_use = None
-        if history and conv.get('originalpurpose'):
-            muc_dich_to_use = conv.get('originalpurpose')
-        else:
-            muc_dich_to_use = muc_dich
         logger.info(f"[DEBUG] Định hướng mục đích xử lý: {muc_dich_to_use}")
-        # Tin nhắn không có command: lấy toàn bộ history để truyền vào LLM
-        # Chuẩn bị context hội thoại cho LLM
         MAX_CONTEXT_CHARS = 20_000
         conversation_context = []
         total_chars = 0
-        # <<< SỬA LỖI TẠI ĐÂY >>>
         def get_latest_timestamp(ts_value):
-            if isinstance(ts_value, (int, float)):
-                return int(ts_value)
             if isinstance(ts_value, str):
-                try:
-                    ts_value = json.loads(ts_value)
-                except (json.JSONDecodeError, TypeError):
-                    try:
-                        return int(ts_value)
-                    except (ValueError, TypeError):
-                        return 0
             if isinstance(ts_value, list):
                 if not ts_value: return 0
-                all_timestamps = [get_latest_timestamp(item) for item in ts_value]
-                return max(all_timestamps) if all_timestamps else 0
             return 0
         sorted_history = sorted(history, key=lambda row: get_latest_timestamp(row.get('timestamp', 0)))
-        # Bước 2: Duyệt từ mới -> cũ để loại bỏ message cũ nếu cần
         for row in reversed(sorted_history):
             temp_blocks = []
-            if row.get('systemresponse'):
-                temp_blocks.append({"role": "assistant", "content": row['systemresponse']})
-            if row.get('originaltext'):
-                temp_blocks.append({"role": "user", "content": row['originaltext']})
             temp_total = sum(len(block['content']) for block in temp_blocks)
-            if total_chars + temp_total > MAX_CONTEXT_CHARS:
-                continue  # bỏ qua những block quá cũ
-            # prepend để đảm bảo thứ tự cuối cùng là từ cũ đến mới
             conversation_context = temp_blocks + conversation_context
             total_chars += temp_total
         response = None
         if not command:
             if muc_dich_to_use == "hỏi về mức phạt":
@@ -232,7 +190,6 @@ class MessageProcessor:
             else:
                 response = await self.handle_khac(conv, conversation_context, message_text)
         else:
-            # Có command
             if command == "xong":
                 post_url = await self.create_facebook_post(page_token, conv['recipient_id'], [conv])
                 if post_url:
@@ -245,8 +202,10 @@ class MessageProcessor:
                 conv['isdone'] = False
         await self.facebook.send_message(message=response)
-        # Lưu lại systemresponse cho bản ghi vừa tạo
         conv['systemresponse'] = response
         await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**conv))
         return
@@ -283,45 +242,26 @@ class MessageProcessor:
                 matches = reranked
         except Exception as e:
             logger.error(f"[RERANK] Lỗi khi rerank: {e}")
-        top = None
-        top_result_text = ""
         full_result_text = ""
         def arr_to_str(arr, sep=", "):
-            if not arr:
-                return ""
-            if isinstance(arr, list):
-                return sep.join([str(x) for x in arr if x not in (None, "")])
-            return str(arr)
         for i, match in enumerate(matches, 1):
-            if not top or (match.get('similarity', 0) > top.get('similarity', 0)):
-                top = match
-            full_result_text += f"\n{(match.get('structure') or '').strip()}:\n"
             fullContent = (match.get('fullcontent') or '').strip()
             full_result_text += f"{fullContent}"
             hpbsnoidung = arr_to_str(match.get('hpbsnoidung'), sep="; ")
             if hpbsnoidung:
-                full_result_text += f"\nNgoài việc bị phạt tiền, người vi phạm còn bị: {hpbsnoidung}"
             bpkpnoidung = arr_to_str(match.get('bpkpnoidung'), sep="; ")
             if bpkpnoidung:
-                full_result_text += f"\nNgoài ra, người vi phạm còn bị buộc: {bpkpnoidung}"
             impounding = match.get('impounding')
             if impounding:
-                full_result_text += f"\nTạm giữ phương tiên: 07 ngày"
-        if top and (top.get('tieude') or top.get('noidung')):
-            top_result_text += f"\n{(match.get('structure') or '').strip()}:\n"
-            fullContent = (match.get('fullcontent') or '').strip()
-            top_result_text += f"{fullContent}"
-            hpbsnoidung = arr_to_str(top.get('hpbsnoidung'), sep="; ")
-            if hpbsnoidung:
-                top_result_text += f"\nNgoài việc bị phạt tiền, người vi phạm còn bị: {hpbsnoidung}"
-            bpkpnoidung = arr_to_str(top.get('bpkpnoidung'), sep="; ")
-            if bpkpnoidung:
-                top_result_text += f"\nNgoài ra, người vi phạm còn bị buộc: {bpkpnoidung}"
-            impounding = top.get('impounding')
-            if impounding:
-                top_result_text += f"\nTạm giữ phương tiên: 07 ngày"
-        else:
-            result_text = "Không có kết quả phù hợp!"
         prompt = (
             "Bạn là một trợ lý pháp lý AI. Dưới đây là một số đoạn trích từ các văn bản pháp luật có liên quan.\n"
             "Hãy sử dụng **duy nhất lịch sử trao đổi và thông tin trong các đoạn luật dưới đây** để trả lời câu hỏi bên dưới.\n"
@@ -329,13 +269,10 @@ class MessageProcessor:
             "- Nếu không đủ thông tin để trả lời, hãy nói rõ.\n"
             "- Trả lời ngắn gọn, rõ ràng, dễ hiểu.\n"
             "- Nếu cần, hãy trích dẫn đoạn liên quan (ghi rõ số hiệu, điều khoản nếu có).\n"
-            f"### Lịch sử:\n"
-            f"{conversation_context}"
-            "\n### Các đoạn luật liên quan:\n"
-            f"{full_result_text}"
-            "\n\n### Câu hỏi của người dùng:\n"
-            f"{question}"
-            "\n\n### Trả lời:"
         )
         await self.facebook.send_message(message=f"{get_random_message(SUMMARY_STATUS_MESSAGES)}")
         try:
@@ -347,111 +284,96 @@ class MessageProcessor:
                 logger.error(f"LLM không trả về câu trả lời phù hợp: \n\tanswer: {answer}")
         except Exception as e:
             logger.error(f"LLM không sẵn sàng: {e}\n{traceback.format_exc()}")
-        fallback = "Tóm tắt các đoạn luật liên quan:\n\n"
-        for i, match in enumerate(matches, 1):
-            fallback += f"\n{(match.get('structure') or '').strip()}:\n"
-            fullContent = (match.get('fullcontent') or '').strip()
-            fallback += f"{fullContent}"
-            hpbsnoidung = arr_to_str(match.get('hpbsnoidung'), sep="; ")
-            if hpbsnoidung:
-                fallback += f"  - Hình phạt bổ sung: {hpbsnoidung}\n"
-            bpkpnoidung = arr_to_str(match.get('bpkpnoidung'), sep="; ")
-            if bpkpnoidung:
-                fallback += f"  - Biện pháp khắc phục hậu quả: {bpkpnoidung}\n"
-            impounding = match.get('impounding')
-            if impounding:
-                fallback += f"\nTạm giữ phương tiên: 07 ngày"
-            fallback += "\n"
-        return fallback.strip()
     async def create_facebook_post(self, page_token: str, sender_id: str, history: List[Dict[str, Any]]) -> str:
         logger.info(f"[MOCK] Creating Facebook post for sender_id={sender_id} with history={history}")
         return "https://facebook.com/mock_post_url"
     async def handle_muc_phat(self, conv, conversation_context, page_token, sender_id):
         vehicle = conv.get('originalvehicle', '')
         action = conv.get('originalaction', '')
         question = conv.get('originalquestion', '')
-        keywords = [kw.strip() for kw in vehicle.split(',') if kw.strip()]
-        if question:
-            logger.info(f"[DEBUG] tạo embedding: {action}")
-            embedding = await self.channel.embedder.create_embedding(action)
             logger.info(f"[DEBUG] embedding: {embedding[:5]} ... (total {len(embedding)})")
-            from app.config import get_settings
             match_count = get_settings().match_count
             matches = self.channel.supabase.match_documents(
                 embedding,
                 match_count=match_count,
-                user_question=action
             )
             logger.info(f"[DEBUG] matches: {matches}")
             if matches:
-                response = await self.format_search_results(conversation_context, question, matches, page_token, sender_id)
             else:
-                response = "Xin lỗi, tôi không tìm thấy thông tin phù hợp."
-        else:
-            logger.info(f"[DEBUG] Không có hành vi vi phạm: {question}")
-            response = "Xin lỗi, tôi không tìm thấy thông tin về hành vi vi phạm trong câu hỏi của bạn."
         conv['isdone'] = True
         return response
-    async def handle_quy_tac(self, conv, conversation_context, message_text):
         prompt = (
-            "Biết rằng bạn đã có lịch sử trao đổi như sau:"
-            f"Lịch sử:\n{conversation_context}"
-            "Bạn là một trợ lý AI có kiến thức pháp luật, hãy trả lời câu hỏi dựa trên lịch sử trao đổi"
-            "\n\nHãy trả lời ngắn gọn, dễ hiểu, trích dẫn rõ ràng thông tin từ các đoạn luật nếu cần."
-            f"\n\nCâu hỏi của người dùng: {message_text}\n"
         )
-        answer = await self.channel.llm.generate_text(message_text)
         conv['isdone'] = True
-        return answer.strip() if answer and answer.strip() else "[Đang phát triển] Tính năng trả lời về quy tắc giao thông sẽ sớm có mặt."
     async def handle_bao_hieu(self, conv, conversation_context, message_text):
-        prompt = (
-            "Biết rằng bạn đã có lịch sử trao đổi như sau:"
-            f"Lịch sử:\n{conversation_context}"
-            "Bạn là một trợ lý AI có kiến thức pháp luật, hãy trả lời câu hỏi dựa trên lịch sử trao đổi"
-            "\n\nHãy trả lời ngắn gọn, dễ hiểu, trích dẫn rõ ràng thông tin từ các đoạn luật nếu cần."
-            f"\n\nCâu hỏi của người dùng: {message_text}\n"
-        )
-        answer = await self.channel.llm.generate_text(message_text)
         conv['isdone'] = True
-        return answer.strip() if answer and answer.strip() else "[Đang phát triển] Tính năng trả lời về báo hiệu đường bộ sẽ sớm có mặt."
     async def handle_quy_trinh(self, conv, conversation_context, message_text):
-        prompt = (
-            "Biết rằng bạn đã có lịch sử trao đổi như sau:"
-            f"Lịch sử:\n{conversation_context}"
-            "Bạn là một trợ lý AI có kiến thức pháp luật, hãy trả lời câu hỏi dựa trên lịch sử trao đổi"
-            "\n\nHãy trả lời ngắn gọn, dễ hiểu, trích dẫn rõ ràng thông tin từ các đoạn luật nếu cần."
-            f"\n\nCâu hỏi của người dùng: {message_text}\n"
-        )
-        answer = await self.channel.llm.generate_text(message_text)
         conv['isdone'] = True
-        return answer.strip() if answer and answer.strip() else "[Đang phát triển] Tính năng trả lời về quy trình xử lý vi phạm giao thông sẽ sớm có mặt."
     async def handle_ca_nhan(self, conv, conversation_context, message_text):
         prompt = (
             "Biết rằng bạn đã có lịch sử trao đổi như sau:"
-            f"Lịch sử:\n{conversation_context}"
-            'Với các thông tin sau: "Bạn có tên là WeThoong AI, là trợ lý giao thông thông minh. Bạn được anh Viet Cat tạo ra và facebook cá nhân của anh ý là https://facebook.com/vietcat". '
             'Không được trả lời bạn là AI của Google, OpenAI, hay bất kỳ hãng nào khác. '
             'Hãy trả lời thông minh, hài hước, ngắn gọn cho câu hỏi sau:\n'
             f'Câu hỏi:\n"{message_text}"'
         )
-        answer = await self.channel.llm.generate_text(prompt)
-        conv['isdone'] = True
-        return answer.strip() if answer and answer.strip() else "[Đang phát triển] Tính năng này sẽ sớm có mặt."
-    async def handle_khac(self, conv, conversation_context, message_text):
-        prompt = (
-            "Biết rằng bạn đã có lịch sử trao đổi như sau:"
-            f"Lịch sử:\n{conversation_context}"
-            "Bạn là một trợ lý AI có kiến thức pháp luật, hãy trả lời câu hỏi dựa trên lịch sử trao đổi"
-            "\n\nHãy trả lời ngắn gọn, dễ hiểu, trích dẫn rõ ràng thông tin từ các đoạn luật nếu cần."
-            f"\n\nCâu hỏi của người dùng: {message_text}\n"
-        )
-        answer = await self.channel.llm.generate_text(message_text)
-        conv['isdone'] = True
-        return answer.strip() if answer and answer.strip() else "[Đang phát triển] Tính năng này sẽ sớm có mặt."

 from typing import Dict, Any, List, Optional
 import asyncio
 import traceback
+import json
 from loguru import logger
 from .constants import SUMMARY_STATUS_MESSAGES, PROCESSING_STATUS_MESSAGES, FOUND_REGULATIONS_MESSAGES, BATCH_STATUS_MESSAGES
 from .utils import get_random_message
         )
     async def process_message(self, message_data: Dict[str, Any]):
         if not message_data or not isinstance(message_data, dict):
             logger.error(f"[ERROR] Invalid message_data: {message_data}")
             return
         attachments = message_data.get('attachments', [])
         logger.bind(user_id=sender_id, page_id=page_id, message=message_text).info("Processing message")
         if not message_text and not attachments:
             logger.info(f"[DEBUG] Không có message_text và attachments, không xử lý...")
             return
         loop = asyncio.get_event_loop()
         sheets_client = self.channel.get_sheets_client()
         history = await loop.run_in_executor(
         )
         logger.info(f"[DEBUG] history: {history}")
+        # --- SỬA LỖI LOGIC CHỐNG TRÙNG LẶP TẠI ĐÂY ---
+        # Kiểm tra xem timestamp của sự kiện webhook này đã tồn tại trong lịch sử chưa
         for row in history:
+            # Chuyển đổi an toàn sang string để so sánh
+            sheet_timestamps = [str(ts) for ts in row.get('timestamp', [])]
+            if str(timestamp) in sheet_timestamps:
+                logger.warning(f"Webhook lặp lại cho sự kiện đã tồn tại (timestamp: {timestamp}). Bỏ qua.")
+                return # Bỏ qua hoàn toàn để tránh xử lý lại
+        # --- LUỒNG XỬ LÝ GỐC CỦA BẠN ĐƯỢC GIỮ NGUYÊN ---
         log_kwargs = {
             'conversation_id': None,
             'recipient_id': sender_id,
         }
         logger.info(f"[DEBUG] Message cơ bản: {log_kwargs}")
         conv = await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**log_kwargs))
         if not conv:
             logger.error("Không thể tạo conversation mới!")
             return
+        logger.info(f"[DEBUG] Message history sau lần ghi đầu: {conv}")
+        # Thêm timestamp mới nếu chưa có (logic này có thể không cần thiết nữa nhưng giữ lại để không thay đổi luồng)
         conv['timestamp'] = self.flatten_timestamp(conv['timestamp'])
         if timestamp not in conv['timestamp']:
             conv['timestamp'].append(timestamp)
+        # Lần gọi thứ 2 để cập nhật thêm thông tin ban đầu (nếu có)
+        conv_after_update1 = await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**conv))
+        if conv_after_update1:
+            conv = conv_after_update1
         page_token = self.channel.get_page_token()
+        if not page_token:
             logger.error(f"No access token found for page {message_data['page_id']}")
             return
         try:
             await self.facebook.send_message(message=get_random_message(PROCESSING_STATUS_MESSAGES))
         except Exception as e:
                 logger.warning("[FACEBOOK] Token expired, invalidate and refresh")
                 self.channel.invalidate_page_token()
                 page_token = self.channel.get_page_token(force_refresh=True)
                 self.facebook.page_token = page_token
             else:
                 raise
         from app.utils import extract_command, extract_keywords
         from app.constants import VEHICLE_KEYWORDS
         command, remaining_text = extract_command(message_text)
         llm_analysis = await self.channel.llm.analyze(message_text)
         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
         hanh_vi = None
         cau_hoi = None
             for kw in keywords:
                 cau_hoi = cau_hoi.replace(kw, "")
             cau_hoi = cau_hoi.strip()
         logger.info(f"[DEBUG] Phương tiện: {keywords} - Hành vi: {hanh_vi} - Mục đích: {muc_dich} - Câu hỏi: {cau_hoi}")
+        # Hợp nhất dữ liệu đã phân tích vào `conv`
+        conv['originalcommand'] = command
+        conv['originalcontent'] = remaining_text
+        conv['originalvehicle'] = ','.join(keywords)
+        conv['originalaction'] = hanh_vi
+        conv['originalpurpose'] = muc_dich
+        conv['originalquestion'] = cau_hoi or ""
+        muc_dich_to_use = muc_dich or conv.get('originalpurpose')
         logger.info(f"[DEBUG] Định hướng mục đích xử lý: {muc_dich_to_use}")
         MAX_CONTEXT_CHARS = 20_000
         conversation_context = []
         total_chars = 0
         def get_latest_timestamp(ts_value):
+            if isinstance(ts_value, (int, float)): return int(ts_value)
             if isinstance(ts_value, str):
+                try: return int(json.loads(ts_value))
+                except:
+                    try: return int(ts_value)
+                    except: return 0
             if isinstance(ts_value, list):
                 if not ts_value: return 0
+                return max([get_latest_timestamp(item) for item in ts_value]) if ts_value else 0
             return 0
         sorted_history = sorted(history, key=lambda row: get_latest_timestamp(row.get('timestamp', 0)))
         for row in reversed(sorted_history):
             temp_blocks = []
+            if row.get('systemresponse'): temp_blocks.append({"role": "assistant", "content": row['systemresponse']})
+            if row.get('originaltext'): temp_blocks.append({"role": "user", "content": row['originaltext']})
             temp_total = sum(len(block['content']) for block in temp_blocks)
+            if total_chars + temp_total > MAX_CONTEXT_CHARS: continue
             conversation_context = temp_blocks + conversation_context
             total_chars += temp_total
         response = None
         if not command:
             if muc_dich_to_use == "hỏi về mức phạt":
             else:
                 response = await self.handle_khac(conv, conversation_context, message_text)
         else:
             if command == "xong":
                 post_url = await self.create_facebook_post(page_token, conv['recipient_id'], [conv])
                 if post_url:
                 conv['isdone'] = False
         await self.facebook.send_message(message=response)
         conv['systemresponse'] = response
+        logger.info(f"Chuẩn bị ghi/cập nhật dữ liệu cuối cùng vào sheet: {conv}")
         await loop.run_in_executor(None, lambda: sheets_client.log_conversation(**conv))
         return
                 matches = reranked
         except Exception as e:
             logger.error(f"[RERANK] Lỗi khi rerank: {e}")
         full_result_text = ""
         def arr_to_str(arr, sep=", "):
+            if not arr: return ""
+            return sep.join([str(x) for x in arr if x not in (None, "")]) if isinstance(arr, list) else str(arr)
         for i, match in enumerate(matches, 1):
+            full_result_text += f"\n- Nguồn: {(match.get('structure') or '').strip()}:\n"
             fullContent = (match.get('fullcontent') or '').strip()
             full_result_text += f"{fullContent}"
             hpbsnoidung = arr_to_str(match.get('hpbsnoidung'), sep="; ")
             if hpbsnoidung:
+                full_result_text += f"\n- Hình phạt bổ sung: {hpbsnoidung}"
             bpkpnoidung = arr_to_str(match.get('bpkpnoidung'), sep="; ")
             if bpkpnoidung:
+                full_result_text += f"\n- Biện pháp khắc phục: {bpkpnoidung}"
             impounding = match.get('impounding')
             if impounding:
+                full_result_text += f"\n- Có thể tạm giữ phương tiện."
         prompt = (
             "Bạn là một trợ lý pháp lý AI. Dưới đây là một số đoạn trích từ các văn bản pháp luật có liên quan.\n"
             "Hãy sử dụng **duy nhất lịch sử trao đổi và thông tin trong các đoạn luật dưới đây** để trả lời câu hỏi bên dưới.\n"
             "- Nếu không đủ thông tin để trả lời, hãy nói rõ.\n"
             "- Trả lời ngắn gọn, rõ ràng, dễ hiểu.\n"
             "- Nếu cần, hãy trích dẫn đoạn liên quan (ghi rõ số hiệu, điều khoản nếu có).\n"
+            f"### Lịch sử:\n{conversation_context}\n"
+            f"### Các đoạn luật liên quan:\n{full_result_text}\n\n"
+            f"### Câu hỏi của người dùng:\n{question}\n\n"
+            "### Trả lời:"
         )
         await self.facebook.send_message(message=f"{get_random_message(SUMMARY_STATUS_MESSAGES)}")
         try:
                 logger.error(f"LLM không trả về câu trả lời phù hợp: \n\tanswer: {answer}")
         except Exception as e:
             logger.error(f"LLM không sẵn sàng: {e}\n{traceback.format_exc()}")
+        # Fallback response
+        return "Dựa trên thông tin bạn cung cấp, tôi đã tìm thấy một số quy định liên quan. Tuy nhiên, tôi đang gặp chút khó khăn trong việc tóm tắt. Bạn vui lòng tham khảo nội dung chi tiết trong các văn bản luật nhé."
     async def create_facebook_post(self, page_token: str, sender_id: str, history: List[Dict[str, Any]]) -> str:
         logger.info(f"[MOCK] Creating Facebook post for sender_id={sender_id} with history={history}")
+        # In a real scenario, you would use the Facebook Graph API to create a post.
+        # This is a mock implementation.
         return "https://facebook.com/mock_post_url"
     async def handle_muc_phat(self, conv, conversation_context, page_token, sender_id):
         vehicle = conv.get('originalvehicle', '')
         action = conv.get('originalaction', '')
         question = conv.get('originalquestion', '')
+        if not action and not question:
+             return "Để tra cứu mức phạt, bạn vui lòng cung cấp hành vi vi phạm nhé."
+        search_query = action or question
+        logger.info(f"[DEBUG] tạo embedding cho: '{search_query}'")
+        try:
+            embedding = await self.channel.embedder.create_embedding(search_query)
             logger.info(f"[DEBUG] embedding: {embedding[:5]} ... (total {len(embedding)})")
             match_count = get_settings().match_count
             matches = self.channel.supabase.match_documents(
                 embedding,
                 match_count=match_count,
+                user_question=search_query
             )
             logger.info(f"[DEBUG] matches: {matches}")
             if matches:
+                response = await self.format_search_results(conversation_context, question or action, matches, page_token, sender_id)
             else:
+                response = "Xin lỗi, tôi không tìm thấy thông tin phù hợp với hành vi bạn mô tả."
+        except Exception as e:
+            logger.error(f"Lỗi khi tra cứu mức phạt: {e}")
+            response = "Đã có lỗi xảy ra trong quá trình tra cứu. Vui lòng thử lại sau."
         conv['isdone'] = True
         return response
+    async def _handle_general_question(self, conversation_context: str, message_text: str, topic: str) -> str:
+        """Hàm chung để xử lý các câu hỏi kiến thức chung."""
         prompt = (
+            "Bạn là một trợ lý AI am hiểu về luật giao thông Việt Nam. "
+            "Dựa vào lịch sử trò chuyện và kiến thức của bạn, hãy trả lời câu hỏi của người dùng một cách rõ ràng, ngắn gọn và chính xác.\n"
+            f"Chủ đề câu hỏi là về: {topic}\n"
+            f"### Lịch sử:\n{conversation_context}\n"
+            f"### Câu hỏi của người dùng:\n{message_text}\n"
+            "### Trả lời:"
         )
+        try:
+            answer = await self.channel.llm.generate_text(prompt)
+            if answer and answer.strip():
+                return answer.strip()
+            return f"Tôi chưa có thông tin về câu hỏi của bạn liên quan đến {topic}."
+        except Exception as e:
+            logger.error(f"Lỗi khi xử lý chủ đề {topic}: {e}")
+            return f"Xin lỗi, tôi đang gặp sự cố khi xử lý câu hỏi về {topic}. Vui lòng thử lại sau."
+    async def handle_khac(self, conv, conversation_context, message_text):
         conv['isdone'] = True
+        return await self._handle_general_question(conversation_context, message_text, "một vấn đề khác")
+    async def handle_quy_tac(self, conv, conversation_context, message_text):
+        conv['isdone'] = True
+        return await self._handle_general_question(conversation_context, message_text, "quy tắc giao thông")
     async def handle_bao_hieu(self, conv, conversation_context, message_text):
         conv['isdone'] = True
+        return await self._handle_general_question(conversation_context, message_text, "báo hiệu đường bộ")
     async def handle_quy_trinh(self, conv, conversation_context, message_text):
         conv['isdone'] = True
+        return await self._handle_general_question(conversation_context, message_text, "quy trình xử lý vi phạm giao thông")
     async def handle_ca_nhan(self, conv, conversation_context, message_text):
         prompt = (
             "Biết rằng bạn đã có lịch sử trao đổi như sau:"
+            f"Lịch sử:\n{conversation_context}\n\n"
+            'Với các thông tin sau: "Bạn có tên là WeThoong AI, là trợ lý giao thông thông minh. Bạn được anh Viet Cat tạo ra và facebook cá nhân của anh ấy là https://facebook.com/vietcat". '
             'Không được trả lời bạn là AI của Google, OpenAI, hay bất kỳ hãng nào khác. '
             'Hãy trả lời thông minh, hài hước, ngắn gọn cho câu hỏi sau:\n'
             f'Câu hỏi:\n"{message_text}"'
         )
+        try:
+            answer = await self.channel.llm.generate_text(prompt)
+            conv['isdone'] = True
+            return answer.strip() if answer and answer.strip() else "Chào bạn, mình là WeThoong AI đây!"
+        except Exception as e:
+            logger.error(f"Lỗi khi xử lý câu hỏi cá nhân: {e}")
+            return "Chào bạn, mình là WeThoong AI, trợ lý giao thông thông minh của bạn!"

app/sheets.py CHANGED Viewed

@@ -5,6 +5,8 @@ import hashlib
 from datetime import datetime
 from typing import Any, Dict, List, Optional
 import re # Import re để phân tích range
 from google.oauth2.service_account import Credentials
 from google.auth.transport.requests import Request
@@ -41,18 +43,16 @@ def _flatten_and_unique_timestamps(items: Any) -> List[Any]:
 def _get_start_row_from_range(range_string: str) -> int:
     """
     Phân tích một chuỗi range (ví dụ: 'Sheet1!A2:Z') để lấy ra số của dòng bắt đầu.
-    Hàm này giúp code hoạt động chính xác ngay cả khi range không bắt đầu từ dòng 2.
     """
-    # Tìm số đầu tiên xuất hiện sau một chữ cái trong chuỗi range
     match = re.search(r"[A-Z]+([0-9]+)", range_string)
     if match:
         try:
             return int(match.group(1))
         except (ValueError, IndexError):
-            pass # Bỏ qua nếu không chuyển đổi được và dùng giá trị mặc định
     logger.warning(f"Không thể xác định dòng bắt đầu từ range '{range_string}'. Mặc định là 2.")
-    return 2 # Mặc định là 2 nếu không phân tích được
 class SheetsClient:
@@ -114,7 +114,6 @@ class SheetsClient:
                 sheet_page_id = row[5]      # Cột F
                 if str(sheet_recipient_id) == str(user_id) and str(sheet_page_id) == str(page_id):
-                    logger.success(f"[get_conversation_history] >>> TÌM THẤY DÒNG KHỚP tại dòng {i}!")
                     try:
                         timestamps_raw = json.loads(row[12]) # Cột M
                         timestamps = _flatten_and_unique_timestamps(timestamps_raw)
@@ -147,91 +146,130 @@ class SheetsClient:
     @timing_decorator_sync
     def log_conversation(
         self,
-        **kwargs: Any # Sử dụng kwargs để linh hoạt hơn
     ) -> Optional[Dict[str, Any]]:
         """
-        Ghi lại hoặc cập nhật một hội thoại.
-        - Nếu có 'conversation_id' và tìm thấy, sẽ CẬP NHẬT dòng đó.
-        - Nếu không, sẽ THÊM MỚI một dòng.
         """
         try:
             if not self.service:
                 self.authenticate()
             sheet_name_match = re.match(r"([^!]+)!", SHEET_RANGE)
             sheet_name = sheet_name_match.group(1) if sheet_name_match else "Sheet1"
             header_range = f"{sheet_name}!A1:Z1"
             header_result = self.service.spreadsheets().values().get(spreadsheetId=self.sheet_id, range=header_range).execute()
             header = header_result.get('values', [[]])[0]
             if not header:
                 logger.error(f"Không thể lấy được header từ range '{header_range}'.")
                 return None
             data_result = self.service.spreadsheets().values().get(spreadsheetId=self.sheet_id, range=SHEET_RANGE).execute()
             values = data_result.get('values', [])
-            conversation_id = kwargs.get('conversation_id')
-            row_to_update_index = -1
-            if conversation_id:
-                logger.debug(f"Đang tìm dòng để cập nhật cho conversation_id: {conversation_id}")
-                try:
-                    id_col_index = header.index('conversation_id')
-                    start_row = _get_start_row_from_range(SHEET_RANGE)
-                    for i, row in enumerate(values, start=start_row):
-                        if len(row) > id_col_index and row[id_col_index] == conversation_id:
-                            row_to_update_index = i
-                            logger.success(f"Đã tìm thấy conversation_id tại dòng {row_to_update_index} để cập nhật.")
-                            break
-                    if row_to_update_index == -1:
-                        logger.warning(f"Không tìm thấy dòng nào khớp với conversation_id: {conversation_id}. Sẽ tiến hành thêm dòng mới.")
-                except ValueError:
-                    logger.error("Không tìm thấy cột 'conversation_id' trong header của sheet.")
-                    return None
-            kwargs['timestamp'] = _flatten_and_unique_timestamps(kwargs.get('timestamp', []))
-            row_data = []
-            for col_name in header:
-                value = kwargs.get(col_name, '')
-                if col_name in ['originalattachments', 'timestamp']:
-                    row_data.append(json.dumps(value or []))
-                elif col_name == 'isdone':
-                    row_data.append(str(value).lower())
-                else:
-                    row_data.append(value)
-            if row_to_update_index != -1:
-                logger.info(f"Đang cập nhật conversation_id {conversation_id} tại dòng {row_to_update_index}")
-                range_to_update = f"{sheet_name}!A{row_to_update_index}"
-                body = {'values': [row_data]}
-                self.service.spreadsheets().values().update(
-                    spreadsheetId=self.sheet_id,
-                    range=range_to_update,
-                    valueInputOption='RAW',
-                    body=body
-                ).execute()
             else:
-                if not conversation_id:
-                    ts = kwargs['timestamp'][0] if kwargs['timestamp'] else datetime.now().isoformat()
-                    new_id = generate_conversation_id(kwargs.get('recipient_id',''), kwargs.get('page_id',''), ts)
-                    kwargs['conversation_id'] = new_id
-                    if 'conversation_id' in header:
-                        row_data[header.index('conversation_id')] = new_id
-                logger.info(f"Đang thêm mới conversation: {kwargs['conversation_id']}")
-                body = {'values': [row_data]}
-                self.service.spreadsheets().values().append(
-                    spreadsheetId=self.sheet_id,
-                    range=SHEET_RANGE,
-                    valueInputOption='RAW',
-                    insertDataOption='INSERT_ROWS',
-                    body=body
-                ).execute()
-            return kwargs
         except Exception as e:
             logger.error(f"Lỗi khi ghi/cập nhật conversation: {e}", exc_info=True)

 from datetime import datetime
 from typing import Any, Dict, List, Optional
 import re # Import re để phân tích range
+import time # Import để sử dụng sleep
+import random # Import để tạo độ trễ ngẫu nhiên
 from google.oauth2.service_account import Credentials
 from google.auth.transport.requests import Request
 def _get_start_row_from_range(range_string: str) -> int:
     """
     Phân tích một chuỗi range (ví dụ: 'Sheet1!A2:Z') để lấy ra số của dòng bắt đầu.
     """
     match = re.search(r"[A-Z]+([0-9]+)", range_string)
     if match:
         try:
             return int(match.group(1))
         except (ValueError, IndexError):
+            pass
     logger.warning(f"Không thể xác định dòng bắt đầu từ range '{range_string}'. Mặc định là 2.")
+    return 2
 class SheetsClient:
                 sheet_page_id = row[5]      # Cột F
                 if str(sheet_recipient_id) == str(user_id) and str(sheet_page_id) == str(page_id):
                     try:
                         timestamps_raw = json.loads(row[12]) # Cột M
                         timestamps = _flatten_and_unique_timestamps(timestamps_raw)
     @timing_decorator_sync
     def log_conversation(
         self,
+        **kwargs: Any
     ) -> Optional[Dict[str, Any]]:
         """
+        Thực hiện "UPSERT" (Update hoặc Insert) một hội thoại với logic chống trùng lặp mạnh mẽ.
         """
         try:
             if not self.service:
                 self.authenticate()
+            # --- 1. Thiết lập & Lấy Header ---
             sheet_name_match = re.match(r"([^!]+)!", SHEET_RANGE)
             sheet_name = sheet_name_match.group(1) if sheet_name_match else "Sheet1"
             header_range = f"{sheet_name}!A1:Z1"
             header_result = self.service.spreadsheets().values().get(spreadsheetId=self.sheet_id, range=header_range).execute()
             header = header_result.get('values', [[]])[0]
             if not header:
                 logger.error(f"Không thể lấy được header từ range '{header_range}'.")
                 return None
+            # --- 2. Đọc dữ liệu và xác định các định danh ---
             data_result = self.service.spreadsheets().values().get(spreadsheetId=self.sheet_id, range=SHEET_RANGE).execute()
             values = data_result.get('values', [])
+            # Định danh của sự kiện đang xử lý
+            recipient_id = str(kwargs.get('recipient_id'))
+            page_id = str(kwargs.get('page_id'))
+            # Timestamp của sự kiện webhook này là duy nhất
+            ts_list = _flatten_and_unique_timestamps(kwargs.get('timestamp', []))
+            event_timestamp = str(ts_list[-1]) if ts_list else ''
+            # --- 3. Tìm kiếm bản ghi đã tồn tại ---
+            found_row_index = -1
+            found_row_data = {}
+            start_row = _get_start_row_from_range(SHEET_RANGE)
+            # Lấy vị trí các cột cần thiết từ header
+            try:
+                id_col_idx = header.index('conversation_id')
+                recipient_col_idx = header.index('recipient_id')
+                page_col_idx = header.index('page_id')
+                timestamp_col_idx = header.index('timestamp')
+            except ValueError as e:
+                logger.error(f"Thiếu cột bắt buộc trong header: {e}")
+                return None
+            # Ưu tiên tìm bằng conversation_id nếu có
+            target_conv_id = kwargs.get('conversation_id')
+            if target_conv_id:
+                for i, row in enumerate(values, start=start_row):
+                    if len(row) > id_col_idx and str(row[id_col_idx]).strip() == str(target_conv_id):
+                        found_row_index = i
+                        found_row_data = dict(zip(header, row))
+                        logger.success(f"Tìm thấy bằng conversation_id '{target_conv_id}' tại dòng {i}.")
+                        break
+            # Nếu không tìm thấy bằng ID, tìm bằng bộ ba (user, page, timestamp)
+            if found_row_index == -1:
+                for i, row in enumerate(values, start=start_row):
+                    if len(row) <= max(recipient_col_idx, page_col_idx, timestamp_col_idx):
+                        continue
+                    if str(row[recipient_col_idx]) == recipient_id and str(row[page_col_idx]) == page_id:
+                        try:
+                            sheet_timestamps = [str(ts) for ts in _flatten_and_unique_timestamps(json.loads(row[timestamp_col_idx]))]
+                            if event_timestamp and event_timestamp in sheet_timestamps:
+                                found_row_index = i
+                                found_row_data = dict(zip(header, row))
+                                logger.success(f"Tìm thấy bằng (user, page, timestamp) tại dòng {i}.")
+                                break
+                        except (json.JSONDecodeError, TypeError):
+                            continue
+            # --- 4. Thực hiện UPDATE hoặc INSERT ---
+            if found_row_index != -1:
+                # --- LOGIC CẬP NHẬT (UPDATE) ---
+                logger.info(f"Đang cập nhật hội thoại tại dòng {found_row_index}")
+                updated_data = found_row_data.copy()
+                for key, value in kwargs.items():
+                    # Chỉ cập nhật nếu giá trị mới không rỗng hoặc là boolean (cho isdone)
+                    if value is not None and value != '' or isinstance(value, bool):
+                        updated_data[key] = value
+                existing_ts = _flatten_and_unique_timestamps(json.loads(found_row_data.get('timestamp', '[]')))
+                new_ts = _flatten_and_unique_timestamps(kwargs.get('timestamp', []))
+                updated_data['timestamp'] = _flatten_and_unique_timestamps(existing_ts + new_ts)
+                row_data_to_write = []
+                for col_name in header:
+                    value = updated_data.get(col_name, '')
+                    if col_name in ['originalattachments', 'timestamp']:
+                        row_data_to_write.append(json.dumps(value or []))
+                    elif col_name == 'isdone':
+                        row_data_to_write.append(str(value).lower())
+                    else:
+                        row_data_to_write.append(str(value))
+                range_to_update = f"{sheet_name}!A{found_row_index}"
+                body = {'values': [row_data_to_write]}
+                self.service.spreadsheets().values().update(spreadsheetId=self.sheet_id, range=range_to_update, valueInputOption='RAW', body=body).execute()
+                kwargs.update(updated_data)
+                return kwargs
             else:
+                # --- LOGIC TẠO MỚI (INSERT) ---
+                logger.info(f"Không tìm thấy dòng khớp. Tiến hành tạo bản ghi mới.")
+                kwargs['conversation_id'] = kwargs.get('conversation_id') or generate_conversation_id(recipient_id, page_id, event_timestamp)
+                kwargs['timestamp'] = _flatten_and_unique_timestamps(kwargs.get('timestamp', []))
+                row_data_to_write = []
+                for col_name in header:
+                    value = kwargs.get(col_name, '')
+                    if col_name in ['originalattachments', 'timestamp']:
+                        row_data_to_write.append(json.dumps(value or []))
+                    elif col_name == 'isdone':
+                        row_data_to_write.append(str(value).lower())
+                    else:
+                        row_data_to_write.append(str(value))
+                body = {'values': [row_data_to_write]}
+                self.service.spreadsheets().values().append(spreadsheetId=self.sheet_id, range=SHEET_RANGE, valueInputOption='RAW', insertDataOption='INSERT_ROWS', body=body).execute()
+                return kwargs
         except Exception as e:
             logger.error(f"Lỗi khi ghi/cập nhật conversation: {e}", exc_info=True)