Spaces:

TradaAI
/

Chatopus

Sleeping

App Files Files Community

VietCat commited on Jul 27, 2025

Commit

e529ed6

1 Parent(s): 28c7707

adjust log

Browse files

Files changed (7) hide show

app/gemini_client.py +3 -2
app/llm.py +10 -17
app/message_processor.py +6 -6
app/reranker.py +1 -1
app/sheets.py +3 -3
app/supabase_db.py +1 -1
app/utils.py +44 -1

app/gemini_client.py CHANGED Viewed

@@ -4,6 +4,7 @@ from google.generativeai.generative_models import GenerativeModel
 from loguru import logger
 from .request_limit_manager import RequestLimitManager
 from typing import List, Optional
 class GeminiClient:
     def __init__(self):
@@ -59,10 +60,10 @@ class GeminiClient:
                     logger.info(f"[GEMINI][USAGE] Prompt Token Count: {response.usage_metadata.prompt_token_count} - Candidate Token Count: {response.usage_metadata.candidates_token_count} - Total Token Count: {response.usage_metadata.total_token_count}")
                 if hasattr(response, 'text'):
-                    logger.info(f"[GEMINI][TEXT_RESPONSE] {response.text}")
                     return response.text
                 elif hasattr(response, 'candidates') and response.candidates:
-                    logger.info(f"[GEMINI][CANDIDATES_RESPONSE] {response.candidates[0].content.parts[0].text}")
                     return response.candidates[0].content.parts[0].text
                 logger.info(f"[GEMINI][RAW_RESPONSE] {response}")

 from loguru import logger
 from .request_limit_manager import RequestLimitManager
 from typing import List, Optional
+from utils import _safe_truncate
 class GeminiClient:
     def __init__(self):
                     logger.info(f"[GEMINI][USAGE] Prompt Token Count: {response.usage_metadata.prompt_token_count} - Candidate Token Count: {response.usage_metadata.candidates_token_count} - Total Token Count: {response.usage_metadata.total_token_count}")
                 if hasattr(response, 'text'):
+                    logger.info(f"[GEMINI][TEXT_RESPONSE] {_safe_truncate(response.text)}")
                     return response.text
                 elif hasattr(response, 'candidates') and response.candidates:
+                    logger.info(f"[GEMINI][CANDIDATES_RESPONSE] {_safe_truncate(response.candidates[0].content.parts[0].text)}")
                     return response.candidates[0].content.parts[0].text
                 logger.info(f"[GEMINI][RAW_RESPONSE] {response}")

app/llm.py CHANGED Viewed

@@ -15,16 +15,9 @@ from .utils import (
     timing_decorator_async,
     timing_decorator_sync,  # kept for compatibility even if unused here
     call_endpoint_with_retry,
 )
-def _safe_truncate(s: str, n: int = 1000) -> str:
-    """Truncate long strings for logging purposes."""
-    if not isinstance(s, str):
-        s = str(s)
-    return s if len(s) <= n else s[:n] + "... [truncated]"
 def _parse_json_from_text(text: str) -> Optional[Union[List[Dict[str, Any]], Dict[str, Any]]]:
     """Best-effort JSON extractor from LLM free-form responses.
@@ -136,7 +129,7 @@ class LLMClient:
         Tạo text từ prompt sử dụng LLM.
         """
         logger.info(
-            f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {_safe_truncate(prompt, 1200)}"
         )
         try:
             if self.provider == "openai":
@@ -154,7 +147,7 @@ class LLMClient:
             else:
                 raise ValueError(f"Unsupported provider: {self.provider}")
-            logger.info(f"[LLM] generate_text - provider: {self.provider}\n\t result: {_safe_truncate(result, 1200)}")
             return result
         except Exception as e:
             logger.exception(f"[LLM] Error generating text with {self.provider}: {e}")
@@ -226,7 +219,7 @@ class LLMClient:
             self._client, endpoint, payload, 3, 500, headers=headers
         )
         logger.info(
-            f"[LLM] generate_text - provider: {self.provider}\n\t response: {_safe_truncate(str(response), 1200)}"
         )
         try:
             logger.info(
@@ -323,7 +316,7 @@ class LLMClient:
         return {
             "category": "unknown",
             "confidence": 0.0,
-            "reasoning": f"Cannot parse JSON from response: {_safe_truncate(response, 500)}",
         }
     @timing_decorator_async
@@ -353,7 +346,7 @@ class LLMClient:
         try:
             logger.info(
-                f"[LLM][RAW_RESPONSE][extract_entities] {_safe_truncate(response, 2000)}"
             )
             parsed = _parse_json_from_text(response or "")
             if isinstance(parsed, list):
@@ -380,7 +373,7 @@ class LLMClient:
         {{
             "muc_dich": "...",
             "phuong_tien": "...",
-            "hanh_vi": "...",
             "cau_hoi": "..."
         }}
@@ -398,7 +391,7 @@ class LLMClient:
         **phuong_tien**: Tên phương tiện được đề cập trong câu hỏi mới hoặc trong lịch sử gần nhất. Nếu không có, để chuỗi rỗng "".
-        **hanh_vi**: Là cụm từ hoặc từ khóa ngắn gọn và phù hợp nhất để **tìm kiếm nội dung liên quan đến câu hỏi**. Có thể là tên hành vi vi phạm, thuật ngữ pháp lý, hoặc khái niệm về quy tắc/báo hiệu/vi phạm. Nếu không có thông tin rõ ràng, để chuỗi rỗng "".
         **cau_hoi**: Diễn đạt lại câu hỏi mới nhất của người dùng thành một câu hỏi hoàn chỉnh, kết hợp ngữ cảnh từ lịch sử nếu cần, sử dụng đúng thuật ngữ pháp lý.
@@ -409,7 +402,7 @@ class LLMClient:
         {{
             "muc_dich": "hỏi về mức phạt",
             "phuong_tien": "Ô tô",
-            "hanh_vi": "Không chấp hành hiệu lệnh của đèn tín hiệu giao thông",
             "cau_hoi": "Mức xử phạt cho hành vi ô tô không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
         }}
@@ -423,7 +416,7 @@ class LLMClient:
         """.strip()
         response = await self.generate_text(prompt, **kwargs)
-        logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {_safe_truncate(response, 2000)}")
         try:
             parsed = _parse_json_from_text(response or "")

     timing_decorator_async,
     timing_decorator_sync,  # kept for compatibility even if unused here
     call_endpoint_with_retry,
+    _safe_truncate
 )
 def _parse_json_from_text(text: str) -> Optional[Union[List[Dict[str, Any]], Dict[str, Any]]]:
     """Best-effort JSON extractor from LLM free-form responses.
         Tạo text từ prompt sử dụng LLM.
         """
         logger.info(
+            f"[LLM] generate_text - provider: {self.provider}\n\t prompt: {_safe_truncate(prompt)}"
         )
         try:
             if self.provider == "openai":
             else:
                 raise ValueError(f"Unsupported provider: {self.provider}")
+            logger.info(f"[LLM] generate_text - provider: {self.provider}\n\t result: {_safe_truncate(result)}")
             return result
         except Exception as e:
             logger.exception(f"[LLM] Error generating text with {self.provider}: {e}")
             self._client, endpoint, payload, 3, 500, headers=headers
         )
         logger.info(
+            f"[LLM] generate_text - provider: {self.provider}\n\t response: {_safe_truncate(str(response))}"
         )
         try:
             logger.info(
         return {
             "category": "unknown",
             "confidence": 0.0,
+            "reasoning": f"Cannot parse JSON from response: {_safe_truncate(response)}",
         }
     @timing_decorator_async
         try:
             logger.info(
+                f"[LLM][RAW_RESPONSE][extract_entities] {_safe_truncate(response)}"
             )
             parsed = _parse_json_from_text(response or "")
             if isinstance(parsed, list):
         {{
             "muc_dich": "...",
             "phuong_tien": "...",
+            "tu_khoa": "...",
             "cau_hoi": "..."
         }}
         **phuong_tien**: Tên phương tiện được đề cập trong câu hỏi mới hoặc trong lịch sử gần nhất. Nếu không có, để chuỗi rỗng "".
+        **tu_khoa**: Là cụm từ hoặc từ khóa ngắn gọn và phù hợp nhất để **tìm kiếm nội dung liên quan đến câu hỏi**. Có thể là tên hành vi vi phạm, thuật ngữ pháp lý, hoặc khái niệm về quy tắc/báo hiệu/vi phạm. Nếu không có thông tin rõ ràng, để chuỗi rỗng "".
         **cau_hoi**: Diễn đạt lại câu hỏi mới nhất của người dùng thành một câu hỏi hoàn chỉnh, kết hợp ngữ cảnh từ lịch sử nếu cần, sử dụng đúng thuật ngữ pháp lý.
         {{
             "muc_dich": "hỏi về mức phạt",
             "phuong_tien": "Ô tô",
+            "tu_khoa": "Không chấp hành hiệu lệnh của đèn tín hiệu giao thông",
             "cau_hoi": "Mức xử phạt cho hành vi ô tô không chấp hành hiệu lệnh của đèn tín hiệu giao thông là bao nhiêu?"
         }}
         """.strip()
         response = await self.generate_text(prompt, **kwargs)
+        logger.info(f"[LLM][RAW][analyze] Kết quả trả về từ generate_text: {_safe_truncate(response)}")
         try:
             parsed = _parse_json_from_text(response or "")

app/message_processor.py CHANGED Viewed

@@ -116,17 +116,17 @@ class MessageProcessor:
         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
-        hanh_vi = None
         cau_hoi = None
         if isinstance(llm_analysis, dict):
             keywords = [self.normalize_vehicle_keyword(llm_analysis.get('phuong_tien', ''))]
             muc_dich = llm_analysis.get('muc_dich')
-            hanh_vi = llm_analysis.get('hanh_vi')
             cau_hoi = llm_analysis.get('cau_hoi')
         elif isinstance(llm_analysis, list) and len(llm_analysis) > 0:
             keywords = [self.normalize_vehicle_keyword(llm_analysis[0].get('phuong_tien', ''))]
             muc_dich = llm_analysis[0].get('muc_dich')
-            hanh_vi = llm_analysis[0].get('hanh_vi')
             cau_hoi = llm_analysis[0].get('cau_hoi')
         else:
             keywords = extract_keywords(message_text, VEHICLE_KEYWORDS)
@@ -135,13 +135,13 @@ class MessageProcessor:
                 cau_hoi = cau_hoi.replace(kw, "")
             cau_hoi = cau_hoi.strip()
-        logger.info(f"[DEBUG] Phương tiện: {keywords} - Hành vi: {hanh_vi} - Mục đích: {muc_dich} - Câu hỏi: {cau_hoi}")
         # Hợp nhất dữ liệu đã phân tích vào `conv`
         conv['originalcommand'] = command
         conv['originalcontent'] = remaining_text
         conv['originalvehicle'] = ','.join(keywords)
-        conv['originalaction'] = hanh_vi
         conv['originalpurpose'] = muc_dich
         conv['originalquestion'] = cau_hoi or ""
@@ -328,7 +328,7 @@ class MessageProcessor:
                 match_count=match_count,
                 user_question=search_query
             )
-            logger.info(f"[DEBUG] matches: {matches}")
             if matches:
                 response = await self.format_search_results(conversation_context, question or action, matches, page_token, sender_id)
             else:

         logger.info(f"[LLM][RAW] Kết quả trả về từ analyze: {llm_analysis}")
         muc_dich = None
+        tu_khoa = None
         cau_hoi = None
         if isinstance(llm_analysis, dict):
             keywords = [self.normalize_vehicle_keyword(llm_analysis.get('phuong_tien', ''))]
             muc_dich = llm_analysis.get('muc_dich')
+            tu_khoa = llm_analysis.get('tu_khoa')
             cau_hoi = llm_analysis.get('cau_hoi')
         elif isinstance(llm_analysis, list) and len(llm_analysis) > 0:
             keywords = [self.normalize_vehicle_keyword(llm_analysis[0].get('phuong_tien', ''))]
             muc_dich = llm_analysis[0].get('muc_dich')
+            tu_khoa = llm_analysis[0].get('tu_khoa')
             cau_hoi = llm_analysis[0].get('cau_hoi')
         else:
             keywords = extract_keywords(message_text, VEHICLE_KEYWORDS)
                 cau_hoi = cau_hoi.replace(kw, "")
             cau_hoi = cau_hoi.strip()
+        logger.info(f"[DEBUG] Phương tiện: {keywords} - Hành vi: {tu_khoa} - Mục đích: {muc_dich} - Câu hỏi: {cau_hoi}")
         # Hợp nhất dữ liệu đã phân tích vào `conv`
         conv['originalcommand'] = command
         conv['originalcontent'] = remaining_text
         conv['originalvehicle'] = ','.join(keywords)
+        conv['originalaction'] = tu_khoa
         conv['originalpurpose'] = muc_dich
         conv['originalquestion'] = cau_hoi or ""
                 match_count=match_count,
                 user_question=search_query
             )
+            logger.info(f"[DEBUG] matches: {matches[:2]}...{matches[-2:]}")
             if matches:
                 response = await self.format_search_results(conversation_context, question or action, matches, page_token, sender_id)
             else:

app/reranker.py CHANGED Viewed

@@ -249,5 +249,5 @@ class Reranker:
         # Cache kết quả với system mới
         self._set_cached_result(cache_key, scored)
-        logger.info(f"[RERANK] Top reranked docs: {result}")
         return result

         # Cache kết quả với system mới
         self._set_cached_result(cache_key, scored)
+        logger.info(f"[RERANK] Top reranked docs: {result[:2]}...{result[-2:]}")
         return result

app/sheets.py CHANGED Viewed

@@ -198,7 +198,7 @@ class SheetsClient:
                     if len(row) > id_col_idx:
                         sheet_conv_id = str(row[id_col_idx]).strip()
                         is_match = sheet_conv_id == target_conv_id
-                        logger.trace(f"Dòng {i}: So sánh ID: '{sheet_conv_id}' == '{target_conv_id}' -> {is_match}")
                         if is_match:
                             found_row_index = i
                             found_row_data = dict(zip(header, row))
@@ -215,13 +215,13 @@ class SheetsClient:
                     sheet_page_id = str(row[page_col_idx]).strip()
                     id_match = (sheet_recipient_id == recipient_id) and (sheet_page_id == page_id)
-                    logger.trace(f"Dòng {i}: So sánh (user, page): ('{sheet_recipient_id}' == '{recipient_id}') AND ('{sheet_page_id}' == '{page_id}') -> {id_match}")
                     if id_match:
                         try:
                             sheet_timestamps = [str(ts).strip() for ts in _flatten_and_unique_timestamps(json.loads(row[timestamp_col_idx]))]
                             ts_match = event_timestamp and event_timestamp in sheet_timestamps
-                            logger.trace(f"Dòng {i}: So sánh timestamp: '{event_timestamp}' in {sheet_timestamps} -> {ts_match}")
                             if ts_match:
                                 found_row_index = i
                                 found_row_data = dict(zip(header, row))

                     if len(row) > id_col_idx:
                         sheet_conv_id = str(row[id_col_idx]).strip()
                         is_match = sheet_conv_id == target_conv_id
+                        # logger.trace(f"Dòng {i}: So sánh ID: '{sheet_conv_id}' == '{target_conv_id}' -> {is_match}")
                         if is_match:
                             found_row_index = i
                             found_row_data = dict(zip(header, row))
                     sheet_page_id = str(row[page_col_idx]).strip()
                     id_match = (sheet_recipient_id == recipient_id) and (sheet_page_id == page_id)
+                    # logger.trace(f"Dòng {i}: So sánh (user, page): ('{sheet_recipient_id}' == '{recipient_id}') AND ('{sheet_page_id}' == '{page_id}') -> {id_match}")
                     if id_match:
                         try:
                             sheet_timestamps = [str(ts).strip() for ts in _flatten_and_unique_timestamps(json.loads(row[timestamp_col_idx]))]
                             ts_match = event_timestamp and event_timestamp in sheet_timestamps
+                            # logger.trace(f"Dòng {i}: So sánh timestamp: '{event_timestamp}' in {sheet_timestamps} -> {ts_match}")
                             if ts_match:
                                 found_row_index = i
                                 found_row_data = dict(zip(header, row))

app/supabase_db.py CHANGED Viewed

@@ -71,7 +71,7 @@ class SupabaseClient:
         words = cleaned_text.split()
         or_query_tsquery = " ".join([word for word in words if word not in VIETNAMESE_STOP_WORDS])
         logger.info(f"[DEBUG][RPC]: or_query_tsquery: {or_query_tsquery}")
-        logger.info(f"[DEBUG][RPC]: embedding: {embedding}")
         try:
             payload = {

         words = cleaned_text.split()
         or_query_tsquery = " ".join([word for word in words if word not in VIETNAMESE_STOP_WORDS])
         logger.info(f"[DEBUG][RPC]: or_query_tsquery: {or_query_tsquery}")
+        logger.info(f"[DEBUG][RPC]: embedding: {embedding[:5]}...{embedding[-5:]}")
         try:
             payload = {

app/utils.py CHANGED Viewed

@@ -157,4 +157,47 @@ def get_random_message(message_list: List[str]) -> str:
     if not message_list:
         return "Đang xử lý..."
-    return random.choice(message_list)

     if not message_list:
         return "Đang xử lý..."
+    return random.choice(message_list)
+def _safe_truncate(
+    s: str,
+    nguong_a: int = 100,
+    do_dai_x: int = 50,
+    do_dai_y: int = 100
+) -> str:
+    """
+    Cắt chuỗi một cách thông minh dựa trên độ dài của nó.
+    - Nếu độ dài chuỗi < nguong_a: chỉ hiển thị `do_dai_x` ký tự đầu tiên.
+    - Nếu độ dài chuỗi >= nguong_a: hiển thị `do_dai_y` ký tự đầu và `do_dai_y` ký tự cuối.
+    Args:
+        s: Chuỗi đầu vào cần xử lý.
+        nguong_a (A): Ngưỡng độ dài để quyết định logic cắt chuỗi.
+        do_dai_x (X): Số ký tự đầu tiên cần hiển thị cho chuỗi ngắn.
+        do_dai_y (Y): Số ký tự đầu/cuối cần hiển thị cho chuỗi dài.
+    Returns:
+        Chuỗi đã được cắt ngắn theo quy tắc.
+    """
+    if not isinstance(s, str):
+        s = str(s)
+    s_len = len(s)
+    # --- Trường hợp 1: Độ dài chuỗi NGẮN HƠN ngưỡng A ---
+    if s_len < nguong_a:
+        # Nếu chuỗi đã ngắn hơn hoặc bằng X, trả về nguyên bản
+        if s_len <= do_dai_x:
+            return s
+        # Nếu không, cắt lấy X ký tự đầu
+        return f"{s[:do_dai_x]}... [đã cắt]"
+    # --- Trường hợp 2: Độ dài chuỗi DÀI HƠN hoặc BẰNG ngưỡng A ---
+    else:
+        # Nếu việc lấy Y ký tự đầu và Y cuối sẽ bao trọn cả chuỗi (2*Y >= s_len)
+        # thì không cần cắt để tránh hiển thị trùng lặp.
+        if s_len <= do_dai_y * 2:
+            return s
+        # Ngược lại, lấy Y ký tự đầu và Y ký tự cuối
+        return f"{s[:do_dai_y]}... [đã cắt] ...{s[-do_dai_y:]}"