Spaces:

TradaAI
/

Chatopus

Running

App Files Files Community

VietCat commited on Jul 5, 2025

Commit

3670aeb

1 Parent(s): 0f13c77

update content_summary in chunking

Browse files

Files changed (5) hide show

app/config.py +1 -1
app/law_document_chunker.py +110 -10
app/llm.py +2 -0
app/main.py +1 -3
app/supabase_db.py +2 -3

app/config.py CHANGED Viewed

@@ -40,7 +40,7 @@ class Settings(BaseSettings):
     # LLM (chat/completion) provider/model
     llm_provider: str = os.getenv("LLM_PROVIDER", "gemini") or ""
-    llm_model: str = os.getenv("LLM_MODEL", "gemini-1.5-flash-latest") or ""
     # Embedding provider/model
     embedding_provider: str = os.getenv("EMBEDDING_PROVIDER", "gemini") or ""
     embedding_model: str = os.getenv("EMBEDDING_MODEL", "models/embedding-001") or ""

     # LLM (chat/completion) provider/model
     llm_provider: str = os.getenv("LLM_PROVIDER", "gemini") or ""
+    llm_model: str = os.getenv("LLM_MODEL", "gemini-2.5-flash") or ""
     # Embedding provider/model
     embedding_provider: str = os.getenv("EMBEDDING_PROVIDER", "gemini") or ""
     embedding_model: str = os.getenv("EMBEDDING_MODEL", "models/embedding-001") or ""

app/law_document_chunker.py CHANGED Viewed

@@ -133,7 +133,7 @@ class LawDocumentChunker:
     def _create_chunk_metadata(self, content: str, level: str, level_value: Optional[str],
                               parent_id: Optional[str], vanbanid: int,
-                              document_title: str) -> ChunkMetadata:
         """Tạo metadata cho chunk."""
         chunk_id = str(uuid.uuid4())
@@ -145,17 +145,112 @@ class LawDocumentChunker:
             document_title=document_title
         )
-        # Điền metadata theo cấp độ
         if level == "DIEU" and level_value:
             metadata.article_number = int(level_value) if level_value.isdigit() else None
-            metadata.article_title = content.strip()
         elif level == "KHOAN" and level_value:
             metadata.clause_number = level_value
         elif level == "DIEM" and level_value:
             metadata.sub_clause_letter = level_value
         return metadata
     def _split_into_chunks(self, text: str, chunk_size: int, overlap: int) -> List[str]:
         """Chia text thành các chunk với overlap."""
         chunks = []
@@ -228,7 +323,8 @@ class LawDocumentChunker:
                         current_level_value,
                         current_parent,
                         vanbanid,
-                        document_title
                     )
                     chunks.append(metadata)
@@ -260,7 +356,8 @@ class LawDocumentChunker:
                             current_level_value,
                             current_parent,
                             vanbanid,
-                            document_title
                         )
                         chunks.append(metadata)
@@ -278,7 +375,8 @@ class LawDocumentChunker:
                 current_level_value,
                 current_parent,
                 vanbanid,
-                document_title
             )
             chunks.append(metadata)
@@ -322,9 +420,11 @@ class LawDocumentChunker:
         for i, chunk in enumerate(chunks, 1):
             try:
-                # Tạo embedding - TẠM THỜI COMMENT LẠI ĐỂ TEST
-                # embedding = await self.embedding_client.create_embedding(chunk.content)
-                embedding = [0.0] * 768  # Placeholder embedding cho test
                 # Chuẩn bị data cho Supabase
                 chunk_dict = {
@@ -338,7 +438,7 @@ class LawDocumentChunker:
                     'article_title': chunk.article_title,
                     'clause_number': chunk.clause_number,
                     'sub_clause_letter': chunk.sub_clause_letter,
-                    'context_summary': chunk.context_summary
                 }
                 # Lưu ngay lập tức vào Supabase

     def _create_chunk_metadata(self, content: str, level: str, level_value: Optional[str],
                               parent_id: Optional[str], vanbanid: int,
+                              document_title: str, chunk_stack: List[Tuple[str, str, Optional[str]]] = []) -> ChunkMetadata:
         """Tạo metadata cho chunk."""
         chunk_id = str(uuid.uuid4())
             document_title=document_title
         )
+        # Điền metadata từ chunk hiện tại
         if level == "DIEU" and level_value:
             metadata.article_number = int(level_value) if level_value.isdigit() else None
+            metadata.article_title = content.split('\n')[0].strip() if content else ""
         elif level == "KHOAN" and level_value:
             metadata.clause_number = level_value
         elif level == "DIEM" and level_value:
             metadata.sub_clause_letter = level_value
+        # Điền metadata từ parent chunks nếu có
+        if chunk_stack and parent_id:
+            self._fill_metadata_from_parents(metadata, chunk_stack, parent_id)
         return metadata
+    def _fill_metadata_from_parents(self, metadata: ChunkMetadata, chunk_stack: List[Tuple[str, str, Optional[str]]], parent_id: str):
+        """
+        Điền metadata từ parent chunks (Điều, Khoản) nếu chunk hiện tại có cha hoặc ông là Điều/Khoản.
+        """
+        # Tìm tất cả parent chunks
+        parent_chunks = []
+        current_parent = parent_id
+        # Tìm tất cả parents trong stack
+        for chunk_id, level, level_value in reversed(chunk_stack):
+            if chunk_id == current_parent:
+                parent_chunks.append((level, level_value))
+                # Tìm parent của parent này
+                for parent_chunk_id, parent_level, parent_level_value in reversed(chunk_stack):
+                    if parent_chunk_id == chunk_id:
+                        current_parent = parent_chunk_id
+                        break
+        # Điền metadata từ parents
+        for level, level_value in parent_chunks:
+            if level == "DIEU" and level_value:
+                if not metadata.article_number:  # Chỉ điền nếu chưa có
+                    metadata.article_number = int(level_value) if level_value.isdigit() else None
+                if not metadata.article_title:  # Chỉ điền nếu chưa có
+                    # Lấy title từ content của parent chunk
+                    for chunk_id, parent_level, parent_level_value in chunk_stack:
+                        if chunk_id == parent_id and parent_level == "DIEU":
+                            # Tìm content của parent chunk này
+                            # (Cần truyền content của parent vào đây)
+                            break
+            elif level == "KHOAN" and level_value:
+                if not metadata.clause_number:  # Chỉ điền nếu chưa có
+                    metadata.clause_number = level_value
+            elif level == "DIEM" and level_value:
+                if not metadata.sub_clause_letter:  # Chỉ điền nếu chưa có
+                    metadata.sub_clause_letter = level_value
+    async def _create_context_summary_with_llm(self, content: str, metadata: ChunkMetadata) -> str:
+        """
+        Tạo context_summary bằng LLM theo format: "Structure: LEVEL | Chủ đề: Semantic: SUMMARY"
+        """
+        try:
+            # Tạo LEVEL từ metadata
+            level_parts = []
+            if metadata.sub_clause_letter:
+                level_parts.append(f"Điểm {metadata.sub_clause_letter}")
+            if metadata.clause_number:
+                level_parts.append(f"Khoản {metadata.clause_number}")
+            if metadata.article_number:
+                level_parts.append(f"Điều {metadata.article_number}")
+            level = " ".join(reversed(level_parts)) if level_parts else "Nội dung"
+            # Gọi LLM để tóm tắt chủ đề
+            summary_prompt = f"""
+            Tóm tắt ngắn gọn chủ đề chính của đoạn văn bản sau trong 1-2 câu:
+            {content[:500]}...
+            Trả về chỉ nội dung tóm tắt, không có thêm text nào khác.
+            """
+            # Sử dụng GeminiClient với RequestLimitManager
+            from .gemini_client import GeminiClient
+            gemini_client = GeminiClient()
+            summary_response = gemini_client.generate_text(
+                prompt=summary_prompt
+            )
+            summary = summary_response.strip() if summary_response else "Không có tóm tắt"
+            # Tạo context_summary theo format yêu cầu
+            context_summary = f"Structure: {level} | Chủ đề: Semantic: {summary}"
+            return context_summary
+        except Exception as e:
+            logger.error(f"[CHUNKER] Error creating context_summary with LLM: {e}")
+            # Fallback nếu LLM lỗi
+            level_parts = []
+            if metadata.sub_clause_letter:
+                level_parts.append(f"Điểm {metadata.sub_clause_letter}")
+            if metadata.clause_number:
+                level_parts.append(f"Khoản {metadata.clause_number}")
+            if metadata.article_number:
+                level_parts.append(f"Điều {metadata.article_number}")
+            level = " ".join(reversed(level_parts)) if level_parts else "Nội dung"
+            return f"Structure: {level} | Chủ đề: Semantic: Không có tóm tắt"
     def _split_into_chunks(self, text: str, chunk_size: int, overlap: int) -> List[str]:
         """Chia text thành các chunk với overlap."""
         chunks = []
                         current_level_value,
                         current_parent,
                         vanbanid,
+                        document_title,
+                        chunk_stack
                     )
                     chunks.append(metadata)
                             current_level_value,
                             current_parent,
                             vanbanid,
+                            document_title,
+                            chunk_stack
                         )
                         chunks.append(metadata)
                 current_level_value,
                 current_parent,
                 vanbanid,
+                document_title,
+                chunk_stack
             )
             chunks.append(metadata)
         for i, chunk in enumerate(chunks, 1):
             try:
+                # Tạo embedding
+                embedding = await self.embedding_client.create_embedding(chunk.content)
+                # Tạo context_summary bằng LLM
+                context_summary = await self._create_context_summary_with_llm(chunk.content, chunk)
                 # Chuẩn bị data cho Supabase
                 chunk_dict = {
                     'article_title': chunk.article_title,
                     'clause_number': chunk.clause_number,
                     'sub_clause_letter': chunk.sub_clause_letter,
+                    'context_summary': context_summary
                 }
                 # Lưu ngay lập tức vào Supabase

app/llm.py CHANGED Viewed

@@ -88,7 +88,9 @@ class LLMClient:
     def _setup_gemini(self, config: Dict[str, Any]):
         """Cấu hình cho Gemini."""
         self.gemini_client = GeminiClient()
     @timing_decorator_async
     async def generate_text(

     def _setup_gemini(self, config: Dict[str, Any]):
         """Cấu hình cho Gemini."""
+        # Sử dụng GeminiClient với RequestLimitManager
         self.gemini_client = GeminiClient()
+        logger.info("[LLM] Initialized GeminiClient with RequestLimitManager")
     @timing_decorator_async
     async def generate_text(

app/main.py CHANGED Viewed

@@ -369,9 +369,7 @@ async def process_business_logic(log_kwargs: Dict[str, Any], page_token: str) ->
             # Có thông tin phương tiện
             if action:
                 logger.info(f"[DEBUG] tạo embedding: {action}")
-                # TẠM THỜI COMMENT LẠI EMBEDDING ĐỂ TEST
-                # embedding = await embedding_client.create_embedding(action)
-                embedding = [0.0] * 768  # Placeholder embedding cho test
                 logger.info(f"[DEBUG] embedding: {embedding[:5]} ... (total {len(embedding)})")
                 matches = supabase_client.match_documents(embedding, vehicle_keywords=keywords)
                 logger.info(f"[DEBUG] matches: {matches}")

             # Có thông tin phương tiện
             if action:
                 logger.info(f"[DEBUG] tạo embedding: {action}")
+                embedding = await embedding_client.create_embedding(action)
                 logger.info(f"[DEBUG] embedding: {embedding[:5]} ... (total {len(embedding)})")
                 matches = supabase_client.match_documents(embedding, vehicle_keywords=keywords)
                 logger.info(f"[DEBUG] matches: {matches}")

app/supabase_db.py CHANGED Viewed

@@ -89,10 +89,9 @@ class SupabaseClient:
             # Xử lý các giá trị null/empty cho integer fields
             processed_data = chunk_data.copy()
-            # TẠM THỜI COMMENT LẠI EMBEDDING ĐỂ TEST
             if 'embedding' in processed_data:
-                # processed_data['embedding'] = processed_data['embedding']
-                del processed_data['embedding']  # Xóa embedding để test
             # Xử lý article_number - chỉ gửi nếu có giá trị hợp lệ
             if 'article_number' in processed_data:

             # Xử lý các giá trị null/empty cho integer fields
             processed_data = chunk_data.copy()
+            # Giữ lại embedding để lưu vào database
             if 'embedding' in processed_data:
+                processed_data['embedding'] = processed_data['embedding']
             # Xử lý article_number - chỉ gửi nếu có giá trị hợp lệ
             if 'article_number' in processed_data: