Spaces:

TradaAI
/

Chatopus

Running

App Files Files Community

VietCat commited on Jul 7, 2025

Commit

5e12730

1 Parent(s): c9f8a8c

fix metadata)

Browse files

Files changed (2) hide show

app/law_document_chunker.py +80 -105
app/supabase_db.py +2 -1

app/law_document_chunker.py CHANGED Viewed

@@ -177,108 +177,61 @@ class LawDocumentChunker:
         logger.debug(f"[CHUNKER] Filling metadata for chunk with parent_id: {parent_id}")
         logger.debug(f"[CHUNKER] Chunk stack has {len(chunk_stack)} items")
-        # Tìm tất cả chunks có level cao hơn (Điều, Khoản) trong stack
-        # và xuất hiện trước chunk hiện tại
-        ancestors = []
-        # Tìm tất cả chunks Điều và Khoản xuất hiện trước chunk hiện tại
         for chunk_id, level, level_value, content in chunk_stack:
-            # Dừng khi gặp chunk hiện tại
             if chunk_id == parent_id:
                 break
-            # Tìm tất cả chunks Điều xuất hiện trước chunk hiện tại
-            if level == "DIEU":
-                ancestors.append((level, level_value, content))
-                logger.debug(f"[CHUNKER] Found DIEU ancestor: {level_value}")
-            # Tìm chunks Khoản chỉ nếu chunk hiện tại là Điểm
-            elif level == "KHOAN":
-                # Tìm level của chunk hiện tại
-                current_level = None
-                for cid, lvl, _, _ in chunk_stack:
-                    if cid == parent_id:
-                        current_level = lvl
                         break
-                if current_level == "DIEM":
-                    ancestors.append((level, level_value, content))
-                    logger.debug(f"[CHUNKER] Found KHOAN ancestor: {level_value}")
-        logger.debug(f"[CHUNKER] Found {len(ancestors)} ancestors: {[(level, value) for level, value, content in ancestors]}")
-        # Điền metadata từ ancestors (từ gần nhất đến xa nhất)
-        for level, level_value, content in ancestors:
-            if level == "DIEU" and level_value:
-                if not metadata.article_number:  # Chỉ điền nếu chưa có
-                    metadata.article_number = int(level_value) if level_value.isdigit() else None
-                    logger.debug(f"[CHUNKER] Set article_number: {metadata.article_number}")
-                if not metadata.article_title:  # Chỉ điền nếu chưa có
-                    # Lấy dòng đầu tiên làm title
-                    first_line = content.split('\n')[0].strip() if content else ""
-                    metadata.article_title = first_line
-                    logger.debug(f"[CHUNKER] Set article_title: {metadata.article_title}")
-            elif level == "KHOAN" and level_value:
-                if not metadata.clause_number:  # Chỉ điền nếu chưa có
-                    metadata.clause_number = level_value
-                    logger.debug(f"[CHUNKER] Set clause_number: {metadata.clause_number}")
-            elif level == "DIEM" and level_value:
-                if not metadata.sub_clause_letter:  # Chỉ điền nếu chưa có
-                    metadata.sub_clause_letter = level_value
-                    logger.debug(f"[CHUNKER] Set sub_clause_letter: {metadata.sub_clause_letter}")
-    async def _create_context_summary_with_llm(self, content: str, metadata: ChunkMetadata) -> str:
-        """
-        Tạo context_summary bằng LLM theo format: "Structure: LEVEL | Semantic: SUMMARY"
-        """
-        try:
-            # Tạo LEVEL từ metadata
-            level_parts = []
-            if metadata.sub_clause_letter:
-                level_parts.append(f"Điểm {metadata.sub_clause_letter}")
-            if metadata.clause_number:
-                level_parts.append(f"Khoản {metadata.clause_number}")
-            if metadata.article_number:
-                level_parts.append(f"Điều {metadata.article_number}")
-            level = " ".join(reversed(level_parts)) if level_parts else "Nội dung"
-            # Gọi LLM để tóm tắt chủ đề
-            summary_prompt = f"""
-            Tóm tắt ngắn gọn chủ đề chính của đoạn văn bản sau trong 1-2 câu:
-            {content[:500]}...
-            Trả về chỉ nội dung tóm tắt, không có thêm text nào khác.
-            """
-            # Sử dụng GeminiClient với RequestLimitManager
-            from .gemini_client import GeminiClient
-            gemini_client = GeminiClient()
-            summary_response = gemini_client.generate_text(
-                prompt=summary_prompt
-            )
-            summary = summary_response.strip() if summary_response else "Không có tóm tắt"
-            # Tạo context_summary theo format yêu cầu
-            context_summary = f"Structure: {level} | Semantic: {summary}"
-            return context_summary
-        except Exception as e:
-            logger.error(f"[CHUNKER] Error creating context_summary with LLM: {e}")
-            # Fallback nếu LLM lỗi
-            level_parts = []
-            if metadata.sub_clause_letter:
-                level_parts.append(f"Điểm {metadata.sub_clause_letter}")
-            if metadata.clause_number:
-                level_parts.append(f"Khoản {metadata.clause_number}")
-            if metadata.article_number:
-                level_parts.append(f"Điều {metadata.article_number}")
-            level = " ".join(reversed(level_parts)) if level_parts else "Nội dung"
-            return f"Structure: {level} | Semantic: Không có tóm tắt"
     def _split_into_chunks(self, text: str, chunk_size: int, overlap: int) -> List[str]:
         """Chia text thành các chunk với overlap."""
@@ -435,8 +388,16 @@ class LawDocumentChunker:
         # Tìm từ cuối stack (gần nhất) đến đầu stack
         for chunk_id, level, level_value, content in reversed(chunk_stack):
             if level_priority.get(level, 999) < current_priority:
-                return chunk_id
         return None
@@ -447,19 +408,33 @@ class LawDocumentChunker:
         success_count = 0
         failed_count = 0
         for i, chunk in enumerate(chunks, 1):
             try:
-                # Tạo embedding
-                embedding = await self.embedding_client.create_embedding(chunk.content)
-                # Tạo context_summary bằng LLM
-                context_summary = await self._create_context_summary_with_llm(chunk.content, chunk)
                 # Chuẩn bị data cho Supabase
                 chunk_dict = {
                     'id': chunk.id,
                     'content': chunk.content,
-                    'embedding': embedding,
                     'vanbanid': chunk.vanbanid,
                     'cha': chunk.cha,
                     'document_title': chunk.document_title,
@@ -467,7 +442,7 @@ class LawDocumentChunker:
                     'article_title': chunk.article_title,
                     'clause_number': chunk.clause_number,
                     'sub_clause_letter': chunk.sub_clause_letter,
-                    'context_summary': context_summary
                 }
                 # Lưu ngay lập tức vào Supabase

         logger.debug(f"[CHUNKER] Filling metadata for chunk with parent_id: {parent_id}")
         logger.debug(f"[CHUNKER] Chunk stack has {len(chunk_stack)} items")
+        # Tìm parent chunk trong stack
+        parent_chunk = None
         for chunk_id, level, level_value, content in chunk_stack:
             if chunk_id == parent_id:
+                parent_chunk = (level, level_value, content)
                 break
+        if not parent_chunk:
+            logger.warning(f"[CHUNKER] Parent chunk {parent_id} not found in stack")
+            return
+        parent_level, parent_value, parent_content = parent_chunk
+        # Điền metadata từ parent trực tiếp
+        if parent_level == "DIEU" and parent_value:
+            if not metadata.article_number:
+                metadata.article_number = int(parent_value) if parent_value.isdigit() else None
+                logger.debug(f"[CHUNKER] Set article_number from parent: {metadata.article_number}")
+            if not metadata.article_title:
+                first_line = parent_content.split('\n')[0].strip() if parent_content else ""
+                metadata.article_title = first_line
+                logger.debug(f"[CHUNKER] Set article_title from parent: {metadata.article_title}")
+        elif parent_level == "KHOAN" and parent_value:
+            if not metadata.clause_number:
+                metadata.clause_number = parent_value
+                logger.debug(f"[CHUNKER] Set clause_number from parent: {metadata.clause_number}")
+        # Tìm grandparent (ông) nếu cần
+        # Tìm parent của parent trong stack
+        grandparent_id = None
+        for chunk_id, level, level_value, content in chunk_stack:
+            if chunk_id == parent_id:
+                # Tìm parent của chunk này
+                for cid, lvl, lv, cont in reversed(chunk_stack):
+                    if cid == chunk_id:
                         break
+                    if lvl == "DIEU" and parent_level == "KHOAN":
+                        grandparent_id = cid
+                        break
+                break
+        if grandparent_id:
+            # Điền metadata từ grandparent
+            for chunk_id, level, level_value, content in chunk_stack:
+                if chunk_id == grandparent_id:
+                    if level == "DIEU" and level_value:
+                        if not metadata.article_number:
+                            metadata.article_number = int(level_value) if level_value.isdigit() else None
+                            logger.debug(f"[CHUNKER] Set article_number from grandparent: {metadata.article_number}")
+                        if not metadata.article_title:
+                            first_line = content.split('\n')[0].strip() if content else ""
+                            metadata.article_title = first_line
+                            logger.debug(f"[CHUNKER] Set article_title from grandparent: {metadata.article_title}")
+                    break
     def _split_into_chunks(self, text: str, chunk_size: int, overlap: int) -> List[str]:
         """Chia text thành các chunk với overlap."""
         # Tìm từ cuối stack (gần nhất) đến đầu stack
         for chunk_id, level, level_value, content in reversed(chunk_stack):
+            # Kiểm tra cả priority và quan hệ hợp lệ
             if level_priority.get(level, 999) < current_priority:
+                # Kiểm tra quan hệ hợp lệ: Điều -> Khoản -> Điểm
+                if current_level == "KHOAN" and level == "DIEU":
+                    return chunk_id
+                elif current_level == "DIEM" and level == "KHOAN":
+                    return chunk_id
+                elif current_level == "CONTENT":
+                    # Content có thể có parent là bất kỳ level nào
+                    return chunk_id
         return None
         success_count = 0
         failed_count = 0
+        # Debug: Log chi tiết metadata của từng chunk
+        logger.info(f"[CHUNKER] === DETAILED METADATA ANALYSIS ===")
+        for i, chunk in enumerate(chunks[:20]):  # Log 20 chunks đầu tiên
+            logger.info(f"[CHUNKER] Chunk {i+1}:")
+            logger.info(f"  - ID: {chunk.id[:8]}...")
+            logger.info(f"  - Content: {chunk.content[:100]}...")
+            logger.info(f"  - Parent: {chunk.cha}")
+            logger.info(f"  - Article: {chunk.article_number}")
+            logger.info(f"  - Article Title: {chunk.article_title}")
+            logger.info(f"  - Clause: {chunk.clause_number}")
+            logger.info(f"  - Point: {chunk.sub_clause_letter}")
+            logger.info(f"  - Document: {chunk.document_title}")
+            logger.info(f"  ---")
         for i, chunk in enumerate(chunks, 1):
             try:
+                # # Tạo embedding
+                # embedding = await self.embedding_client.create_embedding(chunk.content)
+                # # Tạo context_summary bằng LLM
+                # context_summary = await self._create_context_summary_with_llm(chunk.content, chunk)
                 # Chuẩn bị data cho Supabase
                 chunk_dict = {
                     'id': chunk.id,
                     'content': chunk.content,
+                    'embedding': [],  # Empty embedding for testing
                     'vanbanid': chunk.vanbanid,
                     'cha': chunk.cha,
                     'document_title': chunk.document_title,
                     'article_title': chunk.article_title,
                     'clause_number': chunk.clause_number,
                     'sub_clause_letter': chunk.sub_clause_letter,
+                    'context_summary': f"Structure: Test | Semantic: Test"  # Test context_summary
                 }
                 # Lưu ngay lập tức vào Supabase

app/supabase_db.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from typing import Any, Dict, List, Optional
 from supabase.client import create_client, Client
 from loguru import logger
@@ -192,7 +193,7 @@ class SupabaseClient:
             logger.info("[SUPABASE] Fetching all document chunks")
             # Đếm tổng số records trước
-            count_response = self.client.table('document_chunks').select('*', count='exact').execute()
             total_count = count_response.count if hasattr(count_response, 'count') else 'unknown'
             logger.info(f"[SUPABASE] Total records in table: {total_count}")

 from typing import Any, Dict, List, Optional
+from postgrest.types import CountMethod
 from supabase.client import create_client, Client
 from loguru import logger
             logger.info("[SUPABASE] Fetching all document chunks")
             # Đếm tổng số records trước
+            count_response = self.client.table('document_chunks').select('*', count=CountMethod.exact).execute()
             total_count = count_response.count if hasattr(count_response, 'count') else 'unknown'
             logger.info(f"[SUPABASE] Total records in table: {total_count}")