Spaces:

TradaAI
/

Chatopus

Running

App Files Files Community

VietCat commited on Jul 5, 2025

Commit

81cf5ad

1 Parent(s): cddf0a4

add data viewer

Browse files

Files changed (1) hide show

app/law_document_chunker.py +54 -48

app/law_document_chunker.py CHANGED Viewed

@@ -32,10 +32,11 @@ class LawDocumentChunker:
         self.embedding_client = EmbeddingClient()
         # Regex patterns cho các cấp độ cấu trúc - SỬA LẠI ĐỂ CHÍNH XÁC HƠN
-        self.PHAN_REGEX = r"^(Phần|PHẦN|Phần thứ)\s+(\d+|[IVXLCDM]+|nhất|hai|ba|tư|năm|sáu|bảy|tám|chín|mười)\.?\s*"
-        self.PHU_LUC_REGEX = r"^(Phụ lục|PHỤ LỤC)\s+(\d+|[A-Z]+)\.?\s*"
-        self.CHUONG_REGEX = r"^(Chương|CHƯƠNG)\s+(\d+|[IVXLCDM]+)\.?\s*"
-        self.MUC_REGEX = r"^(Mục|MỤC)\s+\d+\.?\s*"
         self.DIEU_REGEX = r"^Điều\s+(\d+)\.\s*(.*)"
         self.KHOAN_REGEX = r"^\s*(\d+(\.\d+)*)\.\s*(.*)"
         self.DIEM_REGEX_A = r"^\s*([a-zđ])\)\s*(.*)"
@@ -80,50 +81,55 @@ class LawDocumentChunker:
         """Phát hiện cấp độ cấu trúc của một dòng."""
         line = line.strip()
-        # Phần
-        match = re.match(self.PHAN_REGEX, line, re.IGNORECASE)
-        if match:
-            return "PHAN", match.group(1), match.group(2)
-        # Phụ lục
-        match = re.match(self.PHU_LUC_REGEX, line, re.IGNORECASE)
-        if match:
-            return "PHU_LUC", match.group(1), match.group(2)
-        # Chương
-        match = re.match(self.CHUONG_REGEX, line, re.IGNORECASE)
-        if match:
-            return "CHUONG", match.group(1), match.group(2)
-        # Mục
-        match = re.match(self.MUC_REGEX, line, re.IGNORECASE)
-        if match:
-            return "MUC", match.group(1), match.group(2)
-        # Điều
-        match = re.match(self.DIEU_REGEX, line)
-        if match:
-            return "DIEU", match.group(1), match.group(2)
-        # Khoản
-        match = re.match(self.KHOAN_REGEX, line)
-        if match:
-            clause_num = match.group(1)
-            # Kiểm tra không phải điểm (có từ 3 số trở lên)
-            if len(clause_num.split('.')) < 3:
-                return "KHOAN", clause_num, match.group(3)
-        # Điểm chữ cái
-        match = re.match(self.DIEM_REGEX_A, line)
-        if match:
-            return "DIEM", match.group(1), match.group(2)
-        # Điểm số
-        match = re.match(self.DIEM_REGEX_NUM, line)
-        if match:
-            return "DIEM", match.group(1), match.group(2)
-        return "CONTENT", None, None
     def _create_chunk_metadata(self, content: str, level: str, level_value: Optional[str],
                               parent_id: Optional[str], vanbanid: int,

         self.embedding_client = EmbeddingClient()
         # Regex patterns cho các cấp độ cấu trúc - SỬA LẠI ĐỂ CHÍNH XÁC HƠN
+        # Đảm bảo mỗi pattern có đúng số group
+        self.PHAN_REGEX = r"^(Phần|PHẦN|Phần thứ)\s+(\d+|[IVXLCDM]+|nhất|hai|ba|tư|năm|sáu|bảy|tám|chín|mười)\.?\s*(.*)"
+        self.PHU_LUC_REGEX = r"^(Phụ lục|PHỤ LỤC)\s+(\d+|[A-Z]+)\.?\s*(.*)"
+        self.CHUONG_REGEX = r"^(Chương|CHƯƠNG)\s+(\d+|[IVXLCDM]+)\.?\s*(.*)"
+        self.MUC_REGEX = r"^(Mục|MỤC)\s+(\d+)\.?\s*(.*)"
         self.DIEU_REGEX = r"^Điều\s+(\d+)\.\s*(.*)"
         self.KHOAN_REGEX = r"^\s*(\d+(\.\d+)*)\.\s*(.*)"
         self.DIEM_REGEX_A = r"^\s*([a-zđ])\)\s*(.*)"
         """Phát hiện cấp độ cấu trúc của một dòng."""
         line = line.strip()
+        try:
+            # Phần
+            match = re.match(self.PHAN_REGEX, line, re.IGNORECASE)
+            if match:
+                return "PHAN", match.group(1), match.group(2)
+            # Phụ lục
+            match = re.match(self.PHU_LUC_REGEX, line, re.IGNORECASE)
+            if match:
+                return "PHU_LUC", match.group(1), match.group(2)
+            # Chương
+            match = re.match(self.CHUONG_REGEX, line, re.IGNORECASE)
+            if match:
+                return "CHUONG", match.group(1), match.group(2)
+            # Mục
+            match = re.match(self.MUC_REGEX, line, re.IGNORECASE)
+            if match:
+                return "MUC", match.group(1), match.group(2)
+            # Điều
+            match = re.match(self.DIEU_REGEX, line)
+            if match:
+                return "DIEU", match.group(1), match.group(2)
+            # Khoản
+            match = re.match(self.KHOAN_REGEX, line)
+            if match:
+                clause_num = match.group(1)
+                # Kiểm tra không phải điểm (có từ 3 số trở lên)
+                if len(clause_num.split('.')) < 3:
+                    return "KHOAN", clause_num, match.group(3)
+            # Điểm chữ cái
+            match = re.match(self.DIEM_REGEX_A, line)
+            if match:
+                return "DIEM", match.group(1), match.group(2)
+            # Điểm số
+            match = re.match(self.DIEM_REGEX_NUM, line)
+            if match:
+                return "DIEM", match.group(1), match.group(2)
+            return "CONTENT", None, None
+        except Exception as e:
+            logger.error(f"[CHUNKER] Error in _detect_structure_level for line '{line}': {e}")
+            return "CONTENT", None, None
     def _create_chunk_metadata(self, content: str, level: str, level_value: Optional[str],
                               parent_id: Optional[str], vanbanid: int,