Legal_AI_Agent

Build error

App Files Files Community

cryogenic22 commited on Dec 10, 2024

Commit

827fd16

verified ·

1 Parent(s): a027a75

Update utils/document_processor.py

Browse files

Files changed (1) hide show

utils/document_processor.py +2 -21

utils/document_processor.py CHANGED Viewed

@@ -30,9 +30,7 @@ class DocumentProcessor:
         Returns:
             Tuple[str, List[Dict], Dict]: Extracted text, text chunks, and metadata.
         """
-        # Process the document to extract text
         text, chunks = self.process_document(file)
-        # Extract metadata using ontology and document content
         metadata = self._extract_metadata(text, file.name)
         return text, chunks, metadata
@@ -101,16 +99,7 @@ class DocumentProcessor:
                 for idx, i in enumerate(range(0, len(text), chunk_size))]
     def _extract_metadata(self, text: str, file_name: str) -> Dict:
-        """
-        Extract metadata such as document type, jurisdiction, and key legal concepts.
-        Args:
-            text (str): Extracted document text.
-            file_name (str): Original file name.
-        Returns:
-            Dict: Extracted metadata.
-        """
         metadata = {
             "title": file_name,
             "type": self._infer_document_type(text),
@@ -155,15 +144,7 @@ class DocumentProcessor:
         return re.findall(date_pattern, text)
     def _link_to_ontology(self, text: str) -> List[Dict]:
-        """
-        Link document content to legal ontology for context and relevance.
-        Args:
-            text (str): Extracted document text.
-        Returns:
-            List[Dict]: Relevant ontology concepts and links.
-        """
         relevant_ontology = []
         for concept in self.ontology["@graph"]:
             if "rdfs:label" in concept and concept["rdfs:label"].lower() in text.lower():

         Returns:
             Tuple[str, List[Dict], Dict]: Extracted text, text chunks, and metadata.
         """
         text, chunks = self.process_document(file)
         metadata = self._extract_metadata(text, file.name)
         return text, chunks, metadata
                 for idx, i in enumerate(range(0, len(text), chunk_size))]
     def _extract_metadata(self, text: str, file_name: str) -> Dict:
+        """Extract metadata such as document type, jurisdiction, and key legal concepts."""
         metadata = {
             "title": file_name,
             "type": self._infer_document_type(text),
         return re.findall(date_pattern, text)
     def _link_to_ontology(self, text: str) -> List[Dict]:
+        """Link document content to legal ontology for context and relevance."""
         relevant_ontology = []
         for concept in self.ontology["@graph"]:
             if "rdfs:label" in concept and concept["rdfs:label"].lower() in text.lower():