Spaces:

fin-jack
/

AiLegalAssistant

Build error

fin-jack commited on Mar 13, 2024

Commit

e94296c

verified ·

1 Parent(s): 1062e27

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,23 +1,31 @@
-import requests
 import os
 import spacy
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
-# URL for the legal cases data
-cases_url = '/kaggle/input/legalai/'  # Replace with the actual URL of your legal cases data
-# Fetch legal cases data from URL
-response = requests.get(cases_url)
-if response.status_code == 200:
-    cases_content = response.text.splitlines()
-else:
-    print("Failed to fetch legal cases data. Status code:", response.status_code)
-    cases_content = []
 # Preprocess and vectorize text for cases
 nlp = spacy.load("en_core_web_sm")
-processed_cases_texts = [" ".join([token.lemma_ for token in nlp(text) if not token.is_stop]) for text in cases_content]
 vectorizer_cases = TfidfVectorizer()
 tfidf_matrix_cases = vectorizer_cases.fit_transform(processed_cases_texts)

 import os
+import streamlit as st
 import spacy
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
+# Load legal data - Cases
+cases_directory = '/kaggle/input/legalai/Object_casedocs/'
+cases_texts = []
+for file_name in os.listdir(cases_directory):
+    file_path = os.path.join(cases_directory, file_name)
+    with open(file_path, 'r') as file:
+        content = file.read()
+        cases_texts.append(content)
+# Load legal data - Statutes
+statutes_directory = '/kaggle/input/legalai/Object_statutes/'
+statutes_texts = {}
+for file_name in os.listdir(statutes_directory):
+    file_path = os.path.join(statutes_directory, file_name)
+    with open(file_path, 'r') as file:
+        statute_content = file.read()
+        statutes_texts[file_name] = statute_content
 # Preprocess and vectorize text for cases
 nlp = spacy.load("en_core_web_sm")
+processed_cases_texts = [" ".join([token.lemma_ for token in nlp(text) if not token.is_stop]) for text in cases_texts]
 vectorizer_cases = TfidfVectorizer()
 tfidf_matrix_cases = vectorizer_cases.fit_transform(processed_cases_texts)