Spaces:

Rivalcoder
/

Prediction

Sleeping

App Files Files Community

Rivalcoder commited on Sep 20, 2025

Commit

a745352

1 Parent(s): a275a62

Update Old Code

Browse files

Files changed (5) hide show

__pycache__/app.cpython-312.pyc +0 -0
__pycache__/kanon_api.cpython-312.pyc +0 -0
__pycache__/predictor.cpython-312.pyc +0 -0
__pycache__/vectorstore.cpython-312.pyc +0 -0
kanon_api.py +27 -28

__pycache__/app.cpython-312.pyc DELETED Viewed

Binary file (1.62 kB)

__pycache__/kanon_api.cpython-312.pyc DELETED Viewed

Binary file (3.47 kB)

__pycache__/predictor.cpython-312.pyc DELETED Viewed

Binary file (4.95 kB)

__pycache__/vectorstore.cpython-312.pyc DELETED Viewed

Binary file (2.27 kB)

kanon_api.py CHANGED Viewed

@@ -2,31 +2,15 @@ import requests
 from bs4 import BeautifulSoup
 from concurrent.futures import ThreadPoolExecutor, as_completed
-# --------------------
-# Proxy config (Webshare)
-# --------------------
-PROXIES = {
-    "http": "http://uvhnvfjd:ze82v8cwwxpa@198.23.239.134:6540",
-    "https": "http://uvhnvfjd:ze82v8cwwxpa@198.23.239.134:6540"
-}
-HEADERS = {
-    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
-                  "AppleWebKit/537.36 (KHTML, like Gecko) "
-                  "Chrome/120.0.0.0 Safari/537.36"
-}
 BASE_URL = "https://indiankanoon.org"
-# --------------------
-# Search cases
-# --------------------
 def search_cases(query, max_results=10):
     """
-    Scrape search results from Indian Kanoon website via Webshare proxy.
     """
     search_url = f"{BASE_URL}/search/?formInput={query}"
-    response = requests.get(search_url, proxies=PROXIES, headers=HEADERS, timeout=30)
     response.raise_for_status()
     soup = BeautifulSoup(response.text, "html.parser")
@@ -41,15 +25,13 @@ def search_cases(query, max_results=10):
             })
     return results
-# --------------------
-# Get case content
-# --------------------
 def get_case_content(case_url):
     """
-    Scrape the full text of a case from its URL using proxy.
     """
     try:
-        response = requests.get(case_url, proxies=PROXIES, headers=HEADERS, timeout=30)
         response.raise_for_status()
         soup = BeautifulSoup(response.text, "html.parser")
@@ -72,22 +54,39 @@ def get_case_content(case_url):
         if paragraphs:
             return "\n".join(p.get_text(strip=True) for p in paragraphs)
-    except Exception as e:
-        return f"Error fetching content: {e}"
     return "No content found."
-# --------------------
 # Parallel Case Fetching
-# --------------------
 def fetch_case_text(case):
     case['text'] = get_case_content(case['url'])
     return case
 def fetch_cases_parallel(cases, max_workers=5):
     results = []
     with ThreadPoolExecutor(max_workers=max_workers) as executor:
         futures = {executor.submit(fetch_case_text, case): case for case in cases}
         for future in as_completed(futures):
             results.append(future.result())
     return results

 from bs4 import BeautifulSoup
 from concurrent.futures import ThreadPoolExecutor, as_completed
 BASE_URL = "https://indiankanoon.org"
 def search_cases(query, max_results=10):
     """
+    Scrape search results from Indian Kanoon website.
+    Returns a list of case URLs and titles.
     """
     search_url = f"{BASE_URL}/search/?formInput={query}"
+    response = requests.get(search_url)
     response.raise_for_status()
     soup = BeautifulSoup(response.text, "html.parser")
             })
     return results
 def get_case_content(case_url):
     """
+    Scrape the full text of a case from its URL.
     """
     try:
+        response = requests.get(case_url)
         response.raise_for_status()
         soup = BeautifulSoup(response.text, "html.parser")
         if paragraphs:
             return "\n".join(p.get_text(strip=True) for p in paragraphs)
+    except Exception:
+        return None
     return "No content found."
+# =========================
 # Parallel Case Fetching
+# =========================
 def fetch_case_text(case):
+    """
+    Fetch case content safely for a single case dictionary.
+    """
     case['text'] = get_case_content(case['url'])
     return case
 def fetch_cases_parallel(cases, max_workers=5):
+    """
+    Fetch multiple cases in parallel using ThreadPoolExecutor.
+    """
     results = []
     with ThreadPoolExecutor(max_workers=max_workers) as executor:
         futures = {executor.submit(fetch_case_text, case): case for case in cases}
         for future in as_completed(futures):
             results.append(future.result())
     return results
+# # Example usage
+# query = "Cheat in Neet exam"
+# cases = search_cases(query, max_results=5)
+# # Fetch content in parallel
+# cases = fetch_cases_parallel(cases, max_workers=5)
+# for case in cases:
+#     print(f"Title: {case['title']}")
+#     print(f"Content snippet: {case['text'][:1000]}...\n")