Spaces:

Rivalcoder
/

Prediction

Sleeping

App Files Files Community

Rivalcoder commited on Sep 20, 2025

Commit

a275a62

1 Parent(s): 5c309f7

Proxy

Browse files

Files changed (1) hide show

kanon_api.py +28 -27

kanon_api.py CHANGED Viewed

@@ -2,15 +2,31 @@ import requests
 from bs4 import BeautifulSoup
 from concurrent.futures import ThreadPoolExecutor, as_completed
 BASE_URL = "https://indiankanoon.org"
 def search_cases(query, max_results=10):
     """
-    Scrape search results from Indian Kanoon website.
-    Returns a list of case URLs and titles.
     """
     search_url = f"{BASE_URL}/search/?formInput={query}"
-    response = requests.get(search_url)
     response.raise_for_status()
     soup = BeautifulSoup(response.text, "html.parser")
@@ -25,13 +41,15 @@ def search_cases(query, max_results=10):
             })
     return results
 def get_case_content(case_url):
     """
-    Scrape the full text of a case from its URL.
     """
     try:
-        response = requests.get(case_url)
         response.raise_for_status()
         soup = BeautifulSoup(response.text, "html.parser")
@@ -54,39 +72,22 @@ def get_case_content(case_url):
         if paragraphs:
             return "\n".join(p.get_text(strip=True) for p in paragraphs)
-    except Exception:
-        return None
     return "No content found."
-# =========================
 # Parallel Case Fetching
-# =========================
 def fetch_case_text(case):
-    """
-    Fetch case content safely for a single case dictionary.
-    """
     case['text'] = get_case_content(case['url'])
     return case
 def fetch_cases_parallel(cases, max_workers=5):
-    """
-    Fetch multiple cases in parallel using ThreadPoolExecutor.
-    """
     results = []
     with ThreadPoolExecutor(max_workers=max_workers) as executor:
         futures = {executor.submit(fetch_case_text, case): case for case in cases}
         for future in as_completed(futures):
             results.append(future.result())
     return results
-# # Example usage
-# query = "Cheat in Neet exam"
-# cases = search_cases(query, max_results=5)
-# # Fetch content in parallel
-# cases = fetch_cases_parallel(cases, max_workers=5)
-# for case in cases:
-#     print(f"Title: {case['title']}")
-#     print(f"Content snippet: {case['text'][:1000]}...\n")

 from bs4 import BeautifulSoup
 from concurrent.futures import ThreadPoolExecutor, as_completed
+# --------------------
+# Proxy config (Webshare)
+# --------------------
+PROXIES = {
+    "http": "http://uvhnvfjd:ze82v8cwwxpa@198.23.239.134:6540",
+    "https": "http://uvhnvfjd:ze82v8cwwxpa@198.23.239.134:6540"
+}
+HEADERS = {
+    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
+                  "AppleWebKit/537.36 (KHTML, like Gecko) "
+                  "Chrome/120.0.0.0 Safari/537.36"
+}
 BASE_URL = "https://indiankanoon.org"
+# --------------------
+# Search cases
+# --------------------
 def search_cases(query, max_results=10):
     """
+    Scrape search results from Indian Kanoon website via Webshare proxy.
     """
     search_url = f"{BASE_URL}/search/?formInput={query}"
+    response = requests.get(search_url, proxies=PROXIES, headers=HEADERS, timeout=30)
     response.raise_for_status()
     soup = BeautifulSoup(response.text, "html.parser")
             })
     return results
+# --------------------
+# Get case content
+# --------------------
 def get_case_content(case_url):
     """
+    Scrape the full text of a case from its URL using proxy.
     """
     try:
+        response = requests.get(case_url, proxies=PROXIES, headers=HEADERS, timeout=30)
         response.raise_for_status()
         soup = BeautifulSoup(response.text, "html.parser")
         if paragraphs:
             return "\n".join(p.get_text(strip=True) for p in paragraphs)
+    except Exception as e:
+        return f"Error fetching content: {e}"
     return "No content found."
+# --------------------
 # Parallel Case Fetching
+# --------------------
 def fetch_case_text(case):
     case['text'] = get_case_content(case['url'])
     return case
 def fetch_cases_parallel(cases, max_workers=5):
     results = []
     with ThreadPoolExecutor(max_workers=max_workers) as executor:
         futures = {executor.submit(fetch_case_text, case): case for case in cases}
         for future in as_completed(futures):
             results.append(future.result())
     return results