Spaces:

Rivalcoder
/

Prediction

Sleeping

App Files Files Community

Rivalcoder commited on Sep 20, 2025

Commit

f9d767c

1 Parent(s): d2adcac

Add Files

Browse files

Files changed (5) hide show

kanon_api.py +92 -0
main.py +33 -0
predictor.py +112 -0
requirements.txt +8 -0
vectorstore.py +47 -0

kanon_api.py ADDED Viewed

	@@ -0,0 +1,92 @@

+import requests
+from bs4 import BeautifulSoup
+from concurrent.futures import ThreadPoolExecutor, as_completed
+BASE_URL = "https://indiankanoon.org"
+def search_cases(query, max_results=10):
+    """
+    Scrape search results from Indian Kanoon website.
+    Returns a list of case URLs and titles.
+    """
+    search_url = f"{BASE_URL}/search/?formInput={query}"
+    response = requests.get(search_url)
+    response.raise_for_status()
+    soup = BeautifulSoup(response.text, "html.parser")
+    results = []
+    for result in soup.select(".result_title")[:max_results]:
+        title_tag = result.find("a")
+        if title_tag and title_tag.get("href"):
+            results.append({
+                "title": title_tag.get_text(strip=True),
+                "url": BASE_URL + title_tag["href"]
+            })
+    return results
+def get_case_content(case_url):
+    """
+    Scrape the full text of a case from its URL.
+    """
+    try:
+        response = requests.get(case_url)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.text, "html.parser")
+        selectors = [
+            "div#maincontent",
+            "div.content",
+            "pre",
+            "div.article_text",
+            "div.judgement-text"
+        ]
+        for sel in selectors:
+            content_div = soup.select_one(sel)
+            if content_div:
+                text = content_div.get_text(separator="\n", strip=True)
+                if text:
+                    return text
+        paragraphs = soup.find_all("p")
+        if paragraphs:
+            return "\n".join(p.get_text(strip=True) for p in paragraphs)
+    except Exception:
+        return None
+    return "No content found."
+# =========================
+# Parallel Case Fetching
+# =========================
+def fetch_case_text(case):
+    """
+    Fetch case content safely for a single case dictionary.
+    """
+    case['text'] = get_case_content(case['url'])
+    return case
+def fetch_cases_parallel(cases, max_workers=5):
+    """
+    Fetch multiple cases in parallel using ThreadPoolExecutor.
+    """
+    results = []
+    with ThreadPoolExecutor(max_workers=max_workers) as executor:
+        futures = {executor.submit(fetch_case_text, case): case for case in cases}
+        for future in as_completed(futures):
+            results.append(future.result())
+    return results
+# # Example usage
+# query = "Cheat in Neet exam"
+# cases = search_cases(query, max_results=5)
+# # Fetch content in parallel
+# cases = fetch_cases_parallel(cases, max_workers=5)
+# for case in cases:
+#     print(f"Title: {case['title']}")
+#     print(f"Content snippet: {case['text'][:1000]}...\n")

main.py ADDED Viewed

	@@ -0,0 +1,33 @@

+from fastapi import FastAPI
+from pydantic import BaseModel
+from .predictor import predict_outcome
+import datetime
+app = FastAPI()
+class CaseRequest(BaseModel):
+    case: str
+@app.post("/predict")
+async def predict(case_request: CaseRequest):
+    user_case = case_request.case
+    result = predict_outcome(user_case)
+    return {"prediction": result}
+@app.get("/health")
+async def health_check():
+    """
+    Basic health check endpoint.
+    Returns status, server time, and optional components health.
+    """
+    # You can also add DB, vectorstore, or AI API checks here if needed
+    status = {
+        "status": "ok",
+        "server_time": datetime.datetime.utcnow().isoformat() + "Z",
+        "dependencies": {
+            "google_genai_api": "ok" if True else "error",  # placeholder
+            "vectorstore": "ok" if True else "error"
+        }
+    }
+    return status

predictor.py ADDED Viewed

	@@ -0,0 +1,112 @@

+from .kanon_api import search_cases, get_case_content
+from .vectorstore import create_vector_store
+from google import genai
+import os
+import re
+import json
+client = genai.Client(api_key=os.getenv("GOOGLE_API_KEY"))
+def predict_outcome(user_case: str):
+    """
+    Predict likely case outcome using AI based on related past cases.
+    """
+    # 1️⃣ Generate legal search query
+    search_prompt = f"""
+You are an expert Indian legal AI assistant.
+Given these case facts, generate a precise **search query** suitable for finding relevant Indian legal cases on a legal database like Indian Kanoon.
+Case facts:
+{user_case}
+Requirements:
+- Output **only one line** in natural language.
+- Include **relevant Indian laws, sections, or keywords** if applicable.
+- Make it precise for legal search; do **not** use generic phrases.
+- Return **only the query**, nothing else, no explanation.
+- DOnt Give Output This " Some " or " .."  Like That DOnt Give In response only one best Line Match the Case To Give Only One
+Example output:
+"Liability for defective vehicles and accident compensation."
+"About compensation for deaths and injuries due to a road accident caused by a vehicle defect"
+"""
+    search_chat = client.chats.create(model="gemini-2.5-flash-lite")
+    query_response = search_chat.send_message(search_prompt)
+    query = query_response.text.strip().replace("\n", " ").strip('"').strip("'")
+    print("Generated legal search query:", query)
+    # 2️⃣ Search related cases
+    related_cases_data = search_cases(query, max_results=10)
+    # 3️⃣ Fetch full text for each result
+    for case in related_cases_data:
+        case['text'] = get_case_content(case['url'])
+    related_cases_texts = [case["text"] for case in related_cases_data if case.get("text")]
+    if not related_cases_texts:
+        return "No relevant cases found to analyze."
+    # 4️⃣ Create vector store
+    vectorstore = create_vector_store(related_cases_texts)
+    if not vectorstore:
+        return "Vector store creation failed."
+    # 5️⃣ Retrieve relevant cases
+    retriever = vectorstore.as_retriever()
+    relevant_docs = retriever.invoke(user_case)
+    combined_text = "\n".join([d.page_content for d in relevant_docs])
+    if not combined_text.strip():
+        return "No relevant context could be found from retrieved cases."
+    # 6️⃣ Generate final prediction
+    prompt = f"""
+You are an expert Indian legal AI assistant.
+User case facts:
+{user_case}
+Consider these previous cases:
+{combined_text}
+Return the output strictly as JSON with the following keys:
+- "probability": estimated percentage chance of winning the case (number between 0-100)
+- "timeline": approximate duration or end period of the case based on similar past cases
+- "feature_points": list of key points favoring win/loss and any major influencing factors
+Example JSON:
+{{
+  "probability": 75,
+  "timeline": "6-12 months",
+  "feature_points": [
+    "Plaintiff has strong documentary evidence",
+    "Defendant has prior similar case loss",
+    "Possible delay due to procedural issues"
+  ]
+}}
+Do **not** include any explanation outside the JSON.
+"""
+    chat = client.chats.create(model="gemini-2.0-flash-exp")
+    response = chat.send_message(prompt)
+    raw_text = response.text.strip()
+    # 1️⃣ Remove ```json or ``` at start/end
+    raw_text = re.sub(r"^```json\s*|^```|```$", "", raw_text, flags=re.IGNORECASE).strip()
+    # 2️⃣ Remove wrapping quotes if present
+    if (raw_text.startswith('"') and raw_text.endswith('"')) or (raw_text.startswith("'") and raw_text.endswith("'")):
+        raw_text = raw_text[1:-1].strip()
+        # Unescape quotes inside
+        raw_text = raw_text.replace('\\"', '"').replace("\\'", "'")
+    # 3️⃣ Try parsing as JSON
+    try:
+        result_json = json.loads(raw_text)
+    except json.JSONDecodeError:
+        result_json = {"error": "AI did not return valid JSON", "raw_response": raw_text}
+    return result_json

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+fastapi
+uvicorn[standard]
+requests
+beautifulsoup4
+pydantic
+langchain
+faiss-cpu
+google-genai

vectorstore.py ADDED Viewed

	@@ -0,0 +1,47 @@

+from langchain_community.vectorstores import FAISS
+from langchain.docstore.document import Document
+from langchain.embeddings.base import Embeddings
+from google import genai
+import os
+# Make sure your environment variable GOOGLE_API_KEY is set
+API_KEY = os.getenv("GOOGLE_API_KEY")
+if not API_KEY:
+    raise ValueError("Missing GOOGLE_API_KEY environment variable!")
+# Initialize client with API key
+client = genai.Client(api_key=API_KEY)
+class GeminiEmbeddings(Embeddings):
+    """LangChain wrapper for Google Gemini embeddings"""
+    def embed_documents(self, texts):
+        if not texts:
+            return []
+        response = client.models.embed_content(
+            model="gemini-embedding-001",
+            contents=texts
+        )
+        # Each response.embeddings[i].values is a list of floats
+        return [e.values for e in response.embeddings]
+    def embed_query(self, text):
+        response = client.models.embed_content(
+            model="gemini-embedding-001",
+            contents=[text]
+        )
+        return response.embeddings[0].values
+def create_vector_store(texts):
+    docs = [Document(page_content=t) for t in texts if t.strip()]
+    if not docs:
+        return None
+    embeddings = GeminiEmbeddings()
+    vectorstore = FAISS.from_texts(
+        texts=[d.page_content for d in docs],
+        embedding=embeddings
+    )
+    return vectorstore