Spaces:

rishabh5752
/

Compliance_Chatbot

Sleeping

App Files Files Community

rishabh5752 commited on Sep 12, 2025

Commit

88335c8

verified ·

1 Parent(s): 88fde0c

Update app.py

Browse files

Files changed (1) hide show

app.py +75 -97

app.py CHANGED Viewed

@@ -1,134 +1,112 @@
 import pathlib, tempfile, textwrap, traceback, requests
 from functools import lru_cache
 import gradio as gr
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.vectorstores import FAISS
 from langchain.docstore.document import Document
 from transformers import pipeline
 import pypdf
-# --------------------------------------------------
-# 1️⃣  Policy corpus
-# --------------------------------------------------
 POLICY_URLS = {
-    "DPDP Act 2023": "https://www.meity.gov.in/static/uploads/2024/06/2bf1f0e9f04e6fb4f8fef35e82c42aa5.pdf",
-    "Responsible AI (NITI Aayog)": "https://www.niti.gov.in/sites/default/files/2021-08/Part2-Responsible-AI-12082021.pdf",
-    "National AI Strategy (NITI Aayog)": "https://www.niti.gov.in/sites/default/files/2023-03/National-Strategy-for-Artificial-Intelligence.pdf",
-    "IS 17428-1 (Data Privacy Assurance)": "https://archive.org/download/gov.in.is.17428.1.2020/gov.in.is.17428.1.2020.pdf",
-    "RBI FREE-AI Framework 2025": "https://assets.kpmg.com/content/dam/kpmgsites/in/pdf/2025/08/rbi-free-ai-committee-report-on-framework-for-responsible-and-ethical-enablement-of-artificial-intelligence.pdf.coredownload.inline.pdf",
-    "OECD AI Principles": "https://oecd.ai/en/assets/files/OECD-LEGAL-0449-en.pdf",
-    "EU AI Act 2024": "https://eur-lex.europa.eu/resource.html?uri=cellar:99db59ed-3b7b-11ef-9e3c-01aa75ed71a1.0001.02/DOC_1&format=PDF",
-    "ISO/IEC 42001:2023": "https://standards.iteh.ai/catalog/standards/iso/44d7188c-9cb8-4f0f-a358-06c7ce3e64f9/iso-iec-42001-2023.pdf",
-    "ISO/IEC 23894:2023": "https://cdn.standards.iteh.ai/samples/77304/cb803ee4e9624430a5db177459158b24/ISO-IEC-23894-2023.pdf",
 }
 INDUSTRY_MAP = {
-    "Finance": ["DPDP Act 2023", "RBI FREE-AI Framework 2025", "IS 17428-1 (Data Privacy Assurance)", "OECD AI Principles"],
-    "Health Care": ["DPDP Act 2023", "Responsible AI (NITI Aayog)", "ISO/IEC 23894:2023", "OECD AI Principles"],
-    "E-Commerce": ["DPDP Act 2023", "IS 17428-1 (Data Privacy Assurance)", "OECD AI Principles", "EU AI Act 2024"],
     "All": list(POLICY_URLS.keys()),
 }
-# --------------------------------------------------
-# 2️⃣  Helpers
-# --------------------------------------------------
-def download_file(url: str, dest: pathlib.Path):
-    if dest.exists():
-        return dest
-    dest.parent.mkdir(parents=True, exist_ok=True)
-    r = requests.get(url, timeout=120)
-    r.raise_for_status()
-    dest.write_bytes(r.content)
-    return dest
-def pdf_to_text(path: pathlib.Path) -> str:
-    txt = []
     with path.open("rb") as f:
-        rdr = pypdf.PdfReader(f)
-        for p in rdr.pages:
-            txt.append(p.extract_text() or "")
-    return "\n".join(txt)
 @lru_cache(maxsize=1)
-def get_store(srcs=tuple(POLICY_URLS.keys())):
-    print("Building FAISS index… (cached)")
     splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=128)
     docs = []
     for name in srcs:
-        p = pathlib.Path(tempfile.gettempdir()) / "policygpt" / f"{name}.pdf"
         try:
-            download_file(POLICY_URLS[name], p)
-            for chunk in splitter.split_text(pdf_to_text(p)):
                 docs.append(Document(page_content=chunk, metadata={"src": name}))
-            print("✓", name)
         except Exception as e:
-            print("✗", name, e)
-    emb = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    return FAISS.from_documents(docs, emb)
-GEN = pipeline("text-generation", model="google/flan-t5-small", max_new_tokens=200, do_sample=False)
-def rag(question: str, industry: str):
-    store = get_store(tuple(POLICY_URLS.keys()) if industry == "All" else tuple(INDUSTRY_MAP[industry]))
-    ctx = store.similarity_search(question, k=4)
-    context = "\n\n".join(d.page_content for d in ctx)[:3500]
     prompt = textwrap.dedent(f"""
-        You are PolicyGPT. Using CONTEXT, answer QUESTION in ≤150 words, citing source names in brackets. If unsure, say I don’t know.
-        CONTEXT:\n{context}\n\nQUESTION: {question}\nANSWER:
     """)
     try:
-        raw = GEN(prompt)[0]["generated_text"]
-        ans = raw.split("ANSWER:")[-1].strip()
-        return ans if ans else "I don’t know."
     except Exception as e:
         return f"⚠️ Generation error: {e}"
-def tag(text: str) -> str:
-    t = text.lower()
-    if any(w in t for w in ("violation", "prohibited", "penalty")):
         return "High"
-    if any(w in t for w in ("must", "should", "shall", "mandatory")):
         return "Medium"
     return "Low"
-# --------------------------------------------------
-# 3️⃣  Gradio UI (button disabled while processing)
-# --------------------------------------------------
-def answer_fn(question, industry):
-    ans = rag(question, industry)
-    return ans, f"**Estimated compliance risk:** {tag(ans)}", gr.update(interactive=True)
-with gr.Blocks(title="PolicyGPT 🇮🇳 (AI & Data Governance)") as demo:
-    gr.Markdown("""# PolicyGPT 🇮🇳\nAsk about Indian & global AI governance (DPDP, RBI FREE‑AI, ISO 42001, EU AI Act …).""")
-    industry_dd = gr.Dropdown(label="Select industry", choices=list(INDUSTRY_MAP.keys()), value="All")
-    question_tb = gr.Textbox(label="Your question", lines=2, placeholder="e.g. What rules govern patient PII?")
-    ask_btn = gr.Button("Ask")
-    with gr.Row():
-        answer_md = gr.Markdown()
-        risk_md = gr.Markdown()
-    # Disable button immediately, run processing, then re‑enable
-    def disable_btn():
-        return gr.update(interactive=False)
-    ask_btn.click(disable_btn, None, ask_btn, queue=False)
-    ask_btn.click(answer_fn, [question_tb, industry_dd], [answer_md, risk_md, ask_btn], queue=True)
-    # Enter key triggers same flow
-    question_tb.submit(disable_btn, None, ask_btn, queue=False)
-    question_tb.submit(answer_fn, [question_tb, industry_dd], [answer_md, risk_md, ask_btn], queue=True)
-# Enable queuing so button auto‑disabled while async runs
 if __name__ == "__main__":
-    demo.queue(concurrency_count=4).launch()

+# app.py  –  PolicyGPT 🇮🇳  (error-free)
 import pathlib, tempfile, textwrap, traceback, requests
 from functools import lru_cache
 import gradio as gr
+from langchain_community.embeddings import HuggingFaceEmbeddings  # new import
+from langchain_community.vectorstores import FAISS               # new import
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.docstore.document import Document
 from transformers import pipeline
 import pypdf
+# ---------- 1. Policy corpus ----------
 POLICY_URLS = {
+    "DPDP Act 2023":
+        "https://www.meity.gov.in/static/uploads/2024/06/2bf1f0e9f04e6fb4f8fef35e82c42aa5.pdf",
+    "Responsible AI (NITI Aayog)":
+        "https://www.niti.gov.in/sites/default/files/2021-08/Part2-Responsible-AI-12082021.pdf",
+    # … keep the rest …
 }
 INDUSTRY_MAP = {
+    "Health Care": ["DPDP Act 2023", "Responsible AI (NITI Aayog)"],
     "All": list(POLICY_URLS.keys()),
 }
+# ---------- 2. Helpers ----------
+def download(url: str, path: pathlib.Path):
+    if not path.exists():
+        path.parent.mkdir(parents=True, exist_ok=True)
+        r = requests.get(url, timeout=120)
+        r.raise_for_status()
+        path.write_bytes(r.content)
+    return path
+def pdf_text(path: pathlib.Path) -> str:
+    out = []
     with path.open("rb") as f:
+        for p in pypdf.PdfReader(f).pages:
+            out.append(p.extract_text() or "")
+    return "\n".join(out)
 @lru_cache(maxsize=1)
+def store(srcs=tuple(POLICY_URLS.keys())):
     splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=128)
     docs = []
     for name in srcs:
+        path = pathlib.Path(tempfile.gettempdir()) / "policygpt" / f"{name}.pdf"
         try:
+            for chunk in splitter.split_text(pdf_text(download(POLICY_URLS[name], path))):
                 docs.append(Document(page_content=chunk, metadata={"src": name}))
         except Exception as e:
+            print("❌", name, e)
+    embed = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    return FAISS.from_documents(docs, embed)
+GEN = pipeline(                 # ✅ use text2text-generation
+    "text2text-generation",
+    model="google/flan-t5-small",
+    max_new_tokens=200,
+    do_sample=False,
+)
+def rag(q: str, industry: str):
+    db = store(tuple(POLICY_URLS.keys()) if industry == "All" else tuple(INDUSTRY_MAP[industry]))
+    ctx = "\n\n".join(d.page_content for d in db.similarity_search(q, k=4))[:3500]
     prompt = textwrap.dedent(f"""
+        You are PolicyGPT. Using CONTEXT, answer QUESTION (≤150 words)
+        and cite source names in brackets. If unsure, say I don’t know.
+        CONTEXT:
+        {ctx}
+        QUESTION: {q}
+        ANSWER:
     """)
     try:
+        return GEN(prompt)[0]["generated_text"].strip() or "I don’t know."
     except Exception as e:
         return f"⚠️ Generation error: {e}"
+def risk(text: str):
+    low = text.lower()
+    if any(k in low for k in ("violation", "prohibited", "penalty")):
         return "High"
+    if any(k in low for k in ("must", "should", "shall")):
         return "Medium"
     return "Low"
+# ---------- 3. Gradio UI ----------
+def answer_fn(q, ind):
+    a = rag(q, ind)
+    return a, f"**Estimated compliance risk:** {risk(a)}", gr.update(interactive=True)
+with gr.Blocks(title="PolicyGPT 🇮🇳") as demo:
+    gr.Markdown("# PolicyGPT 🇮🇳 — ask about AI & Data-governance laws")
+    ind = gr.Dropdown(list(INDUSTRY_MAP.keys()), label="Select industry", value="All")
+    qbox = gr.Textbox(lines=2, label="Your question",
+                      placeholder="e.g. What PII rules apply to hospitals?")
+    ask = gr.Button("Ask")
+    ans = gr.Markdown(); rsk = gr.Markdown()
+    # Disable button while processing
+    ask.click(lambda: gr.update(interactive=False), None, ask, queue=False)
+    ask.click(answer_fn, [qbox, ind], [ans, rsk, ask])
+    qbox.submit(lambda: gr.update(interactive=False), None, ask, queue=False)
+    qbox.submit(answer_fn, [qbox, ind], [ans, rsk, ask])
+# Gradio 4+: no concurrency_count param
 if __name__ == "__main__":
+    demo.queue().launch()