Spaces:

GodsDevProject
/

FOIA_Doc_Search

Sleeping

App Files Files Community

GodsDevProject commited on Jan 11

Commit

5daaf8c

verified ·

1 Parent(s): 59314d7

Update app.py

Browse files

Files changed (1) hide show

app.py +90 -167

app.py CHANGED Viewed

@@ -4,33 +4,28 @@
 # ======================================================
 import gradio as gr
-import time, hashlib, io, zipfile, os, tempfile, base64, json
 from datetime import datetime
 from urllib.parse import quote_plus
-import requests
-from fastapi import FastAPI, Response
 from fastapi.staticfiles import StaticFiles
-from reportlab.platypus import SimpleDocTemplate, Paragraph, PageBreak
-from reportlab.lib.styles import getSampleStyleSheet
-from reportlab.lib.pagesizes import LETTER
 # ======================================================
 # HARD GOVERNANCE FLAGS (NON-NEGOTIABLE)
 # ======================================================
-ENABLE_FAISS_PHASE_4 = False          # DEFAULT OFF – requires formal approval
-ENABLE_AI = True                     # USER OPT-IN ONLY
-ENABLE_PDF_EXTRACTION = True         # USER OPT-IN ONLY
-ENABLE_DOC_LEVEL_APIS = False        # API-ONLY, OFF BY DEFAULT
 # ======================================================
 # SESSION STATE (EPHEMERAL)
 # ======================================================
 LAST_RESULTS = []
-AI_APPENDICES = []
 SELECTED_INDEX = None
 # ======================================================
@@ -38,7 +33,7 @@ SELECTED_INDEX = None
 # ======================================================
 def sha256_text(t: str):
-    return hashlib.sha256(t.encode("utf-8")).hexdigest()
 def citation_hash(r):
     return hashlib.sha256(
@@ -47,43 +42,23 @@ def citation_hash(r):
 def provenance_headers(payload: str):
     return {
-        "Tool-Version": "1.8.0",
         "Generated-UTC": datetime.utcnow().isoformat(),
         "Content-SHA256": sha256_text(payload),
         "Public-Source-Only": "true",
         "AI-Assisted": "formatting-only",
-        "Court-Safe": "true",
     }
 def render_provenance_block(text: str):
     return "\n".join(f"{k}: {v}" for k, v in provenance_headers(text).items())
 # ======================================================
-# PHASE-4 FAISS (HARD GATED)
-# ======================================================
-class Phase4FAISS:
-    def __init__(self):
-        if not ENABLE_FAISS_PHASE_4:
-            raise RuntimeError(
-                "Phase-4 FAISS indexing is disabled pending formal approval."
-            )
-        self.index = {}
-    def add_document(self, doc_id, text):
-        self.index[doc_id] = text
-    def search(self, query):
-        return []  # intentionally non-operational until approved
-# ======================================================
-# FOIA ADAPTERS (LIVE LINK-OUT + API-READY)
 # ======================================================
 class FOIAAdapter:
     agency = "UNKNOWN"
     search_url = ""
-    api_endpoint = None  # API-ONLY when available
     def search(self, query):
         start = time.time()
@@ -98,24 +73,13 @@ class FOIAAdapter:
             "sealed": False,
         }]
-    def api_ingest(self, query):
-        if not ENABLE_DOC_LEVEL_APIS or not self.api_endpoint:
-            return []
-        try:
-            r = requests.get(self.api_endpoint, params={"q": query}, timeout=10)
-            return r.json().get("documents", [])
-        except Exception:
-            return []
 class CIA(FOIAAdapter):
     agency = "CIA"
     search_url = "https://www.cia.gov/readingroom/search/site/{q}"
-    api_endpoint = None  # published when CIA releases API
 class FBI(FOIAAdapter):
     agency = "FBI"
     search_url = "https://vault.fbi.gov/search?SearchableText={q}"
-    api_endpoint = None  # placeholder for FBI API
 class DOJ(FOIAAdapter):
     agency = "DOJ"
@@ -148,7 +112,7 @@ ALL_ADAPTERS = {
 def resolve_pdf_url(url):
     try:
-        r = requests.get(url, timeout=10, allow_redirects=True)
         ct = r.headers.get("content-type", "").lower()
         is_pdf = r.url.lower().endswith(".pdf") or "application/pdf" in ct
         return is_pdf, r.url
@@ -161,8 +125,8 @@ def resolve_pdf_url(url):
 def run_search(query, agencies):
     global LAST_RESULTS, SELECTED_INDEX
-    LAST_RESULTS = []
     SELECTED_INDEX = None
     rows = []
     for name in agencies:
@@ -179,52 +143,30 @@ def run_search(query, agencies):
                 f"{r['latency_ms']} ms",
             ])
-    return rows, render_cards(), "No document selected"
 # ======================================================
-# AI GOVERNANCE + HASHED OUTPUT
 # ======================================================
 def can_enable_ai(r):
     return (
         ENABLE_AI
         and r.get("resolved_pdf", False)
         and not r.get("sealed", False)
     )
-def ask_ai_for_document(index):
-    global SELECTED_INDEX, AI_APPENDICES
-    SELECTED_INDEX = index
     r = LAST_RESULTS[index]
-    ai_text = (
-        "AI-ASSISTED REFERENCE SUMMARY\n\n"
-        f"Agency: {r['agency']}\n"
-        f"Source URL: {r['resolved_url']}\n\n"
-        "This content is assistive, non-authoritative, "
-        "and not offered as evidence or legal analysis."
-    )
-    ai_hash = sha256_text(ai_text)
-    provenance = render_provenance_block(ai_text)
-    appendix = {
-        "index": index,
-        "text": ai_text,
-        "hash": ai_hash,
-        "provenance": provenance,
     }
-    AI_APPENDICES.append(appendix)
-    return (
-        ai_text
-        + "\n\n---\nAI HASH:\n"
-        + ai_hash
-        + "\n\nPROVENANCE:\n"
-        + provenance
-    )
 # ======================================================
 # RENDER RESULT CARDS
 # ======================================================
@@ -232,81 +174,60 @@ def ask_ai_for_document(index):
 def render_cards():
     cards = []
     for idx, r in enumerate(LAST_RESULTS):
-        enabled = can_enable_ai(r)
         cards.append(f"""
         <div class="card">
           <div class="card-header">
             <strong>{r['agency']}</strong>
             <button class="ask-ai"
-              onclick="window.askAI({idx})"
-              {"disabled" if not enabled else ""}>
               Ask AI
             </button>
           </div>
           <div><b>{r['title']}</b></div>
           <div class="actions">
             <a href="{r['resolved_url']}" target="_blank">View Source</a>
           </div>
         </div>
         """)
-    return "".join(cards) or "No results found."
 # ======================================================
-# COURT / CM-ECF BUNDLE (AI SEPARATED)
 # ======================================================
 def generate_court_bundle():
-    ecf_no = f"ECF-PREFILE-{datetime.utcnow().strftime('%Y%m%d-%H%M%S')}"
-    with tempfile.TemporaryDirectory() as td:
-        zpath = os.path.join(td, "court_bundle.zip")
-        with zipfile.ZipFile(zpath, "w") as z:
             for i, r in enumerate(LAST_RESULTS, 1):
-                content = (
-                    f"{r['agency']} FOIA Reading Room\n"
-                    f"{r['resolved_url']}\n\n"
-                    f"{render_provenance_block(r['resolved_url'])}"
-                )
-                z.writestr(f"Exhibit_{i:03d}.txt", content)
-                z.writestr(f"Exhibit_{i:03d}.sha256", r["hash"])
-            for j, a in enumerate(AI_APPENDICES, 1):
                 z.writestr(
-                    f"AI_Appendix_{j:03d}.txt",
-                    a["text"] + "\n\n" + a["provenance"],
                 )
-                z.writestr(
-                    f"AI_Appendix_{j:03d}.sha256",
-                    a["hash"],
-                )
-            z.writestr(
-                "HF_Reviewer_Cover_Letter.txt",
-                "This application indexes public FOIA materials only.\n"
-                "AI output is segregated, hashed, disclosed, and non-evidentiary."
-            )
-            z.writestr(
-                "Judicial_Clerk_Training_Notes.txt",
-                "• FOIA sources only\n"
-                "• Verify URL + hash\n"
-                "• AI appendices are informational only\n"
-            )
-            z.writestr(
-                "Trust_and_Safety_Justification.txt",
-                "HF Trust & Safety Review:\n"
-                "No private data, no training on user content, no deception."
-            )
-        return zpath
 # ======================================================
-# FASTAPI MOUNT (GOVERNANCE SITE)
 # ======================================================
 fastapi_app = FastAPI()
 if os.path.exists("governance-site"):
     fastapi_app.mount(
         "/gov",
@@ -314,51 +235,53 @@ if os.path.exists("governance-site"):
         name="governance",
     )
-@fastapi_app.get("/ask_ai")
-def ask_ai_endpoint(index: int):
-    return Response(ask_ai_for_document(index), media_type="text/plain")
 # ======================================================
 # UI
 # ======================================================
 CSS = """
-.card { border:1px solid #2a2a2a; border-radius:18px; padding:18px;
-        margin-bottom:22px; background:#0f0f0f; }
-.card-header { display:flex; justify-content:space-between; }
-.ask-ai { background:#1e88e5; color:white; border:none;
-          padding:6px 16px; border-radius:999px; }
-.ask-ai:disabled { background:#555; }
 """
-with gr.Blocks(css=CSS, title="Federal FOIA Intelligence Search") as app:
-    gr.Markdown("## Federal FOIA Intelligence Search\nPublic FOIA sources only")
-    with gr.Tab("Search"):
-        agencies = gr.CheckboxGroup(list(ALL_ADAPTERS.keys()),
-                                    value=list(ALL_ADAPTERS.keys()))
-        query = gr.Textbox()
-        table = gr.Dataframe(headers=["Agency","Title","URL","Hash","Latency"])
-        gallery = gr.HTML()
-        status = gr.Textbox(lines=10)
-        gr.Button("Search").click(run_search, [query, agencies],
-                                  [table, gallery, status])
-    with gr.Tab("Court / CM-ECF"):
-        gr.File(label="Download Court Bundle").upload(
-            lambda: generate_court_bundle()
-        )
-    with gr.Tab("Trust & Governance"):
-        gr.HTML(
-            "<iframe src='/gov/index.html' "
-            "style='width:100%;height:700px;border:1px solid #ccc'></iframe>"
-        )
-app = gr.mount_gradio_app(fastapi_app, app, path="/")
-app.js = """
-window.askAI = function(idx) {
-  fetch('/ask_ai?index=' + idx)
 }
-"""

 # ======================================================
 import gradio as gr
+import time, hashlib, zipfile, os, tempfile
 from datetime import datetime
 from urllib.parse import quote_plus
+import requests
+from fastapi import FastAPI, Query
 from fastapi.staticfiles import StaticFiles
+from fastapi.responses import JSONResponse, FileResponse
 # ======================================================
 # HARD GOVERNANCE FLAGS (NON-NEGOTIABLE)
 # ======================================================
+ENABLE_FAISS_PHASE_4 = False      # HARD DISABLED
+ENABLE_AI = True                 # USER OPT-IN ONLY
+ENABLE_PDF_EXTRACTION = True     # USER OPT-IN ONLY
 # ======================================================
 # SESSION STATE (EPHEMERAL)
 # ======================================================
 LAST_RESULTS = []
 SELECTED_INDEX = None
 # ======================================================
 # ======================================================
 def sha256_text(t: str):
+    return hashlib.sha256(t.encode()).hexdigest()
 def citation_hash(r):
     return hashlib.sha256(
 def provenance_headers(payload: str):
     return {
+        "Tool-Version": "1.7.1",
         "Generated-UTC": datetime.utcnow().isoformat(),
         "Content-SHA256": sha256_text(payload),
         "Public-Source-Only": "true",
         "AI-Assisted": "formatting-only",
     }
 def render_provenance_block(text: str):
     return "\n".join(f"{k}: {v}" for k, v in provenance_headers(text).items())
 # ======================================================
+# FOIA ADAPTERS (LINK-OUT ONLY)
 # ======================================================
 class FOIAAdapter:
     agency = "UNKNOWN"
     search_url = ""
     def search(self, query):
         start = time.time()
             "sealed": False,
         }]
 class CIA(FOIAAdapter):
     agency = "CIA"
     search_url = "https://www.cia.gov/readingroom/search/site/{q}"
 class FBI(FOIAAdapter):
     agency = "FBI"
     search_url = "https://vault.fbi.gov/search?SearchableText={q}"
 class DOJ(FOIAAdapter):
     agency = "DOJ"
 def resolve_pdf_url(url):
     try:
+        r = requests.get(url, timeout=8, allow_redirects=True)
         ct = r.headers.get("content-type", "").lower()
         is_pdf = r.url.lower().endswith(".pdf") or "application/pdf" in ct
         return is_pdf, r.url
 def run_search(query, agencies):
     global LAST_RESULTS, SELECTED_INDEX
     SELECTED_INDEX = None
+    LAST_RESULTS = []
     rows = []
     for name in agencies:
                 f"{r['latency_ms']} ms",
             ])
+    return rows, render_cards(), "No document selected."
 # ======================================================
+# ASK-AI GOVERNANCE GATE
 # ======================================================
 def can_enable_ai(r):
     return (
         ENABLE_AI
         and r.get("resolved_pdf", False)
+        and r.get("resolved_url", "").lower().endswith(".pdf")
         and not r.get("sealed", False)
     )
+def ask_ai_for_document(index: int):
     r = LAST_RESULTS[index]
+    return {
+        "status": "enabled",
+        "agency": r["agency"],
+        "title": r["title"],
+        "url": r["resolved_url"],
+        "provenance": provenance_headers(r["resolved_url"]),
     }
 # ======================================================
 # RENDER RESULT CARDS
 # ======================================================
 def render_cards():
     cards = []
     for idx, r in enumerate(LAST_RESULTS):
         cards.append(f"""
         <div class="card">
           <div class="card-header">
             <strong>{r['agency']}</strong>
             <button class="ask-ai"
+              onclick="askAI({idx})"
+              {"disabled" if not can_enable_ai(r) else ""}>
               Ask AI
             </button>
           </div>
           <div><b>{r['title']}</b></div>
           <div class="actions">
             <a href="{r['resolved_url']}" target="_blank">View Source</a>
+            {"<a href='"+r['resolved_url']+"' target='_blank'>Preview PDF</a>" if r["resolved_pdf"] else ""}
+          </div>
+          <div class="helper">
+            Why am I seeing this? This is a publicly released FOIA document.
           </div>
         </div>
         """)
+    return "".join(cards) or "No results."
 # ======================================================
+# COURT BUNDLE
 # ======================================================
 def generate_court_bundle():
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".zip") as tf:
+        with zipfile.ZipFile(tf.name, "w") as z:
             for i, r in enumerate(LAST_RESULTS, 1):
                 z.writestr(
+                    f"Exhibit_{i:03d}.txt",
+                    f"{r['agency']}\n{r['resolved_url']}\n\n{render_provenance_block(r['resolved_url'])}"
                 )
+                z.writestr(f"Exhibit_{i:03d}.sha256", r["hash"])
+        return tf.name
 # ======================================================
+# FASTAPI CORE
 # ======================================================
 fastapi_app = FastAPI()
+@fastapi_app.get("/ask_ai")
+def ask_ai(index: int = Query(...)):
+    if index >= len(LAST_RESULTS):
+        return JSONResponse({"error": "Invalid index"}, status_code=400)
+    return ask_ai_for_document(index)
+@fastapi_app.get("/court_bundle")
+def court_bundle():
+    path = generate_court_bundle()
+    return FileResponse(path, filename="court_bundle.zip")
 if os.path.exists("governance-site"):
     fastapi_app.mount(
         "/gov",
         name="governance",
     )
 # ======================================================
 # UI
 # ======================================================
 CSS = """
+.card {border:1px solid #2a2a2a;border-radius:18px;padding:18px;margin-bottom:22px;background:#0f0f0f;}
+.card-header {display:flex;justify-content:space-between;align-items:center;}
+.ask-ai {background:linear-gradient(135deg,#1e88e5,#1565c0);color:white;border:none;padding:6px 16px;border-radius:999px;font-weight:600;}
+.ask-ai:disabled {background:#555;}
+.helper {font-size:0.75rem;color:#aaa;margin-top:6px;}
+.actions {margin-top:12px;display:flex;gap:16px;}
 """
+JS = """
+function askAI(idx){
+ fetch('/ask_ai?index=' + idx)
+  .then(r=>r.json())
+  .then(d=>alert('AI Enabled for: ' + d.title));
 }
+"""
+with gr.Blocks() as gradio_ui:
+    gr.Markdown("## Federal FOIA Intelligence Search")
+    agencies = gr.CheckboxGroup(choices=list(ALL_ADAPTERS.keys()), value=list(ALL_ADAPTERS.keys()))
+    query = gr.Textbox(placeholder="Search terms")
+    table = gr.Dataframe(headers=["Agency","Title","URL","Hash","Latency"])
+    gallery = gr.HTML()
+    status = gr.Textbox(lines=4)
+    gr.Button("Search").click(run_search,[query,agencies],[table,gallery,status])
+    gr.Markdown("### Court")
+    gr.Button("Download Court Bundle").click(
+        lambda: "/court_bundle",
+        None,
+        gr.File()
+    )
+# ======================================================
+# MOUNT + LAUNCH
+# ======================================================
+app = gr.mount_gradio_app(fastapi_app, gradio_ui, path="/")
+if __name__ == "__main__":
+    gradio_ui.launch(
+        css=CSS,
+        js=JS,
+        title="Federal FOIA Intelligence Search",
+        show_error=True,
+    )