Spaces:

deepthi6
/

clausewise_full_project_v2

Sleeping

App Files Files Community

deepthi6 commited on Nov 13, 2025

Commit

7bfb077

verified ·

1 Parent(s): 23ac016

Update app.py

Browse files

Files changed (1) hide show

app.py +171 -85

app.py CHANGED Viewed

@@ -1,86 +1,172 @@
-import re
 from pypdf import PdfReader
-import docx
-import io
-from transformers import AutoTokenizer, AutoModelForCausalLM
-import torch
-# -------------------------------------------------------------
-# ✅ Extract text from files
-# -------------------------------------------------------------
-def extract_text(uploaded_file):
-    name = uploaded_file.name.lower()
-    if name.endswith(".txt"):
-        return uploaded_file.read().decode("utf-8", errors="ignore")
-    elif name.endswith(".pdf"):
-        reader = PdfReader(uploaded_file)
-        text = ""
-        for page in reader.pages:
-            text += page.extract_text() or ""
-        return text
-    elif name.endswith(".docx"):
-        doc = docx.Document(uploaded_file)
-        return "\n".join([p.text for p in doc.paragraphs])
-    return ""
-# -------------------------------------------------------------
-# ✅ Clause splitting (very stable)
-# -------------------------------------------------------------
-def split_into_clauses(text):
-    parts = re.split(r"\n\s*\d+\.\s+|\n\s*-\s+|\n{2,}", text)
-    clauses = [p.strip() for p in parts if len(p.strip()) > 40]
-    return clauses[:15]  # keep app fast for HF cpu
-# -------------------------------------------------------------
-# ✅ Clause simplifier (dummy logic)
-# -------------------------------------------------------------
-def simplify_clause(clause, mode):
-    clause = clause.strip()
-    if mode == "eli5":
-        return f"This clause basically means: {clause[:120]}..."
-    if mode == "simple":
-        return f"Simplified meaning: {clause[:150]}..."
-    if mode == "pro":
-        return f"Professional interpretation: {clause}"
-    return clause
-# -------------------------------------------------------------
-# ✅ Chat with DistilGPT2 (working HF CPU-safe chat)
-# -------------------------------------------------------------
-def chat_with_model(model, tokenizer, prompt, history):
-    full_prompt = ""
-    # Build few-shot conversation context (last 6 messages)
-    for role, text in history[-6:]:
-        full_prompt += f"{role}: {text}\n"
-    full_prompt += f"User: {prompt}\nAI:"
-    inputs = tokenizer(full_prompt, return_tensors="pt")
-    with torch.no_grad():
-        output = model.generate(
-            **inputs,
-            max_length=200,
-            num_beams=1,
-            no_repeat_ngram_size=2,
-            pad_token_id=tokenizer.eos_token_id
-        )
-    result = tokenizer.decode(output[0], skip_special_tokens=True)
-    # Clean only last assistant message
-    if "AI:" in result:
-        result = result.split("AI:")[-1].strip()
-    return result

+import streamlit as st
 from pypdf import PdfReader
+from docx import Document
+import re
+from multilingual import UI_TEXT, translate_text
+from backup_features import extract_entities, extract_clauses, get_risks, fairness_score, alternative_clauses
+from transformers import T5Tokenizer, T5ForConditionalGeneration
+# -------------------------------
+# Load Local T5 Chat Model
+# -------------------------------
+@st.cache_resource
+def load_chat_model():
+    tokenizer = T5Tokenizer.from_pretrained("t5-small")
+    model = T5ForConditionalGeneration.from_pretrained("t5-small")
+    return tokenizer, model
+tokenizer, chat_model = load_chat_model()
+def chat_response(user_msg, lang):
+    prompt = f"Legal NDA Question: {user_msg}\nProvide educational information only."
+    inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
+    outputs = chat_model.generate(**inputs, max_length=150)
+    reply = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return translate_text(reply, lang)
+# -------------------------------
+# Utility Functions
+# -------------------------------
+def is_nda(text):
+    return "nda" in text.lower() or "non-disclosure" in text.lower()
+def read_pdf(file):
+    reader = PdfReader(file)
+    return "\n".join(page.extract_text() for page in reader.pages)
+def read_docx(file):
+    doc = Document(file)
+    return "\n".join(p.text for p in doc.paragraphs)
+def read_txt(file):
+    return file.read().decode("utf-8")
+# -------------------------------
+# Streamlit UI
+# -------------------------------
+st.set_page_config(page_title="ClauseWise", layout="wide")
+# Language Selector
+lang = st.sidebar.selectbox("🌐 Language", ["en", "hi", "ta", "te", "kn"])
+# Title
+st.title("📄 ClauseWise – Multilingual NDA Analyzer")
+uploaded = st.file_uploader(UI_TEXT["upload_title"][lang], type=["pdf", "txt", "docx"])
+if uploaded:
+    ext = uploaded.name.split(".")[-1]
+    if ext == "pdf":
+        text = read_pdf(uploaded)
+    elif ext == "txt":
+        text = read_txt(uploaded)
+    elif ext == "docx":
+        text = read_docx(uploaded)
+    else:
+        st.error(UI_TEXT["error_not_nda"][lang])
+        st.stop()
+    if not is_nda(text):
+        st.error(UI_TEXT["error_not_nda"][lang])
+        st.stop()
+    st.success(UI_TEXT["success_nda"][lang])
+    tabs = st.tabs([
+        UI_TEXT["tab_clauses"][lang],
+        UI_TEXT["tab_risks"][lang],
+        UI_TEXT["tab_fairness"][lang],
+        UI_TEXT["tab_entities"][lang],
+        UI_TEXT["tab_alternatives"][lang],
+        UI_TEXT["tab_chat"][lang]
+    ])
+    # -----------------------------
+    # TAB 1 — CLAUSE SIMPLIFICATION
+    # -----------------------------
+    with tabs[0]:
+        st.header(UI_TEXT["clause_simplify"][lang])
+        clauses = extract_clauses(text)
+        mode = st.radio(UI_TEXT["choose_mode"][lang],
+                        [UI_TEXT["eli5"][lang],
+                         UI_TEXT["simple"][lang],
+                         UI_TEXT["pro"][lang]])
+        for c in clauses:
+            st.subheader(c["title"])
+            if mode == UI_TEXT["eli5"][lang]:
+                st.write(translate_text(c["eli5"], lang))
+            elif mode == UI_TEXT["simple"][lang]:
+                st.write(translate_text(c["simple"], lang))
+            else:
+                st.write(translate_text(c["pro"], lang]))
+    # -----------------------------
+    # TAB 2 — RISKS
+    # -----------------------------
+    with tabs[1]:
+        st.header(UI_TEXT["risk_title"][lang])
+        risks = get_risks(text)
+        for r in risks:
+            st.error("⚠️ " + translate_text(r, lang))
+    # -----------------------------
+    # TAB 3 — FAIRNESS
+    # -----------------------------
+    with tabs[2]:
+        st.header(UI_TEXT["fairness_title"][lang])
+        score = fairness_score(text)
+        st.write(f"**{UI_TEXT['your_position'][lang]}:** {score['user']}%")
+        st.write(f"**{UI_TEXT['company_position'][lang]}:** {score['company']}%")
+        st.progress(score["user"] / 100)
+    # -----------------------------
+    # TAB 4 — ENTITIES
+    # -----------------------------
+    with tabs[3]:
+        st.header(UI_TEXT["entities_title"][lang])
+        ents = extract_entities(text)
+        st.write("**Parties:**", ents["parties"])
+        st.write("**Dates:**", ents["dates"])
+        st.write("**Amounts:**", ents["money"])
+    # -----------------------------
+    # TAB 5 — ALTERNATIVES
+    # -----------------------------
+    with tabs[4]:
+        st.header(UI_TEXT["alt_title"][lang])
+        alts = alternative_clauses(text)
+        for a in alts:
+            st.info(translate_text(a, lang))
+    # -----------------------------
+    # TAB 6 — LEGAL CHAT
+    # -----------------------------
+    with tabs[5]:
+        st.header(UI_TEXT["chat_title"][lang])
+        if "chat_history" not in st.session_state:
+            st.session_state.chat_history = []
+        for msg in st.session_state.chat_history:
+            st.chat_message(msg["role"]).write(msg["text"])
+        user_msg = st.chat_input(UI_TEXT["chat_placeholder"][lang])
+        if user_msg:
+            st.session_state.chat_history.append({"role": "user", "text": user_msg})
+            st.chat_message("user").write(user_msg)
+            bot_reply = chat_response(user_msg, lang)
+            st.session_state.chat_history.append({"role": "assistant", "text": bot_reply})
+            st.chat_message("assistant").write(bot_reply)
+# Footer Disclaimer
+st.info("⚠️ ClauseWise provides **educational legal insights only** — this is **NOT legal advice**.")