Spaces:

fizzarif7
/

docVerifier

No application file

App Files Files Community

fizzarif7 commited on Sep 1, 2025

Commit

276b4e8

verified ·

1 Parent(s): be92f7d

Delete app.py

Browse files

Files changed (1) hide show

app.py +0 -178

app.py DELETED Viewed

@@ -1,178 +0,0 @@
-import gradio as gr
-from transformers import pipeline
-import pdfplumber
-import docx
-from PIL import Image
-import pytesseract
-from textblob import TextBlob
-import re
-import fitz
-import os
-# ------------------------
-# Hugging Face Model
-# ------------------------
-classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
-# ------------------------
-# Extraction Functions
-# ------------------------
-def extract_text_from_pdf(file_path):
-    text = ""
-    with pdfplumber.open(file_path) as pdf:
-        for page in pdf.pages:
-            page_text = page.extract_text()
-            if page_text:
-                text += page_text + "\n"
-    if not text.strip():  # OCR fallback
-        ocr_text = ""
-        doc = fitz.open(file_path)
-        for page_num in range(len(doc)):
-            page = doc[page_num]
-            pix = page.get_pixmap()
-            img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
-            ocr_text += pytesseract.image_to_string(img) + "\n"
-        text = ocr_text
-    return text.strip()
-def extract_text_from_docx(file_path):
-    doc_file = docx.Document(file_path)
-    return "\n".join([p.text for p in doc_file.paragraphs]).strip()
-def extract_text_from_image(file_path):
-    return pytesseract.image_to_string(Image.open(file_path)).strip()
-def check_grammar(text):
-    blob = TextBlob(text)
-    corrected_text = str(blob.correct())
-    return corrected_text != text
-def extract_dates(text):
-    date_patterns = [
-        r'\b\d{1,2}[/-]\d{1,2}[/-]\d{2,4}\b',
-        r'\b\d{1,2}\.\d{1,2}\.\d{2,4}\b',
-        r'\b\d{1,2}(?:st|nd|rd|th)?\s+\w+\s*,?\s*\d{2,4}\b',
-        r'\b\w+\s+\d{1,2},\s*\d{4}\b',
-    ]
-    dates_found = []
-    for pattern in date_patterns:
-        matches = re.findall(pattern, text, flags=re.IGNORECASE)
-        dates_found.extend(matches)
-    return list(set(dates_found))
-def classify_dates(text, dates):
-    issue_keywords = ["issued on", "dated", "notified on", "circular no"]
-    event_keywords = ["holiday", "observed on", "exam on", "will be held on", "effective from"]
-    issue_dates, event_dates = [], []
-    for d in dates:
-        idx = text.lower().find(d.lower())
-        if idx != -1:
-            context = text[max(0, idx-60): idx+60].lower()
-            if any(k in context for k in issue_keywords):
-                issue_dates.append(d)
-            elif any(k in context for k in event_keywords):
-                after_text = text[idx: idx+80]
-                match = re.search(rf"{re.escape(d)}[^\n]*", after_text)
-                event_dates.append(match.group().strip() if match else d)
-    if not issue_dates and dates:
-        issue_dates.append(dates[0])
-    return issue_dates, event_dates
-# ------------------------
-# Verification Logic
-# ------------------------
-def verify_text(text, source_type="TEXT"):
-    if not text.strip():
-        return "--- Evidence Report ---\n\n❌ No readable text provided."
-    grammar_issue = check_grammar(text)
-    dates = extract_dates(text)
-    issue_dates, event_dates = classify_dates(text, dates)
-    labels = ["REAL", "FAKE"]
-    result = classifier(text[:1000], candidate_labels=labels)
-    report = "📄 Evidence Report\n\n"
-    report += "🔎 Document Analysis\n\n"
-    report += f"Source: {source_type}\n\n"
-    report += "✅ Evidence Considered\n\n"
-    report += ("Minor grammar/spelling issues detected.\n\n" if grammar_issue
-               else "No major grammar or spelling issues detected.\n\n")
-    if issue_dates:
-        report += f"📌 Document Issue Date(s): {', '.join(issue_dates)}\n"
-    if event_dates:
-        report += f"📌 Event/Holiday Date(s): {', '.join(event_dates)}\n"
-    if not dates:
-        report += "No specific dates were clearly detected.\n"
-    report += "\nDocument formatting and tone resemble genuine notices.\n\n"
-    report += "🏁 Classification Result\n\n"
-    report += f"Verdict: {result['labels'][0]}\n"
-    report += f"Confidence: {result['scores'][0]:.2f}\n"
-    return report
-def verify_document(file):
-    if file is None:
-        return None, "❌ Please upload a file."
-    file_path = file.name
-    ext = file_path.split('.')[-1].lower()
-    if ext == "pdf":
-        text = extract_text_from_pdf(file_path)
-        preview = text[:1000] + ("..." if len(text) > 1000 else "")
-    elif ext == "docx":
-        text = extract_text_from_docx(file_path)
-        preview = text[:1000] + ("..." if len(text) > 1000 else "")
-    elif ext in ["png", "jpg", "jpeg"]:
-        text = extract_text_from_image(file_path)
-        preview = Image.open(file_path)  # show image preview
-    else:
-        return None, "Unsupported file type."
-    return preview, verify_text(text, source_type=ext.upper())
-def process_text_input(manual_text):
-    if manual_text.strip():
-        return manual_text, verify_text(manual_text, source_type="MANUAL TEXT")
-    return None, "❌ Please paste some text first."
-# ------------------------
-# Gradio UI
-# ------------------------
-with gr.Blocks(theme=gr.themes.Soft(), css="""
-#report-box {background:#f9f9fb; border-radius:10px; padding:15px; box-shadow:0 2px 6px rgba(0,0,0,0.1);}
-#preview-box {background:#eef7ff; border-radius:10px; padding:15px; box-shadow:0 2px 6px rgba(0,0,0,0.1);}
-""") as demo:
-    gr.Markdown("## 📑 Document Authenticity Verifier")
-    gr.Markdown("Choose an option below to verify your document:")
-    with gr.Tabs():
-        with gr.Tab("📂 Upload File"):
-            file_input = gr.File(label="Upload Document", file_types=[".pdf", ".docx", ".png", ".jpg", ".jpeg"])
-            # Use both preview options: one for text, one for image
-            preview_text = gr.Textbox(label="📄 File/Text Preview", lines=10, elem_id="preview-box")
-            preview_image = gr.Image(label="🖼️ Image Preview", elem_id="preview-box")
-            report_box = gr.Textbox(label="Verification Report", lines=20, elem_id="report-box")
-            verify_btn_file = gr.Button("🔍 Verify Document")
-            def handle_file(file):
-                preview, report = verify_document(file)
-                if isinstance(preview, Image.Image):  # image case
-                    return None, preview, report
-                else:  # text case
-                    return preview, None, report
-            verify_btn_file.click(fn=handle_file, inputs=file_input, outputs=[preview_text, preview_image, report_box])
-        with gr.Tab("📝 Paste Text"):
-            text_input = gr.Textbox(label="Paste Notification Text", lines=10, placeholder="Paste text here...")
-            preview_text2 = gr.Textbox(label="Text Preview", lines=10, elem_id="preview-box")
-            report_box_text = gr.Textbox(label="Verification Report", lines=20, elem_id="report-box")
-            verify_btn_text = gr.Button("🔍 Verify Text")
-            verify_btn_text.click(fn=process_text_input, inputs=text_input, outputs=[preview_text2, report_box_text])
-# ------------------------
-# Launch
-# ------------------------
-if __name__ == "__main__":
-    demo.launch()