Spaces:

nadyaw
/

CRAAP-bot

Sleeping

App Files Files Community

nadyaw commited on Aug 31, 2025

Commit

871d6a8

verified ·

1 Parent(s): c82c1cc

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -103

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import io, re, json, datetime, os
 from typing import Dict, Any, List, Tuple, Optional
 from flask import Flask, request, jsonify, render_template_string, redirect, url_for
@@ -11,10 +11,10 @@ app = Flask(__name__)
 CORS(app, resources={r"/api/*": {"origins": "*"}})
 app.config["MAX_CONTENT_LENGTH"] = 16 * 1024 * 1024  # 16 MB upload cap
 THIS_YEAR = datetime.date.today().year
 DOI_RX = re.compile(r"(10\.\d{4,9}/[-._;()/:A-Z0-9]+)", re.I)
-# ----------------- Helpers
 def _clean(s: Optional[str]) -> str:
     return (s or "").strip()
@@ -27,8 +27,7 @@ def year_from_any(x: str) -> Optional[int]:
             return y
     return None
-def fetch_url_metadata(url_or_doi: str) -> Tuple[Dict[str, Any], str, List[str]]:
-    """Return (metadata, fulltext_excerpt, warnings) for a URL or DOI."""
     warnings = []
     url = url_or_doi
     m = DOI_RX.search(url_or_doi)
@@ -68,8 +67,7 @@ def fetch_url_metadata(url_or_doi: str) -> Tuple[Dict[str, Any], str, List[str]]
     text_excerpt = (abst or "")[:4000]
     return meta, text_excerpt, warnings
-def extract_pdf_text_and_guess_meta(file_storage) -> Tuple[Dict[str, Any], str, List[str]]:
-    """Return (metadata, body_text, warnings)."""
     warnings = []
     try:
         data = file_storage.read()
@@ -111,48 +109,7 @@ def extract_pdf_text_and_guess_meta(file_storage) -> Tuple[Dict[str, Any], str,
     except Exception as e:
         return {}, "", [f"Failed to parse PDF: {e}"]
-# ----------------- Semantic Scholar integration
-SEM_SCH_FIELDS = (
-    "title,year,venue,url,isOpenAccess,openAccessPdf,"
-    "citationCount,referenceCount,publicationTypes,externalIds,"
-    "authors.name,authors.hIndex"
-)
-def fetch_semantic_scholar(doi: Optional[str]) -> Tuple[Dict[str, Any], List[str]]:
-    if not doi:
-        return {}, ["Semantic Scholar: DOI missing; lookup skipped."]
-    url = f"https://api.semanticscholar.org/graph/v1/paper/DOI:{doi}"
-    try:
-        r = requests.get(url, params={"fields": SEM_SCH_FIELDS}, timeout=15)
-        if r.status_code == 404:
-            return {}, [f"Semantic Scholar: no record for DOI {doi}."]
-        r.raise_for_status()
-        return r.json(), []
-    except Exception as e:
-        return {}, [f"Semantic Scholar error: {e}"]
-def authority_boost_with_semantic(meta: Dict[str,Any], sem: Dict[str,Any]) -> Tuple[int, str]:
-    if not sem:
-        return 0, ""
-    bonus = 0
-    notes = []
-    cit = sem.get("citationCount")
-    if isinstance(cit, int):
-        if cit >= 50: bonus += 2
-        elif cit >= 10: bonus += 1
-        notes.append(f"S2 citations: {cit}.")
-    # Author h-index
-    try:
-        auths = sem.get("authors") or []
-        max_h = max([a.get("hIndex", 0) or 0 for a in auths] or [0])
-        if max_h >= 30: bonus += 1
-        notes.append(f"Top author h-index: {max_h}.")
-    except Exception:
-        pass
-    return min(bonus, 2), "; ".join(notes)
-# ----------------- Scoring
-def score_currency(year: Optional[int]) -> Tuple[int, str, List[str]]:
     if not year:
         return 2, "Publication year unknown.", ["Could not find a clear date; treat with caution."]
     age = max(0, THIS_YEAR - year)
@@ -161,7 +118,7 @@ def score_currency(year: Optional[int]) -> Tuple[int, str, List[str]]:
     if age <= 10: return 3, f"Published in {year} (~{age} years old).", []
     return 2, f"Published in {year} (>10 years old).", ["Potentially outdated."]
-def score_authority(meta: Dict[str,Any], sem: Optional[Dict[str,Any]] = None) -> Tuple[int, str]:
     score = 1
     notes = []
     if meta.get("venue"):
@@ -172,13 +129,9 @@ def score_authority(meta: Dict[str,Any], sem: Optional[Dict[str,Any]] = None) ->
         a_count = len(meta["authors"])
         if a_count >= 3: score += 1
         notes.append(f"Authors: {a_count}.")
-    if sem:
-        b, bnotes = authority_boost_with_semantic(meta, sem)
-        score += b
-        if bnotes: notes.append(bnotes)
     return min(score,5), "; ".join(notes) if notes else "Insufficient venue/author info."
-def score_accuracy(text_excerpt: str) -> Tuple[int, str]:
     keys_present = sum(1 for k in ["methods","materials","results","limitations","confidence interval","validation","dataset","sample size"] if k in text_excerpt.lower())
     if not text_excerpt:
         return 2, "No body text available; cannot inspect methods."
@@ -187,7 +140,7 @@ def score_accuracy(text_excerpt: str) -> Tuple[int, str]:
     if keys_present >= 1: return 3, "Limited methodological signals."
     return 2, "Minimal methodological detail detected (likely a commentary/overview)."
-def score_purpose(text_excerpt: str) -> Tuple[int, str]:
     lower = text_excerpt.lower()
     bias_hits = any(w in lower for w in ["sponsored", "advertisement", "marketing"])
     conflicts = "conflict of interest" in lower or "competing interest" in lower
@@ -200,7 +153,7 @@ def score_purpose(text_excerpt: str) -> Tuple[int, str]:
         return 4, "Academic tone with disclosures/funding statements."
     return 4, "Academic/educational purpose inferred."
-def score_relevance(assignment_context: str, meta: Dict[str,Any], text_excerpt: str) -> Tuple[int, str]:
     if not assignment_context:
         return 4, "General relevance assumed (no assignment context provided)."
     ctx = assignment_context.lower()
@@ -211,9 +164,9 @@ def score_relevance(assignment_context: str, meta: Dict[str,Any], text_excerpt:
     if hits >= 1: return 3, "Partial topical overlap."
     return 2, "Low topical overlap; may be tangential."
-def aggregate_scores_with_sem(meta: Dict[str,Any], text: str, assignment_context: str, provisional: bool, sem: Dict[str,Any]) -> Dict[str,Any]:
     currency_score, currency_evd, currency_checks = score_currency(meta.get("year"))
-    authority_score, authority_evd = score_authority(meta, sem)
     accuracy_score, accuracy_evd = score_accuracy(text)
     purpose_score, purpose_evd = score_purpose(text)
     relevance_score, relevance_evd = score_relevance(assignment_context, meta, text)
@@ -229,25 +182,10 @@ def aggregate_scores_with_sem(meta: Dict[str,Any], text: str, assignment_context
     }
     avg = round(sum(v["score"] for v in craap.values())/5, 2)
     verdict = "use" if avg >= 4.0 else ("use with caution" if avg >= 2.5 else "avoid")
-    return {
-        "metadata": meta,
-        "craap": craap,
-        "overall": {"average": avg, "verdict": verdict},
-        "external": {
-            "semantic_scholar": {
-                "url": sem.get("url"),
-                "venue": sem.get("venue"),
-                "year": sem.get("year"),
-                "citationCount": sem.get("citationCount"),
-                "referenceCount": sem.get("referenceCount"),
-                "openAccessPdf": (sem.get("openAccessPdf") or {}).get("url") if sem else None
-            }
-        }
-    }
-# ----------------- UI
 INDEX_HTML = """
-<!doctype html><html><head><meta charset="utf-8"/><title>CRAAP Bot</title>
 <meta name="viewport" content="width=device-width, initial-scale=1">
 <style>
 body{font:16px system-ui,Segoe UI,Roboto,sans-serif;max-width:880px;margin:2rem auto;padding:0 1rem}
@@ -255,17 +193,18 @@ form,.card{border:1px solid #e5e7eb;border-radius:12px;padding:1rem;margin:1rem
 label{display:block;font-weight:600;margin:.5rem 0 .25rem}
 input[type="text"],textarea{width:100%;padding:.6rem .7rem;border:1px solid #d1d5db;border-radius:8px}
 input[type="file"]{margin:.25rem 0 .75rem}button{background:#111827;color:#fff;border:0;padding:.6rem 1rem;border-radius:8px;cursor:pointer}
-.muted{color:#6b7280}.warn{padding:.6rem .8rem;background:#fff7ed;border:1px solid #fed7aa;border-radius:8px;margin:.5rem 0}
 .tag{display:inline-block;padding:.1rem .5rem;border-radius:999px;border:1px solid #d1d5db;margin-right:.4rem}
 </style></head><body>
-<header><h1>CRAAP Bot</h1><span class="tag">By: Nadya W</span></header>
 <div class="card"><form method="POST" action="{{ url_for('analyze') }}" enctype="multipart/form-data">
 <label>URL or DOI</label><input type="text" name="paper_source" placeholder="https://doi.org/10.xxxx/..."/>
 <label>Or upload PDF</label><input type="file" name="pdf" accept="application/pdf"/>
-<label>Assignment context (optional)</label><input type="text" name="assignment_context" placeholder="e.g., NTM plasmidome 2023-2025"/>
 <button type="submit">Analyze</button></form>
 <p class="muted">Tip: DOI or full PDF gives best results. Partial PDFs limit Accuracy/Purpose.</p></div>
 {% if result %}{% if warnings %}<div class="warn">⚠️ {{ warnings|join(' · ') }}</div>{% endif %}
 <div class="card"><h2>CRAAP Evaluation Summary</h2>
 <p><strong>{{ result.metadata.title or '[unknown title]' }}</strong></p>
 <p class="muted">{{ (result.metadata.authors or [])|join(', ') }} · {{ result.metadata.venue or 'unknown venue' }}{% if result.metadata.year %} · {{ result.metadata.year }}{% endif %}</p>
@@ -275,32 +214,55 @@ input[type="file"]{margin:.25rem 0 .75rem}button{background:#111827;color:#fff;b
 <li><strong>Authority</strong>: {{ result.craap.Authority.score }}/5 — {{ result.craap.Authority.evidence }}</li>
 <li><strong>Accuracy</strong>: {{ result.craap.Accuracy.score }}/5 — {{ result.craap.Accuracy.evidence }}</li>
 <li><strong>Purpose</strong>: {{ result.craap.Purpose.score }}/5 — {{ result.craap.Purpose.evidence }}</li>
-</ul><p><strong>Overall:</strong> {{ result.overall.average }} — <em>{{ result.overall.verdict }}</em></p></div>
-<div class="card"><h3>Research signals</h3>
-<ul>
-<li><strong>Semantic Scholar citations:</strong>
-  {% if result.external.semantic_scholar.citationCount is not none %}
-    {{ result.external.semantic_scholar.citationCount }}
-  {% else %} n/a {% endif %}
-  {% if result.external.semantic_scholar.url %} · <a href="{{ result.external.semantic_scholar.url }}" target="_blank">S2 record</a>{% endif %}
-  {% if result.external.semantic_scholar.openAccessPdf %} · <a href="{{ result.external.semantic_scholar.openAccessPdf }}" target="_blank">OA PDF</a>{% endif %}
-</li>
-<li><strong>Venue/Year (S2):</strong>
-  {{ result.external.semantic_scholar.venue or 'n/a' }}{% if result.external.semantic_scholar.year %} · {{ result.external.semantic_scholar.year }}{% endif %}
-</li>
-</ul></div>
-<div class="card"><h3>What to verify next</h3>
 <ol>
 <li>Confirm publication date & peer-review at the DOI/URL.</li>
-<li>Check methods/results for sample size, validation, limitations.</li>
-<li>Skim citing papers (via Semantic Scholar) for corroboration/critique.</li>
-<li>Review funding/conflicts. Look for replication or benchmarking work.</li>
-<li>If key to your assignment, read the full text (methods & supplements).</li>
-</ol></div>
-{% endif %}
-</body></html>
 """
-# -----------------

+import io, re, json, datetime
 from typing import Dict, Any, List, Tuple, Optional
 from flask import Flask, request, jsonify, render_template_string, redirect, url_for
 CORS(app, resources={r"/api/*": {"origins": "*"}})
 app.config["MAX_CONTENT_LENGTH"] = 16 * 1024 * 1024  # 16 MB upload cap
 THIS_YEAR = datetime.date.today().year
 DOI_RX = re.compile(r"(10\.\d{4,9}/[-._;()/:A-Z0-9]+)", re.I)
 def _clean(s: Optional[str]) -> str:
     return (s or "").strip()
             return y
     return None
+def fetch_url_metadata(url_or_doi: str):
     warnings = []
     url = url_or_doi
     m = DOI_RX.search(url_or_doi)
     text_excerpt = (abst or "")[:4000]
     return meta, text_excerpt, warnings
+def extract_pdf_text_and_guess_meta(file_storage):
     warnings = []
     try:
         data = file_storage.read()
     except Exception as e:
         return {}, "", [f"Failed to parse PDF: {e}"]
+def score_currency(year: Optional[int]):
     if not year:
         return 2, "Publication year unknown.", ["Could not find a clear date; treat with caution."]
     age = max(0, THIS_YEAR - year)
     if age <= 10: return 3, f"Published in {year} (~{age} years old).", []
     return 2, f"Published in {year} (>10 years old).", ["Potentially outdated."]
+def score_authority(meta: Dict[str,Any]):
     score = 1
     notes = []
     if meta.get("venue"):
         a_count = len(meta["authors"])
         if a_count >= 3: score += 1
         notes.append(f"Authors: {a_count}.")
     return min(score,5), "; ".join(notes) if notes else "Insufficient venue/author info."
+def score_accuracy(text_excerpt: str):
     keys_present = sum(1 for k in ["methods","materials","results","limitations","confidence interval","validation","dataset","sample size"] if k in text_excerpt.lower())
     if not text_excerpt:
         return 2, "No body text available; cannot inspect methods."
     if keys_present >= 1: return 3, "Limited methodological signals."
     return 2, "Minimal methodological detail detected (likely a commentary/overview)."
+def score_purpose(text_excerpt: str):
     lower = text_excerpt.lower()
     bias_hits = any(w in lower for w in ["sponsored", "advertisement", "marketing"])
     conflicts = "conflict of interest" in lower or "competing interest" in lower
         return 4, "Academic tone with disclosures/funding statements."
     return 4, "Academic/educational purpose inferred."
+def score_relevance(assignment_context: str, meta: Dict[str,Any], text_excerpt: str):
     if not assignment_context:
         return 4, "General relevance assumed (no assignment context provided)."
     ctx = assignment_context.lower()
     if hits >= 1: return 3, "Partial topical overlap."
     return 2, "Low topical overlap; may be tangential."
+def aggregate_scores(meta: Dict[str,Any], text: str, assignment_context: str, provisional: bool):
     currency_score, currency_evd, currency_checks = score_currency(meta.get("year"))
+    authority_score, authority_evd = score_authority(meta)
     accuracy_score, accuracy_evd = score_accuracy(text)
     purpose_score, purpose_evd = score_purpose(text)
     relevance_score, relevance_evd = score_relevance(assignment_context, meta, text)
     }
     avg = round(sum(v["score"] for v in craap.values())/5, 2)
     verdict = "use" if avg >= 4.0 else ("use with caution" if avg >= 2.5 else "avoid")
+    return {"metadata": meta, "craap": craap, "overall": {"average": avg, "verdict": verdict}}
 INDEX_HTML = """
+<!doctype html><html><head><meta charset="utf-8"/><title>CRAAP Bot (Flask)</title>
 <meta name="viewport" content="width=device-width, initial-scale=1">
 <style>
 body{font:16px system-ui,Segoe UI,Roboto,sans-serif;max-width:880px;margin:2rem auto;padding:0 1rem}
 label{display:block;font-weight:600;margin:.5rem 0 .25rem}
 input[type="text"],textarea{width:100%;padding:.6rem .7rem;border:1px solid #d1d5db;border-radius:8px}
 input[type="file"]{margin:.25rem 0 .75rem}button{background:#111827;color:#fff;border:0;padding:.6rem 1rem;border-radius:8px;cursor:pointer}
+pre{background:#0b1020;color:#d7e7ff;padding:1rem;border-radius:12px;overflow:auto}.muted{color:#6b7280}.warn{padding:.6rem .8rem;background:#fff7ed;border:1px solid #fed7aa;border-radius:8px;margin:.5rem 0}
 .tag{display:inline-block;padding:.1rem .5rem;border-radius:999px;border:1px solid #d1d5db;margin-right:.4rem}
 </style></head><body>
+<header><h1>CRAAP Bot</h1><span class="tag">By: NADYA W</span></header>
 <div class="card"><form method="POST" action="{{ url_for('analyze') }}" enctype="multipart/form-data">
 <label>URL or DOI</label><input type="text" name="paper_source" placeholder="https://doi.org/10.xxxx/..."/>
 <label>Or upload PDF</label><input type="file" name="pdf" accept="application/pdf"/>
+<label>Assignment context (optional)</label><input type="text" name="assignment_context" placeholder="e.g., AI for zoonotic disease 2023-2025"/>
 <button type="submit">Analyze</button></form>
 <p class="muted">Tip: DOI or full PDF gives best results. Partial PDFs limit Accuracy/Purpose.</p></div>
 {% if result %}{% if warnings %}<div class="warn">⚠️ {{ warnings|join(' · ') }}</div>{% endif %}
+<div class="card"><h2>JSON</h2><pre>{{ result | tojson(indent=2) }}</pre></div>
 <div class="card"><h2>CRAAP Evaluation Summary</h2>
 <p><strong>{{ result.metadata.title or '[unknown title]' }}</strong></p>
 <p class="muted">{{ (result.metadata.authors or [])|join(', ') }} · {{ result.metadata.venue or 'unknown venue' }}{% if result.metadata.year %} · {{ result.metadata.year }}{% endif %}</p>
 <li><strong>Authority</strong>: {{ result.craap.Authority.score }}/5 — {{ result.craap.Authority.evidence }}</li>
 <li><strong>Accuracy</strong>: {{ result.craap.Accuracy.score }}/5 — {{ result.craap.Accuracy.evidence }}</li>
 <li><strong>Purpose</strong>: {{ result.craap.Purpose.score }}/5 — {{ result.craap.Purpose.evidence }}</li>
+</ul><p><strong>Overall:</strong> {{ result.overall.average }} — <em>{{ result.overall.verdict }}</em></p>
+<h3>What to verify next</h3>
 <ol>
 <li>Confirm publication date & peer-review at the DOI/URL.</li>
+<li>Skim methods/results for sample size, validation, limitations.</li>
+<li>Check author affiliations and profiles (Semantic Scholar/ORCID).</li>
+<li>Look for funding/conflict-of-interest statements.</li>
+<li>Search for newer papers (last 1–2 years) that cite or challenge it.</li>
+</ol>
+</div>{% endif %}</body></html>
 """
+@app.route("/", methods=["GET"])
+def index():
+    return render_template_string(INDEX_HTML, result=None, warnings=None)
+@app.route("/analyze", methods=["POST"])
+def analyze():
+    paper_source = _clean(request.form.get("paper_source", ""))
+    assignment_context = _clean(request.form.get("assignment_context", ""))
+    provisional = False
+    warnings: List[str] = []
+    meta, text = {}, ""
+    if paper_source:
+        meta, text, w = fetch_url_metadata(paper_source)
+        warnings.extend(w)
+    elif "pdf" in request.files and request.files["pdf"].filename:
+        meta, text, w = extract_pdf_text_and_guess_meta(request.files["pdf"])
+        warnings.extend(w); provisional = True
+    else:
+        return redirect(url_for("index"))
+    result = aggregate_scores(meta, text, assignment_context, provisional or bool(warnings))
+    if not text:
+        warnings.append("Full text not available — Accuracy/Purpose are provisional. Provide a DOI/URL or full PDF for deeper evaluation.")
+    return render_template_string(INDEX_HTML, result=result, warnings=warnings)
+@app.route("/api/analyze", methods=["POST"])
+def api_analyze():
+    data = request.json or {}
+    paper_source = _clean(data.get("paper_source",""))
+    assignment_context = _clean(data.get("assignment_context",""))
+    meta, text, warnings = ({}, "", [])
+    provisional = False
+    if paper_source:
+        meta, text, warnings = fetch_url_metadata(paper_source)
+    else:
+        return jsonify({"error":"Provide paper_source (URL/DOI) or use /analyze form for PDF upload"}), 400
+    result = aggregate_scores(meta, text, assignment_context, provisional or bool(warnings))
+    return jsonify({"result": result, "warnings": warnings})
+if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=8000, debug=True)