Spaces:

nadyaw
/

CRAAP-bot

Sleeping

App Files Files Community

CRAAP-bot / app.py

nadyaw

Update app.py

3f7bec5 verified 4 months ago

raw

history blame contribute delete

22 kB

	import io, re, json, datetime,os
	from typing import Dict, Any, List, Tuple, Optional

	from flask import Flask, request, jsonify, render_template_string, redirect, url_for
	from flask_cors import CORS
	import requests
	from bs4 import BeautifulSoup
	from PyPDF2 import PdfReader

	app = Flask(__name__)
	CORS(app, resources={r"/api/": {"origins": ""}})

	app.config["MAX_CONTENT_LENGTH"] = 16 * 1024 * 1024 # 16 MB upload cap

	THIS_YEAR = datetime.date.today().year
	DOI_RX = re.compile(r"(10\.\d{4,9}/[-._;()/:A-Z0-9]+)", re.I)
	S2_API_KEY = os.getenv("SEMANTIC_SCHOLAR_API_KEY")

	def _clean(s: Optional[str]) -> str:
	return (s or "").strip()

	def year_from_any(x: str) -> Optional[int]:
	if not x: return None
	m = re.search(r"(19\|20)\d{2}", x)
	if m:
	y = int(m.group(0))
	if 1900 <= y <= 2100:
	return y
	return None

	def fetch_url_metadata(url_or_doi: str):
	warnings = []
	url = url_or_doi
	m = DOI_RX.search(url_or_doi)
	if m and not url_or_doi.lower().startswith("http"):
	url = f"https://doi.org/{m.group(1)}"
	try:
	r = requests.get(url, timeout=20, headers={"User-Agent":"CRAAPBot"})
	r.raise_for_status()
	except Exception as e:
	return {}, "", [f"Failed to fetch URL/DOI: {e}"]
	html = r.text
	soup = BeautifulSoup(html, "html.parser")
	meta = {}
	def mget(*names):
	for n in names:
	tag = soup.find("meta", attrs={"name": n}) or soup.find("meta", attrs={"property": n})
	if tag and tag.get("content"):
	return tag["content"]
	return None
	meta["title"] = _clean(mget("citation_title") or (soup.title.string if soup.title else ""))
	authors = soup.find_all("meta", attrs={"name":"citation_author"})
	if authors:
	meta["authors"] = [_clean(a.get("content","")) for a in authors if _clean(a.get("content",""))]
	else:
	meta["authors"] = [_clean(mget("author") or "")]
	meta["authors"] = [a for a in meta["authors"] if a]
	meta["venue"] = _clean(mget("citation_journal_title") or mget("og:site_name") or "")
	y = year_from_any(_clean(mget("citation_publication_date") or mget("date") or mget("article:published_time") or ""))
	meta["year"] = y if y else year_from_any(html)
	doi = _clean(mget("citation_doi") or (DOI_RX.search(html).group(1) if DOI_RX.search(html) else ""))
	meta["identifier"] = {"doi": doi if doi else None, "url": url}
	abst = mget("citation_abstract")
	if not abst:
	absnode = soup.find(lambda tag: tag.name in ["section","div","p"] and tag.get_text(strip=True).lower().startswith("abstract"))
	if absnode:
	abst = absnode.get_text(" ", strip=True)
	text_excerpt = (abst or "")[:4000]
	return meta, text_excerpt, warnings

	def extract_pdf_text_and_guess_meta(file_storage):
	warnings = []
	try:
	data = file_storage.read()
	reader = PdfReader(io.BytesIO(data))
	n = len(reader.pages)
	if n == 0:
	return {}, "", ["PDF appears empty."]
	head_pages = min(2, n)
	body_pages = min(10, n)
	head = []
	body = []
	for i in range(head_pages):
	head.append(reader.pages[i].extract_text() or "")
	for i in range(body_pages):
	body.append(reader.pages[i].extract_text() or "")
	head_txt = "\n".join(head)
	body_txt = "\n".join(body)
	lines = [l.strip() for l in head_txt.splitlines() if l.strip()]
	title = lines[0] if lines else ""
	authors_line = ""
	for l in lines[0:10]:
	if re.search(r"[A-Z][a-z]+(?:\s[A-Z]\.){0,3}", l) and ("," in l or " and " in l.lower()):
	authors_line = l; break
	authors = [a.strip() for a in re.split(r",\|;\| and ", authors_line) if a.strip()] if authors_line else []
	venue = ""
	y = year_from_any(head_txt)
	m = DOI_RX.search(head_txt) or DOI_RX.search(body_txt)
	doi = m.group(1) if m else None
	meta = {
	"title": _clean(title),
	"authors": authors,
	"venue": _clean(venue),
	"year": y,
	"identifier": {"doi": doi, "url": None}
	}
	if body_pages < 5:
	warnings.append("Only a small portion of the PDF text was extracted; Accuracy/Purpose may be provisional.")
	return meta, body_txt[:20000], warnings
	except Exception as e:
	return {}, "", [f"Failed to parse PDF: {e}"]

	def fetch_semantic_scholar(doi: str):
	"""Fetch enrichment from Semantic Scholar Graph API by DOI."""
	if not doi:
	return {}, ["No DOI provided"]
	base = f"https://api.semanticscholar.org/graph/v1/paper/DOI:{requests.utils.quote(doi)}"
	fields = ",".join([
	"title","year","publicationDate","journal","url",
	"isOpenAccess","openAccessPdf","citationCount","influentialCitationCount",
	"authors.name","fieldsOfStudy","publicationTypes"
	])
	headers = {"User-Agent":"CRAAPBot"}
	if S2_API_KEY:
	headers["x-api-key"] = S2_API_KEY
	try:
	r = requests.get(base, params={"fields":fields}, headers=headers, timeout=12)
	if r.status_code == 404:
	return {}, []
	r.raise_for_status()
	p = r.json()
	enrich = {
	"s2": {
	"title": p.get("title"),
	"year": p.get("year"),
	"publicationDate": p.get("publicationDate"),
	"journal": (p.get("journal") or {}).get("name"),
	"url": p.get("url"),
	"isOpenAccess": p.get("isOpenAccess"),
	"openAccessPdf": (p.get("openAccessPdf") or {}).get("url"),
	"citationCount": p.get("citationCount"),
	"influentialCitationCount": p.get("influentialCitationCount"),
	"authors": [a.get("name") for a in (p.get("authors") or []) if a.get("name")],
	"fieldsOfStudy": p.get("fieldsOfStudy"),
	"publicationTypes": p.get("publicationTypes"),
	}
	}
	return enrich, []
	except Exception as e:
	return {}, [f"Semantic Scholar lookup failed: {e}"]

	def score_currency(year: Optional[int]):
	if not year:
	return 2, "Publication year unknown.", ["Could not find a clear date; treat with caution."]
	age = max(0, THIS_YEAR - year)
	if age <= 2: return 5, f"Published in {year} (≤2 years old).", ["Recent for fast-moving fields."]
	if age <= 5: return 4, f"Published in {year} (~{age} years old).", []
	if age <= 10: return 3, f"Published in {year} (~{age} years old).", []
	return 2, f"Published in {year} (>10 years old).", ["Potentially outdated."]



	def score_authority(meta: Dict[str,Any]):
	score = 1
	notes = []
	if meta.get("venue"):
	score += 1; notes.append(f"Venue: {meta['venue']}.")
	if meta.get("identifier",{}).get("doi"):
	score += 1; notes.append("Has DOI.")
	if meta.get("authors"):
	a_count = len(meta["authors"])
	if a_count >= 3: score += 1
	notes.append(f"Authors: {a_count}.")
	return min(score,5), "; ".join(notes) if notes else "Insufficient venue/author info."

	def score_accuracy(text_excerpt: str):
	keys_present = sum(1 for k in ["methods","materials","results","limitations","confidence interval","validation","dataset","sample size"] if k in text_excerpt.lower())
	if not text_excerpt:
	return 2, "No body text available; cannot inspect methods."
	if keys_present >= 5: return 5, "Detailed methodological cues detected (methods/results/validation/etc.)."
	if keys_present >= 3: return 4, "Some methodological cues present."
	if keys_present >= 1: return 3, "Limited methodological signals."
	return 2, "Minimal methodological detail detected (likely a commentary/overview)."

	def score_purpose(text_excerpt: str):
	lower = text_excerpt.lower()
	bias_hits = any(w in lower for w in ["sponsored", "advertisement", "marketing"])
	conflicts = "conflict of interest" in lower or "competing interest" in lower
	funding = "funding" in lower or "grant" in lower
	if bias_hits:
	return 2, "Potential promotional language detected."
	if conflicts and not funding:
	return 3, "Conflicts noted, funding unclear."
	if funding or conflicts:
	return 4, "Academic tone with disclosures/funding statements."
	return 4, "Academic/educational purpose inferred."

	def score_relevance(assignment_context: str, meta: Dict[str,Any], text_excerpt: str):
	if not assignment_context:
	return 4, "General relevance assumed (no assignment context provided)."
	ctx = assignment_context.lower()
	hay = (meta.get("title","") + " " + text_excerpt).lower()
	hits = sum(1 for tok in set(re.findall(r"[a-zA-Z]{4,}", ctx)) if tok in hay)
	if hits >= 6: return 5, "Strong topical overlap with assignment context."
	if hits >= 3: return 4, "Good topical overlap."
	if hits >= 1: return 3, "Partial topical overlap."
	return 2, "Low topical overlap; may be tangential."

	def aggregate_scores(meta: Dict[str,Any], text: str, assignment_context: str, provisional: bool):
	currency_score, currency_evd, currency_checks = score_currency(meta.get("year"))
	authority_score, authority_evd = score_authority(meta)
	accuracy_score, accuracy_evd = score_accuracy(text)
	purpose_score, purpose_evd = score_purpose(text)
	relevance_score, relevance_evd = score_relevance(assignment_context, meta, text)
	if provisional:
	accuracy_score = min(accuracy_score, 3)
	purpose_score = min(purpose_score, 4)
	craap = {
	"Currency": {"score": currency_score, "evidence": currency_evd, "checks": currency_checks},
	"Relevance": {"score": relevance_score, "evidence": relevance_evd},
	"Authority": {"score": authority_score, "evidence": authority_evd},
	"Accuracy": {"score": accuracy_score, "evidence": accuracy_evd},
	"Purpose": {"score": purpose_score, "evidence": purpose_evd}
	}
	avg = round(sum(v["score"] for v in craap.values())/5, 2)
	verdict = "use" if avg >= 4.0 else ("use with caution" if avg >= 2.5 else "avoid")
	return {"metadata": meta, "craap": craap, "overall": {"average": avg, "verdict": verdict}}


	INDEX_HTML = """
	<!doctype html>
	<html lang="en">
	<head>
	<meta charset="utf-8"/>
	<title>CRAAP Bot · Flask</title>
	<meta name="viewport" content="width=device-width, initial-scale=1">

	<style>
	:root{
	--bg:#f8fafc;
	--card:#ffffff;
	--ink:#0f172a;
	--muted:#64748b;
	--line:#e2e8f0;
	--brand:#111827;
	--accent:#2563eb;
	--warn-bg:#fff7ed;
	--warn-line:#fed7aa;
	--code-bg:#0b1020;
	--code-ink:#d7e7ff;
	--ring:#93c5fd;
	--shadow:0 1px 2px rgba(0,0,0,.05), 0 10px 16px rgba(2,6,23,.04);
	}
	@media (prefers-color-scheme: dark){
	:root{
	--bg:#0b1220;
	--card:#0f172a;
	--ink:#e5e7eb;
	--muted:#94a3b8;
	--line:#1f2a44;
	--brand:#e5e7eb;
	--accent:#60a5fa;
	--warn-bg:#2b1f12;
	--warn-line:#9a5a25;
	--code-bg:#030712;
	--code-ink:#d7e7ff;
	--ring:#2563eb;
	--shadow:0 1px 2px rgba(0,0,0,.4), 0 12px 20px rgba(0,0,0,.35);
	}
	}

	*{box-sizing:border-box}
	html,body{height:100%}
	body{
	margin:0;
	background:var(--bg);
	color:var(--ink);
	font:16px/1.55 system-ui, -apple-system, Segoe UI, Roboto, Helvetica, Arial, Apple Color Emoji, Segoe UI Emoji, Noto Color Emoji, sans-serif;
	}

	.wrap{max-width:980px;margin:2.2rem auto;padding:0 1rem}
	header{
	padding:1.25rem 1rem 1rem;
	border-radius:16px;
	background:linear-gradient(135deg, rgba(37,99,235,.10), rgba(2,6,23,.03));
	border:1px solid var(--line);
	box-shadow:var(--shadow);
	}
	header h1{margin:0 0 .35rem;font-weight:800;letter-spacing:.2px}
	header p{margin:.25rem 0 0;color:var(--muted)}

	.tag{
	display:inline-flex;align-items:center;gap:.4rem;
	padding:.2rem .6rem;margin-top:.5rem;margin-right:.5rem;
	border:1px solid var(--line);border-radius:999px;color:var(--muted);font-size:.85rem
	}

	.card{
	background:var(--card);border:1px solid var(--line);border-radius:16px;
	padding:1.1rem 1.2rem;margin:1rem 0;box-shadow:var(--shadow)
	}

	label{display:block;font-weight:650;margin:.65rem 0 .35rem}
	input[type="text"], input[type="file"]{
	width:100%;padding:.7rem .8rem;border:1px solid var(--line);border-radius:12px;background:transparent;color:var(--ink);
	outline:none;transition:border .15s, box-shadow .15s
	}
	input[type="text"]:focus, input[type="file"]:focus{
	border-color:var(--accent); box-shadow:0 0 0 3px color-mix(in srgb, var(--ring) 35%, transparent);
	}

	.btn{
	display:inline-block; background:var(--brand); color:#fff; text-decoration:none;
	border:0; padding:.6rem .9rem; border-radius:10px; cursor:pointer;
	transition:transform .06s ease, opacity .15s ease;
	margin:.25rem .35rem .25rem 0; font-weight:600; font-size:.95rem
	}
	.btn:hover{opacity:.92; transform:translateY(-1px)}
	.btn:focus{outline:3px solid color-mix(in srgb, var(--ring) 45%, transparent); outline-offset:2px}
	.btn--ghost{
	background:transparent;color:var(--ink);border:1px solid var(--line)
	}

	.muted{color:var(--muted)}
	.warn{padding:.7rem .9rem;background:var(--warn-bg);border:1px solid var(--warn-line);border-radius:12px;margin:.8rem 0}

	ul{padding-left:1.2rem;margin:.6rem 0}
	li{margin:.25rem 0}

	pre{
	background:var(--code-bg);color:var(--code-ink);
	padding:1rem;border-radius:12px;overflow:auto;border:1px solid #0b1220;
	}

	details summary{cursor:pointer; list-style:none}
	details summary::marker, details summary::-webkit-details-marker{display:none}
	details summary{display:flex; align-items:center; gap:.5rem; font-weight:700}
	details[open] summary{opacity:.85}

	.grid{
	display:grid; gap:1rem;
	grid-template-columns:1fr;
	}
	@media (min-width:860px){
	.grid{grid-template-columns:1fr 1fr}
	}

	.meta{display:flex; flex-wrap:wrap; gap:.4rem .6rem; align-items:center}
	.pill{
	display:inline-flex; align-items:center; gap:.4rem;
	border:1px solid var(--line); border-radius:999px; padding:.15rem .55rem; color:var(--muted); font-size:.85rem
	}
	</style>
	</head>

	<body>
	<div class="wrap">
	<header>
	<h1>CRAAP Bot</h1>
	<p class="muted">URL/DOI or PDF → quick quality check for scholarly sources</p>
	<span class="tag">By: NADYA W</span>
	</header>

	<div class="card">
	<form method="POST" action="{{ url_for('analyze') }}" enctype="multipart/form-data">
	<label for="paper_source">URL or DOI</label>
	<input id="paper_source" type="text" name="paper_source" placeholder="https://doi.org/10.xxxx/..."/>

	<label for="pdf">Or upload PDF</label>
	<input id="pdf" type="file" name="pdf" accept="application/pdf"/>

	<label for="assignment_context">Assignment context (optional)</label>
	<input id="assignment_context" type="text" name="assignment_context" placeholder="e.g., AI for zoonotic disease 2023–2025"/>

	<div style="margin-top:.9rem">
	<button class="btn" type="submit">Analyze</button>
	<a class="btn btn--ghost" href="{{ url_for('index') }}">Reset</a>
	</div>
	<p class="muted" style="margin:.6rem 0 0">Tip: DOI or full PDF gives best results. Partial PDFs limit Accuracy/Purpose.</p>
	</form>
	</div>

	{% if result %}
	{% if warnings %}
	<div class="warn">⚠️ {{ warnings\|join(' · ') }}</div>
	{% endif %}

	<div class="card">
	<h2 style="margin-top:0">CRAAP Evaluation Summary</h2>

	<p style="margin:.25rem 0 0"><strong>{{ result.metadata.title or '[unknown title]' }}</strong></p>
	<p class="muted" style="margin:.25rem 0 .75rem">
	{{ (result.metadata.authors or [])\|join(', ') }} · {{ result.metadata.venue or 'unknown venue' }}{% if result.metadata.year %} · {{ result.metadata.year }}{% endif %}
	</p>

	{% set s2 = result.enrichment.s2 if result.enrichment else None %}
	{% set doi = result.metadata.identifier.doi if result.metadata and result.metadata.identifier else None %}
	{% set src_url = result.metadata.identifier.url if result.metadata and result.metadata.identifier else None %}

	<p>
	{% if doi %}
	<a class="btn" href="https://doi.org/{{ doi }}" target="_blank" rel="noopener">Open DOI</a>
	{% elif src_url %}
	<a class="btn" href="{{ src_url }}" target="_blank" rel="noopener">Open Source</a>
	{% endif %}

	{% if s2 and s2.url %}
	<a class="btn" href="{{ s2.url }}" target="_blank" rel="noopener">Semantic Scholar</a>
	{% endif %}

	{% if s2 and s2.openAccessPdf %}
	<a class="btn" href="{{ s2.openAccessPdf }}" target="_blank" rel="noopener">Open Access PDF</a>
	{% endif %}

	<a class="btn btn--ghost" href="https://scholar.google.com/scholar?q={{ (result.metadata.title or doi or '')\|urlencode }}" target="_blank" rel="noopener">Google Scholar</a>
	</p>

	{% if s2 %}
	<div class="meta" style="margin:.25rem 0 .75rem">
	{% if s2.journal %}<span class="pill">📘 {{ s2.journal }}</span>{% endif %}
	{% if s2.publicationDate %}<span class="pill">🗓 {{ s2.publicationDate }}</span>{% endif %}
	<span class="pill">🔗 Citations: {{ s2.citationCount if s2.citationCount is not none else "?" }}</span>
	{% if s2.influentialCitationCount is not none %}<span class="pill">⭐ Influential: {{ s2.influentialCitationCount }}</span>{% endif %}
	{% if s2.isOpenAccess %}<span class="pill">🟢 Open Access</span>{% endif %}
	{% if s2.publicationTypes %}<span class="pill">🧭 {{ s2.publicationTypes\|join(', ') }}</span>{% endif %}
	</div>
	{% endif %}

	<div class="grid">
	<div class="card" style="margin:0">
	<h3 style="margin-top:0">Scores</h3>
	<ul>
	<li><strong>Currency</strong>: {{ result.craap.Currency.score }}/5 — {{ result.craap.Currency.evidence }}</li>
	<li><strong>Relevance</strong>: {{ result.craap.Relevance.score }}/5 — {{ result.craap.Relevance.evidence }}</li>
	<li><strong>Authority</strong>: {{ result.craap.Authority.score }}/5 — {{ result.craap.Authority.evidence }}</li>
	<li><strong>Accuracy</strong>: {{ result.craap.Accuracy.score }}/5 — {{ result.craap.Accuracy.evidence }}</li>
	<li><strong>Purpose</strong>: {{ result.craap.Purpose.score }}/5 — {{ result.craap.Purpose.evidence }}</li>
	</ul>
	<p><strong>Overall:</strong> {{ result.overall.average }} — <em>{{ result.overall.verdict }}</em></p>
	</div>

	<div class="card" style="margin:0">
	<h3 style="margin-top:0">What to verify next</h3>
	<ol>
	<li>Confirm publication date & peer-review at the DOI/URL.</li>
	<li>Skim methods/results for sample size, validation, limitations.</li>
	<li>Check author affiliations and profiles (Semantic Scholar/ORCID).</li>
	<li>Look for funding/conflict-of-interest statements.</li>
	<li>Search for newer papers (last 1–2 years) that cite or challenge it.</li>
	</ol>
	</div>
	</div>
	</div>

	<div class="card">
	<details>
	<summary>View raw JSON</summary>
	<pre>{{ result \| tojson(indent=2) }}</pre>
	</details>
	</div>
	{% endif %}
	</div>
	</body>
	</html>
	"""

	@app.route("/", methods=["GET"])
	def index():
	return render_template_string(INDEX_HTML, result=None, warnings=None)

	@app.route("/analyze", methods=["POST"])
	def analyze():
	paper_source = _clean(request.form.get("paper_source", ""))
	assignment_context = _clean(request.form.get("assignment_context", ""))
	provisional = False
	warnings: List[str] = []
	meta, text = {}, ""
	if paper_source:
	meta, text, w = fetch_url_metadata(paper_source)
	warnings.extend(w)
	elif "pdf" in request.files and request.files["pdf"].filename:
	meta, text, w = extract_pdf_text_and_guess_meta(request.files["pdf"])
	warnings.extend(w); provisional = True
	else:
	return redirect(url_for("index"))
	result = aggregate_scores(meta, text, assignment_context, provisional or bool(warnings))
	doi = (meta.get("identifier") or {}).get("doi")
	enrichment, ewarns = fetch_semantic_scholar(doi)
	result["enrichment"] = enrichment
	warnings.extend(ewarns)
	if not text:
	warnings.append("Full text not available — Accuracy/Purpose are provisional. Provide a DOI/URL or full PDF for deeper evaluation.")
	return render_template_string(INDEX_HTML, result=result, warnings=warnings)

	@app.route("/api/analyze", methods=["POST"])
	def api_analyze():
	data = request.json or {}
	paper_source = _clean(data.get("paper_source",""))
	assignment_context = _clean(data.get("assignment_context",""))
	meta, text, warnings = ({}, "", [])
	provisional = False
	if paper_source:
	meta, text, warnings = fetch_url_metadata(paper_source)
	else:
	return jsonify({"error":"Provide paper_source (URL/DOI) or use /analyze form for PDF upload"}), 400
	result = aggregate_scores(meta, text, assignment_context, provisional or bool(warnings))
	doi = (meta.get("identifier") or {}).get("doi")
	enrichment, ewarns = fetch_semantic_scholar(doi)
	result["enrichment"] = enrichment
	warnings.extend(ewarns)
	return jsonify({"result": result, "warnings": warnings})

	if __name__ == "__main__":
	app.run(host="0.0.0.0", port=8000, debug=True)