Spaces:

rahull30
/

SPJIMR-ReviewPaper-V2

Sleeping

App Files Files Community

SPJIMR-ReviewPaper-V2 / preprocessing.py

rahull30

Clean commit: preprocessing, clustering, embedding fixes

a0c55ac 10 days ago

raw

history blame contribute delete

7.99 kB

	"""
	preprocessing.py — Text cleaning and combined_text creation for topic modelling pipeline.

	Produces two text columns:
	- combined_text_raw : original casing (Title + Abstract) → used for SPECTER2 embeddings
	- combined_text_clean : lowercased, normalised → used for keyword extraction

	Also performs:
	- DOI-based exact deduplication
	- Fuzzy title deduplication (difflib similarity >= 0.85)
	- Filtering of rows whose combined text is < 100 characters
	- Dataset overview stats (total, cleaned, duplicates removed, missing abstracts)
	"""

	import re
	import difflib
	import pandas as pd
	from typing import Optional, Tuple


	# ─── TEXT HELPERS ─────────────────────────────────────────────────────────────

	def _normalize_whitespace(text: str) -> str:
	"""Collapse multiple spaces/newlines into a single space and strip."""
	return re.sub(r"\s+", " ", text).strip()


	def clean_text_raw(title: str, abstract: str) -> str:
	"""
	Combine title + abstract preserving original casing.
	Used for SPECTER2 embeddings (case-sensitive model).
	"""
	title = _normalize_whitespace(title) if isinstance(title, str) else ""
	abstract = _normalize_whitespace(abstract) if isinstance(abstract, str) else ""
	return (title + " " + abstract).strip()


	def clean_text_lower(title: str, abstract: str) -> str:
	"""
	Combine title + abstract, lowercase and lightly normalise.
	Preserves hyphens and slashes common in science (covid-19, RNA/DNA).
	Used for keyword extraction (KeyBERT).
	"""
	title = _normalize_whitespace(title).lower() if isinstance(title, str) else ""
	abstract = _normalize_whitespace(abstract).lower() if isinstance(abstract, str) else ""
	combined = (title + " " + abstract).strip()
	# Remove characters that are not word chars, whitespace, hyphens, or slashes
	combined = re.sub(r"[^\w\s\-/]", " ", combined)
	return re.sub(r"\s+", " ", combined).strip()


	# ─── DEDUPLICATION ────────────────────────────────────────────────────────────

	def _deduplicate(df: pd.DataFrame) -> Tuple[pd.DataFrame, int]:
	"""
	Remove duplicate papers using:
	1. Exact DOI match (drop subsequent duplicates where DOI is non-empty)
	2. Fuzzy title similarity >= 0.85 (difflib SequenceMatcher)

	Returns (deduplicated_df, n_removed).
	"""
	original_len = len(df)

	# --- Step 1: exact DOI deduplication (ignore blank / index-based DOIs)
	real_doi_mask = df["DOI"].str.strip().str.len() > 3 # skip index placeholders
	doi_dupes = df[real_doi_mask].duplicated(subset=["DOI"], keep="first")
	# Mark real-DOI duplicates for removal
	drop_idx = set(df[real_doi_mask][doi_dupes].index.tolist())

	# --- Step 2: fuzzy title deduplication on remaining rows
	remaining = df[~df.index.isin(drop_idx)].reset_index(drop=False)
	titles = [str(t).lower().strip() for t in remaining["Title"].tolist()]
	fuzzy_drop = set()

	if len(titles) > 1:
	from sklearn.feature_extraction.text import TfidfVectorizer
	# Use TF-IDF char n-grams for very fast and robust fuzzy matching
	vectorizer = TfidfVectorizer(analyzer='char_wb', ngram_range=(2, 4), min_df=1)
	tfidf_matrix = vectorizer.fit_transform(titles)

	# Compute cosine similarity matrix
	similarity_matrix = tfidf_matrix.dot(tfidf_matrix.T).tocoo()

	# We only care about upper triangle (i < j) where similarity is high
	for i, j, v in zip(similarity_matrix.row, similarity_matrix.col, similarity_matrix.data):
	if i < j and v >= 0.85:
	# If i is not already dropped, drop j
	if i not in fuzzy_drop:
	fuzzy_drop.add(j)

	for j in fuzzy_drop:
	drop_idx.add(remaining.iloc[j]["index"])

	deduped = df[~df.index.isin(drop_idx)].reset_index(drop=True)
	return deduped, original_len - len(deduped)


	# ─── MAIN ENTRY POINT ─────────────────────────────────────────────────────────

	def load_and_preprocess(filepath: str) -> Tuple[pd.DataFrame, dict]:

	print("\n========== PREPROCESSING STARTED ==========\n")

	# ── Load CSV
	print("[Step 1] Loading dataset...")
	df = pd.read_csv(filepath)
	print(f"[INFO] Loaded {len(df)} rows")

	df.columns = [c.strip() for c in df.columns]
	print(f"[INFO] Columns detected: {list(df.columns)}\n")

	# ── Required columns check
	print("[Step 2] Validating required columns...")
	required = {"Title", "Abstract"}
	missing_cols = required - set(df.columns)
	if missing_cols:
	raise ValueError(f"CSV is missing required columns: {missing_cols}")
	print("[OK] Required columns present\n")

	stats: dict = {"total": len(df)}

	# ── Missing abstracts
	print("[Step 3] Checking missing abstracts...")
	missing_abstracts = int(df["Abstract"].isna().sum())
	stats["missing_abstracts"] = missing_abstracts
	print(f"[INFO] Missing abstracts: {missing_abstracts}\n")

	# ── Drop missing titles
	print("[Step 4] Cleaning missing titles...")
	before = len(df)
	df = df.dropna(subset=["Title"]).copy()
	df["Abstract"] = df["Abstract"].fillna("")
	print(f"[INFO] Dropped {before - len(df)} rows with missing titles")
	print(f"[INFO] Remaining rows: {len(df)}\n")

	stats["after_drop_title"] = len(df)

	# ── DOI handling
	print("[Step 5] Processing DOI column...")
	doi_col = None
	for candidate in ["DOI", "doi", "Document Object Identifier"]:
	if candidate in df.columns:
	doi_col = candidate
	break

	if doi_col is None:
	raise ValueError("CSV must contain a DOI column. None found.")

	elif doi_col != "DOI":
	df = df.rename(columns={doi_col: "DOI"})

	df["DOI"] = df["DOI"].fillna("").astype(str)

	print(f"[INFO] Sample DOIs: {df['DOI'].head(3).tolist()}\n")

	# ── Deduplication
	print("[Step 6] Deduplication...")
	before = len(df)
	df, n_dupes = _deduplicate(df)
	stats["duplicates_removed"] = n_dupes

	print(f"[INFO] Removed {n_dupes} duplicates")
	print(f"[INFO] Remaining rows: {len(df)}\n")

	# ── Build combined text
	print("[Step 7] Building combined text columns...")

	df["combined_text_raw"] = df.apply(
	lambda r: clean_text_raw(r["Title"], r["Abstract"]), axis=1
	)
	df["combined_text_clean"] = df.apply(
	lambda r: clean_text_lower(r["Title"], r["Abstract"]), axis=1
	)

	print("[INFO] Sample combined_text_raw:")
	print(df["combined_text_raw"].head(2).tolist(), "\n")

	# ── Filter short text
	print("[Step 8] Filtering short text entries (<100 chars)...")
	before = len(df)

	df = df[df["combined_text_raw"].str.len() >= 100].reset_index(drop=True)

	removed = before - len(df)
	print(f"[INFO] Removed {removed} short-text papers")
	print(f"[INFO] Remaining rows: {len(df)}\n")

	stats["final_count"] = len(df)

	# ── Final validation
	print("[Step 9] Final validation...")
	if len(df) < 50:
	raise ValueError(
	f"Dataset too small after preprocessing: {len(df)} papers. Need at least 50."
	)

	print("\n========== PREPROCESSING COMPLETE ==========\n")

	print(f"[SUMMARY]")
	print(f"Total input: {stats['total']}")
	print(f"Missing abstracts: {stats['missing_abstracts']}")
	print(f"Duplicates removed: {stats['duplicates_removed']}")
	print(f"Final dataset size: {stats['final_count']}\n")

	return (
	df[["DOI", "Title", "Abstract", "combined_text_raw", "combined_text_clean"]],
	stats,
	)