Spaces:

spark-ds549
/

Claims2

Sleeping

App Files Files Community

Claims2 / scripts /build_subclaim_collapse_bertopic.py

kyu30

paragraph-level update

3b5ceb8 about 2 months ago

raw

history blame contribute delete

21.3 kB

	"""
	Offline pipeline: BERTopic (or sklearn DBSCAN) clusters subclaim text, then adds
	cosine similarity (subclaim vs mapped superclaim) using the same embedding space.

	Subclaim text prefers ``greenwashing_codebook.json``, then ``current_text`` in
	``greenwashing_claim_history.json``. Superclaim text comes from
	``greenwashing_superclaims.json`` via ``claim_superclaim_map.json``.

	Writes subclaim_bertopic_collapse.json (bundle fingerprint + per-subclaim rows:
	topic / collapse hints + hierarchy_confidence).

	No live classification APIs — output is consumed as static JSON by the UI.

	Usage (from repo root):
	pip install -r requirements.txt
	python scripts/build_subclaim_collapse_bertopic.py
	"""

	from __future__ import annotations

	import argparse
	import hashlib
	import json
	import os
	import sys
	from datetime import datetime, timezone
	from pathlib import Path
	from typing import Any

	import numpy as np

	# Repo root (parent of scripts/)
	ROOT = Path(__file__).resolve().parents[1]
	DEFAULT_CLAIMS = ROOT / "greenwashing_claim_history.json"
	DEFAULT_MAP = ROOT / "claim_superclaim_map.json"
	DEFAULT_SUPERCLAIMS = ROOT / "greenwashing_superclaims.json"
	DEFAULT_CODEBOOK = ROOT / "greenwashing_codebook.json"
	DEFAULT_OUT = ROOT / "subclaim_bertopic_collapse.json"


	def _file_sha256(path: Path) -> str:
	h = hashlib.sha256()
	with open(path, "rb") as f:
	for chunk in iter(lambda: f.read(1024 * 1024), b""):
	h.update(chunk)
	return h.hexdigest()


	def _strip_dual_prefix(s: str, a: str, b: str) -> str:
	if s.startswith(a):
	return s[len(a) :]
	if s.startswith(b):
	return s[len(b) :]
	return s


	def _normalize_nc(raw: str) -> str:
	s = str(raw).strip()
	if not s:
	return ""
	if s.startswith("NC_"):
	return s
	body = _strip_dual_prefix(s, "NC_", "SC_")
	return f"NC_{body}"


	def _normalize_sc(raw: str) -> str:
	s = str(raw).strip()
	if not s:
	return ""
	if s.startswith("SC_"):
	return s
	body = _strip_dual_prefix(s, "SC_", "NC_")
	return f"SC_{body}"


	def _load_id_text_json(path: Path, kind: str) -> dict[str, str]:
	with open(path, encoding="utf-8") as f:
	data = json.load(f)
	if not isinstance(data, dict):
	raise ValueError(f"{path} must be a JSON object of {{id: text}}")
	out: dict[str, str] = {}
	for k, v in data.items():
	text = str(v if v is not None else "").strip()
	nid = _normalize_nc(str(k)) if kind == "subclaim" else _normalize_sc(str(k))
	if nid:
	out[nid] = text
	return out


	def _parse_claim_superclaim_map(obj: Any) -> dict[str, str]:
	"""Normalized subclaim_id -> superclaim_id."""
	pairs: list[tuple[str, str]] = []
	if obj is None:
	return {}
	if isinstance(obj, dict):
	keys = list(obj.keys())
	first_key = keys[0] if keys else None
	sample = obj[first_key] if first_key is not None else None
	is_combined = (
	sample is not None
	and isinstance(sample, dict)
	and not isinstance(sample, list)
	and (
	"superclaim_id" in sample
	or "superclaimId" in sample
	or "sc_id" in sample
	)
	)
	if is_combined:
	for sub_id, record in obj.items():
	if not isinstance(record, dict):
	continue
	sc = (
	record.get("superclaim_id")
	or record.get("superclaimId")
	or record.get("sc_id")
	or record.get("SC")
	)
	if sc is None:
	continue
	pairs.append((_normalize_nc(str(sub_id)), _normalize_sc(str(sc))))
	else:
	for nc, sc in obj.items():
	pairs.append((_normalize_nc(str(nc)), _normalize_sc(str(sc))))
	elif isinstance(obj, list):
	for item in obj:
	if isinstance(item, (list, tuple)) and len(item) >= 2:
	pairs.append((_normalize_nc(str(item[0])), _normalize_sc(str(item[1]))))
	elif isinstance(item, dict):
	nc = (
	item.get("subclaim_id")
	or item.get("nc_id")
	or item.get("subclaim")
	or item.get("NC")
	)
	sc = (
	item.get("superclaim_id")
	or item.get("sc_id")
	or item.get("superclaim")
	or item.get("SC")
	)
	if nc is None or sc is None:
	continue
	pairs.append((_normalize_nc(str(nc)), _normalize_sc(str(sc))))
	out: dict[str, str] = {}
	for sid, scid in pairs:
	if sid and scid:
	out[sid] = scid
	return out


	def _encode_subclaims(
	docs: list[str],
	embedding_model: Any,
	*,
	verbose: bool = True,
	) -> np.ndarray:
	return embedding_model.encode(
	docs,
	batch_size=64,
	show_progress_bar=verbose,
	convert_to_numpy=True,
	normalize_embeddings=True,
	)


	def fit_tfidf_svd_embeddings(
	docs: list[str],
	*,
	max_features: int = 30000,
	n_components: int = 128,
	random_state: int = 42,
	) -> tuple[np.ndarray, Any]:
	"""
	Lightweight embedding: TF-IDF → TruncatedSVD → L2 normalize rows.
	Returns (doc_embeddings, encode_fn) where encode_fn(texts) -> dense matrix.
	"""
	from sklearn.decomposition import TruncatedSVD
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.preprocessing import normalize

	min_df = 1 if len(docs) < 80 else 2
	vec = TfidfVectorizer(
	max_features=max_features,
	min_df=min_df,
	max_df=0.92,
	ngram_range=(1, 2),
	sublinear_tf=True,
	)
	X = vec.fit_transform(docs)
	n_comp = min(n_components, max(2, X.shape[1] - 1))
	svd = TruncatedSVD(n_components=n_comp, random_state=random_state)
	Z = normalize(svd.fit_transform(X)).astype(np.float64)

	def encode(texts: list[str]) -> np.ndarray:
	Xt = vec.transform(texts)
	return normalize(svd.transform(Xt)).astype(np.float64)

	return Z, encode


	def _cluster_sklearn_dbscan(
	embeddings: np.ndarray,
	*,
	min_topic_size: int,
	eps: float,
	) -> np.ndarray:
	"""Cosine DBSCAN on L2-normalized rows; noise = -1 (same convention as BERTopic outliers)."""
	from sklearn.cluster import DBSCAN

	if min_topic_size < 2:
	min_topic_size = 2
	labels = DBSCAN(
	eps=eps,
	min_samples=min_topic_size,
	metric="cosine",
	n_jobs=-1,
	).fit_predict(embeddings)
	return np.asarray(labels, dtype=np.int64)


	def _fit_bertopic(
	docs: list[str],
	doc_embeddings: np.ndarray,
	embedding_model: Any,
	*,
	min_topic_size: int,
	verbose: bool,
	) -> tuple[np.ndarray, Any]:
	from bertopic import BERTopic

	topic_model = BERTopic(
	embedding_model=embedding_model,
	min_topic_size=min_topic_size,
	verbose=verbose,
	)
	topics, _ = topic_model.fit_transform(docs, embeddings=doc_embeddings)
	return np.asarray(topics, dtype=np.int64), topic_model


	def cluster_subclaims_topic(
	ids: list[str],
	docs: list[str],
	doc_embeddings: np.ndarray,
	embedding_model: Any \| None,
	*,
	min_topic_size: int = 2,
	verbose: bool = True,
	backend: str = "auto",
	dbscan_eps: float = 0.32,
	) -> tuple[np.ndarray, Any \| None, str]:
	"""
	Cluster precomputed subclaim embeddings.

	- bertopic: needs ``embedding_model`` (SentenceTransformer).
	- sklearn: DBSCAN (cosine); works with TF-IDF–SVD or any dense rows.
	- auto: try BERTopic when ``embedding_model`` is set; else sklearn; on failure, sklearn.

	Returns ``(topic_ids_per_doc, topic_model_or_none, cluster_backend)``.
	"""
	if len(ids) != len(docs):
	raise ValueError("ids and docs must have the same length")
	if len(docs) < 2:
	raise ValueError("need at least 2 documents")

	be = (backend or "auto").strip().lower()

	def _sklearn() -> tuple[np.ndarray, None, str]:
	topics = _cluster_sklearn_dbscan(
	doc_embeddings,
	min_topic_size=min_topic_size,
	eps=dbscan_eps,
	)
	return topics, None, "sklearn_dbscan"

	if be == "sklearn":
	t, m, name = _sklearn()
	return t, m, name

	if be == "bertopic":
	if embedding_model is None:
	print(
	"BERTopic requires sentence-transformers; using sklearn DBSCAN instead.",
	file=sys.stderr,
	)
	return _sklearn()
	try:
	topics, tm = _fit_bertopic(
	docs,
	doc_embeddings,
	embedding_model,
	min_topic_size=min_topic_size,
	verbose=verbose,
	)
	return topics, tm, "bertopic"
	except Exception as e:
	print(
	f"BERTopic failed ({e!r}); using sklearn DBSCAN "
	f"(eps={dbscan_eps}, min_samples={min_topic_size}).",
	file=sys.stderr,
	)
	return _sklearn()

	# auto
	if embedding_model is None:
	return _sklearn()
	try:
	topics, tm = _fit_bertopic(
	docs,
	doc_embeddings,
	embedding_model,
	min_topic_size=min_topic_size,
	verbose=verbose,
	)
	return topics, tm, "bertopic"
	except Exception as e:
	print(
	f"BERTopic unavailable ({e!r}); using sklearn DBSCAN fallback.",
	file=sys.stderr,
	)
	return _sklearn()


	def build_bertopic_subclaim_clusters(
	ids: list[str],
	docs: list[str],
	*,
	embedding_model: Any,
	min_topic_size: int = 2,
	verbose: bool = True,
	backend: str = "auto",
	dbscan_eps: float = 0.32,
	) -> tuple[np.ndarray, Any \| None, np.ndarray, str]:
	"""
	Encode with SentenceTransformer, then :func:`cluster_subclaims_topic`.
	Returns ``(topics, topic_model, doc_embeddings, backend_name)``.
	"""
	doc_embeddings = _encode_subclaims(docs, embedding_model, verbose=verbose)
	topics, tm, name = cluster_subclaims_topic(
	ids,
	docs,
	doc_embeddings,
	embedding_model,
	min_topic_size=min_topic_size,
	verbose=verbose,
	backend=backend,
	dbscan_eps=dbscan_eps,
	)
	return topics, tm, doc_embeddings, name


	def subclaim_rows_from_topics(
	ids: list[str],
	topics: np.ndarray,
	topic_model: Any \| None,
	) -> dict[str, dict[str, Any]]:
	"""Map each subclaim id to topic_id, collapse_flag, collapse_with, and optional topic_label."""
	topics_list = [int(t) for t in topics]
	by_topic: dict[int, list[str]] = {}
	for sid, t in zip(ids, topics_list):
	by_topic.setdefault(t, []).append(sid)

	subclaims_out: dict[str, dict[str, Any]] = {}
	for sid, t in zip(ids, topics_list):
	peers = [x for x in by_topic.get(t, []) if x != sid]
	if t < 0 or len(peers) == 0:
	subclaims_out[sid] = {
	"topic_id": t,
	"collapse_flag": False,
	"collapse_with": [],
	}
	else:
	subclaims_out[sid] = {
	"topic_id": t,
	"collapse_flag": True,
	"collapse_with": sorted(peers),
	}

	if topic_model is not None:
	try:
	topic_info = topic_model.get_topic_info()
	labels_by_id: dict[int, str] = {}
	for _, row in topic_info.iterrows():
	tid = int(row["Topic"])
	if tid < 0:
	continue
	labels_by_id[tid] = str(row.get("Name", "") or "")
	for sid in subclaims_out:
	tid = int(subclaims_out[sid]["topic_id"])
	if tid >= 0 and tid in labels_by_id:
	subclaims_out[sid]["topic_label"] = labels_by_id[tid]
	except Exception:
	pass

	return subclaims_out


	def main() -> int:
	parser = argparse.ArgumentParser(
	description="Build BERTopic / DBSCAN collapse artifact for subclaims.",
	)
	parser.add_argument("--claims-json", type=Path, default=DEFAULT_CLAIMS)
	parser.add_argument("--claim-superclaim-map", type=Path, default=DEFAULT_MAP)
	parser.add_argument("--superclaims-json", type=Path, default=DEFAULT_SUPERCLAIMS)
	parser.add_argument("--codebook-json", type=Path, default=DEFAULT_CODEBOOK)
	parser.add_argument("--out", type=Path, default=DEFAULT_OUT)
	parser.add_argument("--min-topic-size", type=int, default=2)
	parser.add_argument("--embedding-model", default="all-MiniLM-L6-v2")
	parser.add_argument(
	"--cluster-backend",
	choices=("auto", "bertopic", "sklearn"),
	default="auto",
	help="Topic clustering: BERTopic, sklearn DBSCAN, or auto (try BERTopic then fall back).",
	)
	parser.add_argument(
	"--dbscan-eps",
	type=float,
	default=0.32,
	help="Cosine DBSCAN eps when using sklearn (smaller = tighter clusters).",
	)
	parser.add_argument(
	"--embedding-backend",
	choices=("auto", "sentence_transformers", "tfidf"),
	default="auto",
	help="Embeddings: MiniLM via sentence-transformers, TF-IDF+SVD (no PyTorch), or auto.",
	)
	args = parser.parse_args()

	try:
	import sklearn # noqa: F401
	except ImportError:
	print("Missing scikit-learn. Install with: pip install scikit-learn numpy", file=sys.stderr)
	raise SystemExit(1)

	claims_path = args.claims_json
	map_path = args.claim_superclaim_map
	super_path = args.superclaims_json
	codebook_path = args.codebook_json

	for label, p in (
	("Claims JSON", claims_path),
	("claim_superclaim_map.json", map_path),
	("greenwashing_superclaims.json", super_path),
	("greenwashing_codebook.json", codebook_path),
	):
	if not p.is_file():
	print(f"{label} not found: {p}", file=sys.stderr)
	return 1

	data_bundle_paths = (claims_path, map_path, super_path, codebook_path)
	data_hashes = [_file_sha256(p) for p in data_bundle_paths]
	bundle_fingerprint = "\|".join(data_hashes)
	claims_bundle_version = hashlib.sha256(bundle_fingerprint.encode("utf-8")).hexdigest()[:16]

	claims_sha = _file_sha256(claims_path)

	codebook = _load_id_text_json(codebook_path, "subclaim")
	superclaims = _load_id_text_json(super_path, "superclaim")
	with open(map_path, encoding="utf-8") as f:
	map_raw = json.load(f)
	sub_to_super = _parse_claim_superclaim_map(map_raw)

	with open(claims_path, encoding="utf-8") as f:
	data = json.load(f)

	claims = data.get("claims") or {}
	claims_version_from_file = data.get("claims_version")
	if claims_version_from_file is not None:
	claims_version_from_file = str(claims_version_from_file)

	ids: list[str] = []
	docs: list[str] = []
	collected: set[str] = set()

	def add_sid_doc(sid: str, text: str) -> None:
	t = text.strip()
	if not sid or not t or sid not in sub_to_super:
	return
	if sid in collected:
	return
	collected.add(sid)
	ids.append(sid)
	docs.append(t)

	for claim_id, obj in claims.items():
	sid = (
	str(claim_id)
	if str(claim_id).startswith("NC_")
	else f"NC_{str(claim_id).replace('NC_', '').replace('SC_', '')}"
	)
	text = codebook.get(sid, "").strip() or str((obj or {}).get("current_text") or "").strip()
	add_sid_doc(sid, text)

	for sid in sub_to_super:
	if sid in collected:
	continue
	text = codebook.get(sid, "").strip()
	if text:
	add_sid_doc(sid, text)

	if len(docs) < 2:
	print(
	"Need at least 2 mapped subclaims with non-empty text "
	"(codebook and/or claim history current_text).",
	file=sys.stderr,
	)
	return 1

	eb = args.embedding_backend
	embedding_model: Any \| None = None
	encode_fn: Any = None
	doc_embeddings: np.ndarray
	embedding_backend_used: str

	if eb == "tfidf":
	print("Embedding: TF-IDF + TruncatedSVD (no sentence-transformers).")
	doc_embeddings, encode_fn = fit_tfidf_svd_embeddings(docs)
	embedding_backend_used = "tfidf_svd"
	if args.cluster_backend == "bertopic":
	print("BERTopic needs sentence-transformers embeddings; forcing --cluster-backend sklearn.", file=sys.stderr)
	args.cluster_backend = "sklearn"
	elif eb == "sentence_transformers":
	try:
	from sentence_transformers import SentenceTransformer
	except ImportError:
	print(
	"sentence-transformers not installed. Use --embedding-backend tfidf "
	"or: pip install sentence-transformers",
	file=sys.stderr,
	)
	raise SystemExit(1)
	print(f"Embedding: sentence-transformers ({args.embedding_model})")
	embedding_model = SentenceTransformer(args.embedding_model)
	doc_embeddings = _encode_subclaims(docs, embedding_model, verbose=True)
	encode_fn = lambda texts: embedding_model.encode( # type: ignore[misc]
	texts,
	batch_size=64,
	show_progress_bar=False,
	convert_to_numpy=True,
	normalize_embeddings=True,
	)
	embedding_backend_used = "sentence_transformers"
	else:
	# auto: prefer sentence-transformers; fall back to TF-IDF
	try:
	from sentence_transformers import SentenceTransformer

	print(f"Embedding: sentence-transformers ({args.embedding_model})")
	embedding_model = SentenceTransformer(args.embedding_model)
	doc_embeddings = _encode_subclaims(docs, embedding_model, verbose=True)
	encode_fn = lambda texts: embedding_model.encode(
	texts,
	batch_size=64,
	show_progress_bar=False,
	convert_to_numpy=True,
	normalize_embeddings=True,
	)
	embedding_backend_used = "sentence_transformers"
	except Exception as e:
	print(f"sentence-transformers unavailable ({e!r}); using TF-IDF + SVD.", file=sys.stderr)
	doc_embeddings, encode_fn = fit_tfidf_svd_embeddings(docs)
	embedding_model = None
	embedding_backend_used = "tfidf_svd"
	if args.cluster_backend == "bertopic":
	args.cluster_backend = "sklearn"

	print(f"claims_bundle_version: {claims_bundle_version}")
	print(
	f"Clustering {len(docs)} subclaims "
	f"(cluster={args.cluster_backend}, embedding={embedding_backend_used}, min_topic_size={args.min_topic_size})…",
	)

	topics, topic_model, cluster_backend = cluster_subclaims_topic(
	ids,
	docs,
	doc_embeddings,
	embedding_model,
	min_topic_size=args.min_topic_size,
	verbose=True,
	backend=args.cluster_backend,
	dbscan_eps=args.dbscan_eps,
	)
	print(f"Cluster backend used: {cluster_backend}")
	subclaims_out = subclaim_rows_from_topics(ids, topics, topic_model)

	sid_to_doc = dict(zip(ids, docs))
	for sid in ids:
	scid = sub_to_super.get(sid)
	if not scid or sid not in subclaims_out:
	continue
	sub_text = sid_to_doc.get(sid, "").strip()
	super_text = superclaims.get(scid, "").strip()
	if not sub_text or not super_text:
	continue
	pair_emb = encode_fn([sub_text, super_text])
	sim = float(np.dot(pair_emb[0], pair_emb[1]))
	sim = max(0.0, min(1.0, sim))
	subclaims_out[sid]["hierarchy_confidence"] = round(sim, 4)
	subclaims_out[sid]["superclaim_id"] = scid

	out_obj: dict[str, Any] = {
	"generated_at": datetime.now(timezone.utc).isoformat(),
	"claims_bundle_version": claims_bundle_version,
	"claims_source_sha256": claims_sha,
	"data_files_sha256": data_hashes,
	"claims_version": claims_version_from_file,
	"cluster_backend": cluster_backend,
	"embedding_backend": embedding_backend_used,
	"embedding_model": args.embedding_model if embedding_backend_used == "sentence_transformers" else None,
	"min_topic_size": args.min_topic_size,
	"dbscan_eps": args.dbscan_eps if cluster_backend == "sklearn_dbscan" else None,
	"claims_source": os.path.basename(str(claims_path)),
	"subclaims": subclaims_out,
	}

	out_path = args.out
	out_path.parent.mkdir(parents=True, exist_ok=True)
	with open(out_path, "w", encoding="utf-8") as f:
	json.dump(out_obj, f, indent=2, ensure_ascii=False)

	flagged = sum(1 for v in subclaims_out.values() if v.get("collapse_flag"))
	with_hier = sum(1 for v in subclaims_out.values() if "hierarchy_confidence" in v)
	print(f"Wrote {out_path}")
	print(f" collapse_flag=true: {flagged} subclaims; hierarchy_confidence: {with_hier} subclaims")
	return 0


	if __name__ == "__main__":
	raise SystemExit(main())