Spaces:

Dash10107
/

topic-modelling-agent

Sleeping

App Files Files Community

topic-modelling-agent / tools.py

Dash10107

Upload folder using huggingface_hub

822c198 verified about 1 month ago

raw

history blame contribute delete

11 kB

	from langchain_core.tools import tool
	import os
	import json
	import re
	import numpy as np
	import pandas as pd

	CHECKPOINT_DIR = "/tmp/checkpoints"
	os.makedirs(CHECKPOINT_DIR, exist_ok=True)

	NEAREST_K = 5
	SENT_SPLIT_RE = r'(?<=[.!?])\s+(?=[A-Z])'
	MIN_SENT_LEN = 30
	RUN_CONFIGS = {"abstract": ["Abstract"], "title": ["Title"]}
	_data = {}

	def _split_sentences(text):
	raw = re.split(SENT_SPLIT_RE, str(text))
	return list(filter(lambda s: len(s.strip()) >= MIN_SENT_LEN, raw))

	@tool
	def load_scopus_csv(filepath: str) -> str:
	"""Load and summarize a Scopus CSV dataset."""
	df = pd.read_csv(filepath, encoding="utf-8-sig")
	_data["df"] = df
	cols = [c for c in ["Title", "Abstract", "Author Keywords"] if c in df.columns]
	sample = df[cols].head(3).to_string(max_colwidth=80)
	nulls = ", ".join([f"{c}: {df[c].notna().sum()}/{len(df)}" for c in cols])

	avg_sents = df["Abstract"].head(5).apply(_split_sentences).apply(len).mean()
	est = int(avg_sents * len(df))

	return (f"📊 Dataset Statistics:\n"
	f"- Papers: {len(df)}\n"
	f"- Abstract sentences: ~{est}\n"
	f"- Title sentences: {int(df['Title'].notna().sum())}\n"
	f"- Non-null: {nulls}\n\n"
	f"Columns: {', '.join(list(df.columns)[:15])}\n\n"
	f"Sample:\n{sample}")

	@tool
	def run_bertopic_discovery(run_key: str, threshold: float = 0.7) -> str:
	"""Run BERTopic clustering on abstracts or titles."""
	from bertopic import BERTopic
	from sentence_transformers import SentenceTransformer
	from sklearn.preprocessing import FunctionTransformer
	from sklearn.cluster import AgglomerativeClustering

	df = _data["df"].copy()
	available = [c for c in RUN_CONFIGS[run_key] if c in df.columns]
	df["_text"] = df[available].fillna("").agg(" ".join, axis=1)
	df["_paper_id"] = df.index
	df["_sentences"] = df["_text"].apply(_split_sentences)

	meta = [c for c in ["_paper_id", "Title", "Author Keywords", "_sentences"] if c in df.columns]
	sent_df = df[meta].explode("_sentences").rename(columns={"_sentences": "text"}).dropna(subset=["text"]).reset_index(drop=True)
	sent_df["sent_id"] = sent_df.groupby("_paper_id").cumcount()

	patterns = r"Licensee MDPI\|Published by Informa\|Published by Elsevier\|Taylor & Francis\|Copyright ©\|Creative Commons\|open access article\|Inderscience Enterprises\|All rights reserved\|Springer Nature\|Emerald Publishing\|limitations and (future\|implications\|discussed)\|implications (are\|were) (discussed\|presented)\|concludes with .* implications"
	sent_df = sent_df[~sent_df["text"].str.contains(patterns, case=False, regex=True, na=False)].reset_index(drop=True)

	embedder = SentenceTransformer("all-MiniLM-L6-v2")
	embs = embedder.encode(sent_df["text"].tolist(), show_progress_bar=False, normalize_embeddings=True)
	np.save(f"{CHECKPOINT_DIR}/rq4_{run_key}_emb.npy", embs)

	cluster = AgglomerativeClustering(n_clusters=None, metric="cosine", linkage="average", distance_threshold=threshold)
	model = BERTopic(hdbscan_model=cluster, umap_model=FunctionTransformer())
	topics, _ = model.fit_transform(sent_df["text"].tolist(), embs)

	_data[f"{run_key}_model"] = model
	_data[f"{run_key}_topics"] = np.array(topics)
	_data[f"{run_key}_embeddings"] = embs
	_data[f"{run_key}_sent_df"] = sent_df

	n = len(set(topics)) - int(-1 in topics)
	(n >= 3) and model.visualize_topics().write_html(f"/tmp/rq4_{run_key}_intertopic.html")
	(n >= 1) and model.visualize_barchart(top_n_topics=min(10, n)).write_html(f"/tmp/rq4_{run_key}_bars.html")
	(n >= 2) and model.visualize_hierarchy().write_html(f"/tmp/rq4_{run_key}_hierarchy.html")
	(n >= 2) and model.visualize_heatmap().write_html(f"/tmp/rq4_{run_key}_heatmap.html")

	t_arr = np.array(topics)
	valid = [r for r in model.get_topic_info().to_dict("records") if r["Topic"] != -1]

	def _centroid(row):
	mask = t_arr == row["Topic"]
	m_idx = np.where(mask)[0]
	m_embs = embs[mask]
	cent = m_embs.mean(axis=0)
	dists = 1 - (m_embs @ cent) / (np.linalg.norm(m_embs, axis=1) * np.linalg.norm(cent) + 1e-10)
	near = np.argsort(dists)[:NEAREST_K]

	evidence = [{"sentence": str(sent_df.iloc[m_idx[i]]["text"])[:250], "paper_id": int(sent_df.iloc[m_idx[i]]["_paper_id"]), "title": str(sent_df.iloc[m_idx[i]].get("Title", ""))[:150], "keywords": str(sent_df.iloc[m_idx[i]].get("Author Keywords", ""))[:150]} for i in near]
	p_df = sent_df.iloc[m_idx].drop_duplicates(subset=["_paper_id"])
	titles = [str(p_df.iloc[i].get("Title", ""))[:200] for i in range(min(50, len(p_df)))]

	return {"topic_id": int(row["Topic"]), "sentence_count": int(row["Count"]), "paper_count": len(p_df), "top_words": str(row.get("Name", ""))[:100], "nearest": evidence, "paper_titles": titles}

	sums = list(map(_centroid, valid))
	json.dump(sums, open(f"{CHECKPOINT_DIR}/rq4_{run_key}_summaries.json", "w"), indent=2, default=str)

	lines = [f" Topic {s['topic_id']} ({s['sentence_count']} sents, {s['paper_count']} papers): {s['top_words']}" for s in sums]
	return f"[{run_key}] {n} topics from {len(sent_df)} sentences.\n\n" + "\n".join(lines)

	@tool
	def label_topics_with_llm(run_key: str) -> str:
	"""Use Mistral to generate academic labels for discovered topics."""
	from langchain_mistralai import ChatMistralAI
	from langchain_core.prompts import PromptTemplate
	from langchain_core.output_parsers import JsonOutputParser

	sums = json.load(open(f"{CHECKPOINT_DIR}/rq4_{run_key}_summaries.json"))
	to_label = sorted(sums, key=lambda s: s.get("sentence_count", 0), reverse=True)[:100]

	block = "\n\n".join([f"Topic {s['topic_id']} ({s['sentence_count']} sents):\n{NEAREST_K} entries:\n" + "\n".join([f"- {e['sentence']}\n Paper: {e['title']}" for e in s["nearest"]]) for s in to_label])

	prompt = PromptTemplate.from_template("Return JSON ARRAY of objects with topic_id, label, category, confidence, reasoning, niche for:\n{topics}")
	llm = ChatMistralAI(model="mistral-small-latest", temperature=0)
	labels = (prompt \| llm \| JsonOutputParser()).invoke({"topics": block})

	labeled = [{s, l} for s, l in zip(sums, labels + sums)]
	json.dump(labeled, open(f"{CHECKPOINT_DIR}/rq4_{run_key}_labels.json", "w"), indent=2, default=str)

	lines = [f" Topic {l.get('topic_id')}: {l.get('label')} [{l.get('category')}] ({l.get('sentence_count')} sents)" for l in labeled]
	return f"[{run_key}] {len(labeled)} topics labeled.\n\n" + "\n\n".join(lines)

	@tool
	def generate_comparison_csv() -> str:
	"""Create a comparison matrix across multiple analysis runs."""
	done = [k for k in RUN_CONFIGS.keys() if os.path.exists(f"{CHECKPOINT_DIR}/rq4_{k}_labels.json")]
	rows = []
	for k in done:
	ls = json.load(open(f"{CHECKPOINT_DIR}/rq4_{k}_labels.json"))
	rows.extend([{"run": k, "topic_id": l.get("topic_id"), "label": l.get("label"), "category": l.get("category"), "sentences": l.get("sentence_count"), "papers": l.get("paper_count")} for l in ls])

	df = pd.DataFrame(rows)
	df.to_csv("/tmp/rq4_comparison.csv", index=False)
	return f"Saved to /tmp/rq4_comparison.csv\n\n{df.to_string(index=False)}"

	@tool
	def export_narrative(run_key: str) -> str:
	"""Generate a 500-word research narrative for the results section."""
	from langchain_mistralai import ChatMistralAI
	ls = json.load(open(f"{CHECKPOINT_DIR}/rq4_{run_key}_labels.json"))
	txt = "\n".join([f"- {l.get('label')} ({l.get('sentence_count')} sents)" for l in ls])
	llm = ChatMistralAI(model="mistral-small-latest", temperature=0.3)
	res = llm.invoke(f"Write a 500-word Section 7 'Topic Modeling Results' for {run_key} run:\n{txt}")
	open("/tmp/rq4_narrative.txt", "w", encoding="utf-8").write(res.content)
	return f"Saved to /tmp/rq4_narrative.txt\n\n{res.content}"

	@tool
	def consolidate_into_themes(run_key: str, theme_map: dict) -> str:
	"""Merge specific topics into broader research themes."""
	t_arr, embs, s_df = _data[f"{run_key}_topics"], _data[f"{run_key}_embeddings"], _data[f"{run_key}_sent_df"]

	def _build(name, ids):
	mask = np.isin(t_arr, ids)
	m_idx, m_embs = np.where(mask)[0], embs[mask]
	cent = m_embs.mean(axis=0)
	dists = 1 - (m_embs @ cent) / (np.linalg.norm(m_embs, axis=1) * np.linalg.norm(cent) + 1e-10)
	near = np.argsort(dists)[:NEAREST_K]
	evidence = [{"sentence": str(s_df.iloc[m_idx[i]]["text"])[:250], "title": str(s_df.iloc[m_idx[i]].get("Title", ""))[:150]} for i in near]
	return {"label": name, "merged_topics": list(ids), "sentence_count": int(mask.sum()), "paper_count": int(s_df.iloc[m_idx]["_paper_id"].nunique()), "nearest": evidence}

	themes = [{"topic_id": i, **_build(n, ids)} for i, (n, ids) in enumerate(theme_map.items())]
	json.dump(themes, open(f"{CHECKPOINT_DIR}/rq4_{run_key}_themes.json", "w"), indent=2, default=str)
	lines = [f" {t['label']} ({t['sentence_count']} sents)" for t in themes]
	return f"[{run_key}] {len(themes)} themes.\n\n" + "\n".join(lines)

	PAJAIS = ["Electronic Business", "HCI", "IS Strategy", "Business Intelligence", "Design Science", "Enterprise Systems", "Adoption", "Social Media", "Cultural Issues", "Security", "Smart/IoT", "Knowledge Management", "Digital Platform", "Healthcare", "Project Management", "Service Science", "Social/Org Aspects", "Research Methods", "E-Finance", "E-Government", "Education", "Sustainability"]

	@tool
	def compare_with_taxonomy(run_key: str) -> str:
	"""Map themes to the PAJAIS taxonomy or identify novel contributions."""
	from langchain_mistralai import ChatMistralAI
	from langchain_core.prompts import PromptTemplate
	from langchain_core.output_parsers import JsonOutputParser

	src = (os.path.exists(f"{CHECKPOINT_DIR}/rq4_{run_key}_themes.json") and f"{CHECKPOINT_DIR}/rq4_{run_key}_themes.json") or f"{CHECKPOINT_DIR}/rq4_{run_key}_labels.json"
	ts = json.load(open(src))
	prompt = PromptTemplate.from_template("Map themes to PAJAIS taxonomy or mark 'NOVEL'. Return JSON array for:\nThemes:\n{ts}\nTaxonomy:\n{tax}")
	llm = ChatMistralAI(model="mistral-small-latest", temperature=0)
	ms = (prompt \| llm \| JsonOutputParser()).invoke({"ts": "\n".join([t['label'] for t in ts]), "tax": "\n".join(PAJAIS)})
	json.dump(ms, open(f"{CHECKPOINT_DIR}/rq4_{run_key}_taxonomy_map.json", "w"), indent=2, default=str)
	return f"[{run_key}] Mapping complete."

	def get_all_tools():
	ts = [load_scopus_csv, run_bertopic_discovery, label_topics_with_llm, consolidate_into_themes, compare_with_taxonomy, generate_comparison_csv, export_narrative]
	for t in ts: setattr(t, 'handle_tool_error', True)
	return ts