Spaces:

elsayedelmandoh
/

sentiment-sleuth

Sleeping

App Files Files Community

sentiment-sleuth / app.py

elsayedelmandoh

create license, hf_loader, and hf_uploader file

b454d73 2 months ago

raw

history blame contribute delete

6.78 kB

	import streamlit as st
	from src.utils import helpers
	from src.config import settings

	st.set_page_config(page_title=settings.PROJECT_NAME, page_icon="🕵️", layout="centered")

	@st.cache_resource
	def load_cached_assets():
	# Best-effort: ensure NLTK resources (silent failures allowed)
	try:
	helpers.ensure_nltk_resources()
	except Exception:
	pass

	# Return the full assets tuple from helpers.load_assets().
	# Behavior: helpers.load_assets() prefers local files under `data/`.
	# If a file is missing and the environment variable `HF_ASSETS_REPO` is set,
	# the helper will attempt to download the missing artifact from the
	# specified Hugging Face repo and cache it to `data/remote_cache/`.
	assets = helpers.load_assets()
	return assets


	def _safe_predict(model, X):
	"""Try to predict and return (pred, prob, error_str).

	On failure, attempt a dense fallback for sparse `X` and surface the exception message.
	"""
	if model is None:
	return None, None, None

	def _try_predict(input_X):
	pred = model.predict(input_X)[0]
	prob = None
	# First try predict_proba when available
	if hasattr(model, "predict_proba"):
	try:
	probs = model.predict_proba(input_X)[0]
	if hasattr(model, "classes_"):
	try:
	idx = int((model.classes_ == pred).nonzero()[0][0])
	prob = float(probs[idx])
	except Exception:
	prob = float(probs.max())
	else:
	prob = float(probs.max())
	except Exception:
	prob = None
	# If no predict_proba, try decision_function fallback for an approximate confidence
	elif hasattr(model, "decision_function"):
	try:
	score = model.decision_function(input_X)
	# decision_function can return (n_samples,) or (n_samples, n_classes)
	if hasattr(score, '__len__') and getattr(score, 'ndim', 0) == 1:
	score_val = float(score[0])
	# convert distance to a pseudo-probability via a sigmoid
	prob_pos = 1.0 / (1.0 + __import__('math').exp(-score_val))
	# If classes_ available, align probability to predicted class
	if hasattr(model, 'classes_') and len(model.classes_) >= 2:
	# assume classes_[1] corresponds to the positive side of decision_function
	if pred == model.classes_[1]:
	prob = float(prob_pos)
	else:
	prob = float(1.0 - prob_pos)
	else:
	prob = float(max(min(prob_pos, 1.0), 0.0))
	else:
	# multi-dimensional decision function — skip
	prob = None
	except Exception:
	prob = None
	return pred, prob

	try:
	return (*_try_predict(X), None)
	except Exception as e1:
	# If X is sparse, try dense fallback
	try:
	if hasattr(X, "toarray"):
	X_dense = X.toarray()
	try:
	return (*_try_predict(X_dense), None)
	except Exception as e2:
	return None, None, f"predict failed: {e2}"
	except Exception:
	pass
	return None, None, f"predict failed: {e1}"


	def map_label(pred, model=None):
	"""Map a raw model prediction to a human label.

	Supports both common encodings used in this repo:
	- {0,1} where 0 -> Negative, 1 -> Positive
	- {1,2} where 1 -> Negative, 2 -> Positive

	If `model` is provided and has `classes_`, we use that to disambiguate.
	"""
	if pred is None:
	return "Unknown"

	# If model provides classes_, prefer that mapping
	try:
	if model is not None and hasattr(model, 'classes_'):
	classes = tuple(model.classes_)
	if set(classes) == {0, 1}:
	p = int(pred)
	return "Negative" if p == 0 else "Positive"
	if set(classes) == {1, 2}:
	p = int(pred)
	return "Negative" if p == 1 else "Positive"
	except Exception:
	pass

	# Fallback heuristics
	try:
	p = int(pred)
	if p == 0:
	return "Negative"
	if p == 1:
	return "Positive"
	if p == 2:
	return "Positive"
	except Exception:
	pass

	if isinstance(pred, str):
	l = pred.lower()
	if "neg" in l:
	return "Negative"
	if "pos" in l:
	return "Positive"

	return str(pred)


	def main():
	st.title(settings.PROJECT_NAME)
	if settings.PROJECT_DESCRIPTION:
	st.caption(settings.PROJECT_DESCRIPTION)

	assets = load_cached_assets()
	# unpack expected assets (helpers.load_assets returns many entries)
	vectorizer = assets[0] if len(assets) > 0 else None
	lr_model = assets[1] if len(assets) > 1 else None
	nb_model = assets[2] if len(assets) > 2 else None
	ft_svm_model = assets[3] if len(assets) > 3 else None
	linear_svm_model = assets[4] if len(assets) > 4 else None
	knn_model = assets[5] if len(assets) > 5 else None
	decision_tree_model = assets[6] if len(assets) > 6 else None
	random_forest_model = assets[7] if len(assets) > 7 else None
	sgd_model = assets[8] if len(assets) > 8 else None
	xgboost_model = assets[9] if len(assets) > 9 else None
	lightgbm_model = assets[10] if len(assets) > 10 else None

	st.markdown("---")
	st.subheader("Analyze a custom Amazon review")

	review = st.text_area("Paste a review here", height=200)
	_, btn_col, _ = st.columns([1, 2, 1])
	analyze = btn_col.button("Analyze")

	if analyze:
	if not review or not str(review).strip():
	st.warning("Please enter a review to analyze.")
	st.stop()

	try:
	cleaned = helpers.clean_text(str(review))
	except Exception as e:
	st.error(f"Error during text cleaning: {e}")
	st.stop()

	if not cleaned:
	st.warning("Input text became empty after cleaning. Try a different review.")
	st.stop()

	if vectorizer is None:
	st.error("TF-IDF vectorizer not available. Ensure `data/vectorizers/tfidf_vectorizer.joblib` exists.")
	st.stop()

	try:
	X = vectorizer.transform([cleaned])
	except Exception as e:
	st.error(f"Error during vectorization: {e}")
	st.stop()

	# collect models and display names in the desired order
	model_list = [
	("Logistic Regression", lr_model),
	("Naive Bayes", nb_model),
	("FT SVM", ft_svm_model),
	("Linear SVM", linear_svm_model),
	("KNN", knn_model),
	("Decision Tree", decision_tree_model),
	("Random Forest", random_forest_model),
	("SGD", sgd_model),
	("XGBoost", xgboost_model),
	("LightGBM", lightgbm_model),
	]

	cols = st.columns(3)
	for i, (name, model) in enumerate(model_list):
	col = cols[i % 3]
	with col:
	st.subheader(name)
	raw, prob, err = _safe_predict(model, X)
	label = map_label(raw, model)
	if label == "Positive":
	st.success(label)
	elif label == "Negative":
	st.error(label)
	elif label == "Unknown":
	if err:
	st.write("Model error:")
	st.caption(err)
	else:
	st.write("Model unavailable or prediction failed.")
	else:
	st.info(label)
	if prob is not None:
	st.caption(f"Confidence: {prob:.2%}")
	elif err:
	# show short error hint for debugging
	st.caption(err)

	st.markdown("---")
	st.subheader("Details")
	st.write("Original:")
	st.write(review)
	st.write("Cleaned:")
	st.write(cleaned)


	if __name__ == "__main__":
	main()