ingredients-model / inference.py

Upload model artifacts + inference

4eaf81d 3 months ago

10.1 kB


	# inference.py - HF-compatible inference that mirrors analyze_product_by_index output
	import os, joblib, re, json
	import numpy as np, pandas as pd
	from difflib import get_close_matches
	from scipy.sparse import hstack, csr_matrix

	_here = os.path.dirname(__file__)

	def _load(name, allow_missing=False):
	p = os.path.join(_here, name)
	if not os.path.exists(p):
	if allow_missing:
	return None
	raise FileNotFoundError(f"Required artifact not found in package: {p}")
	return joblib.load(p)

	# load artifacts (best-effort)
	WORD_VECT = _load(os.path.join("model_artifacts","word_vect.pkl"), allow_missing=False)
	CHAR_VECT = _load(os.path.join("model_artifacts","char_vect.pkl"), allow_missing=False)
	LABEL_ENCODER = _load(os.path.join("model_artifacts","label_encoder.pkl"), allow_missing=True)
	MODEL_LGB = _load(os.path.join("model_artifacts","lgb_final_holdout.pkl"), allow_missing=True)
	MODEL_SVM = _load(os.path.join("model_artifacts","svm_calibrated_holdout.pkl"), allow_missing=True)
	ING_LOOKUP = _load(os.path.join("ingredient_artifacts","ingredient_lookup.pkl"), allow_missing=True)
	TRAINED_MODELS = _load(os.path.join("ingredient_artifacts","trained_models.pkl"), allow_missing=True)

	# products CSV (optional)
	PRODUCTS_CSV_NAME = "final_products_with_category710-MERGED - final_products_with_category.csv.csv"
	PRODUCTS_DF = None
	prod_csv_path = os.path.join(_here, PRODUCTS_CSV_NAME)
	if os.path.exists(prod_csv_path):
	try:
	PRODUCTS_DF = pd.read_csv(prod_csv_path)
	except Exception:
	PRODUCTS_DF = None

	# Normalizers and helpers (same as notebook)
	paren_re = re.compile(r'\([^)]*\)')
	unit_re = re.compile(r'\b(\d+ml\|\d+mg\|\d+g\|\d+%)', flags=re.I)
	def normalize_ingredients_for_category(text):
	t = str(text).lower()
	t = paren_re.sub(" ", t)
	t = unit_re.sub(" ", t)
	t = re.sub(r"[^a-z0-9,;\-/%]+", " ", t)
	t = t.replace(";", ",")
	t = re.sub(r",\s*,", ",", t)
	t = " ".join(t.split())
	return t.strip()
	def normalize_name_for_category(text):
	t = str(text).lower()
	t = re.sub(r"[^a-z0-9\-\s]", " ", t)
	t = " ".join(t.split())
	return t.strip()
	def normalize_text(s):
	if s is None: return ""
	s = str(s).lower()
	s = re.sub(r'\([^)]*\)', ' ', s)
	s = re.sub(r'[^a-z0-9\-\s]', ' ', s)
	s = re.sub(r'\s+', ' ', s).strip()
	return s
	def parse_ingredients(text):
	if not text or pd.isna(text): return []
	t = str(text)
	t = re.sub(r'\s\([^)]\)', '', t)
	t = t.replace(';', ',').replace('/', ',')
	items = [i.strip() for i in t.split(',') if i.strip()]
	return items
	def generate_engineered_features(normalized_product_name, normalized_ingredients_text):
	ingredient_count = len(normalized_ingredients_text.split(",")) if normalized_ingredients_text else 0
	name_len = len(normalized_product_name.split()) if normalized_product_name else 0
	has_aqua = int("aqua" in normalized_ingredients_text)
	has_sorbitol = int("sorbitol" in normalized_ingredients_text)
	return np.array([ingredient_count, name_len, has_aqua, has_sorbitol])

	LOOKUP_DICT = ING_LOOKUP if ING_LOOKUP is not None else {}
	UNIQUE_ING_NORMS = list(LOOKUP_DICT.keys()) if LOOKUP_DICT else []

	def get_best_fuzzy_match(query, choices, lookup_dict, cutoff):
	matches = get_close_matches(query, choices, n=1, cutoff=cutoff)
	if matches:
	matched_norm = matches[0]
	return {"match_norm": matched_norm, "data": lookup_dict[matched_norm]}
	return None

	def map_harm_text(v):
	if pd.isna(v): return None
	s = str(v).strip().lower()
	if s in ("1","2","3","4","5","6","7","8","9","10"):
	return float(s)
	if s in ("yes","y","true","t","harmful","toxic","unsafe","dangerous"):
	return 1.0
	if s in ("no","n","false","f","safe","not harmful","none","na","0"):
	return 0.0
	try:
	return float(s)
	except:
	return None

	def _predict_category(norm_name, norm_ing):
	combined = norm_name + " \| " + norm_ing
	Xw = WORD_VECT.transform([combined])
	Xc = CHAR_VECT.transform([combined])
	X_comb = hstack([Xw, Xc, csr_matrix(generate_engineered_features(norm_name, norm_ing).reshape(1,-1))]).tocsr()
	probs_svm = None
	probs_lgb = None
	if MODEL_SVM is not None:
	try: probs_svm = MODEL_SVM.predict_proba(X_comb)
	except: probs_svm = None
	if MODEL_LGB is not None:
	try: probs_lgb = MODEL_LGB.predict_proba(X_comb)
	except: probs_lgb = None
	if probs_svm is not None and probs_lgb is not None:
	probs = (probs_svm + probs_lgb) / 2.0
	else:
	probs = probs_svm if probs_svm is not None else probs_lgb
	if probs is None:
	return None, None
	code = int(np.argmax(probs, axis=1)[0])
	label = LABEL_ENCODER.inverse_transform([code])[0] if LABEL_ENCODER is not None else str(code)
	return label, (probs.tolist() if probs is not None else None)

	def _analyze_rows(items_raw, fuzzy_cutoff=0.85):
	items_norm = [normalize_text(x) for x in items_raw]
	rows = []
	for raw, norm in zip(items_raw, items_norm):
	entry = {
	"ingredient_raw": raw,
	"ingredient_norm": norm,
	"source": None,"function": None,"benefits": None,"explanation": None,
	"harm_label": None,"harm_score": None,"harm_pred_prob": None
	}
	if LOOKUP_DICT and norm in LOOKUP_DICT:
	r = LOOKUP_DICT[norm]; entry['source']='exact'
	for k in ("Function","function","function_name","Function "):
	if k in r: entry['function']=r.get(k); break
	for k in ("Benefits","benefit","short explanation","Short Explanation"):
	if k in r: entry['benefits']=r.get(k); break
	harm_candidates=[c for c in r.keys() if 'harm' in str(c).lower() or 'risk' in str(c)]
	if harm_candidates:
	mapped = map_harm_text(r.get(harm_candidates[0]))
	if mapped is not None:
	entry['harm_score'] = float(mapped)/10.0; entry['harm_label']=mapped
	else:
	fuzzy = get_best_fuzzy_match(norm, UNIQUE_ING_NORMS, LOOKUP_DICT, fuzzy_cutoff) if UNIQUE_ING_NORMS else None
	if fuzzy:
	cand = fuzzy['match_norm']; r = LOOKUP_DICT[cand]; entry['source'] = f"fuzzy->{cand}"
	for k in ("Function","function","function_name"):
	if k in r: entry['function']=r.get(k); break
	for k in ("Benefits","benefit","short explanation"):
	if k in r: entry['benefits']=r.get(k); break
	harm_candidates=[c for c in r.keys() if 'harm' in str(c).lower() or 'risk' in str(c)]
	if harm_candidates:
	mapped = map_harm_text(r.get(harm_candidates[0]))
	if mapped is not None:
	entry['harm_score'] = float(mapped)/10.0; entry['harm_label'] = mapped
	else:
	entry['source'] = 'predicted'
	if TRAINED_MODELS and 'function' in TRAINED_MODELS:
	try:
	vect_f, clf_f = TRAINED_MODELS['function']
	code = clf_f.predict(vect_f.transform([norm]))[0]
	entry['function'] = str(code)
	try: entry['function_prob'] = float(max(clf_f.predict_proba(vect_f.transform([norm]))[0]))
	except: entry['function_prob'] = None
	except: pass
	if TRAINED_MODELS and 'harmful' in TRAINED_MODELS:
	try:
	vect_h, clf_h = TRAINED_MODELS['harmful']
	hp = clf_h.predict_proba(vect_h.transform([norm]))[0]
	entry['harm_pred_prob'] = float(hp[1]) if len(hp)>1 else float(max(hp))
	entry['harm_score'] = entry['harm_pred_prob']
	except: pass
	if entry['harm_score'] is None: entry['harm_score'] = 0.0
	rows.append(entry)
	return pd.DataFrame(rows)

	def predict(inputs: dict) -> dict:
	fuzzy_cutoff = float(inputs.get("fuzzy_cutoff", 0.85))
	prod_index = inputs.get("product_index", None)
	if prod_index is not None:
	if PRODUCTS_DF is None:
	return {"error":"Products CSV not in package; cannot use product_index"}
	try: prod_index = int(prod_index)
	except: return {"error":"product_index must be integer"}
	if prod_index < 0 or prod_index >= len(PRODUCTS_DF):
	return {"error": f"product_index out of range 0..{len(PRODUCTS_DF)-1}"}
	row = PRODUCTS_DF.iloc[prod_index]
	product_name = row.get("PRODUCT NAME","") if "PRODUCT NAME" in row.index else row.iloc[0] if len(row)>0 else ""
	ingredient_text = row.get("INGREDIENTS","") if "INGREDIENTS" in row.index else (row.iloc[1] if len(row)>1 else "")
	else:
	product_name = inputs.get("product_name","")
	ingredient_text = inputs.get("ingredient_text","")
	norm_name = normalize_name_for_category(product_name)
	norm_ing = normalize_ingredients_for_category(ingredient_text)
	predicted_category_label, category_probs = _predict_category(norm_name, norm_ing)
	items_raw = parse_ingredients(ingredient_text)
	df_rows = _analyze_rows(items_raw, fuzzy_cutoff=fuzzy_cutoff)
	df_rows['harm_score'] = df_rows['harm_score'].fillna(0.0).astype(float)
	avg_harm = float(df_rows['harm_score'].mean()) if len(df_rows)>0 else 0.0
	rows_json = df_rows.to_dict(orient='records')
	out = {
	"product_index": prod_index,
	"product_name": product_name,
	"predicted_category": predicted_category_label,
	"category_probs": category_probs,
	"avg_harm": avg_harm,
	"rows": rows_json,
	"product_ingredient_count": len(rows_json)
	}
	return out

	if __name__ == "__main__":
	example = {"product_index": 0} if PRODUCTS_DF is not None and len(PRODUCTS_DF)>0 else {"product_name":"Test","ingredient_text":"Aqua, Glycerin, Alcohol"}
	import json
	print(json.dumps(predict(example), indent=2))