Spaces:

Israelbliz
/

Recommendation-Agent

Running

App Files Files Community

Recommendation-Agent / scripts /build_index.py

Israelbliz

Upload scripts

a971a56 verified 3 days ago

raw

history blame contribute delete

1.81 kB

	"""One-time ChromaDB indexing of the item catalog.

	Runs SBERT (all-MiniLM-L6-v2) over every item's title + description and
	stores the embedding in ChromaDB under data/chroma/. The collection is
	persistent — subsequent runs skip indexing if it already exists.

	After this runs, Task B's retrieval layer can do semantic search:
	"thoughtful literary fiction about identity" → 50 nearest items

	Usage:
	python -m scripts.build_index
	python -m scripts.build_index --force # rebuild from scratch
	"""
	from __future__ import annotations

	import argparse
	import logging

	import pandas as pd

	from core.config import settings
	from core.retrieval import ItemRetriever

	logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
	log = logging.getLogger(__name__)


	def main():
	ap = argparse.ArgumentParser()
	ap.add_argument("--force", action="store_true",
	help="Rebuild the index from scratch (default: skip if already built)")
	args = ap.parse_args()

	items_path = settings.processed_dir / "items.parquet"
	if not items_path.exists():
	raise SystemExit(f"Items file not found at {items_path}. Run `python data/prepare_data.py` first.")

	items = pd.read_parquet(items_path)
	log.info(f"Loaded {len(items):,} items")

	retriever = ItemRetriever()
	log.info(f"Building index at {retriever.persist_dir}")
	retriever.build_index(items, batch_size=256, force=args.force)

	# Quick smoke test
	log.info("Smoke testing retrieval...")
	results = retriever.retrieve("thoughtful literary fiction about identity", k=5)
	log.info(f"Test query returned {len(results)} results:")
	for r in results:
	log.info(f" [{r.distance:.3f}] {r.domain} \| {r.title[:80]}")


	if __name__ == "__main__":
	main()