Spaces:

jdsb06
/

meta-r2

Sleeping

github-actions[bot]

Deploy Space snapshot

ddbc1ba about 1 month ago

10.4 kB

	"""
	Synthetic Memory Seeder
	-----------------------
	Generates and solves N synthetic life scenarios, storing only high-reward
	decisions (reward >= MIN_REWARD) into ChromaDB. Run this once to pre-populate
	the memory library so the warm-start agent already acts like a "pro".

	Usage:
	python scripts/seed_memory.py # 200 scenarios, fast mode
	python scripts/seed_memory.py --n 1000 # 1000 scenarios
	python scripts/seed_memory.py --n 50 --verbose
	python scripts/seed_memory.py --stats # just print current DB stats
	"""

	import sys
	import os
	import argparse
	import random
	import copy
	import time

	# Allow imports from project root
	sys.path.insert(0, os.path.join(os.path.dirname(__file__), ".."))

	from agent.conflict_generator import generate_conflict, TEMPLATES
	from agent.memory import LifeStackMemory
	from agent.agent import LifeStackAgent
	from core.lifestack_env import LifeStackEnv, LifeStackAction
	from core.life_state import LifeMetrics, ResourceBudget
	from intake.simperson import SimPerson
	from core.metric_schema import normalize_metric_path, is_valid_metric_path

	# ── Config ────────────────────────────────────────────────────────────────────
	MIN_REWARD = 0.05 # Store decisions at or above this threshold (env reward range: -1.0 to 1.0)
	RATE_LIMIT_SLEEP = 2.5 # Seconds between Groq API calls — 30 RPM limit = 2.0s minimum, 2.5s with buffer
	MAX_RETRIES = 2 # Per scenario before skipping

	# ── Diverse persona pool ──────────────────────────────────────────────────────
	PERSONA_POOL = [
	SimPerson(name="Alex (Executive)", openness=0.4, conscientiousness=0.9, extraversion=0.7, agreeableness=0.25, neuroticism=0.8),
	SimPerson(name="Chloe (Creative)", openness=0.9, conscientiousness=0.2, extraversion=0.5, agreeableness=0.70, neuroticism=0.15),
	SimPerson(name="Sam (Introvert)", openness=0.5, conscientiousness=0.6, extraversion=0.1, agreeableness=0.65, neuroticism=0.9),
	SimPerson(name="Maya (Family)", openness=0.5, conscientiousness=0.7, extraversion=0.5, agreeableness=0.95, neuroticism=0.3),
	SimPerson(name="Leo (Student)", openness=0.85, conscientiousness=0.8, extraversion=0.4, agreeableness=0.4, neuroticism=0.55),
	SimPerson(name="Arjun (Startup)", openness=0.4, conscientiousness=0.9, extraversion=0.7, agreeableness=0.25, neuroticism=0.8),
	# Extra synthetic personas for diversity
	SimPerson(name="Dana (Retiree)", openness=0.3, conscientiousness=0.75, extraversion=0.35, agreeableness=0.8, neuroticism=0.2),
	SimPerson(name="Kai (Freelancer)", openness=0.8, conscientiousness=0.3, extraversion=0.6, agreeableness=0.5, neuroticism=0.6),
	SimPerson(name="Priya (Academic)", openness=0.85, conscientiousness=0.85, extraversion=0.3, agreeableness=0.6, neuroticism=0.45),
	SimPerson(name="Marcus (Athlete)", openness=0.45, conscientiousness=0.95, extraversion=0.65, agreeableness=0.5, neuroticism=0.3),
	]


	def _normalize_metric_changes(metric_changes: dict, target_domain: str) -> dict:
	fixed = {}
	for path, delta in metric_changes.items():
	raw = str(path)
	if "." not in raw:
	raw = f"{target_domain}.{raw}"
	norm = normalize_metric_path(raw)
	if not is_valid_metric_path(norm):
	continue
	try:
	fixed[norm] = float(delta)
	except (ValueError, TypeError):
	continue
	return fixed


	def run_one_scenario(agent: LifeStackAgent, memory: LifeStackMemory, conflict, person: SimPerson, verbose: bool) -> dict \| None:
	"""Run a single conflict+persona pair. Returns stored record or None if below threshold."""
	try:
	env = LifeStackEnv()
	env.reset(conflict=conflict.primary_disruption, budget=conflict.resource_budget)
	before_metrics = copy.deepcopy(env.state.current_metrics)
	before_budget = copy.deepcopy(env.state.budget)

	action = agent.get_action(before_metrics, before_budget, conflict, person)

	# Normalize metric changes
	action.primary.metric_changes = _normalize_metric_changes(
	action.primary.metric_changes, action.primary.target_domain
	)

	uptake = person.respond_to_action(
	action.primary.action_type,
	action.primary.resource_cost,
	before_metrics.mental_wellbeing.stress_level,
	)
	env_action = LifeStackAction.from_agent_action(action)
	env_action.metric_changes = {k: v * uptake for k, v in action.primary.metric_changes.items()}
	obs = env.step(env_action)

	reward = obs.reward

	if reward >= MIN_REWARD:
	# Build a compact metrics diff string for the memory record
	flat_before = before_metrics.flatten()
	flat_after = obs.metrics if isinstance(obs.metrics, dict) else {}
	changed = {
	k: round(flat_after.get(k, flat_before[k]) - flat_before[k], 1)
	for k in flat_before
	if abs(flat_after.get(k, flat_before[k]) - flat_before[k]) > 0.5
	}
	metrics_diff_str = ", ".join(f"{k}:{'+' if v > 0 else ''}{v}" for k, v in list(changed.items())[:5])

	memory.store_decision(
	conflict_title=conflict.title,
	action_type=action.primary.action_type,
	target_domain=action.primary.target_domain,
	reward=reward,
	metrics_snapshot=flat_before,
	reasoning=action.reasoning,
	route_outcome=f"{action.primary.action_type}→{action.primary.target_domain}",
	)
	# Also store as trajectory so retrieve_similar_trajectories works
	memory.store_trajectory(
	conflict_title=conflict.title,
	route_taken=f"{action.primary.action_type}→{action.primary.target_domain}",
	total_reward=reward,
	metrics_diff_str=metrics_diff_str,
	reasoning=action.reasoning,
	)

	if verbose:
	print(f" STORED [{action.primary.action_type:12}→{action.primary.target_domain:20}] reward={reward:.3f} ({conflict.title} / {person.name})")
	return {"reward": reward, "stored": True}
	else:
	if verbose:
	print(f" SKIP [{action.primary.action_type:12}→{action.primary.target_domain:20}] reward={reward:.3f} (below {MIN_REWARD})")
	return {"reward": reward, "stored": False}

	except Exception as e:
	if verbose:
	print(f" ERROR {conflict.title} / {person.name}: {e}")
	return None


	def seed(n: int, verbose: bool, api_only: bool):
	print(f"\n{'='*60}")
	print(f" LifeStack Synthetic Memory Seeder")
	print(f" Target: {n} scenarios \| Min reward: {MIN_REWARD}")
	print(f"{'='*60}\n")

	memory = LifeStackMemory(silent=not verbose)
	agent = LifeStackAgent(api_only=api_only)

	start_count = memory.collection.count()
	print(f"ChromaDB: {start_count} existing memories\n")

	stored = 0
	skipped = 0
	errors = 0
	t_start = time.time()

	# Build a weighted scenario list: more hard conflicts (difficulty 3-5) since those
	# produce richer reasoning and more useful precedents for the RAG system.
	difficulty_weights = {1: 0.1, 2: 0.2, 3: 0.3, 4: 0.25, 5: 0.15}
	all_difficulties = [1, 2, 3, 4, 5]

	for i in range(n):
	# Pick difficulty by weight
	diff = random.choices(
	all_difficulties,
	weights=[difficulty_weights[d] for d in all_difficulties]
	)[0]
	conflict = generate_conflict(difficulty=diff)
	person = random.choice(PERSONA_POOL)

	if not verbose:
	elapsed = time.time() - t_start
	rate = (i + 1) / elapsed if elapsed > 0 else 0
	eta = (n - i - 1) / rate if rate > 0 else 0
	print(
	f"\r [{i+1:>4}/{n}] stored={stored} skipped={skipped} errors={errors}"
	f" rate={rate:.1f}/s ETA={eta:.0f}s ",
	end="", flush=True
	)

	result = None
	for attempt in range(MAX_RETRIES):
	result = run_one_scenario(agent, memory, conflict, person, verbose)
	if result is not None:
	break
	time.sleep(1.5)

	if result is None:
	errors += 1
	elif result["stored"]:
	stored += 1
	else:
	skipped += 1

	time.sleep(RATE_LIMIT_SLEEP)

	elapsed = time.time() - t_start
	end_count = memory.collection.count()

	print(f"\n\n{'='*60}")
	print(f" DONE in {elapsed:.1f}s")
	print(f" Scenarios run : {n}")
	print(f" Stored : {stored} (reward >= {MIN_REWARD})")
	print(f" Skipped : {skipped} (below threshold)")
	print(f" Errors : {errors}")
	print(f" DB size : {start_count} → {end_count} memories")
	print(f"{'='*60}\n")

	stats = memory.get_stats()
	print(f" Avg reward in DB : {stats['average_reward']:.3f}")
	print(f" By action type : {stats.get('by_action_type', {})}")


	def print_stats():
	memory = LifeStackMemory(silent=True)
	stats = memory.get_stats()
	print(f"\nChromaDB Memory Stats")
	print(f" Total memories : {stats['total_memories']}")
	print(f" Average reward : {stats['average_reward']:.3f}")
	print(f" By action type : {stats.get('by_action_type', {})}\n")


	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="Seed ChromaDB with synthetic life scenario memories")
	parser.add_argument("--n", type=int, default=200, help="Number of scenarios to run (default: 200)")
	parser.add_argument("--verbose", action="store_true", help="Print each decision")
	parser.add_argument("--stats", action="store_true", help="Just print current DB stats and exit")
	parser.add_argument("--api-only", action="store_true", help="Force Groq API (no local model)")
	args = parser.parse_args()

	if args.stats:
	print_stats()
	else:
	seed(n=args.n, verbose=args.verbose, api_only=args.api_only)