Spaces:

jdsb06
/

meta-r2

Sleeping

meta-r2 / docs /eval.md

github-actions[bot]

Deploy Space snapshot

ddbc1ba about 1 month ago

1.42 kB

`scripts/eval.py` — evaluation runner

Standalone random-policy baseline against LifeStackEnv. No trained model, no GPU, no API key.

Use it to:

python scripts/eval.py
python scripts/eval.py --episodes 20 --domain flight_crisis
python scripts/eval.py --episodes 5 --verbose

Run from the repo root so core imports resolve.

Argument	Default	Description
`--episodes`	`10`	Number of episodes
`--domain`	`None`	Optional filter for `TaskGenerator` / task domain (e.g. `flight_crisis`, `code_merge_crisis`, or `transport_crisis` if wired)
`--verbose`	off	Per-step action, reward, `done`

Interpret trained models with scripts/train_trl.py --full-episode or app demos — eval.py is intentionally random.

Tool	Policy
`eval.py`	Uniform random actions
`train_trl.py`	GRPO-trained LLM completions
`train_trl.py --full-episode`	Roll out multi-step episodes with a saved checkpoint