shinka-backup / scripts /dev /run_circle_packing.sh

Add files using upload-large-folder tool

3f6526a verified 19 days ago

2.18 kB

	#!/bin/bash
	# Full test: Circle packing with eval service and WandB
	#
	# Prerequisites: Eval service should be running
	# bash scripts/dev/start_eval_server.sh
	# OPENHANDS_LOG_COMPLETIONS=1 ENABLE_FULL_TRAJECTORY_LOG=1 uv run eval_agent/ev2_service_standalone.py --host "0.0.0.0" --port 8733

	set -e

	# ============================================================================
	# Configuration
	# ============================================================================
	EXPERIMENT_NAME_PREFIX="circle_packing_v3_flash"
	NUM_GENERATIONS=200
	MAX_PARALLEL_JOBS=4
	META_INTERVAL=10
	PERSISTENT_AGENTS="" # set to --persistent-agents to enable long-horizon mode
	PERSISTENT_CONTEXT_REFRESH_INTERVAL=10

	LLM_MODELS="native-gemini-3-flash-preview"
	# LLM_MODELS="native-gemini-2.5-pro"
	LLM_SELECTION="ucb1"
	LLM_TEMPERATURES="0.7 1.0"
	LLM_MAX_TOKENS=65536

	USE_EVAL_SERVICE="--use-eval-service"
	EVAL_SERVICE_URL="http://localhost:8733"
	EVAL_TRIGGER_MODE="periodic"
	EVAL_TRIGGER_INTERVAL=5

	EXPERIMENT_NAME=${EXPERIMENT_NAME_PREFIX}_g${NUM_GENERATIONS}_${EVAL_TRIGGER_MODE}${EVAL_TRIGGER_INTERVAL}

	USE_WANDB="--use-wandb"
	WANDB_PROJECT="ev2"
	WANDB_TAGS="circle_packing eval-service full-experiment ${EVAL_TRIGGER_MODE}"

	# ============================================================================
	# Run Experiment
	# ============================================================================
	.venv/bin/python tasks/circle_packing/run_experiment.py \
	--experiment-name "$EXPERIMENT_NAME" \
	--num-generations "$NUM_GENERATIONS" \
	--max-parallel-jobs "$MAX_PARALLEL_JOBS" \
	--meta-interval "$META_INTERVAL" \
	$PERSISTENT_AGENTS \
	--persistent-context-refresh-interval "$PERSISTENT_CONTEXT_REFRESH_INTERVAL" \
	--llm-models $LLM_MODELS \
	--llm-selection "$LLM_SELECTION" \
	--llm-temperatures $LLM_TEMPERATURES \
	--llm-max-tokens "$LLM_MAX_TOKENS" \
	$USE_EVAL_SERVICE \
	--eval-service-url "$EVAL_SERVICE_URL" \
	--eval-trigger-mode "$EVAL_TRIGGER_MODE" \
	--eval-trigger-interval "$EVAL_TRIGGER_INTERVAL" \
	$USE_WANDB \
	--wandb-project "$WANDB_PROJECT" \
	--wandb-tags $WANDB_TAGS \
	--verbose \
	--trajectory-log