Spaces:

Prajwal782007
/

Gridmind

Running

App Files Files Community

Prajwal782007 commited on Apr 25

Commit

7d89faf

1 Parent(s): 3d49e8a

feat: add submission validator script and GRPO training notebook, and update Python version requirement to >=3.10

Browse files

Files changed (4) hide show

pyproject.toml +2 -3
scripts/gridmind_grpo_colab.ipynb +398 -81
scripts/validate-submission.sh +2 -2
uv.lock +1 -1

pyproject.toml CHANGED Viewed

@@ -7,7 +7,7 @@ name = "gridmind-rl"
 version = "1.0.0"
 description = "GridMind-RL: Industrial Load-Shaping and Demand-Response RL Environment. Control HVAC, thermal storage, and batch job scheduling under stochastic electricity prices and grid stress events."
 readme = "README.md"
-requires-python = ">=3.9"
 license = {text = "MIT"}
 authors = [
     {name = "LOKyu Team"}
@@ -21,7 +21,6 @@ classifiers = [
     "Natural Language :: English",
     "Operating System :: OS Independent",
     "Programming Language :: Python :: 3",
-    "Programming Language :: Python :: 3.9",
     "Programming Language :: Python :: 3.10",
     "Programming Language :: Python :: 3.11",
     "Programming Language :: Python :: 3.12",
@@ -30,7 +29,7 @@ classifiers = [
 dependencies = [
     "openai>=1.0.0",
-    "openenv-core>=0.2.0",
     "fastapi>=0.100.0",
     "uvicorn>=0.23.0",
     "pydantic>=2.0.0",

 version = "1.0.0"
 description = "GridMind-RL: Industrial Load-Shaping and Demand-Response RL Environment. Control HVAC, thermal storage, and batch job scheduling under stochastic electricity prices and grid stress events."
 readme = "README.md"
+requires-python = ">=3.10"
 license = {text = "MIT"}
 authors = [
     {name = "LOKyu Team"}
     "Natural Language :: English",
     "Operating System :: OS Independent",
     "Programming Language :: Python :: 3",
     "Programming Language :: Python :: 3.10",
     "Programming Language :: Python :: 3.11",
     "Programming Language :: Python :: 3.12",
 dependencies = [
     "openai>=1.0.0",
+    "openenv-core>=0.2.3",
     "fastapi>=0.100.0",
     "uvicorn>=0.23.0",
     "pydantic>=2.0.0",

scripts/gridmind_grpo_colab.ipynb CHANGED Viewed

@@ -33,7 +33,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "!pip install trl transformers accelerate datasets unsloth requests pandas matplotlib\n",
     "import os\n",
     "os.makedirs('results', exist_ok=True)\n",
     "print(\"\u2714 All dependencies installed\")\n",
@@ -391,98 +391,165 @@
     "import statistics as _statistics\n",
     "\n",
     "training_rewards = []\n",
-    "_reward_variance_log = []\n",
     "_call_count = [0]\n",
     "\n",
     "def gridmind_reward_fn(completions, prompts=None, **kwargs):\n",
     "    \"\"\"\n",
-    "    Reward function compatible with trl 0.23.0.\n",
-    "    Called with positional completions list.\n",
-    "    Must return list of floats same length as completions.\n",
     "    \"\"\"\n",
     "    rewards = []\n",
     "    batch_raw = []\n",
     "\n",
-    "    for completion in completions:\n",
-    "        _call_count[0] += 1\n",
     "\n",
     "        try:\n",
     "            # Handle both string and list completion formats\n",
-    "            if isinstance(completion, list):\n",
-    "                text = str(completion[0]) if completion else \"\"\n",
-    "            else:\n",
-    "                text = str(completion)\n",
     "            text = text.strip()\n",
     "\n",
-    "            # Reset env before each reward call for variance\n",
-    "            task_id = _random.choice([1, 2, 3, 4])\n",
-    "            reset_r = _requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": task_id}, timeout=8)\n",
-    "            if reset_r.status_code != 200:\n",
-    "                rewards.append(-0.5)\n",
-    "                batch_raw.append(-0.5)\n",
-    "                continue\n",
-    "\n",
     "            # Extract JSON from completion\n",
     "            start = text.rfind('{')\n",
     "            end = text.rfind('}') + 1\n",
     "            if start < 0 or end <= start:\n",
-    "                rewards.append(-1.0)\n",
-    "                batch_raw.append(-1.0)\n",
     "                continue\n",
     "\n",
-    "            action = _json.loads(text[start:end])\n",
-    "            action = {\n",
-    "                \"hvac_power_level\": max(0.0, min(1.0, float(action.get(\"hvac_power_level\", 0.5)))),\n",
-    "                \"thermal_charge_rate\": max(-1.0, min(1.0, float(action.get(\"thermal_charge_rate\", 0.0)))),\n",
-    "                \"batch_job_slot\": max(0, min(4, int(action.get(\"batch_job_slot\", 0)))),\n",
-    "                \"load_shed_fraction\": max(0.0, min(0.5, float(action.get(\"load_shed_fraction\", 0.0)))),\n",
-    "                \"building_id\": int(action.get(\"building_id\", 0)),\n",
-    "            }\n",
     "\n",
-    "            step_r = _requests.post(f\"{ENV_URL}/step\", json=action, timeout=8)\n",
     "            if step_r.status_code != 200:\n",
-    "                rewards.append(-0.5)\n",
-    "                batch_raw.append(-0.5)\n",
     "                continue\n",
     "\n",
     "            data = step_r.json()\n",
     "            if isinstance(data, list):\n",
     "                data = data[0]\n",
     "\n",
-    "            base = float(data.get(\"reward\", 0.0))\n",
-    "            comps = data.get(\"rewards\", {})\n",
-    "            bonus = (\n",
-    "                float(comps.get(\"cost_savings\", 0)) * 0.3 +\n",
-    "                float(comps.get(\"task_satisfaction\", 0)) * 0.2 +\n",
-    "                float(comps.get(\"efficiency_bonus\", 0)) * 0.1 +\n",
-    "                float(comps.get(\"temperature_constraint\", 0)) * 0.15\n",
-    "            )\n",
-    "            final = max(-1.0, min(1.0, base + bonus))\n",
-    "            rewards.append(final)\n",
-    "            batch_raw.append(final)\n",
-    "            training_rewards.append(final)\n",
-    "\n",
-    "        except _json.JSONDecodeError:\n",
-    "            rewards.append(-0.8)\n",
-    "            batch_raw.append(-0.8)\n",
-    "        except Exception:\n",
-    "            rewards.append(-0.5)\n",
-    "            batch_raw.append(-0.5)\n",
     "\n",
-    "    # Log variance every 10 calls\n",
-    "    if len(batch_raw) > 1 and _call_count[0] % 10 == 0:\n",
     "        try:\n",
     "            var = _statistics.variance(batch_raw)\n",
-    "            _reward_variance_log.append(var)\n",
-    "            print(f\"  [Call {_call_count[0]}] Rewards: {[f'{r:.3f}' for r in batch_raw]} | Variance: {var:.4f}\")\n",
     "            if var < 0.001:\n",
-    "                print(\"    Zero variance - no learning signal!\")\n",
     "        except Exception:\n",
     "            pass\n",
     "\n",
     "    return rewards\n",
     "\n",
-    "print(\"Reward function defined (trl 0.23.0 compatible)\")"
    ]
   },
   {
@@ -512,15 +579,54 @@
     "# Prepare dataset\n",
     "train_data = [{\"prompt\": d[\"prompt\"]} for d in dataset]\n",
     "train_ds = Dataset.from_list(train_data)\n",
-    "print(f\"Training dataset: {len(train_ds)} prompts\")\n",
-    "\n",
     "theme_dist = {}\n",
     "for d in dataset:\n",
     "    t = d.get(\"theme\", \"unknown\")\n",
     "    theme_dist[t] = theme_dist.get(t, 0) + 1\n",
-    "print(f\"Theme distribution: {theme_dist}\")\n",
     "print(f\"Sample prompt preview:\\n{train_data[0]['prompt'][:200]}...\\n\")\n",
     "\n",
     "# Prepare model for QLoRA training\n",
     "model.config.use_cache = False\n",
     "model.gradient_checkpointing_enable()\n",
@@ -555,8 +661,9 @@
     "    remove_unused_columns=False,\n",
     ")\n",
     "\n",
-    "print(\"=== PRE-TRAINING DIAGNOSTIC ===\\n\")\n",
     "import trl\n",
     "print(f\"TRL version: {trl.__version__}\")\n",
     "sig = inspect.signature(GRPOTrainer.__init__)\n",
     "params = list(sig.parameters.keys())\n",
@@ -564,24 +671,31 @@
     "print(f\"Uses 'args=':   {'args' in params}\")\n",
     "print(f\"Uses 'config=': {'config' in params}\")\n",
     "\n",
-    "print(\"\\nTesting reward function...\")\n",
-    "test_completions = [\n",
-    "    '{\"hvac_power_level\": 0.2, \"thermal_charge_rate\": 0.8, \"batch_job_slot\": 2, \"load_shed_fraction\": 0.0, \"building_id\": 0}',\n",
-    "    '{\"hvac_power_level\": 1.0, \"thermal_charge_rate\": -1.0, \"batch_job_slot\": 0, \"load_shed_fraction\": 0.5, \"building_id\": 0}',\n",
-    "    '{\"hvac_power_level\": 0.5, \"thermal_charge_rate\": 0.0, \"batch_job_slot\": 0, \"load_shed_fraction\": 0.0, \"building_id\": 0}',\n",
-    "    'not valid json at all',\n",
-    "]\n",
-    "test_rewards = gridmind_reward_fn(test_completions)\n",
-    "print(f\"Test rewards: {[f'{r:.3f}' for r in test_rewards]}\")\n",
-    "reward_var = statistics.variance(test_rewards) if len(set(test_rewards)) > 1 else 0.0\n",
-    "if reward_var <= 0.001:\n",
-    "    print(\"CRITICAL: Reward variance is too low - fix reward function before training\")\n",
-    "else:\n",
-    "    print(f\"Reward variance: {reward_var:.4f} - sufficient for GRPO\")\n",
-    "\n",
     "print(f\"\\nGPU memory: {torch.cuda.memory_allocated()/1e9:.2f} GB used / 16 GB total\")\n",
     "print(f\"Free: {(16 - torch.cuda.memory_allocated()/1e9):.2f} GB\")\n",
-    "print(\"\\n=== READY TO TRAIN ===\" if reward_var > 0.001 else \"\\n=== FIX REWARD FUNCTION FIRST ===\")\n",
     "\n",
     "# Reset environment before training\n",
     "_requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": 1}, timeout=10)\n",
@@ -595,9 +709,11 @@
     "    train_dataset=train_ds,\n",
     "    reward_funcs=gridmind_reward_fn,\n",
     "    peft_config=peft_config,\n",
     ")\n",
     "\n",
     "print(\"\\nStarting GRPO training with QLoRA...\")\n",
     "print(f\"Steps: {grpo_config.max_steps} | Batch: {grpo_config.per_device_train_batch_size} | Generations: {grpo_config.num_generations}\")\n",
     "print(\"Estimated time: ~25-35 min on T4\\n\")\n",
     "\n",
@@ -606,12 +722,15 @@
     "print(\"\\nTraining complete!\")\n",
     "print(f\"  Total steps:    {train_result.global_step}\")\n",
     "print(f\"  Training loss:  {train_result.training_loss:.6f}\")\n",
     "\n",
-    "if train_result.training_loss == 0.0:\n",
-    "    print(\"\\nWARNING: Loss is 0.0 - reward function may have zero variance.\")\n",
-    "    print(\"Check reward diagnostic output above. This means the model saw no learning signal.\")\n",
     "else:\n",
-    "    print(\"\\nNon-zero loss confirmed - model received learning signal.\")\n",
     "\n",
     "print(f\"\\nMemory after training: {torch.cuda.memory_allocated()/1e9:.2f} GB\")\n",
     "\n",
@@ -739,6 +858,198 @@
    "metadata": {},
    "outputs": [],
    "source": [
     "results = {\n",
     "    \"heuristic_baseline\": {\n",
     "        \"scores_by_task\": {str(k): v for k, v in baseline_scores.items()},\n",
@@ -753,6 +1064,12 @@
     "    \"training_steps\": grpo_config.max_steps,\n",
     "    \"themes_covered\": [\"multi_agent\", \"instruction_following\", \"world_modeling\", \"curriculum\"],\n",
     "    \"training_rewards_log\": training_rewards[-20:] if training_rewards else [],\n",
     "}\n",
     "\n",
     "print(\"Saving results...\")\n",

    "metadata": {},
    "outputs": [],
    "source": [
+    "!pip install trl transformers accelerate datasets unsloth requests pandas matplotlib openenv-core==0.2.3\n",
     "import os\n",
     "os.makedirs('results', exist_ok=True)\n",
     "print(\"\u2714 All dependencies installed\")\n",
     "import statistics as _statistics\n",
     "\n",
     "training_rewards = []\n",
+    "training_steps_log = []\n",
     "_call_count = [0]\n",
+    "_current_task_id = [1]\n",
     "\n",
     "def gridmind_reward_fn(completions, prompts=None, **kwargs):\n",
     "    \"\"\"\n",
+    "    Fixed reward function for trl 0.23.0 + GridMind-RL.\n",
+    "\n",
+    "    Key fixes:\n",
+    "    1. Reset environment to the same task/state for every completion in a batch.\n",
+    "    2. Return continuous rewards from the environment, not binary +/-1.\n",
+    "    3. Scale rewards to roughly [-0.6, 0.6] for GRPO gradient signal.\n",
+    "    4. Use structured penalties for bad JSON instead of hard -1.0.\n",
     "    \"\"\"\n",
+    "    _call_count[0] += 1\n",
     "    rewards = []\n",
     "    batch_raw = []\n",
     "\n",
+    "    task_id = _random.choice([1, 2, 3, 4])\n",
+    "    batch_seed = _random.randint(1, 1_000_000)\n",
+    "    _current_task_id[0] = task_id\n",
+    "\n",
+    "    try:\n",
+    "        reset_payload = {\"task_id\": task_id, \"seed\": batch_seed}\n",
+    "        reset_r = _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=10)\n",
+    "        reset_ok = reset_r.status_code == 200\n",
+    "    except Exception:\n",
+    "        reset_ok = False\n",
+    "\n",
+    "    if not reset_ok:\n",
+    "        return [-0.1] * len(completions)\n",
     "\n",
+    "    for completion in completions:\n",
     "        try:\n",
     "            # Handle both string and list completion formats\n",
+    "            text = str(completion[0]) if isinstance(completion, list) and completion else str(completion)\n",
     "            text = text.strip()\n",
     "\n",
     "            # Extract JSON from completion\n",
     "            start = text.rfind('{')\n",
     "            end = text.rfind('}') + 1\n",
     "            if start < 0 or end <= start:\n",
+    "                rewards.append(-0.3)\n",
+    "                batch_raw.append(-0.3)\n",
+    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
     "                continue\n",
     "\n",
+    "            try:\n",
+    "                action = _json.loads(text[start:end])\n",
+    "            except _json.JSONDecodeError:\n",
+    "                rewards.append(-0.25)\n",
+    "                batch_raw.append(-0.25)\n",
+    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
+    "                continue\n",
     "\n",
+    "            valid_fields = 0\n",
+    "            cleaned_action = {}\n",
+    "\n",
+    "            try:\n",
+    "                cleaned_action[\"hvac_power_level\"] = max(0.0, min(1.0, float(action.get(\"hvac_power_level\", 0.5))))\n",
+    "                valid_fields += 1\n",
+    "            except Exception:\n",
+    "                cleaned_action[\"hvac_power_level\"] = 0.5\n",
+    "\n",
+    "            try:\n",
+    "                cleaned_action[\"thermal_charge_rate\"] = max(-1.0, min(1.0, float(action.get(\"thermal_charge_rate\", 0.0))))\n",
+    "                valid_fields += 1\n",
+    "            except Exception:\n",
+    "                cleaned_action[\"thermal_charge_rate\"] = 0.0\n",
+    "\n",
+    "            try:\n",
+    "                cleaned_action[\"batch_job_slot\"] = max(0, min(4, int(action.get(\"batch_job_slot\", 0))))\n",
+    "                valid_fields += 1\n",
+    "            except Exception:\n",
+    "                cleaned_action[\"batch_job_slot\"] = 0\n",
+    "\n",
+    "            try:\n",
+    "                cleaned_action[\"load_shed_fraction\"] = max(0.0, min(0.5, float(action.get(\"load_shed_fraction\", 0.0))))\n",
+    "                valid_fields += 1\n",
+    "            except Exception:\n",
+    "                cleaned_action[\"load_shed_fraction\"] = 0.0\n",
+    "\n",
+    "            cleaned_action[\"building_id\"] = int(action.get(\"building_id\", 0))\n",
+    "            completeness_bonus = (valid_fields / 4) * 0.1 - 0.05\n",
+    "\n",
+    "            step_r = _requests.post(f\"{ENV_URL}/step\", json=cleaned_action, timeout=8)\n",
     "            if step_r.status_code != 200:\n",
+    "                rewards.append(-0.2)\n",
+    "                batch_raw.append(-0.2)\n",
+    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
     "                continue\n",
     "\n",
     "            data = step_r.json()\n",
     "            if isinstance(data, list):\n",
     "                data = data[0]\n",
     "\n",
+    "            env_reward = float(data.get(\"reward\", 0.0))\n",
+    "            info = data.get(\"info\", {}) if isinstance(data, dict) else {}\n",
+    "            comps = data.get(\"rewards\", {}) or info.get(\"reward_components\", {}) or {}\n",
+    "\n",
+    "            cost_r = float(comps.get(\"cost_savings\", 0.0))\n",
+    "            comfort_r = float(comps.get(\"temperature_constraint\", comps.get(\"temp_constraint\", 0.0)))\n",
+    "            grid_r = float(comps.get(\"grid_response\", 0.0))\n",
+    "            task_r = float(comps.get(\"task_satisfaction\", 0.0))\n",
+    "\n",
+    "            if comps:\n",
+    "                composite = (\n",
+    "                    cost_r * 0.40 +\n",
+    "                    comfort_r * 0.25 +\n",
+    "                    grid_r * 0.15 +\n",
+    "                    task_r * 0.20 +\n",
+    "                    completeness_bonus\n",
+    "                )\n",
+    "            else:\n",
+    "                composite = env_reward * 0.5 + completeness_bonus\n",
     "\n",
+    "            composite = max(-0.6, min(0.6, composite))\n",
+    "\n",
+    "            rewards.append(composite)\n",
+    "            batch_raw.append(composite)\n",
+    "            training_rewards.append(composite)\n",
+    "\n",
+    "            # Rewind to the same task before evaluating the next completion.\n",
+    "            _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
+    "\n",
+    "        except Exception:\n",
+    "            rewards.append(-0.15)\n",
+    "            batch_raw.append(-0.15)\n",
+    "            try:\n",
+    "                _requests.post(f\"{ENV_URL}/reset\", json=reset_payload, timeout=8)\n",
+    "            except Exception:\n",
+    "                pass\n",
+    "\n",
+    "    if _call_count[0] % 5 == 0 and len(batch_raw) > 1:\n",
     "        try:\n",
     "            var = _statistics.variance(batch_raw)\n",
+    "            avg = sum(batch_raw) / len(batch_raw)\n",
+    "            rng = max(batch_raw) - min(batch_raw)\n",
+    "            print(f\"  [Step {_call_count[0]}] Task {task_id} | Rewards: {[f'{r:.3f}' for r in batch_raw]} | Var: {var:.4f} | Avg: {avg:.3f} | Range: {rng:.3f}\")\n",
     "            if var < 0.001:\n",
+    "                print(f\"    Near-zero variance at step {_call_count[0]} - check environment connectivity\")\n",
+    "            if all(abs(r) > 0.55 for r in batch_raw):\n",
+    "                print(\"    All rewards near clip boundary - still hitting clamping issue\")\n",
     "        except Exception:\n",
     "            pass\n",
     "\n",
+    "    training_steps_log.append({\n",
+    "        \"call\": _call_count[0],\n",
+    "        \"rewards\": batch_raw,\n",
+    "        \"task_id\": task_id,\n",
+    "        \"seed\": batch_seed,\n",
+    "    })\n",
+    "\n",
     "    return rewards\n",
     "\n",
+    "print(\"Fixed reward function defined\")\n",
+    "print(\"  - Continuous rewards in [-0.6, 0.6] range\")\n",
+    "print(\"  - Soft clamping preserves gradient signal\")\n",
+    "print(\"  - Same task/state is used across completions in each batch\")"
    ]
   },
   {
     "# Prepare dataset\n",
     "train_data = [{\"prompt\": d[\"prompt\"]} for d in dataset]\n",
     "train_ds = Dataset.from_list(train_data)\n",
     "theme_dist = {}\n",
     "for d in dataset:\n",
     "    t = d.get(\"theme\", \"unknown\")\n",
     "    theme_dist[t] = theme_dist.get(t, 0) + 1\n",
+    "print(f\"Dataset: {len(train_ds)} prompts | Theme dist: {theme_dist}\")\n",
     "print(f\"Sample prompt preview:\\n{train_data[0]['prompt'][:200]}...\\n\")\n",
     "\n",
+    "print(\"=\" * 55)\n",
+    "print(\"REWARD FUNCTION DIAGNOSTIC\")\n",
+    "print(\"=\" * 55)\n",
+    "\n",
+    "test_cases = [\n",
+    "    (\"Perfect JSON + good action\", '{\"hvac_power_level\": 0.2, \"thermal_charge_rate\": 0.7, \"batch_job_slot\": 2, \"load_shed_fraction\": 0.0, \"building_id\": 0}'),\n",
+    "    (\"Valid JSON + wasteful action\", '{\"hvac_power_level\": 1.0, \"thermal_charge_rate\": -1.0, \"batch_job_slot\": 0, \"load_shed_fraction\": 0.5, \"building_id\": 0}'),\n",
+    "    (\"Valid JSON + neutral action\", '{\"hvac_power_level\": 0.5, \"thermal_charge_rate\": 0.0, \"batch_job_slot\": 1, \"load_shed_fraction\": 0.1, \"building_id\": 0}'),\n",
+    "    (\"Valid JSON + conservative action\", '{\"hvac_power_level\": 0.3, \"thermal_charge_rate\": 0.4, \"batch_job_slot\": 0, \"load_shed_fraction\": 0.0, \"building_id\": 0}'),\n",
+    "    (\"Invalid JSON\", \"I think we should set HVAC to medium and charge storage\"),\n",
+    "    (\"Partial JSON\", '{\"hvac_power_level\": 0.4}'),\n",
+    "]\n",
+    "\n",
+    "labels = [c[0] for c in test_cases]\n",
+    "completions = [c[1] for c in test_cases]\n",
+    "test_rewards = gridmind_reward_fn(completions)\n",
+    "\n",
+    "print(f\"\\n{'Action Type':<35} {'Reward':>8}  Bar\")\n",
+    "print(\"-\" * 60)\n",
+    "for label, reward in zip(labels, test_rewards):\n",
+    "    bar_len = max(1, int(abs(reward) * 30)) if abs(reward) > 0 else 0\n",
+    "    bar = (\"+\" * bar_len) if reward >= 0 else (\"-\" * bar_len)\n",
+    "    print(f\"  {label:<33} {reward:+.4f}  {bar}\")\n",
+    "\n",
+    "unique_rewards = set(round(r, 2) for r in test_rewards)\n",
+    "print(f\"\\nUnique reward values: {sorted(unique_rewards)}\")\n",
+    "\n",
+    "if unique_rewards == {-1.0, 1.0} or unique_rewards == {-1.0} or unique_rewards == {1.0}:\n",
+    "    raise RuntimeError(\"Still binary +/-1 rewards. Fix clamping before training.\")\n",
+    "elif len(unique_rewards) < 3:\n",
+    "    print(\"WARNING: Low diversity in rewards. Training may still be weak.\")\n",
+    "else:\n",
+    "    reward_var = statistics.variance(test_rewards)\n",
+    "    reward_range = max(test_rewards) - min(test_rewards)\n",
+    "    print(f\"Reward diversity: {len(unique_rewards)} unique values\")\n",
+    "    print(f\"Variance: {reward_var:.4f} | Range: {reward_range:.4f}\")\n",
+    "    if reward_var > 0.02:\n",
+    "        print(\"Sufficient variance for GRPO. Proceeding to training.\")\n",
+    "    else:\n",
+    "        print(\"Low variance. GRPO will learn slowly.\")\n",
+    "\n",
     "# Prepare model for QLoRA training\n",
     "model.config.use_cache = False\n",
     "model.gradient_checkpointing_enable()\n",
     "    remove_unused_columns=False,\n",
     ")\n",
     "\n",
+    "# Confirm the installed TRL API before constructing the trainer.\n",
     "import trl\n",
+    "print(\"\\n=== TRL API DIAGNOSTIC ===\")\n",
     "print(f\"TRL version: {trl.__version__}\")\n",
     "sig = inspect.signature(GRPOTrainer.__init__)\n",
     "params = list(sig.parameters.keys())\n",
     "print(f\"Uses 'args=':   {'args' in params}\")\n",
     "print(f\"Uses 'config=': {'config' in params}\")\n",
     "\n",
     "print(f\"\\nGPU memory: {torch.cuda.memory_allocated()/1e9:.2f} GB used / 16 GB total\")\n",
     "print(f\"Free: {(16 - torch.cuda.memory_allocated()/1e9):.2f} GB\")\n",
+    "\n",
+    "# Custom callback to capture loss at every step for graphing.\n",
+    "from transformers import TrainerCallback\n",
+    "\n",
+    "step_losses = []\n",
+    "step_numbers = []\n",
+    "step_reward_means = []\n",
+    "\n",
+    "class LossCaptureCallback(TrainerCallback):\n",
+    "    def on_log(self, args, state, control, logs=None, **kwargs):\n",
+    "        if not logs:\n",
+    "            return\n",
+    "        step = state.global_step\n",
+    "        loss = logs.get(\"loss\", logs.get(\"train_loss\", None))\n",
+    "        if loss is not None:\n",
+    "            step_losses.append(float(loss))\n",
+    "            step_numbers.append(step)\n",
+    "            reward_mean = logs.get(\"reward\", logs.get(\"mean_reward\", None))\n",
+    "            if reward_mean is not None:\n",
+    "                step_reward_means.append(float(reward_mean))\n",
+    "            elif training_rewards:\n",
+    "                recent = training_rewards[max(0, len(training_rewards)-4):]\n",
+    "                step_reward_means.append(sum(recent) / len(recent))\n",
     "\n",
     "# Reset environment before training\n",
     "_requests.post(f\"{ENV_URL}/reset\", json={\"task_id\": 1}, timeout=10)\n",
     "    train_dataset=train_ds,\n",
     "    reward_funcs=gridmind_reward_fn,\n",
     "    peft_config=peft_config,\n",
+    "    callbacks=[LossCaptureCallback()],\n",
     ")\n",
     "\n",
     "print(\"\\nStarting GRPO training with QLoRA...\")\n",
+    "print(\"Watch for non-zero loss values. If all zeros, reward variance is still too low.\\n\")\n",
     "print(f\"Steps: {grpo_config.max_steps} | Batch: {grpo_config.per_device_train_batch_size} | Generations: {grpo_config.num_generations}\")\n",
     "print(\"Estimated time: ~25-35 min on T4\\n\")\n",
     "\n",
     "print(\"\\nTraining complete!\")\n",
     "print(f\"  Total steps:    {train_result.global_step}\")\n",
     "print(f\"  Training loss:  {train_result.training_loss:.6f}\")\n",
+    "non_zero_losses = [l for l in step_losses if abs(l) > 1e-8]\n",
+    "print(f\"  Steps with non-zero loss: {len(non_zero_losses)}/{len(step_losses)}\")\n",
     "\n",
+    "if len(non_zero_losses) == 0:\n",
+    "    print(\"\\nAll losses are zero. The model received no gradient signal.\")\n",
+    "    print(\"Root cause: reward variance is too low for GRPO advantage estimation.\")\n",
+    "    print(\"Graphs will still be generated and will show the flat signal clearly.\")\n",
     "else:\n",
+    "    print(f\"\\nTraining produced gradient signal on {len(non_zero_losses)} steps.\")\n",
     "\n",
     "print(f\"\\nMemory after training: {torch.cuda.memory_allocated()/1e9:.2f} GB\")\n",
     "\n",
    "metadata": {},
    "outputs": [],
    "source": [
+    "import matplotlib\n",
+    "matplotlib.use('Agg')\n",
+    "import matplotlib.pyplot as plt\n",
+    "import matplotlib.gridspec as gridspec\n",
+    "import numpy as np\n",
+    "import os\n",
+    "\n",
+    "os.makedirs(\"results\", exist_ok=True)\n",
+    "\n",
+    "tasks = [1, 2, 3, 4]\n",
+    "task_labels = [\n",
+    "    \"Task 1\\nCost Only\\n(Curriculum)\",\n",
+    "    \"Task 2\\nCost+Comfort\\n(World Model)\",\n",
+    "    \"Task 3\\nFull DR\\n(World Model)\",\n",
+    "    \"Task 4\\nInstruction\\n(Theme 2)\",\n",
+    "]\n",
+    "\n",
+    "random_by_task = {1: 0.35, 2: 0.28, 3: 0.21, 4: 0.25}\n",
+    "heuristic_by_task = baseline_scores\n",
+    "trained_by_task = trained_scores\n",
+    "\n",
+    "random_vals = [random_by_task.get(t, 0.3) for t in tasks]\n",
+    "heuristic_vals = [heuristic_by_task.get(t, 0.5) for t in tasks]\n",
+    "trained_vals = [trained_by_task.get(t, 0.5) for t in tasks]\n",
+    "\n",
+    "baseline_avg = sum(heuristic_vals) / len(heuristic_vals)\n",
+    "trained_avg = sum(trained_vals) / len(trained_vals)\n",
+    "random_avg = sum(random_vals) / len(random_vals)\n",
+    "overall_improvement = ((trained_avg - baseline_avg) / baseline_avg * 100) if baseline_avg > 0 else 0\n",
+    "\n",
+    "def smooth(values, window=5):\n",
+    "    if not values or len(values) < 2:\n",
+    "        return values\n",
+    "    out = []\n",
+    "    for i in range(len(values)):\n",
+    "        w = values[max(0, i-window):i+1]\n",
+    "        out.append(sum(w) / len(w))\n",
+    "    return out\n",
+    "\n",
+    "C = {\n",
+    "    'bg': '#0d1117', 'panel': '#161b22', 'grid': '#21262d',\n",
+    "    'text': '#e6edf3', 'subtext': '#8b949e', 'random': '#f85149',\n",
+    "    'heuristic': '#58a6ff', 'trained': '#3fb950', 'reward': '#d29922',\n",
+    "    'loss': '#bc8cff', 'border': '#30363d',\n",
+    "}\n",
+    "\n",
+    "def style_ax(ax, title):\n",
+    "    ax.set_facecolor(C['panel'])\n",
+    "    ax.set_title(title, color=C['text'], fontsize=12, fontweight='bold', pad=10)\n",
+    "    ax.tick_params(colors=C['subtext'], labelsize=9)\n",
+    "    ax.grid(alpha=0.15, color=C['grid'], linewidth=0.8)\n",
+    "    for spine in ax.spines.values():\n",
+    "        spine.set_edgecolor(C['border'])\n",
+    "    ax.xaxis.label.set_color(C['subtext'])\n",
+    "    ax.yaxis.label.set_color(C['subtext'])\n",
+    "\n",
+    "fig = plt.figure(figsize=(18, 13))\n",
+    "fig.patch.set_facecolor(C['bg'])\n",
+    "gs = gridspec.GridSpec(2, 2, figure=fig, hspace=0.50, wspace=0.38,\n",
+    "                       left=0.07, right=0.97, top=0.91, bottom=0.07)\n",
+    "\n",
+    "# Panel A: policy comparison across all tasks.\n",
+    "ax_bar = fig.add_subplot(gs[0, :])\n",
+    "ax_bar.set_facecolor(C['panel'])\n",
+    "x = np.arange(len(tasks))\n",
+    "w = 0.24\n",
+    "br = ax_bar.bar(x - w, random_vals, w, label='Random Policy', color=C['random'], alpha=0.85, zorder=3, edgecolor=C['bg'], linewidth=0.5)\n",
+    "bh = ax_bar.bar(x, heuristic_vals, w, label='Heuristic Baseline', color=C['heuristic'], alpha=0.85, zorder=3, edgecolor=C['bg'], linewidth=0.5)\n",
+    "bt = ax_bar.bar(x + w, trained_vals, w, label='Trained LLM (GRPO)', color=C['trained'], alpha=0.85, zorder=3, edgecolor=C['bg'], linewidth=0.5)\n",
+    "\n",
+    "for bars, col in [(br, C['random']), (bh, C['heuristic']), (bt, C['trained'])]:\n",
+    "    for bar in bars:\n",
+    "        h = bar.get_height()\n",
+    "        ax_bar.text(bar.get_x() + bar.get_width()/2, h + 0.012, f'{h:.3f}',\n",
+    "                    ha='center', va='bottom', fontsize=8.5, color=col, fontweight='bold', zorder=4)\n",
+    "\n",
+    "for i in range(len(tasks)):\n",
+    "    h_val = heuristic_vals[i]\n",
+    "    t_val = trained_vals[i]\n",
+    "    pct = ((t_val - h_val) / h_val * 100) if h_val > 0 else 0\n",
+    "    color = C['trained'] if pct >= 0 else C['random']\n",
+    "    sign = '+' if pct >= 0 else '-'\n",
+    "    ax_bar.text(x[i] + w, max(h_val, t_val) + 0.06, f'{sign}{abs(pct):.1f}%',\n",
+    "                ha='center', fontsize=10, color=color, fontweight='bold', zorder=4)\n",
+    "\n",
+    "ax_bar.axhline(baseline_avg, color=C['heuristic'], linestyle=':', linewidth=1.5, alpha=0.6,\n",
+    "               label=f'Heuristic avg ({baseline_avg:.3f})', zorder=2)\n",
+    "ax_bar.axhline(trained_avg, color=C['trained'], linestyle=':', linewidth=1.5, alpha=0.6,\n",
+    "               label=f'Trained avg ({trained_avg:.3f})', zorder=2)\n",
+    "ax_bar.set_xticks(x)\n",
+    "ax_bar.set_xticklabels(task_labels, color=C['text'], fontsize=10)\n",
+    "ax_bar.set_ylabel('Grade Score (0.0 to 1.0, higher is better)', fontsize=11, color=C['subtext'])\n",
+    "ax_bar.set_ylim(0, 1.15)\n",
+    "ax_bar.set_title('GridMind-RL Policy Performance Across All 4 Hackathon Themes\\nRandom vs Heuristic Baseline vs GRPO Fine-Tuned LLM',\n",
+    "                 color=C['text'], fontsize=13, fontweight='bold', pad=12)\n",
+    "ax_bar.legend(fontsize=10, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9,\n",
+    "              edgecolor=C['border'], ncol=3, loc='upper right')\n",
+    "ax_bar.grid(axis='y', alpha=0.15, color=C['grid'], zorder=1)\n",
+    "for spine in ax_bar.spines.values():\n",
+    "    spine.set_edgecolor(C['border'])\n",
+    "ax_bar.tick_params(colors=C['subtext'])\n",
+    "\n",
+    "# Panel B: reward signal over time.\n",
+    "ax_rew = fig.add_subplot(gs[1, 0])\n",
+    "style_ax(ax_rew, 'GRPO Training: Reward Signal per Step')\n",
+    "if training_rewards and len(training_rewards) >= 4:\n",
+    "    raw = training_rewards\n",
+    "    steps_r = list(range(1, len(raw) + 1))\n",
+    "    ax_rew.plot(steps_r, raw, alpha=0.20, color=C['reward'], linewidth=1)\n",
+    "    ax_rew.plot(steps_r, smooth(raw, window=6), color=C['reward'], linewidth=2.5, label='Smoothed reward')\n",
+    "    if len(steps_r) > 8:\n",
+    "        z = np.polyfit(steps_r, raw, 1)\n",
+    "        p = np.poly1d(z)\n",
+    "        ax_rew.plot(steps_r, p(steps_r), '--', color='white', alpha=0.35, linewidth=1.5,\n",
+    "                    label=f'Trend ({z[0]:+.5f}/step)')\n",
+    "    ax_rew.set_xlabel('Reward Function Call')\n",
+    "    ax_rew.set_ylabel('Reward Value')\n",
+    "    ax_rew.legend(fontsize=9, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9, edgecolor=C['border'])\n",
+    "    if np.var(raw) < 0.01:\n",
+    "        ax_rew.text(0.5, 0.5, 'Low reward variance detected.\\nThis graph exposes weak learning signal.',\n",
+    "                    transform=ax_rew.transAxes, ha='center', va='center', color=C['random'], fontsize=10,\n",
+    "                    bbox=dict(boxstyle='round', facecolor=C['panel'], alpha=0.8))\n",
+    "else:\n",
+    "    ax_rew.text(0.5, 0.5, 'No training rewards captured.\\nRe-run with fixed reward function.',\n",
+    "                transform=ax_rew.transAxes, ha='center', va='center', color=C['subtext'], fontsize=11)\n",
+    "\n",
+    "# Panel C: training loss, with reward variance fallback.\n",
+    "ax_loss = fig.add_subplot(gs[1, 1])\n",
+    "style_ax(ax_loss, 'GRPO Training Loss per Step')\n",
+    "if step_losses and len(step_losses) >= 2:\n",
+    "    ax_loss.plot(step_numbers, step_losses, alpha=0.25, color=C['loss'], linewidth=1)\n",
+    "    ax_loss.plot(step_numbers, smooth(step_losses, window=4), color=C['loss'], linewidth=2.5, label='Smoothed loss')\n",
+    "    non_zero = [l for l in step_losses if abs(l) > 1e-7]\n",
+    "    pct_nz = len(non_zero) / len(step_losses) * 100\n",
+    "    note_color = C['trained'] if pct_nz > 50 else C['random']\n",
+    "    ax_loss.text(0.04, 0.96, f'Non-zero steps: {len(non_zero)}/{len(step_losses)} ({pct_nz:.0f}%)',\n",
+    "                 transform=ax_loss.transAxes, va='top', color=note_color, fontsize=9,\n",
+    "                 bbox=dict(boxstyle='round', facecolor=C['panel'], alpha=0.8))\n",
+    "    ax_loss.set_xlabel('Training Step')\n",
+    "    ax_loss.set_ylabel('Loss')\n",
+    "    ax_loss.legend(fontsize=9, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9, edgecolor=C['border'])\n",
+    "else:\n",
+    "    proxy_loss = []\n",
+    "    for i in range(0, len(training_rewards), 4):\n",
+    "        chunk = training_rewards[i:i+4]\n",
+    "        if len(chunk) > 1:\n",
+    "            proxy_loss.append(float(np.var(chunk)))\n",
+    "    if proxy_loss:\n",
+    "        ax_loss.plot(range(1, len(proxy_loss) + 1), proxy_loss, color=C['loss'], linewidth=2,\n",
+    "                     label='Reward variance proxy')\n",
+    "        ax_loss.set_xlabel('Training Batch')\n",
+    "        ax_loss.set_ylabel('Reward Variance')\n",
+    "        ax_loss.legend(fontsize=9, facecolor=C['grid'], labelcolor=C['text'], framealpha=0.9, edgecolor=C['border'])\n",
+    "        ax_loss.text(0.5, 0.92, 'Loss not captured - showing reward variance proxy',\n",
+    "                     transform=ax_loss.transAxes, ha='center', color=C['subtext'], fontsize=8)\n",
+    "    else:\n",
+    "        ax_loss.text(0.5, 0.5, 'No loss data available.', transform=ax_loss.transAxes,\n",
+    "                     ha='center', va='center', color=C['subtext'], fontsize=11)\n",
+    "\n",
+    "fig.suptitle(\n",
+    "    'GridMind-RL - Meta OpenEnv Hackathon - Multi-Agent Industrial Energy Management\\n'\n",
+    "    f'Model: Qwen2.5-1.5B + QLoRA + GRPO | Overall improvement vs heuristic: {overall_improvement:+.1f}%',\n",
+    "    color=C['text'], fontsize=14, fontweight='bold', y=0.97\n",
+    ")\n",
+    "\n",
+    "dashboard_path = 'results/gridmind_training_dashboard.png'\n",
+    "fig.savefig(dashboard_path, dpi=180, facecolor=fig.get_facecolor(), bbox_inches='tight')\n",
+    "plt.close(fig)\n",
+    "\n",
+    "# Separate before/after comparison graph for quick judge inspection.\n",
+    "fig2, ax2 = plt.subplots(figsize=(11, 6))\n",
+    "fig2.patch.set_facecolor(C['bg'])\n",
+    "ax2.set_facecolor(C['panel'])\n",
+    "ax2.bar(x - w/2, heuristic_vals, w, label='Heuristic Baseline', color=C['heuristic'], alpha=0.9)\n",
+    "ax2.bar(x + w/2, trained_vals, w, label='Trained LLM (GRPO)', color=C['trained'], alpha=0.9)\n",
+    "ax2.set_xticks(x)\n",
+    "ax2.set_xticklabels(task_labels, color=C['text'])\n",
+    "ax2.set_ylim(0, 1.05)\n",
+    "ax2.set_ylabel('Grade Score', color=C['subtext'])\n",
+    "ax2.set_title('Before/After Policy Score Comparison', color=C['text'], fontweight='bold')\n",
+    "ax2.legend(facecolor=C['grid'], labelcolor=C['text'], edgecolor=C['border'])\n",
+    "ax2.grid(axis='y', alpha=0.15, color=C['grid'])\n",
+    "ax2.tick_params(colors=C['subtext'])\n",
+    "for spine in ax2.spines.values():\n",
+    "    spine.set_edgecolor(C['border'])\n",
+    "comparison_path = 'results/gridmind_before_after_comparison.png'\n",
+    "fig2.savefig(comparison_path, dpi=180, facecolor=fig2.get_facecolor(), bbox_inches='tight')\n",
+    "plt.close(fig2)\n",
+    "\n",
+    "print(f\"Saved dashboard graph to {dashboard_path}\")\n",
+    "print(f\"Saved before/after graph to {comparison_path}\")\n",
+    "\n",
     "results = {\n",
     "    \"heuristic_baseline\": {\n",
     "        \"scores_by_task\": {str(k): v for k, v in baseline_scores.items()},\n",
     "    \"training_steps\": grpo_config.max_steps,\n",
     "    \"themes_covered\": [\"multi_agent\", \"instruction_following\", \"world_modeling\", \"curriculum\"],\n",
     "    \"training_rewards_log\": training_rewards[-20:] if training_rewards else [],\n",
+    "    \"training_step_logs\": training_steps_log[-20:] if training_steps_log else [],\n",
+    "    \"step_losses\": step_losses if 'step_losses' in globals() else [],\n",
+    "    \"graphs\": {\n",
+    "        \"dashboard\": dashboard_path,\n",
+    "        \"before_after\": comparison_path,\n",
+    "    },\n",
     "}\n",
     "\n",
     "print(\"Saving results...\")\n",

scripts/validate-submission.sh CHANGED Viewed

@@ -6,7 +6,7 @@
 #
 # Prerequisites:
 #   - Docker:       https://docs.docker.com/get-docker/
-#   - openenv-core: pip install openenv-core
 #   - curl (usually pre-installed)
 #
 # Run:
@@ -155,7 +155,7 @@ log "${BOLD}Step 3/3: Running openenv validate${NC} ..."
 if ! command -v openenv &>/dev/null; then
   fail "openenv command not found"
-  hint "Install it: pip install openenv-core"
   stop_at "Step 3"
 fi

 #
 # Prerequisites:
 #   - Docker:       https://docs.docker.com/get-docker/
+#   - openenv-core: pip install openenv-core==0.2.3
 #   - curl (usually pre-installed)
 #
 # Run:
 if ! command -v openenv &>/dev/null; then
   fail "openenv command not found"
+  hint "Install it: pip install openenv-core==0.2.3"
   stop_at "Step 3"
 fi

uv.lock CHANGED Viewed

@@ -1,5 +1,5 @@
 version = 4
-requires-python = ">=3.9"
 [[package]]
 name = "openai"

 version = 4
+requires-python = ">=3.10"
 [[package]]
 name = "openai"