Spaces:

LO-Kyu
/

gridmind

Running

App Files Files Community

adityss commited on 15 days ago

Commit

4c1963b

1 Parent(s): baea0a8

Enhance dashboard: Live Simulation, 72h episodes, and step reward tracking curve

Browse files

Files changed (9) hide show

dashboard/static/dashboard.js +61 -31
dashboard/static/index.html +3 -2
env/environment.go +4 -4
env/models.go +2 -2
python/inference.py +4 -4
python/models.py +3 -3
python/validate.py +10 -4
tests/environment_test.go +5 -5
tests/test_graders.py +11 -6

dashboard/static/dashboard.js CHANGED Viewed

@@ -7,7 +7,7 @@
 // ── Config ──────────────────────────────────────────────────────────────────
 const POLL_MS        = 500;
-const HISTORY_LEN    = 96;   // 96 steps = full episode
 const API_BASE       = '/api';
 const TASK_NAMES = {
   1: 'Task 1 — Cost Minimization (Easy)',
@@ -95,8 +95,8 @@ function makeBarChart(id, labels, datasets) {
 }
 // ── Initialise all charts ─────────────────────────────────────────────────────
-const emptyLabels = Array.from({ length: 24 }, (_, i) => `${i}h`);
-const emptyData   = Array(24).fill(null);
 // 1. Price curve
 const priceChart = makeLineChart('chart-price',
@@ -258,16 +258,13 @@ const carbonChart = makeLineChart('chart-carbon',
   { yAxis: { title: { display: true, text: 'gCO₂/kWh' } } }
 );
-// 8. Reward components bar
-const rewardChart = makeBarChart('chart-reward',
   [],
   [
-    { label: 'Cost Savings',   data: [], backgroundColor: rgba(COLORS.green, 0.8) },
-    { label: 'Temp Constraint',data: [], backgroundColor: rgba(COLORS.cyan, 0.8) },
-    { label: 'Grid Response',  data: [], backgroundColor: rgba(COLORS.blue, 0.8) },
-    { label: 'Efficiency',     data: [], backgroundColor: rgba(COLORS.purple, 0.7) },
-    { label: 'Penalties',      data: [], backgroundColor: rgba(COLORS.red, 0.8) },
-  ]
 );
 // ── Stress meter bars ────────────────────────────────────────────────────────
@@ -309,7 +306,7 @@ function renderGantt(jobs, currentStep) {
     wrap.innerHTML = '<div style="color:var(--text-dim);font-size:0.8rem">No batch jobs in this episode.</div>';
     return;
   }
-  const totalSlots = 96;
   wrap.innerHTML = '';
   jobs.forEach(job => {
     const row = document.createElement('div');
@@ -419,7 +416,7 @@ async function fetchAndUpdate() {
     const hourOfDay = b.hour_of_day || 0;
     // ── Header ──
-    document.getElementById('ep-step').textContent = `ep:${state.episode} step:${step}/95`;
     document.getElementById('task-badge').textContent = TASK_NAMES[state.task_id] || 'Task 1';
     // ── KPIs ──
@@ -447,21 +444,21 @@ async function fetchAndUpdate() {
     document.getElementById('kpi-storage').textContent = `${(b.thermal_storage_level * 100).toFixed(1)}`;
     // ── Price curve chart ──
-    if (state.price_curve_24h && state.price_curve_24h.length === 24) {
-      const labels = Array.from({ length: 24 }, (_, i) => `${i}:00`);
       priceChart.data.labels = labels;
-      priceChart.data.datasets[0].data = state.price_curve_24h;
       // Current position marker
-      const marker = Array(24).fill(null);
-      marker[hourOfDay] = state.price_curve_24h[hourOfDay];
       priceChart.data.datasets[1].data = marker;
       priceChart.update('none');
     }
     // ── Carbon curve ──
-    if (state.carbon_curve_24h && state.carbon_curve_24h.length === 24) {
-      carbonChart.data.labels = Array.from({ length: 24 }, (_, i) => `${i}:00`);
-      carbonChart.data.datasets[0].data = state.carbon_curve_24h;
       carbonChart.update('none');
     }
@@ -530,16 +527,9 @@ async function fetchAndUpdate() {
         stressChart.data.datasets[0].data = b.reward_history.map(r => Math.max(0, r.grid_response || 0));
         stressChart.update('none');
-        // Reward breakdown chart (last 20 steps)
-        const recent = b.reward_history.slice(-20);
-        rewardChart.data.labels = Array.from({ length: recent.length }, (_, i) => n - recent.length + i);
-        rewardChart.data.datasets[0].data = recent.map(r => Math.max(0, r.cost_savings || 0));
-        rewardChart.data.datasets[1].data = recent.map(r => Math.max(0, r.temp_constraint || 0));
-        rewardChart.data.datasets[2].data = recent.map(r => Math.max(0, r.grid_response || 0));
-        rewardChart.data.datasets[3].data = recent.map(r => Math.max(0, r.efficiency_bonus || 0));
-        rewardChart.data.datasets[4].data = recent.map(r =>
-          Math.abs(r.deadline_penalty || 0) + Math.abs(r.stability_penalty || 0)
-        );
         rewardChart.update('none');
         // Reward rows (last step)
@@ -580,6 +570,46 @@ async function doReset() {
   document.getElementById('grade-result').textContent = '';
 }
 async function doGrade() {
   try {
     const res = await fetch(`${API_BASE}/grade`);

 // ── Config ──────────────────────────────────────────────────────────────────
 const POLL_MS        = 500;
+const HISTORY_LEN    = 288;   // 288 steps = full episode
 const API_BASE       = '/api';
 const TASK_NAMES = {
   1: 'Task 1 — Cost Minimization (Easy)',
 }
 // ── Initialise all charts ─────────────────────────────────────────────────────
+const emptyLabels = Array.from({ length: 72 }, (_, i) => `${i}h`);
+const emptyData   = Array(72).fill(null);
 // 1. Price curve
 const priceChart = makeLineChart('chart-price',
   { yAxis: { title: { display: true, text: 'gCO₂/kWh' } } }
 );
+// 8. Reward timeline curve
+const rewardChart = makeLineChart('chart-reward',
   [],
   [
+    { label: 'Step Reward',   data: [], borderColor: COLORS.green, backgroundColor: rgba(COLORS.green, 0.1), borderWidth: 2, fill: true, tension: 0.4, pointRadius: 0 },
+  ],
+  { yAxis: { title: { display: true, text: 'Reward' } } }
 );
 // ── Stress meter bars ────────────────────────────────────────────────────────
     wrap.innerHTML = '<div style="color:var(--text-dim);font-size:0.8rem">No batch jobs in this episode.</div>';
     return;
   }
+  const totalSlots = 288;
   wrap.innerHTML = '';
   jobs.forEach(job => {
     const row = document.createElement('div');
     const hourOfDay = b.hour_of_day || 0;
     // ── Header ──
+    document.getElementById('ep-step').textContent = `ep:${state.episode} step:${step}/287`;
     document.getElementById('task-badge').textContent = TASK_NAMES[state.task_id] || 'Task 1';
     // ── KPIs ──
     document.getElementById('kpi-storage').textContent = `${(b.thermal_storage_level * 100).toFixed(1)}`;
     // ── Price curve chart ──
+    if (state.price_curve_episode && state.price_curve_episode.length === 72) {
+      const labels = Array.from({ length: 72 }, (_, i) => `${i}:00`);
       priceChart.data.labels = labels;
+      priceChart.data.datasets[0].data = state.price_curve_episode;
       // Current position marker
+      const marker = Array(72).fill(null);
+      marker[Math.floor(step / 4)] = state.price_curve_episode[Math.floor(step / 4)];
       priceChart.data.datasets[1].data = marker;
       priceChart.update('none');
     }
     // ── Carbon curve ──
+    if (state.carbon_curve_episode && state.carbon_curve_episode.length === 72) {
+      carbonChart.data.labels = Array.from({ length: 72 }, (_, i) => `${i}:00`);
+      carbonChart.data.datasets[0].data = state.carbon_curve_episode;
       carbonChart.update('none');
     }
         stressChart.data.datasets[0].data = b.reward_history.map(r => Math.max(0, r.grid_response || 0));
         stressChart.update('none');
+        // Total reward timeline chart (full episode)
+        rewardChart.data.labels = Array.from({ length: n }, (_, i) => i);
+        rewardChart.data.datasets[0].data = b.reward_history.map(r => r.total || 0);
         rewardChart.update('none');
         // Reward rows (last step)
   document.getElementById('grade-result').textContent = '';
 }
+let liveSimTimer = null;
+let isLiveSimulating = false;
+function toggleLiveSim() {
+  const btn = document.getElementById('btn-live');
+  if (isLiveSimulating) {
+    // Stop live sim
+    clearInterval(liveSimTimer);
+    isLiveSimulating = false;
+    btn.textContent = '▶ Start Live Simulation';
+    btn.style.background = 'var(--accent-green)';
+  } else {
+    // Start live sim
+    isLiveSimulating = true;
+    btn.textContent = '⏸ Pause Live Simulation';
+    btn.style.background = 'var(--accent-amber)';
+    liveSimTimer = setInterval(async () => {
+      // Step the environment automatically with a simple heuristic policy
+      const taskId = parseInt(document.getElementById('task-select').value, 10);
+      try {
+        await fetch(`${API_BASE}/step`, {
+          method: 'POST',
+          headers: { 'Content-Type': 'application/json' },
+          body: JSON.stringify({
+            hvac_power_level: 0.5,
+            thermal_charge_rate: 0.0,
+            batch_job_slot: 0,
+            load_shed_fraction: 0.0,
+            building_id: currentBuilding
+          }),
+        });
+        // fetchAndUpdate() will catch the change via polling
+      } catch (e) {
+        console.error(e);
+      }
+    }, 400); // 400ms per step
+  }
+}
 async function doGrade() {
   try {
     const res = await fetch(`${API_BASE}/grade`);

dashboard/static/index.html CHANGED Viewed

@@ -514,7 +514,7 @@
   <!-- Row 1: Price curve + Temperature + Controls -->
   <div class="card col-8">
-    <div class="card-title"><span class="icon">💰</span> 24h Electricity Price Curve</div>
     <div class="chart-wrap">
       <canvas id="chart-price"></canvas>
     </div>
@@ -587,7 +587,7 @@
   </div>
   <div class="card col-6">
-    <div class="card-title"><span class="icon">🌍</span> Carbon Intensity Curve (24h)</div>
     <div class="chart-wrap">
       <canvas id="chart-carbon"></canvas>
     </div>
@@ -608,6 +608,7 @@
         <option value="2">Building 3</option>
       </select>
       <button id="btn-reset" class="btn primary" onclick="doReset()">↺ New Episode</button>
       <button class="btn" onclick="doGrade()">📋 Grade Episode</button>
       <button class="btn" onclick="window.open('/api/replay')">📥 Export Replay</button>
       <span id="grade-result" style="font-family:var(--font-mono);font-size:0.9rem;color:var(--accent-green)"></span>

   <!-- Row 1: Price curve + Temperature + Controls -->
   <div class="card col-8">
+    <div class="card-title"><span class="icon">💰</span> Electricity Price Curve (72h)</div>
     <div class="chart-wrap">
       <canvas id="chart-price"></canvas>
     </div>
   </div>
   <div class="card col-6">
+    <div class="card-title"><span class="icon">🌍</span> Carbon Intensity Curve (72h)</div>
     <div class="chart-wrap">
       <canvas id="chart-carbon"></canvas>
     </div>
         <option value="2">Building 3</option>
       </select>
       <button id="btn-reset" class="btn primary" onclick="doReset()">↺ New Episode</button>
+      <button id="btn-live" class="btn" style="background:var(--accent-green);color:#fff;border:none;" onclick="toggleLiveSim()">▶ Start Live Simulation</button>
       <button class="btn" onclick="doGrade()">📋 Grade Episode</button>
       <button class="btn" onclick="window.open('/api/replay')">📥 Export Replay</button>
       <span id="grade-result" style="font-family:var(--font-mono);font-size:0.9rem;color:var(--accent-green)"></span>

env/environment.go CHANGED Viewed

@@ -11,7 +11,7 @@ import (
 )
 const (
-	EpisodeSteps     = 96    // 24 hours × 15-min intervals
 	StepDurationHrs  = 0.25  // each step = 15 minutes = 0.25 h
 	MaxBuildings     = 3
 	DefaultSetpoint  = 21.0  // °C comfortable indoor temp
@@ -219,9 +219,9 @@ func (e *Environment) GetState() StateResponse {
 		buildings[i] = pub
 	}
-	priceCurve := make([]float64, 24)
-	carbonCurve := make([]float64, 24)
-	for h := 0; h < 24; h++ {
 		stepIdx := h * 4
 		if stepIdx < EpisodeSteps {
 			priceCurve[h] = e.PriceCurve[stepIdx]

 )
 const (
+	EpisodeSteps     = 288    // 72 hours × 15-min intervals
 	StepDurationHrs  = 0.25  // each step = 15 minutes = 0.25 h
 	MaxBuildings     = 3
 	DefaultSetpoint  = 21.0  // °C comfortable indoor temp
 		buildings[i] = pub
 	}
+	priceCurve := make([]float64, EpisodeSteps/4)
+	carbonCurve := make([]float64, EpisodeSteps/4)
+	for h := 0; h < EpisodeSteps/4; h++ {
 		stepIdx := h * 4
 		if stepIdx < EpisodeSteps {
 			priceCurve[h] = e.PriceCurve[stepIdx]

env/models.go CHANGED Viewed

@@ -124,8 +124,8 @@ type ResetResponse struct {
 // StateResponse is returned from GET /state.
 type StateResponse struct {
 	Buildings    []BuildingStatePublic `json:"buildings"`
-	PriceCurve   []float64            `json:"price_curve_24h"`    // full 24h ToU prices
-	CarbonCurve  []float64            `json:"carbon_curve_24h"`   // full 24h carbon intensities
 	Episode      int                  `json:"episode"`
 	Step         int                  `json:"step"`
 	TaskID       int                  `json:"task_id"`

 // StateResponse is returned from GET /state.
 type StateResponse struct {
 	Buildings    []BuildingStatePublic `json:"buildings"`
+	PriceCurve   []float64            `json:"price_curve_episode"`    // full episode ToU prices
+	CarbonCurve  []float64            `json:"carbon_curve_episode"`   // full episode carbon intensities
 	Episode      int                  `json:"episode"`
 	Step         int                  `json:"step"`
 	TaskID       int                  `json:"task_id"`

python/inference.py CHANGED Viewed

@@ -239,7 +239,9 @@ def run_episode(env_client: GridMindEnvClient, agent: LLMAgent,
     total_steps = 0
     start_time = time.time()
-    for _step in range(96):
         action = agent.choose_action(obs, task_id)
         step_resp = env_client.step(action)
@@ -253,9 +255,7 @@ def run_episode(env_client: GridMindEnvClient, agent: LLMAgent,
                   f"stress={obs['grid_stress_signal']:.2f} "
                   f"cost=${obs['cumulative_cost']:.2f} "
                   f"reward={step_resp['reward']:.3f}")
-        if step_resp.get("done", False):
-            break
     elapsed = time.time() - start_time
     grade = env_client.grade()

     total_steps = 0
     start_time = time.time()
+    step_resp = {}
+    _step = 0
+    while not step_resp.get("done", False):
         action = agent.choose_action(obs, task_id)
         step_resp = env_client.step(action)
                   f"stress={obs['grid_stress_signal']:.2f} "
                   f"cost=${obs['cumulative_cost']:.2f} "
                   f"reward={step_resp['reward']:.3f}")
+        _step += 1
     elapsed = time.time() - start_time
     grade = env_client.grade()

python/models.py CHANGED Viewed

@@ -29,7 +29,7 @@ class ObservationModel(BaseModel):
     hour_of_day: int = Field(..., ge=0, le=23, description="Current hour of day (0–23)")
     batch_queue: List[int] = Field(default_factory=list, description="Deadline slots of pending batch jobs")
     cumulative_cost: float = Field(..., ge=0.0, description="Running energy cost this episode ($)")
-    step: int = Field(..., ge=0, description="Current timestep (0–95)")
     building_id: int = Field(default=0, description="Building index in federation")
@@ -137,8 +137,8 @@ class BuildingStatePublic(BaseModel):
 class StateResponse(BaseModel):
     """Full environment state from GET /state."""
     buildings: List[BuildingStatePublic]
-    price_curve_24h: List[float]
-    carbon_curve_24h: List[float]
     episode: int
     step: int
     task_id: int

     hour_of_day: int = Field(..., ge=0, le=23, description="Current hour of day (0–23)")
     batch_queue: List[int] = Field(default_factory=list, description="Deadline slots of pending batch jobs")
     cumulative_cost: float = Field(..., ge=0.0, description="Running energy cost this episode ($)")
+    step: int = Field(..., ge=0, description="Current timestep (0–287)")
     building_id: int = Field(default=0, description="Building index in federation")
 class StateResponse(BaseModel):
     """Full environment state from GET /state."""
     buildings: List[BuildingStatePublic]
+    price_curve_episode: List[float]
+    carbon_curve_episode: List[float]
     episode: int
     step: int
     task_id: int

python/validate.py CHANGED Viewed

@@ -168,8 +168,11 @@ def validate(env_url: str) -> bool:
         post(f"{base}/reset", {"task_id": 1, "seed": 777})
         action = {"hvac_power_level": 0.3, "thermal_charge_rate": 0.0,
                   "batch_job_slot": 0, "load_shed_fraction": 0.0}
-        for _ in range(10):
-            post(f"{base}/step", action)
         r = get(f"{base}/grade")
         results.append(check("GET /grade returns 200", r.status_code == 200))
         grade = r.json()
@@ -217,9 +220,12 @@ def validate(env_url: str) -> bool:
             # Two different policies
             for a in [0.1, 0.9]:
                 post(f"{base}/reset", {"task_id": 1, "seed": seed})
-                for _ in range(96):
-                    post(f"{base}/step", {"hvac_power_level": a, "thermal_charge_rate": 0,
                                           "batch_job_slot": 0, "load_shed_fraction": 0})
                 g = requests.get(f"{base}/grade", timeout=10).json()
                 sc = g.get("score", 0)
                 scores_nonzero.append(sc > 0.01)

         post(f"{base}/reset", {"task_id": 1, "seed": 777})
         action = {"hvac_power_level": 0.3, "thermal_charge_rate": 0.0,
                   "batch_job_slot": 0, "load_shed_fraction": 0.0}
+        done = False
+        while not done:
+            r2 = post(f"{base}/step", action)
+            if r2.json().get("done"):
+                done = True
         r = get(f"{base}/grade")
         results.append(check("GET /grade returns 200", r.status_code == 200))
         grade = r.json()
             # Two different policies
             for a in [0.1, 0.9]:
                 post(f"{base}/reset", {"task_id": 1, "seed": seed})
+                done = False
+                while not done:
+                    r2 = post(f"{base}/step", {"hvac_power_level": a, "thermal_charge_rate": 0,
                                           "batch_job_slot": 0, "load_shed_fraction": 0})
+                    if r2.json().get("done"):
+                        done = True
                 g = requests.get(f"{base}/grade", timeout=10).json()
                 sc = g.get("score", 0)
                 scores_nonzero.append(sc > 0.01)

tests/environment_test.go CHANGED Viewed

@@ -57,19 +57,19 @@ func TestStepAdvancesState(t *testing.T) {
 	}
 }
-// TestEpisodeLengthIs96 verifies the episode terminates at step 96.
-func TestEpisodeLengthIs96(t *testing.T) {
 	e := env.NewEnvironment()
 	var seed int64 = 99
 	e.Reset(env.ResetRequest{Seed: &seed, TaskID: 1, NumBuildings: 1})
 	action := []env.ActionModel{{HVACPowerLevel: 0.5}}
 	var lastDone bool
-	for i := 0; i < 96; i++ {
 		_, lastDone = e.Step(action)
 	}
 	if !lastDone {
-		t.Errorf("episode should be done after 96 steps")
 	}
 }
@@ -162,7 +162,7 @@ func TestGraderTask1ScoreRange(t *testing.T) {
 	e.Reset(env.ResetRequest{Seed: &seed, TaskID: 1})
 	action := []env.ActionModel{{HVACPowerLevel: 0.3}}
-	for i := 0; i < 96; i++ {
 		e.Step(action)
 	}

 	}
 }
+// TestEpisodeLengthIs288 verifies the episode terminates at step 288.
+func TestEpisodeLengthIs288(t *testing.T) {
 	e := env.NewEnvironment()
 	var seed int64 = 99
 	e.Reset(env.ResetRequest{Seed: &seed, TaskID: 1, NumBuildings: 1})
 	action := []env.ActionModel{{HVACPowerLevel: 0.5}}
 	var lastDone bool
+	for i := 0; i < 288; i++ {
 		_, lastDone = e.Step(action)
 	}
 	if !lastDone {
+		t.Errorf("episode should be done after 288 steps")
 	}
 }
 	e.Reset(env.ResetRequest{Seed: &seed, TaskID: 1})
 	action := []env.ActionModel{{HVACPowerLevel: 0.3}}
+	for i := 0; i < 288; i++ {
 		e.Step(action)
 	}

tests/test_graders.py CHANGED Viewed

@@ -51,10 +51,11 @@ def grade() -> dict:
 def run_full_episode(task_id: int, seed: int, hvac: float = 0.5) -> dict:
     reset(task_id=task_id, seed=seed)
     action = {"hvac_power_level": hvac, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0}
-    for _ in range(96):
         resp = step(action)
         if resp.get("done"):
-            break
     return grade()
@@ -86,8 +87,11 @@ class TestTask1:
         """Always shedding 50% should be detected and penalized."""
         reset(task_id=1, seed=10)
         action = {"hvac_power_level": 0.5, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0.5}
-        for _ in range(96):
-            step(action)
         g = grade()
         # Score should be reduced OR exploit flagged
         assert g["exploit_detected"] or g["score"] < 0.9
@@ -165,9 +169,10 @@ class TestMultiBuilding:
             {"hvac_power_level": 0.4, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0, "building_id": 0},
             {"hvac_power_level": 0.6, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0, "building_id": 1},
         ]
-        for _ in range(96):
             r = requests.post(f"{BASE}/step", json=action)
             if r.json()[0].get("done"):
-                break
         g = grade()
         assert 0.0 <= g["score"] <= 1.0

 def run_full_episode(task_id: int, seed: int, hvac: float = 0.5) -> dict:
     reset(task_id=task_id, seed=seed)
     action = {"hvac_power_level": hvac, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0}
+    done = False
+    while not done:
         resp = step(action)
         if resp.get("done"):
+            done = True
     return grade()
         """Always shedding 50% should be detected and penalized."""
         reset(task_id=1, seed=10)
         action = {"hvac_power_level": 0.5, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0.5}
+        done = False
+        while not done:
+            resp = step(action)
+            if resp.get("done"):
+                done = True
         g = grade()
         # Score should be reduced OR exploit flagged
         assert g["exploit_detected"] or g["score"] < 0.9
             {"hvac_power_level": 0.4, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0, "building_id": 0},
             {"hvac_power_level": 0.6, "thermal_charge_rate": 0, "batch_job_slot": 0, "load_shed_fraction": 0, "building_id": 1},
         ]
+        done = False
+        while not done:
             r = requests.post(f"{BASE}/step", json=action)
             if r.json()[0].get("done"):
+                done = True
         g = grade()
         assert 0.0 <= g["score"] <= 1.0