Spaces:

arrow072
/

open_ENV

Sleeping

arrow072 commited on Apr 12

Commit

36c3c58

verified ·

1 Parent(s): 4bbf0fc

Update openenv.yaml

Files changed (1) hide show

openenv.yaml CHANGED Viewed

@@ -74,7 +74,7 @@ tasks:
     description: "Stable, balanced traffic. Minimal emergencies. Ideal for learning."
     config_key: easy
     max_steps: 50
-    score_range: [0.0, 1.0]   # open interval (0,1) enforced by grader
     params:
       arrival_rate: [0, 1]
       discharge_rate: [4, 5]
@@ -86,7 +86,7 @@ tasks:
     description: "Random traffic bursts, moderate congestion, occasional emergencies."
     config_key: medium
     max_steps: 100
-    score_range: [0.0, 1.0]
     params:
       arrival_rate: [1, 3]
       discharge_rate: [3, 5]
@@ -98,7 +98,7 @@ tasks:
     description: "High-intensity traffic, frequent emergencies, strict fairness constraints."
     config_key: hard
     max_steps: 200
-    score_range: [0.0, 1.0]
     params:
       arrival_rate: [2, 5]
       discharge_rate: [2, 4]
@@ -112,7 +112,7 @@ tasks:
 # ─────────────────────────────────────────────────────────────────────
 reward:
   range: [-0.999, 0.999]
-  score_normalisation: "(reward + 1) / 2  →  (0.0005, 0.9995)"
   components:
     efficiency:
       sign: "+"

     description: "Stable, balanced traffic. Minimal emergencies. Ideal for learning."
     config_key: easy
     max_steps: 50
+    score_range: [0.001, 0.999]
     params:
       arrival_rate: [0, 1]
       discharge_rate: [4, 5]
     description: "Random traffic bursts, moderate congestion, occasional emergencies."
     config_key: medium
     max_steps: 100
+    score_range: [0.001, 0.999]
     params:
       arrival_rate: [1, 3]
       discharge_rate: [3, 5]
     description: "High-intensity traffic, frequent emergencies, strict fairness constraints."
     config_key: hard
     max_steps: 200
+    score_range: [0.001, 0.999]
     params:
       arrival_rate: [2, 5]
       discharge_rate: [2, 4]
 # ─────────────────────────────────────────────────────────────────────
 reward:
   range: [-0.999, 0.999]
+ score_normalisation: "(reward + 1) / 2, clamped to [0.001, 0.999]"
   components:
     efficiency:
       sign: "+"