Spaces:

pramodmisra
/

claims-env

Running

pramodmisra Claude Opus 4.5 commited on Mar 7

Commit

a7386cd

1 Parent(s): 58758e7

Fix reward serialization - add reward field to ClaimsObservation

The reward was being calculated but not returned to the client because
ClaimsObservation was missing the reward field. OpenEnv's serialization
looks for observation.reward but it didn't exist.

Changes:
- Add reward field to ClaimsObservation in models.py
- Set observation.reward after step() execution
- Set reward=0.0 on initial reset observation

Tested locally: fraud case +17.40, normal case +13.20

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

Files changed (2) hide show

models.py +3 -0
server/claims_environment.py +4 -0

models.py CHANGED Viewed

@@ -69,6 +69,9 @@ class ClaimsObservation(Observation):
     is_terminal: bool = Field(default=False, description="Whether episode is done")
     terminal_reason: str = Field(default="", description="Why episode ended")
 class ClaimsState(State):
     """

     is_terminal: bool = Field(default=False, description="Whether episode is done")
     terminal_reason: str = Field(default="", description="Why episode ended")
+    # Reward (required for OpenEnv serialization)
+    reward: float = Field(default=0.0, description="Reward from this step")
 class ClaimsState(State):
     """

server/claims_environment.py CHANGED Viewed

@@ -164,6 +164,7 @@ class ClaimsEnvironment(Environment):
             time_elapsed_minutes=0,
             queries_made=0,
             is_terminal=False,
         )
     def step(self, action: ClaimsAction) -> ClaimsObservation:
@@ -196,6 +197,9 @@ class ClaimsEnvironment(Environment):
         self._last_reward = reward
         self._state.total_reward += reward
         return observation
     def _execute_action(self, action: ClaimsAction) -> Tuple[ClaimsObservation, float]:

             time_elapsed_minutes=0,
             queries_made=0,
             is_terminal=False,
+            reward=0.0,  # Initial observation has no reward
         )
     def step(self, action: ClaimsAction) -> ClaimsObservation:
         self._last_reward = reward
         self._state.total_reward += reward
+        # Set reward on observation for client serialization
+        observation.reward = reward
         return observation
     def _execute_action(self, action: ClaimsAction) -> Tuple[ClaimsObservation, float]: