Spaces:

kush5699
/

data-validation-env

Sleeping

kush5699 commited on Apr 8

Commit

caa9970

verified ·

1 Parent(s): 593f876

Upload folder using huggingface_hub

Files changed (4) hide show

env/environment.py CHANGED Viewed

@@ -32,7 +32,7 @@ class DataValidationEnvironment:
             max_steps=task["max_steps"],
             done=False,
             reward_history=[],
-            cumulative_reward=0.0,
             dataset=task["dataset"],
             ground_truth=self._ground_truth,
             errors=self._errors,
@@ -51,8 +51,8 @@ class DataValidationEnvironment:
             errors_fixed=0,
             step_count=0,
             max_steps=task["max_steps"],
-            reward=0.0,
-            cumulative_reward=0.0,
             done=False,
             last_action_result="Environment reset. Examine errors and fix them.",
             task_hint=task["hint"],
@@ -62,7 +62,7 @@ class DataValidationEnvironment:
     def step(self, action: DataCleanAction) -> DataCleanObservation:
         if self._state.done:
-            return self._make_observation(0.0, "Episode already done. Call reset().")
         self._state.step_count += 1

             max_steps=task["max_steps"],
             done=False,
             reward_history=[],
+            cumulative_reward=0.01,
             dataset=task["dataset"],
             ground_truth=self._ground_truth,
             errors=self._errors,
             errors_fixed=0,
             step_count=0,
             max_steps=task["max_steps"],
+            reward=0.01,
+            cumulative_reward=0.01,
             done=False,
             last_action_result="Environment reset. Examine errors and fix them.",
             task_hint=task["hint"],
     def step(self, action: DataCleanAction) -> DataCleanObservation:
         if self._state.done:
+            return self._make_observation(0.01, "Episode already done. Call reset().")
         self._state.step_count += 1

env/models.py CHANGED Viewed

@@ -19,8 +19,8 @@ class DataCleanObservation(BaseModel):
     errors_fixed: int = Field(default=0)
     step_count: int = Field(default=0)
     max_steps: int = Field(default=20)
-    reward: float = Field(default=0.0)
-    cumulative_reward: float = Field(default=0.0)
     done: bool = Field(default=False)
     last_action_result: str = Field(default="")
     task_hint: str = Field(default="")
@@ -41,7 +41,7 @@ class DataCleanState(BaseModel):
     max_steps: int = Field(default=20)
     done: bool = Field(default=False)
     reward_history: List[float] = Field(default_factory=list)
-    cumulative_reward: float = Field(default=0.0)
     dataset: List[Dict[str, Any]] = Field(default_factory=list)
     ground_truth: List[Dict[str, Any]] = Field(default_factory=list)
     errors: List[Dict[str, Any]] = Field(default_factory=list)

     errors_fixed: int = Field(default=0)
     step_count: int = Field(default=0)
     max_steps: int = Field(default=20)
+    reward: float = Field(default=0.01)
+    cumulative_reward: float = Field(default=0.01)
     done: bool = Field(default=False)
     last_action_result: str = Field(default="")
     task_hint: str = Field(default="")
     max_steps: int = Field(default=20)
     done: bool = Field(default=False)
     reward_history: List[float] = Field(default_factory=list)
+    cumulative_reward: float = Field(default=0.01)
     dataset: List[Dict[str, Any]] = Field(default_factory=list)
     ground_truth: List[Dict[str, Any]] = Field(default_factory=list)
     errors: List[Dict[str, Any]] = Field(default_factory=list)

env/tasks.py CHANGED Viewed

@@ -250,7 +250,7 @@ def grade_action(action_type: str, target_field: str, target_row: int,
     expected_error_type = action_to_error_map.get(action_type, "")
     if expected_error_type != matching_error["error_type"]:
-        return -0.05, f"Wrong action type '{action_type}' for error type '{matching_error['error_type']}'", False
     gt_value = ground_truth[target_row][target_field]

     expected_error_type = action_to_error_map.get(action_type, "")
     if expected_error_type != matching_error["error_type"]:
+        return 0.01, f"Wrong action type '{action_type}' for error type '{matching_error['error_type']}'", False
     gt_value = ground_truth[target_row][target_field]

server/app.py CHANGED Viewed

@@ -114,7 +114,7 @@ async def websocket_endpoint(websocket: WebSocket):
                     response = {
                         "type": "reset",
                         "observation": obs.model_dump(),
-                        "reward": 0.0,
                         "done": False,
                     }
                 elif method == "step":

                     response = {
                         "type": "reset",
                         "observation": obs.model_dump(),
+                        "reward": 0.01,
                         "done": False,
                     }
                 elif method == "step":