Spaces:

kush5699
/

data-validation-env

Sleeping

kush5699 commited on Apr 8

Commit

593f876

verified ·

1 Parent(s): 6e90226

Upload folder using huggingface_hub

Files changed (3) hide show

env/environment.py CHANGED Viewed

@@ -71,7 +71,7 @@ class DataValidationEnvironment:
         self._state.last_actions.append(action_key)
         if is_repeat:
-            reward = -0.1
             message = "Penalty: repeated identical action"
         else:
             reward, message, fixed = grade_action(

         self._state.last_actions.append(action_key)
         if is_repeat:
+            reward = 0.01
             message = "Penalty: repeated identical action"
         else:
             reward, message, fixed = grade_action(

env/tasks.py CHANGED Viewed

@@ -224,10 +224,10 @@ def grade_action(action_type: str, target_field: str, target_row: int,
     if action_type == "validate":
         fixed = sum(1 for e in errors if e.get("fixed", False))
-        return 0.0, f"Validation: {fixed}/{total_errors} errors fixed ({fixed/total_errors*100:.0f}%)", False
     if action_type == "skip":
-        return 0.0, "Skipped current action", False
     matching_error = None
     for e in errors:
@@ -238,7 +238,7 @@ def grade_action(action_type: str, target_field: str, target_row: int,
             break
     if matching_error is None:
-        return -0.05, f"No unfixed error at row {target_row}, field '{target_field}'", False
     action_to_error_map = {
         "fix_missing": "missing",
@@ -277,4 +277,4 @@ def grade_action(action_type: str, target_field: str, target_row: int,
         reward = 0.9 / total_errors
         return reward, f"Fixed: row {target_row}, field '{target_field}' -> '{new_value}'", True
     else:
-        return -0.05, f"Wrong value for row {target_row}, field '{target_field}'. Got '{new_value}', expected something else.", False

     if action_type == "validate":
         fixed = sum(1 for e in errors if e.get("fixed", False))
+        return 0.01, f"Validation: {fixed}/{total_errors} errors fixed ({fixed/total_errors*100:.0f}%)", False
     if action_type == "skip":
+        return 0.01, "Skipped current action", False
     matching_error = None
     for e in errors:
             break
     if matching_error is None:
+        return 0.01, f"No unfixed error at row {target_row}, field '{target_field}'", False
     action_to_error_map = {
         "fix_missing": "missing",
         reward = 0.9 / total_errors
         return reward, f"Fixed: row {target_row}, field '{target_field}' -> '{new_value}'", True
     else:
+        return 0.01, f"Wrong value for row {target_row}, field '{target_field}'. Got '{new_value}', expected something else.", False

inference.py CHANGED Viewed

@@ -175,14 +175,15 @@ def run_episode(task_config: dict) -> None:
             error_msg = None
             try:
                 obs = env_step(action)
-                reward = obs.get("reward", 0.0)
                 done = obs.get("done", False)
             except Exception as e:
                 error_msg = str(e)
-                reward = 0.0
                 done = False
             steps += 1
             rewards.append(reward)
             print(f"[STEP] step={steps} action={action_str} reward={reward:.2f} done={str(done).lower()} error={error_msg if error_msg else 'null'}")
@@ -196,11 +197,11 @@ def run_episode(task_config: dict) -> None:
     except Exception as e:
         error_str = str(e)
         if steps == 0:
-            print(f"[STEP] step=1 action=null reward=0.00 done=true error={error_str}")
             steps = 1
-            rewards = [0.0]
     finally:
-        rewards_str = ",".join(f"{r:.2f}" for r in rewards) if rewards else "0.00"
         print(f"[END] success={str(success).lower()} steps={steps} rewards={rewards_str}")

             error_msg = None
             try:
                 obs = env_step(action)
+                reward = obs.get("reward", 0.01)
                 done = obs.get("done", False)
             except Exception as e:
                 error_msg = str(e)
+                reward = 0.01
                 done = False
             steps += 1
+            reward = max(0.01, min(0.99, reward))
             rewards.append(reward)
             print(f"[STEP] step={steps} action={action_str} reward={reward:.2f} done={str(done).lower()} error={error_msg if error_msg else 'null'}")
     except Exception as e:
         error_str = str(e)
         if steps == 0:
+            print(f"[STEP] step=1 action=null reward=0.01 done=true error={error_str}")
             steps = 1
+            rewards = [0.01]
     finally:
+        rewards_str = ",".join(f"{r:.2f}" for r in rewards) if rewards else "0.01"
         print(f"[END] success={str(success).lower()} steps={steps} rewards={rewards_str}")