rewardfm
/

libero_testset_prog_pref_4frames_fixdata

@@ -10,12 +10,12 @@ custom_eval:
   num_examples_per_quality_pr: 5
   num_partial_successes: 5
   policy_ranking:
-  - libero
   policy_ranking_max_tasks: 100
   quality_preference:
   - mw
   reward_alignment:
-  - libero
   reward_alignment_max_trajectories: 10
   similarity_score:
   - aliangdw_metaworld_metaworld_eval
@@ -34,7 +34,7 @@ data:
   dataset_success_cutoff_file: rfm/data/dataset_success_cutoff.txt
   dataset_type: rfm
   eval_datasets:
-  - libero
   eval_subset_size: null
   fps: 10
   load_embeddings: false
@@ -74,7 +74,7 @@ data:
   - 1.0
   - 1.0
   train_datasets:
-  - libero
   traj_same_source_prob: 0.5
   use_data_source_balance: true
   use_multi_image: true
@@ -100,7 +100,7 @@ logging:
   save_processor: true
   wandb_entity: clvr
   wandb_mode: null
-  wandb_notes: libero prog_pref_fail only
   wandb_project: rfm
 loss:
   predict_last_frame_progress: false
@@ -157,7 +157,7 @@ training:
   do_eval: true
   eval_steps: 500
   evaluation_strategy: steps
-  exp_name: libero_90_prog_pref_4frames_fixdata
   fp16: false
   gradient_accumulation_steps: 1
   gradient_checkpointing: true

   num_examples_per_quality_pr: 5
   num_partial_successes: 5
   policy_ranking:
+  - libero_pi0_no_fail
   policy_ranking_max_tasks: 100
   quality_preference:
   - mw
   reward_alignment:
+  - libero_pi0_no_fail
   reward_alignment_max_trajectories: 10
   similarity_score:
   - aliangdw_metaworld_metaworld_eval
   dataset_success_cutoff_file: rfm/data/dataset_success_cutoff.txt
   dataset_type: rfm
   eval_datasets:
+  - libero_pi0_no_fail
   eval_subset_size: null
   fps: 10
   load_embeddings: false
   - 1.0
   - 1.0
   train_datasets:
+  - libero_pi0_no_fail
   traj_same_source_prob: 0.5
   use_data_source_balance: true
   use_multi_image: true
   save_processor: true
   wandb_entity: clvr
   wandb_mode: null
+  wandb_notes: libero prog only
   wandb_project: rfm
 loss:
   predict_last_frame_progress: false
   do_eval: true
   eval_steps: 500
   evaluation_strategy: steps
+  exp_name: libero_ablation_prog_pref_4frames_fixeddata
   fp16: false
   gradient_accumulation_steps: 1
   gradient_checkpointing: true