aliangdw
/

rewind-base-mw

+custom_eval:
+  confusion_matrix:
+  - aliangdw_metaworld_metaworld_eval
+  eval_types:
+  - policy_ranking
+  - confusion_matrix
+  - reward_alignment
+  policy_ranking:
+  - aliangdw_metaworld_metaworld_eval
+  reward_alignment:
+  - aliangdw_metaworld_metaworld_eval
+data:
+  data_source_weights:
+    libero256_90: 1.0
+    libero_90_failure: 1.0
+    metaworld_train: 5.0
+  dataloader_num_workers: 0
+  dataloader_pin_memory: false
+  dataset_preference_ratio: 0.7
+  dataset_success_cutoff_file: rfm/data/dataset_success_cutoff.txt
+  dataset_type: balanced_mixed
+  eval_datasets:
+  - abraranwar_libero_rfm_libero256_10
+  eval_subset_size: 500
+  fps: 10
+  load_embeddings: true
+  max_frames: 16
+  max_frames_after_preprocessing: 64
+  max_success: 0.95
+  max_trajectories: -1
+  min_success: 0.7
+  n_wrong_tasks: 5
+  num_bins: 10
+  pairwise_progress: false
+  preference_strategy_ratio:
+  - 6.0
+  - 1.0
+  - 1.0
+  - 0.0
+  progress_pred_type: absolute
+  progress_strategy_ratio:
+  - 1.0
+  - 6.0
+  - 1.0
+  resized_height: 128
+  resized_width: 128
+  rewind_lengths: null
+  sample_type_ratio:
+  - 0.0
+  - 1.0
+  - 0.0
+  samples_per_trajectory: 1
+  seed: 42
+  shuffle: true
+  similarity_strategy_ratio:
+  - 1.0
+  - 1.0
+  train_datasets:
+  - aliangdw_metaworld_metaworld_train
+debug: false
+logging:
+  save_best:
+    greater_is_better:
+    - true
+    - true
+    hub_model_id: null
+    hub_private: false
+    hub_token: null
+    keep_top_k: 5
+    metric_names:
+    - custom_eval/p_rank_spearman_mw_eval
+    - custom_eval/rew_align_spearman_mw_eval
+    upload_to_hub: true
+  save_model: true
+  save_processor: true
+  use_wandb: true
+  wandb_entity: clvr
+  wandb_project: rfm
+  wandb_run_name: rfm
+mode: train
+model:
+  base_model_id: rewind_transformer
+  model_type: default
+  peft_vision_encoder: false
+  quantization: false
+  rewind: !!python/object:rfm.models.rewind_transformer.ReWINDTransformerConfig
+    _attn_implementation_autoset: true
+    _attn_implementation_internal: null
+    _commit_hash: null
+    _name_or_path: ''
+    _output_attentions: false
+    add_cross_attention: false
+    architectures: null
+    bad_words_ids: null
+    begin_suppress_tokens: null
+    bos_token_id: null
+    chunk_size_feed_forward: 0
+    cross_attention_hidden_size: null
+    decoder_start_token_id: null
+    diversity_penalty: 0.0
+    do_sample: false
+    dropout: 0.1
+    early_stopping: false
+    encoder_no_repeat_ngram_size: 0
+    eos_token_id: null
+    exponential_decay_length_penalty: null
+    finetuning_task: null
+    forced_bos_token_id: null
+    forced_eos_token_id: null
+    hidden_dim: 512
+    id2label:
+      0: LABEL_0
+      1: LABEL_1
+    is_decoder: false
+    is_encoder_decoder: false
+    label2id:
+      LABEL_0: 0
+      LABEL_1: 1
+    length_penalty: 1.0
+    max_len: 16
+    max_length: 20
+    min_length: 0
+    no_repeat_ngram_size: 0
+    num_attention_heads: 8
+    num_beam_groups: 1
+    num_beams: 1
+    num_layers: 4
+    num_return_sequences: 1
+    output_hidden_states: false
+    output_scores: false
+    pad_token_id: null
+    prefix: null
+    problem_type: null
+    pruned_heads: {}
+    remove_invalid_values: false
+    repetition_penalty: 1.0
+    return_dict: true
+    return_dict_in_generate: false
+    sep_token_id: null
+    suppress_tokens: null
+    task_specific_params: null
+    temperature: 1.0
+    text_feature_dim: 384
+    tf_legacy_loss: false
+    tie_encoder_decoder: false
+    tie_word_embeddings: true
+    tokenizer_class: null
+    top_k: 50
+    top_p: 1.0
+    torch_dtype: null
+    torchscript: false
+    transformers_version: null
+    typical_p: 1.0
+    use_bfloat16: false
+    video_feature_dim: 768
+  torch_dtype: bfloat16
+  train_language_model: false
+  train_preference_head: false
+  train_progress_head: true
+  train_similarity_head: false
+  train_success_head: false
+  train_vision_encoder: false
+  trust_remote_code: true
+  use_peft: false
+peft:
+  bias: none
+  lora_alpha: 64
+  lora_dropout: 0.05
+  r: 32
+  target_modules:
+  - q_proj
+  - k_proj
+  - v_proj
+  - o_proj
+  - gate_proj
+  - up_proj
+  - down_proj
+trainer_cls: rewind_transformer
+training:
+  beta: 0.1
+  bf16: false
+  custom_eval_steps: 100
+  ddp_bucket_cap_mb: 25
+  ddp_find_unused_parameters: true
+  do_eval: true
+  eval_steps: 100
+  evaluation_strategy: steps
+  exp_name: rewind_base_mw
+  fp16: true
+  gradient_accumulation_steps: 1
+  gradient_checkpointing: false
+  learning_rate: 0.0001
+  logging_steps: 1
+  lr_scheduler_type: cosine
+  max_grad_norm: 10.0
+  max_seq_length: 1024
+  max_steps: 10000
+  num_gpus: 2
+  num_train_epochs: -1
+  output_dir: ./logs
+  per_device_eval_batch_size: 512
+  per_device_train_batch_size: 1024
+  predict_pref_progress: false
+  predict_sim_progress: false
+  prediction_loss_only: true
+  remove_unused_columns: false
+  resume_from_checkpoint: null
+  run_default_eval: false
+  save_steps: 200
+  save_strategy: steps
+  warmup_ratio: 0.01
+  warmup_steps: 0