Sean13
/

repo-best-model

Sean13 commited on Feb 26

Commit

7455b11

verified ·

1 Parent(s): eb367f2

Upload best model from mistral_multipref_re_dpo

Files changed (1) hide show

artifacts/config.resolved.yaml ADDED Viewed

+experiment_name: mistral_multipref_re_dpo
+model:
+  name_or_path: mistralai/Mistral-7B-Instruct-v0.2
+  torch_dtype: null
+  attn_implementation: flash_attention_2
+  trust_remote_code: false
+data:
+  source: multipref
+  dataset_name: allenai/multipref
+  train_split: train
+  test_split: test
+  preprocessing_num_workers: 12
+  max_train_samples: null
+  max_eval_samples: null
+  multipref:
+    train_ratio: 0.95
+    include_normal: true
+    include_expert: true
+    preference_key: overall_pref
+train:
+  output_dir: outputs/mistral_multipref_re_dpo
+  run_name: mistral_multipref_re_dpo
+  seed: 42
+  learning_rate: 7.0e-07
+  beta: 0.01
+  num_train_epochs: 1
+  per_device_train_batch_size: 1
+  per_device_eval_batch_size: 1
+  gradient_accumulation_steps: 16
+  logging_steps: 10
+  eval_steps: 100
+  save_steps: 1000
+  max_length: 1024
+  max_prompt_length: 512
+  bf16: true
+  gradient_checkpointing: true
+  lr_scheduler_type: cosine
+  warmup_ratio: 0.1
+  do_eval: true
+  push_to_hub: false
+  optim: adamw_torch
+  loss_type: sigmoid
+  overwrite_output_dir: true
+rpo:
+  num_annotators: 227
+  eta_init: 0.9
+  eta_update_rate: 0.1
+  use_batched_m_step: true
+  eta_update_every_n_steps: 10