Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +9 -0
adapter_config.json +29 -0
adapter_model.bin +3 -0
config.json +56 -0
non_lora_trainables.bin +3 -0
trainer_state.json +830 -0

README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+library_name: peft
+---
+## Training procedure
+### Framework versions
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "DAMO-NLP-SG/VideoLLaMA3-7B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 256,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "out_proj",
+    "down_proj",
+    "q_proj",
+    "fc2",
+    "v_proj",
+    "o_proj",
+    "up_proj",
+    "k_proj",
+    "fc1"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1be9e7b0fba83d5e831d60538adce9138fc2aa347d6ff2ca540ae992a8f10f61
+size 785303482

config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "X": [
+    "Image",
+    "Video"
+  ],
+  "_attn_implementation_autoset": true,
+  "_name_or_path": "DAMO-NLP-SG/VideoLLaMA3-7B",
+  "architectures": [
+    "Videollama3Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "DAMO-NLP-SG/VideoLLaMA3-7B--configuration_videollama3.Videollama3Qwen2Config",
+    "AutoModelForCausalLM": "DAMO-NLP-SG/VideoLLaMA3-7B--modeling_videollama3.Videollama3Qwen2ForCausalLM"
+  },
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "freeze_mm_mlp_adapter": true,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_aspect_ratio": "pad",
+  "image_grid_pinpoints": null,
+  "image_token_index": 151665,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 28,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_use_x_patch_token": false,
+  "mm_use_x_start_end": false,
+  "model_type": "videollama3_qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.3",
+  "tune_mm_mlp_adapter": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "use_token_compression": false,
+  "vision_encoder": null,
+  "vision_encoder_config": {
+    "hidden_size": 1152,
+    "intermediate_size": 4304,
+    "model_type": "videollama3_vision_encoder",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 27,
+    "patch_size": 14
+  },
+  "vocab_size": 152064
+}

non_lora_trainables.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60fb82c3660319e6d0b239950b20c28181e97f1ade117dc0660b40e2ad94a89b
+size 912

trainer_state.json ADDED Viewed

	@@ -0,0 +1,830 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9962453066332917,
+  "eval_steps": 500,
+  "global_step": 1197,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.0416666666666667e-07,
+      "logps/chosen": -71.84510803222656,
+      "logps/rejected": -68.73027038574219,
+      "loss": 0.7215,
+      "losses/dpo": 0.7109084129333496,
+      "losses/sft": 1.546567678451538,
+      "losses/total": 0.7109084129333496,
+      "ref_logps/chosen": -71.75371551513672,
+      "ref_logps/rejected": -68.71001434326172,
+      "rewards/accuracies": 0.5049999952316284,
+      "rewards/chosen": -0.009138082154095173,
+      "rewards/margins": -0.0071117933839559555,
+      "rewards/rejected": -0.0020262906327843666,
+      "step": 25
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.0833333333333333e-07,
+      "logps/chosen": -69.88240814208984,
+      "logps/rejected": -69.54386901855469,
+      "loss": 0.7126,
+      "losses/dpo": 0.6903221607208252,
+      "losses/sft": 1.5194830894470215,
+      "losses/total": 0.6903221607208252,
+      "ref_logps/chosen": -69.94444274902344,
+      "ref_logps/rejected": -69.52371978759766,
+      "rewards/accuracies": 0.4970000088214874,
+      "rewards/chosen": 0.006204119883477688,
+      "rewards/margins": 0.008218951523303986,
+      "rewards/rejected": -0.002014830242842436,
+      "step": 50
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 3.1249999999999997e-07,
+      "logps/chosen": -73.9260482788086,
+      "logps/rejected": -71.71464538574219,
+      "loss": 0.7231,
+      "losses/dpo": 0.7194635272026062,
+      "losses/sft": 1.5661953687667847,
+      "losses/total": 0.7194635272026062,
+      "ref_logps/chosen": -73.91621398925781,
+      "ref_logps/rejected": -71.82748413085938,
+      "rewards/accuracies": 0.5029999613761902,
+      "rewards/chosen": -0.0009833112126216292,
+      "rewards/margins": -0.01226747315376997,
+      "rewards/rejected": 0.011284159496426582,
+      "step": 75
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.1666666666666667e-07,
+      "logps/chosen": -68.9831314086914,
+      "logps/rejected": -66.86358642578125,
+      "loss": 0.7192,
+      "losses/dpo": 0.7422583103179932,
+      "losses/sft": 1.5391790866851807,
+      "losses/total": 0.7422583103179932,
+      "ref_logps/chosen": -68.984130859375,
+      "ref_logps/rejected": -66.90238189697266,
+      "rewards/accuracies": 0.4930000305175781,
+      "rewards/chosen": 0.00010019920591730624,
+      "rewards/margins": -0.00377923552878201,
+      "rewards/rejected": 0.003879436058923602,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.976787372330547e-07,
+      "logps/chosen": -73.55087280273438,
+      "logps/rejected": -71.61868286132812,
+      "loss": 0.7077,
+      "losses/dpo": 0.7084662914276123,
+      "losses/sft": 1.5277128219604492,
+      "losses/total": 0.7084662914276123,
+      "ref_logps/chosen": -73.66172790527344,
+      "ref_logps/rejected": -71.5505599975586,
+      "rewards/accuracies": 0.5219999551773071,
+      "rewards/chosen": 0.011085684411227703,
+      "rewards/margins": 0.017898183315992355,
+      "rewards/rejected": -0.00681249750778079,
+      "step": 125
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.860724233983287e-07,
+      "logps/chosen": -69.85209655761719,
+      "logps/rejected": -69.75456237792969,
+      "loss": 0.7016,
+      "losses/dpo": 0.6934231519699097,
+      "losses/sft": 1.5373976230621338,
+      "losses/total": 0.6934231519699097,
+      "ref_logps/chosen": -70.19540405273438,
+      "ref_logps/rejected": -69.83726501464844,
+      "rewards/accuracies": 0.5325000286102295,
+      "rewards/chosen": 0.0343310683965683,
+      "rewards/margins": 0.026060676202178,
+      "rewards/rejected": 0.008270387537777424,
+      "step": 150
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.7446610956360255e-07,
+      "logps/chosen": -69.9237289428711,
+      "logps/rejected": -69.56204223632812,
+      "loss": 0.6826,
+      "losses/dpo": 0.6780227422714233,
+      "losses/sft": 1.5951652526855469,
+      "losses/total": 0.6780227422714233,
+      "ref_logps/chosen": -70.6123046875,
+      "ref_logps/rejected": -69.56880187988281,
+      "rewards/accuracies": 0.5539999604225159,
+      "rewards/chosen": 0.06885794550180435,
+      "rewards/margins": 0.0681825652718544,
+      "rewards/rejected": 0.0006753735360689461,
+      "step": 175
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.628597957288765e-07,
+      "logps/chosen": -71.02560424804688,
+      "logps/rejected": -69.64324951171875,
+      "loss": 0.679,
+      "losses/dpo": 0.6822719573974609,
+      "losses/sft": 1.5291378498077393,
+      "losses/total": 0.6822719573974609,
+      "ref_logps/chosen": -71.80342102050781,
+      "ref_logps/rejected": -69.58236694335938,
+      "rewards/accuracies": 0.5559999942779541,
+      "rewards/chosen": 0.07778114080429077,
+      "rewards/margins": 0.08386911451816559,
+      "rewards/rejected": -0.006087968125939369,
+      "step": 200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.512534818941504e-07,
+      "logps/chosen": -67.88444519042969,
+      "logps/rejected": -68.10497283935547,
+      "loss": 0.679,
+      "losses/dpo": 0.6802477240562439,
+      "losses/sft": 1.5126712322235107,
+      "losses/total": 0.6802477240562439,
+      "ref_logps/chosen": -68.86332702636719,
+      "ref_logps/rejected": -68.26943969726562,
+      "rewards/accuracies": 0.5540000200271606,
+      "rewards/chosen": 0.0978882685303688,
+      "rewards/margins": 0.08144120872020721,
+      "rewards/rejected": 0.01644706539809704,
+      "step": 225
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.3964716805942433e-07,
+      "logps/chosen": -69.61144256591797,
+      "logps/rejected": -71.70446014404297,
+      "loss": 0.661,
+      "losses/dpo": 0.6608595848083496,
+      "losses/sft": 1.5144795179367065,
+      "losses/total": 0.6608595848083496,
+      "ref_logps/chosen": -70.85598754882812,
+      "ref_logps/rejected": -71.67627716064453,
+      "rewards/accuracies": 0.5940000414848328,
+      "rewards/chosen": 0.12445437163114548,
+      "rewards/margins": 0.12727266550064087,
+      "rewards/rejected": -0.0028182892128825188,
+      "step": 250
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.280408542246982e-07,
+      "logps/chosen": -69.20745849609375,
+      "logps/rejected": -68.46233367919922,
+      "loss": 0.6577,
+      "losses/dpo": 0.669312059879303,
+      "losses/sft": 1.5866602659225464,
+      "losses/total": 0.669312059879303,
+      "ref_logps/chosen": -70.55343627929688,
+      "ref_logps/rejected": -68.40556335449219,
+      "rewards/accuracies": 0.5860000252723694,
+      "rewards/chosen": 0.13459768891334534,
+      "rewards/margins": 0.14027482271194458,
+      "rewards/rejected": -0.005677163600921631,
+      "step": 275
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 4.164345403899721e-07,
+      "logps/chosen": -70.11485290527344,
+      "logps/rejected": -68.45763397216797,
+      "loss": 0.649,
+      "losses/dpo": 0.6586881875991821,
+      "losses/sft": 1.5220152139663696,
+      "losses/total": 0.6586881875991821,
+      "ref_logps/chosen": -71.6851806640625,
+      "ref_logps/rejected": -68.39569091796875,
+      "rewards/accuracies": 0.5975000262260437,
+      "rewards/chosen": 0.15703237056732178,
+      "rewards/margins": 0.16322720050811768,
+      "rewards/rejected": -0.006194834131747484,
+      "step": 300
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.04828226555246e-07,
+      "logps/chosen": -69.53617095947266,
+      "logps/rejected": -68.70401763916016,
+      "loss": 0.6401,
+      "losses/dpo": 0.6386440396308899,
+      "losses/sft": 1.4834158420562744,
+      "losses/total": 0.6386440396308899,
+      "ref_logps/chosen": -71.28308868408203,
+      "ref_logps/rejected": -68.5333480834961,
+      "rewards/accuracies": 0.6014999151229858,
+      "rewards/chosen": 0.17469124495983124,
+      "rewards/margins": 0.19175761938095093,
+      "rewards/rejected": -0.017066391184926033,
+      "step": 325
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.9322191272051997e-07,
+      "logps/chosen": -69.60104370117188,
+      "logps/rejected": -70.08628845214844,
+      "loss": 0.6349,
+      "losses/dpo": 0.649332582950592,
+      "losses/sft": 1.4883217811584473,
+      "losses/total": 0.649332582950592,
+      "ref_logps/chosen": -71.48506164550781,
+      "ref_logps/rejected": -69.83267211914062,
+      "rewards/accuracies": 0.6045000553131104,
+      "rewards/chosen": 0.18840213119983673,
+      "rewards/margins": 0.2137639820575714,
+      "rewards/rejected": -0.025361843407154083,
+      "step": 350
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.816155988857939e-07,
+      "logps/chosen": -68.25212097167969,
+      "logps/rejected": -69.1668930053711,
+      "loss": 0.6273,
+      "losses/dpo": 0.6162423491477966,
+      "losses/sft": 1.5002387762069702,
+      "losses/total": 0.6162423491477966,
+      "ref_logps/chosen": -70.23272705078125,
+      "ref_logps/rejected": -68.74607849121094,
+      "rewards/accuracies": 0.6295000314712524,
+      "rewards/chosen": 0.19805949926376343,
+      "rewards/margins": 0.24014097452163696,
+      "rewards/rejected": -0.04208146035671234,
+      "step": 375
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3.700092850510678e-07,
+      "logps/chosen": -70.95040893554688,
+      "logps/rejected": -72.96726989746094,
+      "loss": 0.6195,
+      "losses/dpo": 0.6564822196960449,
+      "losses/sft": 1.560630440711975,
+      "losses/total": 0.6564822196960449,
+      "ref_logps/chosen": -72.91325378417969,
+      "ref_logps/rejected": -72.14061737060547,
+      "rewards/accuracies": 0.6350000500679016,
+      "rewards/chosen": 0.19628457725048065,
+      "rewards/margins": 0.2789497375488281,
+      "rewards/rejected": -0.08266513794660568,
+      "step": 400
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3.5840297121634165e-07,
+      "logps/chosen": -67.00164794921875,
+      "logps/rejected": -69.44139099121094,
+      "loss": 0.6167,
+      "losses/dpo": 0.6204876899719238,
+      "losses/sft": 1.4992446899414062,
+      "losses/total": 0.6204876899719238,
+      "ref_logps/chosen": -68.97762298583984,
+      "ref_logps/rejected": -68.63683319091797,
+      "rewards/accuracies": 0.6190000772476196,
+      "rewards/chosen": 0.19759786128997803,
+      "rewards/margins": 0.27805399894714355,
+      "rewards/rejected": -0.08045615255832672,
+      "step": 425
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3.4679665738161556e-07,
+      "logps/chosen": -69.90442657470703,
+      "logps/rejected": -72.69268035888672,
+      "loss": 0.6054,
+      "losses/dpo": 0.598928689956665,
+      "losses/sft": 1.5615432262420654,
+      "losses/total": 0.598928689956665,
+      "ref_logps/chosen": -71.99002838134766,
+      "ref_logps/rejected": -71.58721923828125,
+      "rewards/accuracies": 0.6365000009536743,
+      "rewards/chosen": 0.20855939388275146,
+      "rewards/margins": 0.3191070556640625,
+      "rewards/rejected": -0.11054765433073044,
+      "step": 450
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 3.351903435468895e-07,
+      "logps/chosen": -68.88660430908203,
+      "logps/rejected": -70.41629791259766,
+      "loss": 0.5879,
+      "losses/dpo": 0.5859370231628418,
+      "losses/sft": 1.5487860441207886,
+      "losses/total": 0.5859370231628418,
+      "ref_logps/chosen": -71.17853546142578,
+      "ref_logps/rejected": -69.02958679199219,
+      "rewards/accuracies": 0.6640000343322754,
+      "rewards/chosen": 0.22919251024723053,
+      "rewards/margins": 0.36786285042762756,
+      "rewards/rejected": -0.13867038488388062,
+      "step": 475
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.2358402971216343e-07,
+      "logps/chosen": -69.55220031738281,
+      "logps/rejected": -70.18158721923828,
+      "loss": 0.6038,
+      "losses/dpo": 0.6201021075248718,
+      "losses/sft": 1.5225414037704468,
+      "losses/total": 0.6201021075248718,
+      "ref_logps/chosen": -71.74359130859375,
+      "ref_logps/rejected": -68.91885375976562,
+      "rewards/accuracies": 0.6455000042915344,
+      "rewards/chosen": 0.2191377878189087,
+      "rewards/margins": 0.34541237354278564,
+      "rewards/rejected": -0.12627457082271576,
+      "step": 500
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 3.1197771587743734e-07,
+      "logps/chosen": -69.61231231689453,
+      "logps/rejected": -72.09597778320312,
+      "loss": 0.5827,
+      "losses/dpo": 0.5971881747245789,
+      "losses/sft": 1.4868888854980469,
+      "losses/total": 0.5971881747245789,
+      "ref_logps/chosen": -71.90864562988281,
+      "ref_logps/rejected": -70.28910827636719,
+      "rewards/accuracies": 0.6584999561309814,
+      "rewards/chosen": 0.22963352501392365,
+      "rewards/margins": 0.41032031178474426,
+      "rewards/rejected": -0.18068677186965942,
+      "step": 525
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 3.003714020427112e-07,
+      "logps/chosen": -69.58737182617188,
+      "logps/rejected": -70.84317016601562,
+      "loss": 0.5868,
+      "losses/dpo": 0.5683429837226868,
+      "losses/sft": 1.5186117887496948,
+      "losses/total": 0.5683429837226868,
+      "ref_logps/chosen": -71.8995590209961,
+      "ref_logps/rejected": -68.87027740478516,
+      "rewards/accuracies": 0.6439999938011169,
+      "rewards/chosen": 0.23121845722198486,
+      "rewards/margins": 0.42850860953330994,
+      "rewards/rejected": -0.19729015231132507,
+      "step": 550
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 2.887650882079851e-07,
+      "logps/chosen": -69.75614166259766,
+      "logps/rejected": -71.54226684570312,
+      "loss": 0.5853,
+      "losses/dpo": 0.573384165763855,
+      "losses/sft": 1.506340742111206,
+      "losses/total": 0.573384165763855,
+      "ref_logps/chosen": -71.97299194335938,
+      "ref_logps/rejected": -69.5394287109375,
+      "rewards/accuracies": 0.6439999938011169,
+      "rewards/chosen": 0.2216847836971283,
+      "rewards/margins": 0.4219689667224884,
+      "rewards/rejected": -0.2002841979265213,
+      "step": 575
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.77158774373259e-07,
+      "logps/chosen": -67.17892456054688,
+      "logps/rejected": -72.1897201538086,
+      "loss": 0.5811,
+      "losses/dpo": 0.5949756503105164,
+      "losses/sft": 1.5656284093856812,
+      "losses/total": 0.5949756503105164,
+      "ref_logps/chosen": -69.0622329711914,
+      "ref_logps/rejected": -69.59004974365234,
+      "rewards/accuracies": 0.658500075340271,
+      "rewards/chosen": 0.18833142518997192,
+      "rewards/margins": 0.4482985734939575,
+      "rewards/rejected": -0.2599670886993408,
+      "step": 600
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 2.65552460538533e-07,
+      "logps/chosen": -67.06172180175781,
+      "logps/rejected": -71.94342041015625,
+      "loss": 0.5723,
+      "losses/dpo": 0.55665123462677,
+      "losses/sft": 1.5321460962295532,
+      "losses/total": 0.55665123462677,
+      "ref_logps/chosen": -68.80352783203125,
+      "ref_logps/rejected": -69.0389175415039,
+      "rewards/accuracies": 0.6610000133514404,
+      "rewards/chosen": 0.17417989671230316,
+      "rewards/margins": 0.46463003754615784,
+      "rewards/rejected": -0.29045018553733826,
+      "step": 625
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 2.539461467038069e-07,
+      "logps/chosen": -71.48672485351562,
+      "logps/rejected": -74.49577331542969,
+      "loss": 0.5551,
+      "losses/dpo": 0.5403231382369995,
+      "losses/sft": 1.5089354515075684,
+      "losses/total": 0.5403231382369995,
+      "ref_logps/chosen": -73.56059265136719,
+      "ref_logps/rejected": -71.07339477539062,
+      "rewards/accuracies": 0.6800000071525574,
+      "rewards/chosen": 0.20738649368286133,
+      "rewards/margins": 0.5496238470077515,
+      "rewards/rejected": -0.34223735332489014,
+      "step": 650
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.4233983286908075e-07,
+      "logps/chosen": -70.11666107177734,
+      "logps/rejected": -72.92801666259766,
+      "loss": 0.5697,
+      "losses/dpo": 0.5605096817016602,
+      "losses/sft": 1.5102070569992065,
+      "losses/total": 0.5605096817016602,
+      "ref_logps/chosen": -71.93968200683594,
+      "ref_logps/rejected": -69.70313262939453,
+      "rewards/accuracies": 0.6594999432563782,
+      "rewards/chosen": 0.18230296671390533,
+      "rewards/margins": 0.5047909021377563,
+      "rewards/rejected": -0.32248786091804504,
+      "step": 675
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.3073351903435469e-07,
+      "logps/chosen": -70.7259750366211,
+      "logps/rejected": -74.96146392822266,
+      "loss": 0.5596,
+      "losses/dpo": 0.5713181495666504,
+      "losses/sft": 1.501438021659851,
+      "losses/total": 0.5713181495666504,
+      "ref_logps/chosen": -72.50656127929688,
+      "ref_logps/rejected": -71.40023803710938,
+      "rewards/accuracies": 0.6769999861717224,
+      "rewards/chosen": 0.1780581921339035,
+      "rewards/margins": 0.5341811180114746,
+      "rewards/rejected": -0.3561229705810547,
+      "step": 700
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 2.191272051996286e-07,
+      "logps/chosen": -71.7147445678711,
+      "logps/rejected": -74.73912048339844,
+      "loss": 0.5536,
+      "losses/dpo": 0.5598438382148743,
+      "losses/sft": 1.6115312576293945,
+      "losses/total": 0.5598438382148743,
+      "ref_logps/chosen": -73.46680450439453,
+      "ref_logps/rejected": -70.61848449707031,
+      "rewards/accuracies": 0.6815000772476196,
+      "rewards/chosen": 0.17520827054977417,
+      "rewards/margins": 0.5872728228569031,
+      "rewards/rejected": -0.4120645225048065,
+      "step": 725
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 2.075208913649025e-07,
+      "logps/chosen": -70.7854232788086,
+      "logps/rejected": -74.75676727294922,
+      "loss": 0.55,
+      "losses/dpo": 0.5355216860771179,
+      "losses/sft": 1.5508781671524048,
+      "losses/total": 0.5355216860771179,
+      "ref_logps/chosen": -72.55353546142578,
+      "ref_logps/rejected": -70.52770233154297,
+      "rewards/accuracies": 0.6890000104904175,
+      "rewards/chosen": 0.1768111288547516,
+      "rewards/margins": 0.5997176170349121,
+      "rewards/rejected": -0.4229064881801605,
+      "step": 750
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.959145775301764e-07,
+      "logps/chosen": -69.92965698242188,
+      "logps/rejected": -75.43944549560547,
+      "loss": 0.5567,
+      "losses/dpo": 0.5669773817062378,
+      "losses/sft": 1.5475414991378784,
+      "losses/total": 0.5669773817062378,
+      "ref_logps/chosen": -71.25016021728516,
+      "ref_logps/rejected": -70.77532958984375,
+      "rewards/accuracies": 0.6794999837875366,
+      "rewards/chosen": 0.13204967975616455,
+      "rewards/margins": 0.5984623432159424,
+      "rewards/rejected": -0.4664126932621002,
+      "step": 775
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.8430826369545033e-07,
+      "logps/chosen": -70.1933364868164,
+      "logps/rejected": -74.6698226928711,
+      "loss": 0.5486,
+      "losses/dpo": 0.543175458908081,
+      "losses/sft": 1.5320526361465454,
+      "losses/total": 0.543175458908081,
+      "ref_logps/chosen": -71.89373016357422,
+      "ref_logps/rejected": -70.11508178710938,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.17003829777240753,
+      "rewards/margins": 0.6255122423171997,
+      "rewards/rejected": -0.455473929643631,
+      "step": 800
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.7270194986072424e-07,
+      "logps/chosen": -68.841064453125,
+      "logps/rejected": -75.60282897949219,
+      "loss": 0.5496,
+      "losses/dpo": 0.5592978596687317,
+      "losses/sft": 1.591374158859253,
+      "losses/total": 0.5592978596687317,
+      "ref_logps/chosen": -70.10298156738281,
+      "ref_logps/rejected": -70.73596954345703,
+      "rewards/accuracies": 0.684499979019165,
+      "rewards/chosen": 0.12619122862815857,
+      "rewards/margins": 0.6128779053688049,
+      "rewards/rejected": -0.48668670654296875,
+      "step": 825
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.6109563602599812e-07,
+      "logps/chosen": -70.97602081298828,
+      "logps/rejected": -75.59082794189453,
+      "loss": 0.5226,
+      "losses/dpo": 0.5137518048286438,
+      "losses/sft": 1.4946039915084839,
+      "losses/total": 0.5137518048286438,
+      "ref_logps/chosen": -72.67564392089844,
+      "ref_logps/rejected": -70.24249267578125,
+      "rewards/accuracies": 0.7165000438690186,
+      "rewards/chosen": 0.169962078332901,
+      "rewards/margins": 0.704794704914093,
+      "rewards/rejected": -0.5348325967788696,
+      "step": 850
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 1.4948932219127206e-07,
+      "logps/chosen": -69.44739532470703,
+      "logps/rejected": -74.73712158203125,
+      "loss": 0.5483,
+      "losses/dpo": 0.554201602935791,
+      "losses/sft": 1.5423518419265747,
+      "losses/total": 0.554201602935791,
+      "ref_logps/chosen": -70.63737487792969,
+      "ref_logps/rejected": -69.3394546508789,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.11899794638156891,
+      "rewards/margins": 0.6587647795677185,
+      "rewards/rejected": -0.5397669076919556,
+      "step": 875
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 1.3788300835654597e-07,
+      "logps/chosen": -67.69676971435547,
+      "logps/rejected": -72.41621398925781,
+      "loss": 0.554,
+      "losses/dpo": 0.536446750164032,
+      "losses/sft": 1.52887761592865,
+      "losses/total": 0.536446750164032,
+      "ref_logps/chosen": -68.82073974609375,
+      "ref_logps/rejected": -67.15235137939453,
+      "rewards/accuracies": 0.6720000505447388,
+      "rewards/chosen": 0.11239679157733917,
+      "rewards/margins": 0.6387830972671509,
+      "rewards/rejected": -0.5263863205909729,
+      "step": 900
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.2627669452181985e-07,
+      "logps/chosen": -68.61820983886719,
+      "logps/rejected": -75.03334045410156,
+      "loss": 0.547,
+      "losses/dpo": 0.5469151139259338,
+      "losses/sft": 1.524001121520996,
+      "losses/total": 0.5469151139259338,
+      "ref_logps/chosen": -69.68536376953125,
+      "ref_logps/rejected": -69.33779907226562,
+      "rewards/accuracies": 0.6725000143051147,
+      "rewards/chosen": 0.10671478509902954,
+      "rewards/margins": 0.6762691736221313,
+      "rewards/rejected": -0.5695543885231018,
+      "step": 925
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.1467038068709377e-07,
+      "logps/chosen": -71.48025512695312,
+      "logps/rejected": -76.9962387084961,
+      "loss": 0.5328,
+      "losses/dpo": 0.5382718443870544,
+      "losses/sft": 1.5356690883636475,
+      "losses/total": 0.5382718443870544,
+      "ref_logps/chosen": -72.66265869140625,
+      "ref_logps/rejected": -70.87562561035156,
+      "rewards/accuracies": 0.7055000066757202,
+      "rewards/chosen": 0.11823976784944534,
+      "rewards/margins": 0.7303012013435364,
+      "rewards/rejected": -0.6120614409446716,
+      "step": 950
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.0306406685236768e-07,
+      "logps/chosen": -68.71895599365234,
+      "logps/rejected": -74.29911804199219,
+      "loss": 0.5524,
+      "losses/dpo": 0.5623547434806824,
+      "losses/sft": 1.6026860475540161,
+      "losses/total": 0.5623547434806824,
+      "ref_logps/chosen": -69.32998657226562,
+      "ref_logps/rejected": -68.43716430664062,
+      "rewards/accuracies": 0.6655000448226929,
+      "rewards/chosen": 0.06110435351729393,
+      "rewards/margins": 0.6473007202148438,
+      "rewards/rejected": -0.5861963629722595,
+      "step": 975
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 9.14577530176416e-08,
+      "logps/chosen": -69.40322875976562,
+      "logps/rejected": -73.88810729980469,
+      "loss": 0.5513,
+      "losses/dpo": 0.5662988424301147,
+      "losses/sft": 1.6082065105438232,
+      "losses/total": 0.5662988424301147,
+      "ref_logps/chosen": -70.1698226928711,
+      "ref_logps/rejected": -68.06956481933594,
+      "rewards/accuracies": 0.6759999990463257,
+      "rewards/chosen": 0.07665982842445374,
+      "rewards/margins": 0.6585137248039246,
+      "rewards/rejected": -0.5818539261817932,
+      "step": 1000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 7.98514391829155e-08,
+      "logps/chosen": -68.32543182373047,
+      "logps/rejected": -74.76167297363281,
+      "loss": 0.5433,
+      "losses/dpo": 0.5388572216033936,
+      "losses/sft": 1.5300703048706055,
+      "losses/total": 0.5388572216033936,
+      "ref_logps/chosen": -69.11152648925781,
+      "ref_logps/rejected": -68.69097900390625,
+      "rewards/accuracies": 0.6825000047683716,
+      "rewards/chosen": 0.07860930263996124,
+      "rewards/margins": 0.685679018497467,
+      "rewards/rejected": -0.6070696115493774,
+      "step": 1025
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 6.824512534818941e-08,
+      "logps/chosen": -70.73451232910156,
+      "logps/rejected": -77.00275421142578,
+      "loss": 0.5239,
+      "losses/dpo": 0.5082178115844727,
+      "losses/sft": 1.4840093851089478,
+      "losses/total": 0.5082178115844727,
+      "ref_logps/chosen": -72.08134460449219,
+      "ref_logps/rejected": -70.49996948242188,
+      "rewards/accuracies": 0.7019999623298645,
+      "rewards/chosen": 0.13468389213085175,
+      "rewards/margins": 0.7849621772766113,
+      "rewards/rejected": -0.6502782702445984,
+      "step": 1050
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 5.6638811513463324e-08,
+      "logps/chosen": -69.95764923095703,
+      "logps/rejected": -77.90116882324219,
+      "loss": 0.5327,
+      "losses/dpo": 0.5328630805015564,
+      "losses/sft": 1.6418886184692383,
+      "losses/total": 0.5328630805015564,
+      "ref_logps/chosen": -70.50801086425781,
+      "ref_logps/rejected": -71.11058807373047,
+      "rewards/accuracies": 0.6959999799728394,
+      "rewards/chosen": 0.05503645911812782,
+      "rewards/margins": 0.7340949773788452,
+      "rewards/rejected": -0.6790586113929749,
+      "step": 1075
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.503249767873723e-08,
+      "logps/chosen": -69.83995819091797,
+      "logps/rejected": -75.7170639038086,
+      "loss": 0.5415,
+      "losses/dpo": 0.5642114281654358,
+      "losses/sft": 1.5595824718475342,
+      "losses/total": 0.5642114281654358,
+      "ref_logps/chosen": -70.96809387207031,
+      "ref_logps/rejected": -69.68138885498047,
+      "rewards/accuracies": 0.6990000009536743,
+      "rewards/chosen": 0.11281368136405945,
+      "rewards/margins": 0.7163800001144409,
+      "rewards/rejected": -0.6035662889480591,
+      "step": 1100
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 3.3426183844011144e-08,
+      "logps/chosen": -72.0064697265625,
+      "logps/rejected": -75.64459228515625,
+      "loss": 0.553,
+      "losses/dpo": 0.6136656403541565,
+      "losses/sft": 1.6066731214523315,
+      "losses/total": 0.6136656403541565,
+      "ref_logps/chosen": -72.82428741455078,
+      "ref_logps/rejected": -69.51007843017578,
+      "rewards/accuracies": 0.6880000233650208,
+      "rewards/chosen": 0.08178197592496872,
+      "rewards/margins": 0.6952335834503174,
+      "rewards/rejected": -0.6134517192840576,
+      "step": 1125
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 2.181987000928505e-08,
+      "logps/chosen": -71.19115447998047,
+      "logps/rejected": -74.97571563720703,
+      "loss": 0.5495,
+      "losses/dpo": 0.5555659532546997,
+      "losses/sft": 1.547566533088684,
+      "losses/total": 0.5555659532546997,
+      "ref_logps/chosen": -72.04399108886719,
+      "ref_logps/rejected": -68.92461395263672,
+      "rewards/accuracies": 0.6770000457763672,
+      "rewards/chosen": 0.08528263866901398,
+      "rewards/margins": 0.6903927326202393,
+      "rewards/rejected": -0.6051101088523865,
+      "step": 1150
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.0213556174558959e-08,
+      "logps/chosen": -68.98538970947266,
+      "logps/rejected": -74.58392333984375,
+      "loss": 0.5254,
+      "losses/dpo": 0.49954432249069214,
+      "losses/sft": 1.4814612865447998,
+      "losses/total": 0.49954432249069214,
+      "ref_logps/chosen": -70.0972671508789,
+      "ref_logps/rejected": -68.21308898925781,
+      "rewards/accuracies": 0.6914999485015869,
+      "rewards/chosen": 0.11118759214878082,
+      "rewards/margins": 0.7482713460922241,
+      "rewards/rejected": -0.6370838284492493,
+      "step": 1175
+    },
+    {
+      "epoch": 3.0,
+      "step": 1197,
+      "total_flos": 0.0,
+      "train_loss": 0.5977537606095112,
+      "train_runtime": 15731.8751,
+      "train_samples_per_second": 6.094,
+      "train_steps_per_second": 0.076
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1197,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {},
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}