Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step450/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step450/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step450/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step450/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step450/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +335 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72c4bc97664d0aa7a098b0c228a22ae32034b0dbf4ab4da13857ed465b5a65d4
 size 1172343536

 version https://git-lfs.github.com/spec/v1
+oid sha256:95d60326c2fb5bdc2227ea23053e3756d83dc36ddea29eca5dc260046692f87a
 size 1172343536

last-checkpoint/global_step450/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fec4ba427615f9a1ac4682fa6987540c7cc93575c065657c8e241a4fc48b789f
+size 883824229

last-checkpoint/global_step450/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b766c1393f59ceff3753811c1d8399c3c330ea495add89222f44c4e8d0c07e96
+size 883824293

last-checkpoint/global_step450/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a59ea45fd65e36404fddf28a064870b15927977978069b99a6db5b4ea352e11a
+size 883824293

last-checkpoint/global_step450/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:845db1ea96215d11a9fffaeb5e03c37f5e6840004864dd6829827b2e4e4c1662
+size 883824293

last-checkpoint/global_step450/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e664a44aa87d7fd3709530850d512a9b9b569f4be604b4b3cd6efc30a584551
+size 1172522073

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step350~~


1	+ global_step450

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c372628cf0f11a7814089f880131f006d1271095beb5e7152f3c14aa8985e326
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:14e0114f828a13cb0ca5e64776036e4737fc28bdf952551895db70f4b43b75fb
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8627b9687b17d3eb42763f7499513d01033a545f5fdc3224442fa88df7b07c1
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a1299b80d6a33e2be3e9ef939d892cd00826cf75bf71605c4233c7da79f587c
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2861b0db544103a2392f7009e235760e91d4f2dcf2605bc9fda62bad0578110
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:53a7808ab1ff80dd1fb0aa15bd8b839fe93e027e522f673e2233ef780746be2f
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5661cf15d465afc34868de007aed00c0a576292f6e776fe25a04f040a9501399
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:829ff85ee41653334c647e740ab9be86f7a1e498563365c34f3b1d0c23c443af
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a14f05b7034e739d561e3e8c467aa7c3cfde2b5a09c502a2513b18be6676f89e
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:8693d7d5a684e7cf028814f0eb1563a3103edf4073a4bae9acefa6ff4db05daf
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.04868408665060997,
   "best_model_checkpoint": null,
-  "epoch": 0.30401737242128124,
   "eval_steps": 50,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1170,6 +1170,338 @@
       "eval_samples_per_second": 45.201,
       "eval_steps_per_second": 2.833,
       "step": 350
     }
   ],
   "logging_steps": 5,

 {
   "best_global_step": null,
+  "best_metric": 0.04127497971057892,
   "best_model_checkpoint": null,
+  "epoch": 0.39087947882736157,
   "eval_steps": 50,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.201,
       "eval_steps_per_second": 2.833,
       "step": 350
+    },
+    {
+      "epoch": 0.30836047774158526,
+      "grad_norm": 2.1560702323913574,
+      "learning_rate": 2.5948633996090076e-05,
+      "logits/chosen": -0.648144543170929,
+      "logits/rejected": -1.063085913658142,
+      "logps/chosen": -104.30000305175781,
+      "logps/rejected": -205.97500610351562,
+      "loss": 0.0555,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -3.25,
+      "rewards/margins": 14.009374618530273,
+      "rewards/rejected": -17.251562118530273,
+      "step": 355
+    },
+    {
+      "epoch": 0.3127035830618892,
+      "grad_norm": 0.7994560599327087,
+      "learning_rate": 2.5946957521029034e-05,
+      "logits/chosen": -0.589550793170929,
+      "logits/rejected": -1.0056641101837158,
+      "logps/chosen": -102.1875,
+      "logps/rejected": -196.85000610351562,
+      "loss": 0.0448,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.729687452316284,
+      "rewards/margins": 12.6953125,
+      "rewards/rejected": -15.425000190734863,
+      "step": 360
+    },
+    {
+      "epoch": 0.31704668838219324,
+      "grad_norm": 1.350748896598816,
+      "learning_rate": 2.5945248440469054e-05,
+      "logits/chosen": -0.571044921875,
+      "logits/rejected": -1.0046875476837158,
+      "logps/chosen": -102.25,
+      "logps/rejected": -198.10000610351562,
+      "loss": 0.0445,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -3.49609375,
+      "rewards/margins": 12.8671875,
+      "rewards/rejected": -16.371875762939453,
+      "step": 365
+    },
+    {
+      "epoch": 0.32138979370249726,
+      "grad_norm": 2.794750452041626,
+      "learning_rate": 2.594350675871275e-05,
+      "logits/chosen": -0.563232421875,
+      "logits/rejected": -0.991992175579071,
+      "logps/chosen": -111.98750305175781,
+      "logps/rejected": -219.9499969482422,
+      "loss": 0.0467,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -4.977734565734863,
+      "rewards/margins": 14.850000381469727,
+      "rewards/rejected": -19.828125,
+      "step": 370
+    },
+    {
+      "epoch": 0.3257328990228013,
+      "grad_norm": 0.9325956106185913,
+      "learning_rate": 2.5941732480144794e-05,
+      "logits/chosen": -0.5328613519668579,
+      "logits/rejected": -0.937207043170929,
+      "logps/chosen": -110.8375015258789,
+      "logps/rejected": -211.3000030517578,
+      "loss": 0.0442,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -4.219140529632568,
+      "rewards/margins": 14.128125190734863,
+      "rewards/rejected": -18.346874237060547,
+      "step": 375
+    },
+    {
+      "epoch": 0.3300760043431053,
+      "grad_norm": 1.3923671245574951,
+      "learning_rate": 2.593992560923194e-05,
+      "logits/chosen": -0.5045410394668579,
+      "logits/rejected": -0.908007800579071,
+      "logps/chosen": -109.01249694824219,
+      "logps/rejected": -205.22500610351562,
+      "loss": 0.0491,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -3.807812452316284,
+      "rewards/margins": 13.123437881469727,
+      "rewards/rejected": -16.9296875,
+      "step": 380
+    },
+    {
+      "epoch": 0.3344191096634093,
+      "grad_norm": 0.972490668296814,
+      "learning_rate": 2.5938086150522983e-05,
+      "logits/chosen": -0.547314465045929,
+      "logits/rejected": -0.972460925579071,
+      "logps/chosen": -108.2125015258789,
+      "logps/rejected": -211.27499389648438,
+      "loss": 0.0426,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.686328172683716,
+      "rewards/margins": 13.806249618530273,
+      "rewards/rejected": -17.496875762939453,
+      "step": 385
+    },
+    {
+      "epoch": 0.33876221498371334,
+      "grad_norm": 1.590657353401184,
+      "learning_rate": 2.5936214108648753e-05,
+      "logits/chosen": -0.5133301019668579,
+      "logits/rejected": -0.924511730670929,
+      "logps/chosen": -105.9625015258789,
+      "logps/rejected": -202.375,
+      "loss": 0.0422,
+      "rewards/accuracies": 0.984375,
+      "rewards/chosen": -3.657031297683716,
+      "rewards/margins": 12.839062690734863,
+      "rewards/rejected": -16.495311737060547,
+      "step": 390
+    },
+    {
+      "epoch": 0.34310532030401736,
+      "grad_norm": 0.83821702003479,
+      "learning_rate": 2.5934309488322115e-05,
+      "logits/chosen": -0.47832030057907104,
+      "logits/rejected": -0.9600585699081421,
+      "logps/chosen": -103.4375,
+      "logps/rejected": -204.75,
+      "loss": 0.042,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.2427735328674316,
+      "rewards/margins": 13.449999809265137,
+      "rewards/rejected": -16.6953125,
+      "step": 395
+    },
+    {
+      "epoch": 0.3474484256243214,
+      "grad_norm": 3.6917247772216797,
+      "learning_rate": 2.5932372294337945e-05,
+      "logits/chosen": -0.5101073980331421,
+      "logits/rejected": -0.9908202886581421,
+      "logps/chosen": -107.4124984741211,
+      "logps/rejected": -211.47500610351562,
+      "loss": 0.0661,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -3.83984375,
+      "rewards/margins": 13.987500190734863,
+      "rewards/rejected": -17.837499618530273,
+      "step": 400
+    },
+    {
+      "epoch": 0.3474484256243214,
+      "eval_logits/chosen": -0.45194748044013977,
+      "eval_logits/rejected": -0.9559031128883362,
+      "eval_logps/chosen": -107.63176727294922,
+      "eval_logps/rejected": -211.56678771972656,
+      "eval_loss": 0.05772905796766281,
+      "eval_rewards/accuracies": 0.9812725782394409,
+      "eval_rewards/chosen": -3.8446807861328125,
+      "eval_rewards/margins": 14.318818092346191,
+      "eval_rewards/rejected": -18.15907096862793,
+      "eval_runtime": 97.8489,
+      "eval_samples_per_second": 45.172,
+      "eval_steps_per_second": 2.831,
+      "step": 400
+    },
+    {
+      "epoch": 0.3517915309446254,
+      "grad_norm": 2.334516763687134,
+      "learning_rate": 2.5930402531573135e-05,
+      "logits/chosen": -0.42927247285842896,
+      "logits/rejected": -0.9527343511581421,
+      "logps/chosen": -108.92500305175781,
+      "logps/rejected": -213.22500610351562,
+      "loss": 0.0561,
+      "rewards/accuracies": 0.9765625,
+      "rewards/chosen": -3.4814453125,
+      "rewards/margins": 14.425000190734863,
+      "rewards/rejected": -17.8984375,
+      "step": 405
+    },
+    {
+      "epoch": 0.3561346362649294,
+      "grad_norm": 1.1270828247070312,
+      "learning_rate": 2.5928400204986555e-05,
+      "logits/chosen": -0.3331298828125,
+      "logits/rejected": -0.8285156488418579,
+      "logps/chosen": -103.2125015258789,
+      "logps/rejected": -201.72500610351562,
+      "loss": 0.0509,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -2.831835985183716,
+      "rewards/margins": 13.015625,
+      "rewards/rejected": -15.84375,
+      "step": 410
+    },
+    {
+      "epoch": 0.36047774158523344,
+      "grad_norm": 0.4610127806663513,
+      "learning_rate": 2.5926365319619057e-05,
+      "logits/chosen": -0.23121948540210724,
+      "logits/rejected": -0.729052722454071,
+      "logps/chosen": -99.9000015258789,
+      "logps/rejected": -193.75,
+      "loss": 0.036,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.1563477516174316,
+      "rewards/margins": 12.543749809265137,
+      "rewards/rejected": -14.701562881469727,
+      "step": 415
+    },
+    {
+      "epoch": 0.36482084690553745,
+      "grad_norm": 0.6297826170921326,
+      "learning_rate": 2.592429788059347e-05,
+      "logits/chosen": -0.2296913117170334,
+      "logits/rejected": -0.687695324420929,
+      "logps/chosen": -99.42500305175781,
+      "logps/rejected": -192.1750030517578,
+      "loss": 0.06,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -2.623828172683716,
+      "rewards/margins": 12.537500381469727,
+      "rewards/rejected": -15.157812118530273,
+      "step": 420
+    },
+    {
+      "epoch": 0.3691639522258415,
+      "grad_norm": 0.379153311252594,
+      "learning_rate": 2.592219789311456e-05,
+      "logits/chosen": -0.2949768006801605,
+      "logits/rejected": -0.736132800579071,
+      "logps/chosen": -105.38749694824219,
+      "logps/rejected": -202.52499389648438,
+      "loss": 0.0345,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -3.126757860183716,
+      "rewards/margins": 13.285937309265137,
+      "rewards/rejected": -16.415624618530273,
+      "step": 425
+    },
+    {
+      "epoch": 0.3735070575461455,
+      "grad_norm": 1.750226616859436,
+      "learning_rate": 2.592006536246905e-05,
+      "logits/chosen": -0.30212098360061646,
+      "logits/rejected": -0.7582031488418579,
+      "logps/chosen": -104.73750305175781,
+      "logps/rejected": -200.22500610351562,
+      "loss": 0.051,
+      "rewards/accuracies": 0.979687511920929,
+      "rewards/chosen": -3.115234375,
+      "rewards/margins": 13.2265625,
+      "rewards/rejected": -16.332813262939453,
+      "step": 430
+    },
+    {
+      "epoch": 0.3778501628664495,
+      "grad_norm": 1.2224334478378296,
+      "learning_rate": 2.5917900294025585e-05,
+      "logits/chosen": -0.24736633896827698,
+      "logits/rejected": -0.712597668170929,
+      "logps/chosen": -101.94999694824219,
+      "logps/rejected": -192.72500610351562,
+      "loss": 0.0391,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -2.7787108421325684,
+      "rewards/margins": 12.251562118530273,
+      "rewards/rejected": -15.020312309265137,
+      "step": 435
+    },
+    {
+      "epoch": 0.38219326818675353,
+      "grad_norm": 0.9052988886833191,
+      "learning_rate": 2.5915702693234714e-05,
+      "logits/chosen": -0.2435302734375,
+      "logits/rejected": -0.708789050579071,
+      "logps/chosen": -97.75,
+      "logps/rejected": -188.5,
+      "loss": 0.0276,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -2.202831983566284,
+      "rewards/margins": 11.854687690734863,
+      "rewards/rejected": -14.059374809265137,
+      "step": 440
+    },
+    {
+      "epoch": 0.38653637350705755,
+      "grad_norm": 1.0507088899612427,
+      "learning_rate": 2.59134725656289e-05,
+      "logits/chosen": -0.25420379638671875,
+      "logits/rejected": -0.6980956792831421,
+      "logps/chosen": -100.5250015258789,
+      "logps/rejected": -193.5,
+      "loss": 0.0352,
+      "rewards/accuracies": 0.9859374761581421,
+      "rewards/chosen": -2.911425828933716,
+      "rewards/margins": 12.381250381469727,
+      "rewards/rejected": -15.293749809265137,
+      "step": 445
+    },
+    {
+      "epoch": 0.39087947882736157,
+      "grad_norm": 1.0869028568267822,
+      "learning_rate": 2.5911209916822487e-05,
+      "logits/chosen": -0.2699432373046875,
+      "logits/rejected": -0.7374023199081421,
+      "logps/chosen": -104.23750305175781,
+      "logps/rejected": -201.0,
+      "loss": 0.0237,
+      "rewards/accuracies": 0.989062488079071,
+      "rewards/chosen": -3.2496094703674316,
+      "rewards/margins": 12.903124809265137,
+      "rewards/rejected": -16.1484375,
+      "step": 450
+    },
+    {
+      "epoch": 0.39087947882736157,
+      "eval_logits/chosen": -0.2738350033760071,
+      "eval_logits/rejected": -0.7211896181106567,
+      "eval_logps/chosen": -103.11913299560547,
+      "eval_logps/rejected": -197.62094116210938,
+      "eval_loss": 0.04127497971057892,
+      "eval_rewards/accuracies": 0.984882652759552,
+      "eval_rewards/chosen": -3.015328884124756,
+      "eval_rewards/margins": 12.59047794342041,
+      "eval_rewards/rejected": -15.60582160949707,
+      "eval_runtime": 97.5164,
+      "eval_samples_per_second": 45.326,
+      "eval_steps_per_second": 2.841,
+      "step": 450
     }
   ],
   "logging_steps": 5,