Training in progress, step 3750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +438 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32f20e5a113f0ce12c0b08ff61de538680ca692bc68665ee0332272cc0d8f53c
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0f2359775ec058105a768a27e0aec2fd7b09c0fef450becc3fea6a2140d5551
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:080d08b596e97f811e550148cdd9224bf440ad30a23acba52af3d08c0021f9aa
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:22b0e07d88b69f37af8463bb1ac2f6ff8e912db26c18c2ee123c3a1948596d38
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c26e3773f4be8664a2594f025c73a5f9434f857a45f46fc072657f1fdefb7000
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0e93581e91c352d5ee493f505f8757c94a31fb5b16f71a9d85577535431525
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:070547fc77391e346b90917e21c08178811df2dccd6cf65dcc04961ee24e1903
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:30b7c8be324c8b4289d82c59d6cbd2a46df58415895691106518590654dd09ba
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 143.47826086956522,
   "eval_steps": 150,
-  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3197,6 +3197,441 @@
       "EMA_steps_per_second": 25.834,
       "epoch": 143.47826086956522,
       "step": 3300
     }
   ],
   "logging_steps": 10,
@@ -3216,7 +3651,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.51203574828974e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 163.04347826086956,
   "eval_steps": 150,
+  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.834,
       "epoch": 143.47826086956522,
       "step": 3300
+    },
+    {
+      "epoch": 143.91304347826087,
+      "grad_norm": 1.9049878120422363,
+      "learning_rate": 3.9382995689756636e-06,
+      "loss": 0.2537,
+      "step": 3310
+    },
+    {
+      "epoch": 144.34782608695653,
+      "grad_norm": 1.5125168561935425,
+      "learning_rate": 3.9382593694923146e-06,
+      "loss": 0.2142,
+      "step": 3320
+    },
+    {
+      "epoch": 144.7826086956522,
+      "grad_norm": 1.737127661705017,
+      "learning_rate": 3.938218389718042e-06,
+      "loss": 0.2706,
+      "step": 3330
+    },
+    {
+      "epoch": 145.2173913043478,
+      "grad_norm": 2.886361837387085,
+      "learning_rate": 3.938176629669088e-06,
+      "loss": 0.2079,
+      "step": 3340
+    },
+    {
+      "epoch": 145.65217391304347,
+      "grad_norm": 1.8378046751022339,
+      "learning_rate": 3.938134089362005e-06,
+      "loss": 0.2378,
+      "step": 3350
+    },
+    {
+      "epoch": 146.08695652173913,
+      "grad_norm": 1.9865158796310425,
+      "learning_rate": 3.938090768813655e-06,
+      "loss": 0.2649,
+      "step": 3360
+    },
+    {
+      "epoch": 146.52173913043478,
+      "grad_norm": 1.9572851657867432,
+      "learning_rate": 3.938046668041207e-06,
+      "loss": 0.2268,
+      "step": 3370
+    },
+    {
+      "epoch": 146.95652173913044,
+      "grad_norm": 1.6120030879974365,
+      "learning_rate": 3.9380017870621435e-06,
+      "loss": 0.2154,
+      "step": 3380
+    },
+    {
+      "epoch": 147.3913043478261,
+      "grad_norm": 1.6852221488952637,
+      "learning_rate": 3.9379561258942536e-06,
+      "loss": 0.2284,
+      "step": 3390
+    },
+    {
+      "epoch": 147.82608695652175,
+      "grad_norm": 1.568108081817627,
+      "learning_rate": 3.937909684555634e-06,
+      "loss": 0.2535,
+      "step": 3400
+    },
+    {
+      "epoch": 148.2608695652174,
+      "grad_norm": 1.4495244026184082,
+      "learning_rate": 3.937862463064695e-06,
+      "loss": 0.2152,
+      "step": 3410
+    },
+    {
+      "epoch": 148.69565217391303,
+      "grad_norm": 1.8378851413726807,
+      "learning_rate": 3.937814461440151e-06,
+      "loss": 0.2494,
+      "step": 3420
+    },
+    {
+      "epoch": 149.1304347826087,
+      "grad_norm": 1.866101622581482,
+      "learning_rate": 3.937765679701031e-06,
+      "loss": 0.2711,
+      "step": 3430
+    },
+    {
+      "epoch": 149.56521739130434,
+      "grad_norm": 2.2176806926727295,
+      "learning_rate": 3.937716117866669e-06,
+      "loss": 0.2648,
+      "step": 3440
+    },
+    {
+      "epoch": 150.0,
+      "grad_norm": 3.262206792831421,
+      "learning_rate": 3.93766577595671e-06,
+      "loss": 0.2203,
+      "step": 3450
+    },
+    {
+      "epoch": 150.0,
+      "eval_loss": 0.9511697888374329,
+      "eval_runtime": 0.4583,
+      "eval_samples_per_second": 21.821,
+      "eval_steps_per_second": 21.821,
+      "step": 3450
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.5187,
+      "Start_State_samples_per_second": 19.279,
+      "Start_State_steps_per_second": 19.279,
+      "epoch": 150.0,
+      "step": 3450
+    },
+    {
+      "Raw_Model_loss": 0.9511697888374329,
+      "Raw_Model_runtime": 0.5075,
+      "Raw_Model_samples_per_second": 19.705,
+      "Raw_Model_steps_per_second": 19.705,
+      "epoch": 150.0,
+      "step": 3450
+    },
+    {
+      "SWA_loss": 0.7842515707015991,
+      "SWA_runtime": 0.4974,
+      "SWA_samples_per_second": 20.104,
+      "SWA_steps_per_second": 20.104,
+      "epoch": 150.0,
+      "step": 3450
+    },
+    {
+      "EMA_loss": 0.8596795201301575,
+      "EMA_runtime": 0.437,
+      "EMA_samples_per_second": 22.881,
+      "EMA_steps_per_second": 22.881,
+      "epoch": 150.0,
+      "step": 3450
+    },
+    {
+      "epoch": 150.43478260869566,
+      "grad_norm": 1.7477214336395264,
+      "learning_rate": 2.5260336320414934e-07,
+      "loss": 0.2137,
+      "step": 3460
+    },
+    {
+      "epoch": 150.8695652173913,
+      "grad_norm": 1.9981499910354614,
+      "learning_rate": 5.052067264082987e-07,
+      "loss": 0.262,
+      "step": 3470
+    },
+    {
+      "epoch": 151.30434782608697,
+      "grad_norm": 1.6229016780853271,
+      "learning_rate": 7.57810089612448e-07,
+      "loss": 0.1996,
+      "step": 3480
+    },
+    {
+      "epoch": 151.7391304347826,
+      "grad_norm": 2.360182046890259,
+      "learning_rate": 1.0104134528165973e-06,
+      "loss": 0.2474,
+      "step": 3490
+    },
+    {
+      "epoch": 152.17391304347825,
+      "grad_norm": 2.097730875015259,
+      "learning_rate": 1.2630168160207466e-06,
+      "loss": 0.2421,
+      "step": 3500
+    },
+    {
+      "epoch": 152.6086956521739,
+      "grad_norm": 1.616011381149292,
+      "learning_rate": 1.515620179224896e-06,
+      "loss": 0.2398,
+      "step": 3510
+    },
+    {
+      "epoch": 153.04347826086956,
+      "grad_norm": 1.5673476457595825,
+      "learning_rate": 1.7682235424290452e-06,
+      "loss": 0.2065,
+      "step": 3520
+    },
+    {
+      "epoch": 153.47826086956522,
+      "grad_norm": 2.3053834438323975,
+      "learning_rate": 2.0208269056331947e-06,
+      "loss": 0.2502,
+      "step": 3530
+    },
+    {
+      "epoch": 153.91304347826087,
+      "grad_norm": 2.665015697479248,
+      "learning_rate": 2.273430268837344e-06,
+      "loss": 0.2317,
+      "step": 3540
+    },
+    {
+      "epoch": 154.34782608695653,
+      "grad_norm": 2.2935352325439453,
+      "learning_rate": 2.5260336320414932e-06,
+      "loss": 0.2402,
+      "step": 3550
+    },
+    {
+      "epoch": 154.7826086956522,
+      "grad_norm": 2.005519151687622,
+      "learning_rate": 2.5260333817317373e-06,
+      "loss": 0.2341,
+      "step": 3560
+    },
+    {
+      "epoch": 155.2173913043478,
+      "grad_norm": 1.6518237590789795,
+      "learning_rate": 2.5260326308025684e-06,
+      "loss": 0.1959,
+      "step": 3570
+    },
+    {
+      "epoch": 155.65217391304347,
+      "grad_norm": 2.093646287918091,
+      "learning_rate": 2.526031379254284e-06,
+      "loss": 0.2666,
+      "step": 3580
+    },
+    {
+      "epoch": 156.08695652173913,
+      "grad_norm": 1.6480534076690674,
+      "learning_rate": 2.5260296270873804e-06,
+      "loss": 0.203,
+      "step": 3590
+    },
+    {
+      "epoch": 156.52173913043478,
+      "grad_norm": 2.494234323501587,
+      "learning_rate": 2.5260273743025526e-06,
+      "loss": 0.2677,
+      "step": 3600
+    },
+    {
+      "epoch": 156.52173913043478,
+      "eval_loss": 0.9589301347732544,
+      "eval_runtime": 0.5211,
+      "eval_samples_per_second": 19.192,
+      "eval_steps_per_second": 19.192,
+      "step": 3600
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.5189,
+      "Start_State_samples_per_second": 19.273,
+      "Start_State_steps_per_second": 19.273,
+      "epoch": 156.52173913043478,
+      "step": 3600
+    },
+    {
+      "Raw_Model_loss": 0.9589301347732544,
+      "Raw_Model_runtime": 0.4778,
+      "Raw_Model_samples_per_second": 20.928,
+      "Raw_Model_steps_per_second": 20.928,
+      "epoch": 156.52173913043478,
+      "step": 3600
+    },
+    {
+      "SWA_loss": 0.7895848155021667,
+      "SWA_runtime": 0.4495,
+      "SWA_samples_per_second": 22.249,
+      "SWA_steps_per_second": 22.249,
+      "epoch": 156.52173913043478,
+      "step": 3600
+    },
+    {
+      "EMA_loss": 0.8595443964004517,
+      "EMA_runtime": 0.4523,
+      "EMA_samples_per_second": 22.111,
+      "EMA_steps_per_second": 22.111,
+      "epoch": 156.52173913043478,
+      "step": 3600
+    },
+    {
+      "epoch": 156.95652173913044,
+      "grad_norm": 2.5807197093963623,
+      "learning_rate": 2.526024620900692e-06,
+      "loss": 0.1972,
+      "step": 3610
+    },
+    {
+      "epoch": 157.3913043478261,
+      "grad_norm": 1.868238091468811,
+      "learning_rate": 2.526021366882892e-06,
+      "loss": 0.2551,
+      "step": 3620
+    },
+    {
+      "epoch": 157.82608695652175,
+      "grad_norm": 1.9588141441345215,
+      "learning_rate": 2.526017612250441e-06,
+      "loss": 0.2346,
+      "step": 3630
+    },
+    {
+      "epoch": 158.2608695652174,
+      "grad_norm": 2.2502245903015137,
+      "learning_rate": 2.5260133570048273e-06,
+      "loss": 0.2246,
+      "step": 3640
+    },
+    {
+      "epoch": 158.69565217391303,
+      "grad_norm": 3.502547025680542,
+      "learning_rate": 2.526008601147738e-06,
+      "loss": 0.2274,
+      "step": 3650
+    },
+    {
+      "epoch": 159.1304347826087,
+      "grad_norm": 2.578259229660034,
+      "learning_rate": 2.526003344681058e-06,
+      "loss": 0.2527,
+      "step": 3660
+    },
+    {
+      "epoch": 159.56521739130434,
+      "grad_norm": 1.8786590099334717,
+      "learning_rate": 2.5259975876068714e-06,
+      "loss": 0.2368,
+      "step": 3670
+    },
+    {
+      "epoch": 160.0,
+      "grad_norm": 2.6274077892303467,
+      "learning_rate": 2.525991329927459e-06,
+      "loss": 0.2028,
+      "step": 3680
+    },
+    {
+      "epoch": 160.43478260869566,
+      "grad_norm": 2.002021551132202,
+      "learning_rate": 2.5259845716453015e-06,
+      "loss": 0.2279,
+      "step": 3690
+    },
+    {
+      "epoch": 160.8695652173913,
+      "grad_norm": 1.5384571552276611,
+      "learning_rate": 2.525977312763078e-06,
+      "loss": 0.2436,
+      "step": 3700
+    },
+    {
+      "epoch": 161.30434782608697,
+      "grad_norm": 1.5973771810531616,
+      "learning_rate": 2.5259695532836654e-06,
+      "loss": 0.2762,
+      "step": 3710
+    },
+    {
+      "epoch": 161.7391304347826,
+      "grad_norm": 2.0545079708099365,
+      "learning_rate": 2.52596129321014e-06,
+      "loss": 0.2278,
+      "step": 3720
+    },
+    {
+      "epoch": 162.17391304347825,
+      "grad_norm": 2.2520041465759277,
+      "learning_rate": 2.525952532545775e-06,
+      "loss": 0.2153,
+      "step": 3730
+    },
+    {
+      "epoch": 162.6086956521739,
+      "grad_norm": 2.081439971923828,
+      "learning_rate": 2.5259432712940426e-06,
+      "loss": 0.2231,
+      "step": 3740
+    },
+    {
+      "epoch": 163.04347826086956,
+      "grad_norm": 2.37165904045105,
+      "learning_rate": 2.5259335094586143e-06,
+      "loss": 0.2235,
+      "step": 3750
+    },
+    {
+      "epoch": 163.04347826086956,
+      "eval_loss": 0.9614953994750977,
+      "eval_runtime": 0.407,
+      "eval_samples_per_second": 24.568,
+      "eval_steps_per_second": 24.568,
+      "step": 3750
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.3898,
+      "Start_State_samples_per_second": 25.657,
+      "Start_State_steps_per_second": 25.657,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "Raw_Model_loss": 0.9614953994750977,
+      "Raw_Model_runtime": 0.386,
+      "Raw_Model_samples_per_second": 25.905,
+      "Raw_Model_steps_per_second": 25.905,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "SWA_loss": 0.7928785681724548,
+      "SWA_runtime": 0.3893,
+      "SWA_samples_per_second": 25.686,
+      "SWA_steps_per_second": 25.686,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "EMA_loss": 0.860231876373291,
+      "EMA_runtime": 0.386,
+      "EMA_samples_per_second": 25.904,
+      "EMA_steps_per_second": 25.904,
+      "epoch": 163.04347826086956,
+      "step": 3750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.668631592798618e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null