Training in progress, step 2600, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +291 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4a6235d767e0a6ef201b5455fcbbfeaa92b51edf50758fd8b882cd7af2d72ea
 size 257609792

 version https://git-lfs.github.com/spec/v1
+oid sha256:80575a517640befeb13d8a45ac64f043e3f42763e6b44469f20fcd33684343d7
 size 257609792

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a554d918bde3d725bedd8ee6820330007e6d0156885de419dc0031a85ecb2b4c
 size 515278091

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ccd6a8136d4f05e4f1eceb89bbc99924cd37d33d944767e7fa5a2668db41ad0
 size 515278091

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fd078c9e4932d689548ec9345ac18c4dd42503c4dbc8344b47f249dcb9160e9
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4f88a3ed70692d8f05b97617079ec0b41dc17b927a833bcbaa62616274bebe6
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7da7c5085795b13d2bf0030671cbddb9f62ae43221bf1424a3830d4cf8c19012
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:aea2b6a5675bb9dc7d6d847844f168cbc539a3493d586a8e2634d29c173b0f88
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f1ce0482198d251e67920fc79c9074aa1dba87f00828be5bfd635b348dbb078
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:64cd2b31c96e17fa70d4680796990915078e28651e7693ec8503c4c01869ff59
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7380073800738007,
   "eval_steps": 500,
-  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3400,6 +3400,294 @@
       "learning_rate": 7.00125e-05,
       "loss": 4.224,
       "step": 2400
     }
   ],
   "logging_steps": 5,
@@ -3419,7 +3707,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.26567309492224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7995079950799509,
   "eval_steps": 500,
+  "global_step": 2600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 7.00125e-05,
       "loss": 4.224,
       "step": 2400
+    },
+    {
+      "epoch": 0.7395448954489545,
+      "grad_norm": 0.35414189100265503,
+      "learning_rate": 6.995e-05,
+      "loss": 4.267,
+      "step": 2405
+    },
+    {
+      "epoch": 0.7410824108241082,
+      "grad_norm": 0.3554304838180542,
+      "learning_rate": 6.988750000000001e-05,
+      "loss": 4.1949,
+      "step": 2410
+    },
+    {
+      "epoch": 0.742619926199262,
+      "grad_norm": 0.3534418046474457,
+      "learning_rate": 6.9825e-05,
+      "loss": 4.2337,
+      "step": 2415
+    },
+    {
+      "epoch": 0.7441574415744158,
+      "grad_norm": 0.36624109745025635,
+      "learning_rate": 6.976250000000001e-05,
+      "loss": 4.2385,
+      "step": 2420
+    },
+    {
+      "epoch": 0.7456949569495694,
+      "grad_norm": 0.3525283932685852,
+      "learning_rate": 6.97e-05,
+      "loss": 4.2799,
+      "step": 2425
+    },
+    {
+      "epoch": 0.7472324723247232,
+      "grad_norm": 0.3583906590938568,
+      "learning_rate": 6.96375e-05,
+      "loss": 4.1917,
+      "step": 2430
+    },
+    {
+      "epoch": 0.748769987699877,
+      "grad_norm": 0.355895459651947,
+      "learning_rate": 6.9575e-05,
+      "loss": 4.2309,
+      "step": 2435
+    },
+    {
+      "epoch": 0.7503075030750308,
+      "grad_norm": 0.3442673981189728,
+      "learning_rate": 6.95125e-05,
+      "loss": 4.2104,
+      "step": 2440
+    },
+    {
+      "epoch": 0.7518450184501845,
+      "grad_norm": 0.35169875621795654,
+      "learning_rate": 6.945000000000001e-05,
+      "loss": 4.2586,
+      "step": 2445
+    },
+    {
+      "epoch": 0.7533825338253383,
+      "grad_norm": 0.36030516028404236,
+      "learning_rate": 6.93875e-05,
+      "loss": 4.2897,
+      "step": 2450
+    },
+    {
+      "epoch": 0.754920049200492,
+      "grad_norm": 0.3696916997432709,
+      "learning_rate": 6.9325e-05,
+      "loss": 4.2314,
+      "step": 2455
+    },
+    {
+      "epoch": 0.7564575645756457,
+      "grad_norm": 0.3628195822238922,
+      "learning_rate": 6.926250000000001e-05,
+      "loss": 4.1903,
+      "step": 2460
+    },
+    {
+      "epoch": 0.7579950799507995,
+      "grad_norm": 0.37186235189437866,
+      "learning_rate": 6.92e-05,
+      "loss": 4.2523,
+      "step": 2465
+    },
+    {
+      "epoch": 0.7595325953259533,
+      "grad_norm": 0.35027140378952026,
+      "learning_rate": 6.91375e-05,
+      "loss": 4.2943,
+      "step": 2470
+    },
+    {
+      "epoch": 0.761070110701107,
+      "grad_norm": 0.3844810128211975,
+      "learning_rate": 6.9075e-05,
+      "loss": 4.2552,
+      "step": 2475
+    },
+    {
+      "epoch": 0.7626076260762608,
+      "grad_norm": 0.35497698187828064,
+      "learning_rate": 6.90125e-05,
+      "loss": 4.2048,
+      "step": 2480
+    },
+    {
+      "epoch": 0.7641451414514145,
+      "grad_norm": 0.35539621114730835,
+      "learning_rate": 6.895000000000001e-05,
+      "loss": 4.3195,
+      "step": 2485
+    },
+    {
+      "epoch": 0.7656826568265682,
+      "grad_norm": 0.36448633670806885,
+      "learning_rate": 6.88875e-05,
+      "loss": 4.2099,
+      "step": 2490
+    },
+    {
+      "epoch": 0.767220172201722,
+      "grad_norm": 0.3572072982788086,
+      "learning_rate": 6.8825e-05,
+      "loss": 4.2637,
+      "step": 2495
+    },
+    {
+      "epoch": 0.7687576875768758,
+      "grad_norm": 0.3543466031551361,
+      "learning_rate": 6.876250000000001e-05,
+      "loss": 4.2106,
+      "step": 2500
+    },
+    {
+      "epoch": 0.7687576875768758,
+      "eval_loss": 4.25692892074585,
+      "eval_runtime": 15.9135,
+      "eval_samples_per_second": 62.84,
+      "eval_steps_per_second": 3.959,
+      "step": 2500
+    },
+    {
+      "epoch": 0.7702952029520295,
+      "grad_norm": 0.370313823223114,
+      "learning_rate": 6.87e-05,
+      "loss": 4.3354,
+      "step": 2505
+    },
+    {
+      "epoch": 0.7718327183271833,
+      "grad_norm": 0.3540562391281128,
+      "learning_rate": 6.86375e-05,
+      "loss": 4.2414,
+      "step": 2510
+    },
+    {
+      "epoch": 0.773370233702337,
+      "grad_norm": 0.3575718402862549,
+      "learning_rate": 6.8575e-05,
+      "loss": 4.1738,
+      "step": 2515
+    },
+    {
+      "epoch": 0.7749077490774908,
+      "grad_norm": 0.36341428756713867,
+      "learning_rate": 6.85125e-05,
+      "loss": 4.2806,
+      "step": 2520
+    },
+    {
+      "epoch": 0.7764452644526445,
+      "grad_norm": 0.3755071759223938,
+      "learning_rate": 6.845e-05,
+      "loss": 4.2433,
+      "step": 2525
+    },
+    {
+      "epoch": 0.7779827798277983,
+      "grad_norm": 0.3563622236251831,
+      "learning_rate": 6.83875e-05,
+      "loss": 4.2373,
+      "step": 2530
+    },
+    {
+      "epoch": 0.7795202952029521,
+      "grad_norm": 0.3693353235721588,
+      "learning_rate": 6.832500000000001e-05,
+      "loss": 4.2185,
+      "step": 2535
+    },
+    {
+      "epoch": 0.7810578105781057,
+      "grad_norm": 0.3789558708667755,
+      "learning_rate": 6.826250000000001e-05,
+      "loss": 4.2421,
+      "step": 2540
+    },
+    {
+      "epoch": 0.7825953259532595,
+      "grad_norm": 0.36780837178230286,
+      "learning_rate": 6.82e-05,
+      "loss": 4.258,
+      "step": 2545
+    },
+    {
+      "epoch": 0.7841328413284133,
+      "grad_norm": 0.3676084280014038,
+      "learning_rate": 6.81375e-05,
+      "loss": 4.3125,
+      "step": 2550
+    },
+    {
+      "epoch": 0.785670356703567,
+      "grad_norm": 0.3575945496559143,
+      "learning_rate": 6.8075e-05,
+      "loss": 4.2462,
+      "step": 2555
+    },
+    {
+      "epoch": 0.7872078720787208,
+      "grad_norm": 0.36073750257492065,
+      "learning_rate": 6.80125e-05,
+      "loss": 4.1678,
+      "step": 2560
+    },
+    {
+      "epoch": 0.7887453874538746,
+      "grad_norm": 0.35818690061569214,
+      "learning_rate": 6.795e-05,
+      "loss": 4.3244,
+      "step": 2565
+    },
+    {
+      "epoch": 0.7902829028290282,
+      "grad_norm": 0.353287935256958,
+      "learning_rate": 6.78875e-05,
+      "loss": 4.2217,
+      "step": 2570
+    },
+    {
+      "epoch": 0.791820418204182,
+      "grad_norm": 0.3640352785587311,
+      "learning_rate": 6.782500000000001e-05,
+      "loss": 4.2434,
+      "step": 2575
+    },
+    {
+      "epoch": 0.7933579335793358,
+      "grad_norm": 0.37529149651527405,
+      "learning_rate": 6.77625e-05,
+      "loss": 4.2322,
+      "step": 2580
+    },
+    {
+      "epoch": 0.7948954489544895,
+      "grad_norm": 0.3544490337371826,
+      "learning_rate": 6.77e-05,
+      "loss": 4.2592,
+      "step": 2585
+    },
+    {
+      "epoch": 0.7964329643296433,
+      "grad_norm": 0.3656282424926758,
+      "learning_rate": 6.76375e-05,
+      "loss": 4.2829,
+      "step": 2590
+    },
+    {
+      "epoch": 0.7979704797047971,
+      "grad_norm": 0.3591875731945038,
+      "learning_rate": 6.7575e-05,
+      "loss": 4.3061,
+      "step": 2595
+    },
+    {
+      "epoch": 0.7995079950799509,
+      "grad_norm": 0.3518073260784149,
+      "learning_rate": 6.75125e-05,
+      "loss": 4.2296,
+      "step": 2600
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2.45447918616576e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null