Training in progress, step 11500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62f77201047c0ff7c5527ffc5ccf11b4138f77fae747adff964ee88ae1f98afc
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbe911786fb4b3454d02608c237b36cc20b52333d42fa68272921c094a01a632
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ace327ac217bad5e9c3541a67c8adbffd0c6930f7ad271ab5e15f9a6306ce52e
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:83e156617695722c4ccab8876c70abb964581f51616c0cec63d83f236c2f3130
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca9715fac08ad0b70edb3a378bc21ad649dabc882b316cdb77b215f678babe3b
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ffe8fac68804a21cd2d55f992832d3e8fb9ed8d46f7a6aafd6debfef9c29633
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d77946d2c30708215d82675369c6b0f4ea0ac50e0bfa8851a58c893e34baac40
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:116f0b85bffdc97adeb264e8dbd65d6acc7d514e82a48ea5ea50bd5091784a48
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8584220307484371,
   "eval_steps": 500,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7891,6 +7891,364 @@
       "eval_samples_per_second": 262.842,
       "eval_steps_per_second": 5.52,
       "step": 11000
     }
   ],
   "logging_steps": 10,
@@ -7910,7 +8268,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.679004125896376e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9428957594188208,
   "eval_steps": 500,
+  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 262.842,
       "eval_steps_per_second": 5.52,
       "step": 11000
+    },
+    {
+      "epoch": 1.8601115053218449,
+      "grad_norm": 0.455091655254364,
+      "learning_rate": 5.225389455120976e-06,
+      "loss": 4.29366455078125,
+      "step": 11010
+    },
+    {
+      "epoch": 1.8618009798952526,
+      "grad_norm": 0.46570661664009094,
+      "learning_rate": 5.1008000218881576e-06,
+      "loss": 4.286912536621093,
+      "step": 11020
+    },
+    {
+      "epoch": 1.8634904544686601,
+      "grad_norm": 0.4428755044937134,
+      "learning_rate": 4.977688171116923e-06,
+      "loss": 4.300152206420899,
+      "step": 11030
+    },
+    {
+      "epoch": 1.8651799290420679,
+      "grad_norm": 0.4450303316116333,
+      "learning_rate": 4.856055158217298e-06,
+      "loss": 4.289414978027343,
+      "step": 11040
+    },
+    {
+      "epoch": 1.8668694036154756,
+      "grad_norm": 0.45025452971458435,
+      "learning_rate": 4.735902223519173e-06,
+      "loss": 4.273600006103516,
+      "step": 11050
+    },
+    {
+      "epoch": 1.868558878188883,
+      "grad_norm": 0.4395146071910858,
+      "learning_rate": 4.6172305922595746e-06,
+      "loss": 4.288070297241211,
+      "step": 11060
+    },
+    {
+      "epoch": 1.870248352762291,
+      "grad_norm": 0.45017367601394653,
+      "learning_rate": 4.500041474570265e-06,
+      "loss": 4.298558044433594,
+      "step": 11070
+    },
+    {
+      "epoch": 1.8719378273356986,
+      "grad_norm": 0.45083948969841003,
+      "learning_rate": 4.384336065465349e-06,
+      "loss": 4.278664398193359,
+      "step": 11080
+    },
+    {
+      "epoch": 1.8736273019091063,
+      "grad_norm": 0.4492949843406677,
+      "learning_rate": 4.270115544829017e-06,
+      "loss": 4.304440307617187,
+      "step": 11090
+    },
+    {
+      "epoch": 1.875316776482514,
+      "grad_norm": 0.4543094336986542,
+      "learning_rate": 4.1573810774037044e-06,
+      "loss": 4.284811401367188,
+      "step": 11100
+    },
+    {
+      "epoch": 1.8770062510559216,
+      "grad_norm": 0.44232332706451416,
+      "learning_rate": 4.046133812777985e-06,
+      "loss": 4.275522232055664,
+      "step": 11110
+    },
+    {
+      "epoch": 1.8786957256293293,
+      "grad_norm": 0.4532018005847931,
+      "learning_rate": 3.936374885375049e-06,
+      "loss": 4.325132751464844,
+      "step": 11120
+    },
+    {
+      "epoch": 1.880385200202737,
+      "grad_norm": 0.44870230555534363,
+      "learning_rate": 3.828105414440974e-06,
+      "loss": 4.293384170532226,
+      "step": 11130
+    },
+    {
+      "epoch": 1.8820746747761445,
+      "grad_norm": 0.4408150017261505,
+      "learning_rate": 3.7213265040334394e-06,
+      "loss": 4.296081161499023,
+      "step": 11140
+    },
+    {
+      "epoch": 1.8837641493495523,
+      "grad_norm": 0.44336998462677,
+      "learning_rate": 3.616039243010399e-06,
+      "loss": 4.299095916748047,
+      "step": 11150
+    },
+    {
+      "epoch": 1.88545362392296,
+      "grad_norm": 0.4412024915218353,
+      "learning_rate": 3.5122447050189573e-06,
+      "loss": 4.285486221313477,
+      "step": 11160
+    },
+    {
+      "epoch": 1.8871430984963675,
+      "grad_norm": 0.45283156633377075,
+      "learning_rate": 3.4099439484844947e-06,
+      "loss": 4.294749069213867,
+      "step": 11170
+    },
+    {
+      "epoch": 1.8888325730697753,
+      "grad_norm": 0.4460100829601288,
+      "learning_rate": 3.3091380165998103e-06,
+      "loss": 4.310376739501953,
+      "step": 11180
+    },
+    {
+      "epoch": 1.890522047643183,
+      "grad_norm": 0.44468414783477783,
+      "learning_rate": 3.2098279373145463e-06,
+      "loss": 4.327771377563477,
+      "step": 11190
+    },
+    {
+      "epoch": 1.8922115222165905,
+      "grad_norm": 0.4378024637699127,
+      "learning_rate": 3.1120147233246463e-06,
+      "loss": 4.273694610595703,
+      "step": 11200
+    },
+    {
+      "epoch": 1.8939009967899985,
+      "grad_norm": 0.44141000509262085,
+      "learning_rate": 3.0156993720619804e-06,
+      "loss": 4.287034606933593,
+      "step": 11210
+    },
+    {
+      "epoch": 1.895590471363406,
+      "grad_norm": 0.4455374479293823,
+      "learning_rate": 2.9208828656843876e-06,
+      "loss": 4.320920181274414,
+      "step": 11220
+    },
+    {
+      "epoch": 1.8972799459368137,
+      "grad_norm": 0.45368343591690063,
+      "learning_rate": 2.827566171065415e-06,
+      "loss": 4.285198974609375,
+      "step": 11230
+    },
+    {
+      "epoch": 1.8989694205102214,
+      "grad_norm": 0.44222062826156616,
+      "learning_rate": 2.7357502397845454e-06,
+      "loss": 4.296764755249024,
+      "step": 11240
+    },
+    {
+      "epoch": 1.900658895083629,
+      "grad_norm": 0.45191657543182373,
+      "learning_rate": 2.645436008117602e-06,
+      "loss": 4.27384033203125,
+      "step": 11250
+    },
+    {
+      "epoch": 1.9023483696570367,
+      "grad_norm": 0.4548667371273041,
+      "learning_rate": 2.5566243970270073e-06,
+      "loss": 4.297956085205078,
+      "step": 11260
+    },
+    {
+      "epoch": 1.9040378442304444,
+      "grad_norm": 0.4443969130516052,
+      "learning_rate": 2.469316312152575e-06,
+      "loss": 4.291641616821289,
+      "step": 11270
+    },
+    {
+      "epoch": 1.905727318803852,
+      "grad_norm": 0.4367770850658417,
+      "learning_rate": 2.3835126438021156e-06,
+      "loss": 4.266088485717773,
+      "step": 11280
+    },
+    {
+      "epoch": 1.9074167933772597,
+      "grad_norm": 0.4365804195404053,
+      "learning_rate": 2.299214266942495e-06,
+      "loss": 4.263021850585938,
+      "step": 11290
+    },
+    {
+      "epoch": 1.9091062679506674,
+      "grad_norm": 0.4369988441467285,
+      "learning_rate": 2.2164220411906407e-06,
+      "loss": 4.288222122192383,
+      "step": 11300
+    },
+    {
+      "epoch": 1.910795742524075,
+      "grad_norm": 0.44547080993652344,
+      "learning_rate": 2.1351368108047495e-06,
+      "loss": 4.26991081237793,
+      "step": 11310
+    },
+    {
+      "epoch": 1.9124852170974826,
+      "grad_norm": 0.45165297389030457,
+      "learning_rate": 2.0553594046757438e-06,
+      "loss": 4.2671764373779295,
+      "step": 11320
+    },
+    {
+      "epoch": 1.9141746916708904,
+      "grad_norm": 0.4523044526576996,
+      "learning_rate": 1.9770906363187787e-06,
+      "loss": 4.28791618347168,
+      "step": 11330
+    },
+    {
+      "epoch": 1.915864166244298,
+      "grad_norm": 0.43898409605026245,
+      "learning_rate": 1.9003313038649826e-06,
+      "loss": 4.301726150512695,
+      "step": 11340
+    },
+    {
+      "epoch": 1.9175536408177059,
+      "grad_norm": 0.44454851746559143,
+      "learning_rate": 1.825082190053262e-06,
+      "loss": 4.280124664306641,
+      "step": 11350
+    },
+    {
+      "epoch": 1.9192431153911134,
+      "grad_norm": 0.44016656279563904,
+      "learning_rate": 1.7513440622223762e-06,
+      "loss": 4.312954330444336,
+      "step": 11360
+    },
+    {
+      "epoch": 1.9209325899645209,
+      "grad_norm": 0.439481645822525,
+      "learning_rate": 1.6791176723030763e-06,
+      "loss": 4.291484069824219,
+      "step": 11370
+    },
+    {
+      "epoch": 1.9226220645379288,
+      "grad_norm": 0.44403141736984253,
+      "learning_rate": 1.608403756810428e-06,
+      "loss": 4.297753524780274,
+      "step": 11380
+    },
+    {
+      "epoch": 1.9243115391113363,
+      "grad_norm": 0.4380677342414856,
+      "learning_rate": 1.5392030368363839e-06,
+      "loss": 4.311534881591797,
+      "step": 11390
+    },
+    {
+      "epoch": 1.926001013684744,
+      "grad_norm": 0.4598468542098999,
+      "learning_rate": 1.4715162180422902e-06,
+      "loss": 4.272250747680664,
+      "step": 11400
+    },
+    {
+      "epoch": 1.9276904882581518,
+      "grad_norm": 0.44107797741889954,
+      "learning_rate": 1.405343990651825e-06,
+      "loss": 4.283835601806641,
+      "step": 11410
+    },
+    {
+      "epoch": 1.9293799628315593,
+      "grad_norm": 0.43588972091674805,
+      "learning_rate": 1.3406870294438876e-06,
+      "loss": 4.273925399780273,
+      "step": 11420
+    },
+    {
+      "epoch": 1.931069437404967,
+      "grad_norm": 0.4393414258956909,
+      "learning_rate": 1.2775459937457544e-06,
+      "loss": 4.295301055908203,
+      "step": 11430
+    },
+    {
+      "epoch": 1.9327589119783748,
+      "grad_norm": 0.44228672981262207,
+      "learning_rate": 1.2159215274262834e-06,
+      "loss": 4.273171997070312,
+      "step": 11440
+    },
+    {
+      "epoch": 1.9344483865517823,
+      "grad_norm": 0.4422619640827179,
+      "learning_rate": 1.155814258889437e-06,
+      "loss": 4.285517883300781,
+      "step": 11450
+    },
+    {
+      "epoch": 1.93613786112519,
+      "grad_norm": 0.4427924156188965,
+      "learning_rate": 1.0972248010678365e-06,
+      "loss": 4.312974548339843,
+      "step": 11460
+    },
+    {
+      "epoch": 1.9378273356985978,
+      "grad_norm": 0.44030192494392395,
+      "learning_rate": 1.040153751416517e-06,
+      "loss": 4.302379989624024,
+      "step": 11470
+    },
+    {
+      "epoch": 1.9395168102720053,
+      "grad_norm": 0.44400596618652344,
+      "learning_rate": 9.846016919068167e-07,
+      "loss": 4.280198287963867,
+      "step": 11480
+    },
+    {
+      "epoch": 1.941206284845413,
+      "grad_norm": 0.4478650689125061,
+      "learning_rate": 9.305691890204469e-07,
+      "loss": 4.281633758544922,
+      "step": 11490
+    },
+    {
+      "epoch": 1.9428957594188208,
+      "grad_norm": 0.4458984434604645,
+      "learning_rate": 8.780567937437644e-07,
+      "loss": 4.278944396972657,
+      "step": 11500
+    },
+    {
+      "epoch": 1.9428957594188208,
+      "eval_loss": 4.265942573547363,
+      "eval_runtime": 4.0629,
+      "eval_samples_per_second": 246.128,
+      "eval_steps_per_second": 5.169,
+      "step": 11500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.846232536325816e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null