Training in progress, step 10500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:318c2656039c95a58242e4619aba90de89d286abfdd50c932ac46a5bbc6d6b36
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:289c5f7a117bc2146cbc4b2792b4927c7ce3188416b6d12c24b53c92eac18575
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fdbed07e432554d329c7e8d5c0f65220a1bfeee29ae26fa92a6aa0d5901ae56
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:78aff07fca8298b71f09331247658b387bcda955f1390e18f38dbc6caf805220
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5948a5161f7923aa0acf66b01adf35dc2196a8acf5bd2c21227561e5bff45666
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:88a0861f9132710b799b6fa2e167a1b0b3b522e3a288bf5f69138ff390819689
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53471871a37f3cc35b4a656a6f0cfda18046c304a91d9bf8b29b14eea2ccc156
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f96c5626b64f285225e7bd0540a942ee4b22f3baba9f0a0f2189b039b8bf46c
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6894745734076704,
   "eval_steps": 500,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7175,6 +7175,364 @@
       "eval_samples_per_second": 273.932,
       "eval_steps_per_second": 5.753,
       "step": 10000
     }
   ],
   "logging_steps": 10,
@@ -7194,7 +7552,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.344547305037496e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7739483020780538,
   "eval_steps": 500,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 273.932,
       "eval_steps_per_second": 5.753,
       "step": 10000
+    },
+    {
+      "epoch": 1.691164047981078,
+      "grad_norm": 0.47159892320632935,
+      "learning_rate": 2.4865303937104007e-05,
+      "loss": 4.28497314453125,
+      "step": 10010
+    },
+    {
+      "epoch": 1.6928535225544854,
+      "grad_norm": 0.45282673835754395,
+      "learning_rate": 2.460181551284876e-05,
+      "loss": 4.316118621826172,
+      "step": 10020
+    },
+    {
+      "epoch": 1.6945429971278934,
+      "grad_norm": 0.4685194492340088,
+      "learning_rate": 2.433960581310091e-05,
+      "loss": 4.295747375488281,
+      "step": 10030
+    },
+    {
+      "epoch": 1.6962324717013009,
+      "grad_norm": 0.4553631842136383,
+      "learning_rate": 2.4078677511694776e-05,
+      "loss": 4.325288391113281,
+      "step": 10040
+    },
+    {
+      "epoch": 1.6979219462747086,
+      "grad_norm": 0.46230271458625793,
+      "learning_rate": 2.381903326939777e-05,
+      "loss": 4.269796752929688,
+      "step": 10050
+    },
+    {
+      "epoch": 1.6996114208481163,
+      "grad_norm": 0.4607372283935547,
+      "learning_rate": 2.356067573388355e-05,
+      "loss": 4.311262893676758,
+      "step": 10060
+    },
+    {
+      "epoch": 1.7013008954215239,
+      "grad_norm": 0.4789498448371887,
+      "learning_rate": 2.3303607539704628e-05,
+      "loss": 4.303665542602539,
+      "step": 10070
+    },
+    {
+      "epoch": 1.7029903699949316,
+      "grad_norm": 0.46580952405929565,
+      "learning_rate": 2.3047831308265845e-05,
+      "loss": 4.283160400390625,
+      "step": 10080
+    },
+    {
+      "epoch": 1.7046798445683393,
+      "grad_norm": 0.4807932674884796,
+      "learning_rate": 2.2793349647797372e-05,
+      "loss": 4.308661270141601,
+      "step": 10090
+    },
+    {
+      "epoch": 1.7063693191417468,
+      "grad_norm": 0.4682171046733856,
+      "learning_rate": 2.2540165153328345e-05,
+      "loss": 4.298659896850586,
+      "step": 10100
+    },
+    {
+      "epoch": 1.7080587937151546,
+      "grad_norm": 0.46330752968788147,
+      "learning_rate": 2.2288280406660237e-05,
+      "loss": 4.294895935058594,
+      "step": 10110
+    },
+    {
+      "epoch": 1.7097482682885623,
+      "grad_norm": 0.4711052179336548,
+      "learning_rate": 2.2037697976340525e-05,
+      "loss": 4.325272750854492,
+      "step": 10120
+    },
+    {
+      "epoch": 1.7114377428619698,
+      "grad_norm": 0.47657638788223267,
+      "learning_rate": 2.1788420417636704e-05,
+      "loss": 4.280495834350586,
+      "step": 10130
+    },
+    {
+      "epoch": 1.7131272174353775,
+      "grad_norm": 0.45199576020240784,
+      "learning_rate": 2.1540450272509986e-05,
+      "loss": 4.289173889160156,
+      "step": 10140
+    },
+    {
+      "epoch": 1.7148166920087853,
+      "grad_norm": 0.4709782004356384,
+      "learning_rate": 2.129379006958944e-05,
+      "loss": 4.30334243774414,
+      "step": 10150
+    },
+    {
+      "epoch": 1.7165061665821928,
+      "grad_norm": 0.4583008289337158,
+      "learning_rate": 2.104844232414634e-05,
+      "loss": 4.33288459777832,
+      "step": 10160
+    },
+    {
+      "epoch": 1.7181956411556008,
+      "grad_norm": 0.4560486674308777,
+      "learning_rate": 2.080440953806844e-05,
+      "loss": 4.312181091308593,
+      "step": 10170
+    },
+    {
+      "epoch": 1.7198851157290083,
+      "grad_norm": 0.45241913199424744,
+      "learning_rate": 2.056169419983432e-05,
+      "loss": 4.302781677246093,
+      "step": 10180
+    },
+    {
+      "epoch": 1.721574590302416,
+      "grad_norm": 0.4574364125728607,
+      "learning_rate": 2.0320298784488177e-05,
+      "loss": 4.296425628662109,
+      "step": 10190
+    },
+    {
+      "epoch": 1.7232640648758237,
+      "grad_norm": 0.4723096489906311,
+      "learning_rate": 2.008022575361464e-05,
+      "loss": 4.3003795623779295,
+      "step": 10200
+    },
+    {
+      "epoch": 1.7249535394492312,
+      "grad_norm": 0.4733101427555084,
+      "learning_rate": 1.9841477555313428e-05,
+      "loss": 4.288959503173828,
+      "step": 10210
+    },
+    {
+      "epoch": 1.726643014022639,
+      "grad_norm": 0.4613873362541199,
+      "learning_rate": 1.960405662417458e-05,
+      "loss": 4.3150989532470705,
+      "step": 10220
+    },
+    {
+      "epoch": 1.7283324885960467,
+      "grad_norm": 0.47345536947250366,
+      "learning_rate": 1.9367965381253632e-05,
+      "loss": 4.287479400634766,
+      "step": 10230
+    },
+    {
+      "epoch": 1.7300219631694542,
+      "grad_norm": 0.4718509912490845,
+      "learning_rate": 1.9133206234046833e-05,
+      "loss": 4.321730422973633,
+      "step": 10240
+    },
+    {
+      "epoch": 1.731711437742862,
+      "grad_norm": 0.455735445022583,
+      "learning_rate": 1.8899781576466605e-05,
+      "loss": 4.2946220397949215,
+      "step": 10250
+    },
+    {
+      "epoch": 1.7334009123162697,
+      "grad_norm": 0.4965671896934509,
+      "learning_rate": 1.86676937888172e-05,
+      "loss": 4.301831817626953,
+      "step": 10260
+    },
+    {
+      "epoch": 1.7350903868896772,
+      "grad_norm": 0.4581054449081421,
+      "learning_rate": 1.8436945237770347e-05,
+      "loss": 4.305143737792969,
+      "step": 10270
+    },
+    {
+      "epoch": 1.736779861463085,
+      "grad_norm": 0.4591616094112396,
+      "learning_rate": 1.8207538276341255e-05,
+      "loss": 4.309583282470703,
+      "step": 10280
+    },
+    {
+      "epoch": 1.7384693360364927,
+      "grad_norm": 0.4735301733016968,
+      "learning_rate": 1.7979475243864422e-05,
+      "loss": 4.28990478515625,
+      "step": 10290
+    },
+    {
+      "epoch": 1.7401588106099002,
+      "grad_norm": 0.46391761302948,
+      "learning_rate": 1.7752758465969835e-05,
+      "loss": 4.2906452178955075,
+      "step": 10300
+    },
+    {
+      "epoch": 1.7418482851833081,
+      "grad_norm": 0.4546545147895813,
+      "learning_rate": 1.7527390254559564e-05,
+      "loss": 4.305644226074219,
+      "step": 10310
+    },
+    {
+      "epoch": 1.7435377597567157,
+      "grad_norm": 0.4470182955265045,
+      "learning_rate": 1.7303372907783646e-05,
+      "loss": 4.288211059570313,
+      "step": 10320
+    },
+    {
+      "epoch": 1.7452272343301232,
+      "grad_norm": 0.4606943726539612,
+      "learning_rate": 1.708070871001704e-05,
+      "loss": 4.294968795776367,
+      "step": 10330
+    },
+    {
+      "epoch": 1.7469167089035311,
+      "grad_norm": 0.4543667733669281,
+      "learning_rate": 1.6859399931836182e-05,
+      "loss": 4.301618194580078,
+      "step": 10340
+    },
+    {
+      "epoch": 1.7486061834769386,
+      "grad_norm": 0.472310870885849,
+      "learning_rate": 1.663944882999596e-05,
+      "loss": 4.318760681152344,
+      "step": 10350
+    },
+    {
+      "epoch": 1.7502956580503464,
+      "grad_norm": 0.44963911175727844,
+      "learning_rate": 1.6420857647406533e-05,
+      "loss": 4.308442687988281,
+      "step": 10360
+    },
+    {
+      "epoch": 1.751985132623754,
+      "grad_norm": 0.45367759466171265,
+      "learning_rate": 1.6203628613110513e-05,
+      "loss": 4.320900344848633,
+      "step": 10370
+    },
+    {
+      "epoch": 1.7536746071971616,
+      "grad_norm": 0.4687769114971161,
+      "learning_rate": 1.598776394226035e-05,
+      "loss": 4.342009735107422,
+      "step": 10380
+    },
+    {
+      "epoch": 1.7553640817705694,
+      "grad_norm": 0.4652376174926758,
+      "learning_rate": 1.5773265836095615e-05,
+      "loss": 4.283346557617188,
+      "step": 10390
+    },
+    {
+      "epoch": 1.757053556343977,
+      "grad_norm": 0.44677111506462097,
+      "learning_rate": 1.5560136481920583e-05,
+      "loss": 4.30499496459961,
+      "step": 10400
+    },
+    {
+      "epoch": 1.7587430309173846,
+      "grad_norm": 0.4536132514476776,
+      "learning_rate": 1.5348378053081885e-05,
+      "loss": 4.284192657470703,
+      "step": 10410
+    },
+    {
+      "epoch": 1.7604325054907923,
+      "grad_norm": 0.4781353175640106,
+      "learning_rate": 1.5137992708946522e-05,
+      "loss": 4.299782180786133,
+      "step": 10420
+    },
+    {
+      "epoch": 1.7621219800642,
+      "grad_norm": 0.46639731526374817,
+      "learning_rate": 1.4928982594879602e-05,
+      "loss": 4.301108169555664,
+      "step": 10430
+    },
+    {
+      "epoch": 1.7638114546376076,
+      "grad_norm": 0.4624445140361786,
+      "learning_rate": 1.4721349842222623e-05,
+      "loss": 4.283761596679687,
+      "step": 10440
+    },
+    {
+      "epoch": 1.7655009292110155,
+      "grad_norm": 0.47024649381637573,
+      "learning_rate": 1.4515096568271728e-05,
+      "loss": 4.299430084228516,
+      "step": 10450
+    },
+    {
+      "epoch": 1.767190403784423,
+      "grad_norm": 0.4745561182498932,
+      "learning_rate": 1.4310224876256071e-05,
+      "loss": 4.319121551513672,
+      "step": 10460
+    },
+    {
+      "epoch": 1.7688798783578306,
+      "grad_norm": 0.4728463292121887,
+      "learning_rate": 1.410673685531638e-05,
+      "loss": 4.306048583984375,
+      "step": 10470
+    },
+    {
+      "epoch": 1.7705693529312385,
+      "grad_norm": 0.460742712020874,
+      "learning_rate": 1.390463458048357e-05,
+      "loss": 4.31497802734375,
+      "step": 10480
+    },
+    {
+      "epoch": 1.772258827504646,
+      "grad_norm": 0.46218180656433105,
+      "learning_rate": 1.3703920112657856e-05,
+      "loss": 4.3034709930419925,
+      "step": 10490
+    },
+    {
+      "epoch": 1.7739483020780538,
+      "grad_norm": 0.46378350257873535,
+      "learning_rate": 1.3504595498587378e-05,
+      "loss": 4.3008544921875,
+      "step": 10500
+    },
+    {
+      "epoch": 1.7739483020780538,
+      "eval_loss": 4.253804683685303,
+      "eval_runtime": 3.6144,
+      "eval_samples_per_second": 276.668,
+      "eval_steps_per_second": 5.81,
+      "step": 10500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.511775715466936e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null