Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feeb8af86d4228c031ab0303150253b8e59c08c82f4f8aa78a75fae604e120a1
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:318c2656039c95a58242e4619aba90de89d286abfdd50c932ac46a5bbc6d6b36
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d5fa1cbde1c469de32a370ba5361ae4e7744a119f98350fc2511f131db06a4e
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fdbed07e432554d329c7e8d5c0f65220a1bfeee29ae26fa92a6aa0d5901ae56
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccd074c7b8f0b016dc440e87123ddc293303707dc1fa944c0ab62d0b20aa48bd
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:5948a5161f7923aa0acf66b01adf35dc2196a8acf5bd2c21227561e5bff45666
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4784f3b1ac308d4093c525f58ebfb1ed5c4e7ca17828bd58e2e6a8e2baed20b5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:53471871a37f3cc35b4a656a6f0cfda18046c304a91d9bf8b29b14eea2ccc156
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.6050008447372868,
   "eval_steps": 500,
-  "global_step": 9500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6817,6 +6817,364 @@
       "eval_samples_per_second": 279.306,
       "eval_steps_per_second": 5.865,
       "step": 9500
     }
   ],
   "logging_steps": 10,
@@ -6836,7 +7194,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.177318894608056e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.6894745734076704,
   "eval_steps": 500,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 279.306,
       "eval_steps_per_second": 5.865,
       "step": 9500
+    },
+    {
+      "epoch": 1.6066903193106943,
+      "grad_norm": 0.4607177972793579,
+      "learning_rate": 3.960727047894527e-05,
+      "loss": 4.358008575439453,
+      "step": 9510
+    },
+    {
+      "epoch": 1.608379793884102,
+      "grad_norm": 0.49898746609687805,
+      "learning_rate": 3.928353538569023e-05,
+      "loss": 4.323298645019531,
+      "step": 9520
+    },
+    {
+      "epoch": 1.6100692684575098,
+      "grad_norm": 0.4633605182170868,
+      "learning_rate": 3.8960929302853074e-05,
+      "loss": 4.317881393432617,
+      "step": 9530
+    },
+    {
+      "epoch": 1.6117587430309173,
+      "grad_norm": 0.461166650056839,
+      "learning_rate": 3.863945552014892e-05,
+      "loss": 4.31908073425293,
+      "step": 9540
+    },
+    {
+      "epoch": 1.6134482176043252,
+      "grad_norm": 0.46390029788017273,
+      "learning_rate": 3.831911731574648e-05,
+      "loss": 4.363689804077149,
+      "step": 9550
+    },
+    {
+      "epoch": 1.6151376921777327,
+      "grad_norm": 0.47450077533721924,
+      "learning_rate": 3.799991795623471e-05,
+      "loss": 4.329352569580078,
+      "step": 9560
+    },
+    {
+      "epoch": 1.6168271667511402,
+      "grad_norm": 0.4686853587627411,
+      "learning_rate": 3.7681860696589216e-05,
+      "loss": 4.3315582275390625,
+      "step": 9570
+    },
+    {
+      "epoch": 1.6185166413245482,
+      "grad_norm": 0.4681236445903778,
+      "learning_rate": 3.7364948780139344e-05,
+      "loss": 4.294339752197265,
+      "step": 9580
+    },
+    {
+      "epoch": 1.6202061158979557,
+      "grad_norm": 0.47375062108039856,
+      "learning_rate": 3.70491854385351e-05,
+      "loss": 4.285346984863281,
+      "step": 9590
+    },
+    {
+      "epoch": 1.6218955904713634,
+      "grad_norm": 0.4612501859664917,
+      "learning_rate": 3.673457389171401e-05,
+      "loss": 4.301979446411133,
+      "step": 9600
+    },
+    {
+      "epoch": 1.6235850650447712,
+      "grad_norm": 0.4734920561313629,
+      "learning_rate": 3.642111734786833e-05,
+      "loss": 4.337078094482422,
+      "step": 9610
+    },
+    {
+      "epoch": 1.6252745396181787,
+      "grad_norm": 0.48585888743400574,
+      "learning_rate": 3.610881900341261e-05,
+      "loss": 4.291253280639649,
+      "step": 9620
+    },
+    {
+      "epoch": 1.6269640141915864,
+      "grad_norm": 0.4632498323917389,
+      "learning_rate": 3.579768204295063e-05,
+      "loss": 4.331230545043946,
+      "step": 9630
+    },
+    {
+      "epoch": 1.6286534887649942,
+      "grad_norm": 0.46583032608032227,
+      "learning_rate": 3.54877096392434e-05,
+      "loss": 4.336456298828125,
+      "step": 9640
+    },
+    {
+      "epoch": 1.6303429633384017,
+      "grad_norm": 0.4624863564968109,
+      "learning_rate": 3.5178904953176354e-05,
+      "loss": 4.305691146850586,
+      "step": 9650
+    },
+    {
+      "epoch": 1.6320324379118094,
+      "grad_norm": 0.4653433859348297,
+      "learning_rate": 3.487127113372755e-05,
+      "loss": 4.32598648071289,
+      "step": 9660
+    },
+    {
+      "epoch": 1.6337219124852171,
+      "grad_norm": 0.4744962453842163,
+      "learning_rate": 3.4564811317935235e-05,
+      "loss": 4.303342819213867,
+      "step": 9670
+    },
+    {
+      "epoch": 1.6354113870586247,
+      "grad_norm": 0.4726518392562866,
+      "learning_rate": 3.4259528630865995e-05,
+      "loss": 4.328373718261719,
+      "step": 9680
+    },
+    {
+      "epoch": 1.6371008616320324,
+      "grad_norm": 0.4716176390647888,
+      "learning_rate": 3.3955426185582826e-05,
+      "loss": 4.309525680541992,
+      "step": 9690
+    },
+    {
+      "epoch": 1.6387903362054401,
+      "grad_norm": 0.4661267399787903,
+      "learning_rate": 3.365250708311352e-05,
+      "loss": 4.324785232543945,
+      "step": 9700
+    },
+    {
+      "epoch": 1.6404798107788476,
+      "grad_norm": 0.46032196283340454,
+      "learning_rate": 3.335077441241895e-05,
+      "loss": 4.306519317626953,
+      "step": 9710
+    },
+    {
+      "epoch": 1.6421692853522556,
+      "grad_norm": 0.5246592164039612,
+      "learning_rate": 3.305023125036148e-05,
+      "loss": 4.312277221679688,
+      "step": 9720
+    },
+    {
+      "epoch": 1.643858759925663,
+      "grad_norm": 0.46025800704956055,
+      "learning_rate": 3.275088066167369e-05,
+      "loss": 4.307319259643554,
+      "step": 9730
+    },
+    {
+      "epoch": 1.6455482344990708,
+      "grad_norm": 0.47664591670036316,
+      "learning_rate": 3.245272569892727e-05,
+      "loss": 4.350948333740234,
+      "step": 9740
+    },
+    {
+      "epoch": 1.6472377090724786,
+      "grad_norm": 0.46211037039756775,
+      "learning_rate": 3.215576940250155e-05,
+      "loss": 4.310560607910157,
+      "step": 9750
+    },
+    {
+      "epoch": 1.648927183645886,
+      "grad_norm": 0.4830545485019684,
+      "learning_rate": 3.1860014800552734e-05,
+      "loss": 4.30987777709961,
+      "step": 9760
+    },
+    {
+      "epoch": 1.6506166582192938,
+      "grad_norm": 0.4861840605735779,
+      "learning_rate": 3.15654649089831e-05,
+      "loss": 4.3120475769042965,
+      "step": 9770
+    },
+    {
+      "epoch": 1.6523061327927016,
+      "grad_norm": 0.5054605603218079,
+      "learning_rate": 3.1272122731409916e-05,
+      "loss": 4.325033569335938,
+      "step": 9780
+    },
+    {
+      "epoch": 1.653995607366109,
+      "grad_norm": 0.46032124757766724,
+      "learning_rate": 3.097999125913518e-05,
+      "loss": 4.310620880126953,
+      "step": 9790
+    },
+    {
+      "epoch": 1.6556850819395168,
+      "grad_norm": 0.4689234495162964,
+      "learning_rate": 3.068907347111485e-05,
+      "loss": 4.30926513671875,
+      "step": 9800
+    },
+    {
+      "epoch": 1.6573745565129245,
+      "grad_norm": 0.47660669684410095,
+      "learning_rate": 3.0399372333928644e-05,
+      "loss": 4.313259887695312,
+      "step": 9810
+    },
+    {
+      "epoch": 1.659064031086332,
+      "grad_norm": 0.48029860854148865,
+      "learning_rate": 3.0110890801749627e-05,
+      "loss": 4.307758331298828,
+      "step": 9820
+    },
+    {
+      "epoch": 1.6607535056597398,
+      "grad_norm": 0.46481746435165405,
+      "learning_rate": 2.982363181631418e-05,
+      "loss": 4.303005981445312,
+      "step": 9830
+    },
+    {
+      "epoch": 1.6624429802331475,
+      "grad_norm": 0.4820667505264282,
+      "learning_rate": 2.9537598306892103e-05,
+      "loss": 4.307665634155273,
+      "step": 9840
+    },
+    {
+      "epoch": 1.664132454806555,
+      "grad_norm": 0.4749463200569153,
+      "learning_rate": 2.9252793190256447e-05,
+      "loss": 4.284444427490234,
+      "step": 9850
+    },
+    {
+      "epoch": 1.665821929379963,
+      "grad_norm": 0.46186140179634094,
+      "learning_rate": 2.896921937065419e-05,
+      "loss": 4.313379287719727,
+      "step": 9860
+    },
+    {
+      "epoch": 1.6675114039533705,
+      "grad_norm": 0.45953449606895447,
+      "learning_rate": 2.8686879739776137e-05,
+      "loss": 4.316988754272461,
+      "step": 9870
+    },
+    {
+      "epoch": 1.669200878526778,
+      "grad_norm": 0.4738609194755554,
+      "learning_rate": 2.8405777176727924e-05,
+      "loss": 4.317482376098633,
+      "step": 9880
+    },
+    {
+      "epoch": 1.670890353100186,
+      "grad_norm": 0.46274814009666443,
+      "learning_rate": 2.8125914548000243e-05,
+      "loss": 4.294824600219727,
+      "step": 9890
+    },
+    {
+      "epoch": 1.6725798276735935,
+      "grad_norm": 0.47534388303756714,
+      "learning_rate": 2.7847294707439828e-05,
+      "loss": 4.28771743774414,
+      "step": 9900
+    },
+    {
+      "epoch": 1.6742693022470012,
+      "grad_norm": 0.4873548150062561,
+      "learning_rate": 2.7569920496220398e-05,
+      "loss": 4.304574584960937,
+      "step": 9910
+    },
+    {
+      "epoch": 1.675958776820409,
+      "grad_norm": 0.46979424357414246,
+      "learning_rate": 2.729379474281352e-05,
+      "loss": 4.303669738769531,
+      "step": 9920
+    },
+    {
+      "epoch": 1.6776482513938165,
+      "grad_norm": 0.5028051733970642,
+      "learning_rate": 2.701892026295979e-05,
+      "loss": 4.331151962280273,
+      "step": 9930
+    },
+    {
+      "epoch": 1.6793377259672242,
+      "grad_norm": 0.46676331758499146,
+      "learning_rate": 2.6745299859640318e-05,
+      "loss": 4.332028198242187,
+      "step": 9940
+    },
+    {
+      "epoch": 1.681027200540632,
+      "grad_norm": 0.4791058897972107,
+      "learning_rate": 2.6472936323047972e-05,
+      "loss": 4.310791778564453,
+      "step": 9950
+    },
+    {
+      "epoch": 1.6827166751140394,
+      "grad_norm": 0.4680987298488617,
+      "learning_rate": 2.6201832430558866e-05,
+      "loss": 4.313525390625,
+      "step": 9960
+    },
+    {
+      "epoch": 1.6844061496874472,
+      "grad_norm": 0.47215357422828674,
+      "learning_rate": 2.5931990946704206e-05,
+      "loss": 4.311981582641602,
+      "step": 9970
+    },
+    {
+      "epoch": 1.686095624260855,
+      "grad_norm": 0.4663841128349304,
+      "learning_rate": 2.5663414623141943e-05,
+      "loss": 4.314894485473633,
+      "step": 9980
+    },
+    {
+      "epoch": 1.6877850988342624,
+      "grad_norm": 0.4573664367198944,
+      "learning_rate": 2.5396106198628947e-05,
+      "loss": 4.316466903686523,
+      "step": 9990
+    },
+    {
+      "epoch": 1.6894745734076704,
+      "grad_norm": 0.4708999693393707,
+      "learning_rate": 2.5130068398992716e-05,
+      "loss": 4.313570404052735,
+      "step": 10000
+    },
+    {
+      "epoch": 1.6894745734076704,
+      "eval_loss": 4.262009620666504,
+      "eval_runtime": 3.6505,
+      "eval_samples_per_second": 273.932,
+      "eval_steps_per_second": 5.753,
+      "step": 10000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.344547305037496e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null