Training in progress, step 8500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87f17ddb27c78df3df9ebbdcf34ba0e534bed6b159e38ed164a359bf939c519b
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:b08dad283213606d07f6ab5db889fe475967297819d0fa97888daa2251428bc5
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d926ca500ef14515d2d612de8ff61253060acb30bb272798b045d8da75c1e72
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:a825b2575d588500993f41103ac272cc25e9d2d7632d64e83467f98084e396cb
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:329a377c90ca49d3bcb8c01bcb7bdf9bc769af05915d36720b3201a9c222f867
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2170c077dd4bfe6d0d497b721bc49c7786a9b4086e60e7a16be839d33838b66
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:578bef6269d270c9ba7be042609ff28604e2fee3538e234c365c9aa652e62f33
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cda9bcc9266ec91d2da20eab50cd7cea609c16666645a54519c40bab7f69f1a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3515796587261362,
   "eval_steps": 500,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5743,6 +5743,364 @@
       "eval_samples_per_second": 272.602,
       "eval_steps_per_second": 5.725,
       "step": 8000
     }
   ],
   "logging_steps": 10,
@@ -5762,7 +6120,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.6756336633197363e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.4360533873965196,
   "eval_steps": 500,
+  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 272.602,
       "eval_steps_per_second": 5.725,
       "step": 8000
+    },
+    {
+      "epoch": 1.353269133299544,
+      "grad_norm": 0.46235671639442444,
+      "learning_rate": 9.883703849181374e-05,
+      "loss": 4.367716598510742,
+      "step": 8010
+    },
+    {
+      "epoch": 1.3549586078729514,
+      "grad_norm": 0.48545390367507935,
+      "learning_rate": 9.838702606099289e-05,
+      "loss": 4.349284362792969,
+      "step": 8020
+    },
+    {
+      "epoch": 1.3566480824463591,
+      "grad_norm": 0.5115071535110474,
+      "learning_rate": 9.793753994381003e-05,
+      "loss": 4.374566268920899,
+      "step": 8030
+    },
+    {
+      "epoch": 1.3583375570197669,
+      "grad_norm": 0.49618780612945557,
+      "learning_rate": 9.748858472381567e-05,
+      "loss": 4.382678604125976,
+      "step": 8040
+    },
+    {
+      "epoch": 1.3600270315931744,
+      "grad_norm": 0.4744579493999481,
+      "learning_rate": 9.704016497914657e-05,
+      "loss": 4.362704849243164,
+      "step": 8050
+    },
+    {
+      "epoch": 1.3617165061665821,
+      "grad_norm": 0.4827500283718109,
+      "learning_rate": 9.659228528247923e-05,
+      "loss": 4.352192306518555,
+      "step": 8060
+    },
+    {
+      "epoch": 1.3634059807399899,
+      "grad_norm": 0.4933985769748688,
+      "learning_rate": 9.614495020098284e-05,
+      "loss": 4.38439826965332,
+      "step": 8070
+    },
+    {
+      "epoch": 1.3650954553133976,
+      "grad_norm": 0.48984023928642273,
+      "learning_rate": 9.569816429627329e-05,
+      "loss": 4.369917297363282,
+      "step": 8080
+    },
+    {
+      "epoch": 1.3667849298868053,
+      "grad_norm": 0.4798352122306824,
+      "learning_rate": 9.525193212436607e-05,
+      "loss": 4.393289184570312,
+      "step": 8090
+    },
+    {
+      "epoch": 1.3684744044602128,
+      "grad_norm": 0.49891650676727295,
+      "learning_rate": 9.480625823563032e-05,
+      "loss": 4.352770614624023,
+      "step": 8100
+    },
+    {
+      "epoch": 1.3701638790336206,
+      "grad_norm": 0.4996585249900818,
+      "learning_rate": 9.436114717474197e-05,
+      "loss": 4.372886276245117,
+      "step": 8110
+    },
+    {
+      "epoch": 1.3718533536070283,
+      "grad_norm": 0.5093587040901184,
+      "learning_rate": 9.391660348063778e-05,
+      "loss": 4.365289306640625,
+      "step": 8120
+    },
+    {
+      "epoch": 1.3735428281804358,
+      "grad_norm": 0.48415860533714294,
+      "learning_rate": 9.347263168646881e-05,
+      "loss": 4.375794982910156,
+      "step": 8130
+    },
+    {
+      "epoch": 1.3752323027538436,
+      "grad_norm": 0.4896807372570038,
+      "learning_rate": 9.30292363195543e-05,
+      "loss": 4.389465713500977,
+      "step": 8140
+    },
+    {
+      "epoch": 1.3769217773272513,
+      "grad_norm": 0.5123707056045532,
+      "learning_rate": 9.258642190133548e-05,
+      "loss": 4.363320159912109,
+      "step": 8150
+    },
+    {
+      "epoch": 1.3786112519006588,
+      "grad_norm": 0.4701666533946991,
+      "learning_rate": 9.21441929473295e-05,
+      "loss": 4.335116577148438,
+      "step": 8160
+    },
+    {
+      "epoch": 1.3803007264740665,
+      "grad_norm": 0.499896764755249,
+      "learning_rate": 9.170255396708336e-05,
+      "loss": 4.3626762390136715,
+      "step": 8170
+    },
+    {
+      "epoch": 1.3819902010474743,
+      "grad_norm": 0.49135464429855347,
+      "learning_rate": 9.126150946412775e-05,
+      "loss": 4.353059387207031,
+      "step": 8180
+    },
+    {
+      "epoch": 1.3836796756208818,
+      "grad_norm": 0.4888681471347809,
+      "learning_rate": 9.082106393593153e-05,
+      "loss": 4.346696090698242,
+      "step": 8190
+    },
+    {
+      "epoch": 1.3853691501942895,
+      "grad_norm": 0.4955255389213562,
+      "learning_rate": 9.038122187385543e-05,
+      "loss": 4.370418930053711,
+      "step": 8200
+    },
+    {
+      "epoch": 1.3870586247676973,
+      "grad_norm": 0.501010000705719,
+      "learning_rate": 8.994198776310652e-05,
+      "loss": 4.367446517944336,
+      "step": 8210
+    },
+    {
+      "epoch": 1.388748099341105,
+      "grad_norm": 0.4743136167526245,
+      "learning_rate": 8.950336608269243e-05,
+      "loss": 4.38268928527832,
+      "step": 8220
+    },
+    {
+      "epoch": 1.3904375739145125,
+      "grad_norm": 0.497666597366333,
+      "learning_rate": 8.906536130537566e-05,
+      "loss": 4.368422317504883,
+      "step": 8230
+    },
+    {
+      "epoch": 1.3921270484879202,
+      "grad_norm": 0.5160584449768066,
+      "learning_rate": 8.862797789762785e-05,
+      "loss": 4.3526569366455075,
+      "step": 8240
+    },
+    {
+      "epoch": 1.393816523061328,
+      "grad_norm": 0.473287969827652,
+      "learning_rate": 8.819122031958446e-05,
+      "loss": 4.373112487792969,
+      "step": 8250
+    },
+    {
+      "epoch": 1.3955059976347357,
+      "grad_norm": 0.5070517659187317,
+      "learning_rate": 8.77550930249991e-05,
+      "loss": 4.352268218994141,
+      "step": 8260
+    },
+    {
+      "epoch": 1.3971954722081432,
+      "grad_norm": 0.4851207733154297,
+      "learning_rate": 8.731960046119819e-05,
+      "loss": 4.377524948120117,
+      "step": 8270
+    },
+    {
+      "epoch": 1.398884946781551,
+      "grad_norm": 0.4885145425796509,
+      "learning_rate": 8.688474706903554e-05,
+      "loss": 4.359702301025391,
+      "step": 8280
+    },
+    {
+      "epoch": 1.4005744213549587,
+      "grad_norm": 0.48066985607147217,
+      "learning_rate": 8.645053728284734e-05,
+      "loss": 4.34954719543457,
+      "step": 8290
+    },
+    {
+      "epoch": 1.4022638959283662,
+      "grad_norm": 0.4763162434101105,
+      "learning_rate": 8.601697553040645e-05,
+      "loss": 4.3670196533203125,
+      "step": 8300
+    },
+    {
+      "epoch": 1.403953370501774,
+      "grad_norm": 0.4713381826877594,
+      "learning_rate": 8.55840662328778e-05,
+      "loss": 4.337409973144531,
+      "step": 8310
+    },
+    {
+      "epoch": 1.4056428450751817,
+      "grad_norm": 0.47513261437416077,
+      "learning_rate": 8.515181380477273e-05,
+      "loss": 4.3685157775878904,
+      "step": 8320
+    },
+    {
+      "epoch": 1.4073323196485892,
+      "grad_norm": 0.4836966097354889,
+      "learning_rate": 8.47202226539046e-05,
+      "loss": 4.3916984558105465,
+      "step": 8330
+    },
+    {
+      "epoch": 1.409021794221997,
+      "grad_norm": 0.48562195897102356,
+      "learning_rate": 8.428929718134331e-05,
+      "loss": 4.382097625732422,
+      "step": 8340
+    },
+    {
+      "epoch": 1.4107112687954046,
+      "grad_norm": 0.4744247496128082,
+      "learning_rate": 8.385904178137061e-05,
+      "loss": 4.366971206665039,
+      "step": 8350
+    },
+    {
+      "epoch": 1.4124007433688122,
+      "grad_norm": 0.5022557973861694,
+      "learning_rate": 8.342946084143546e-05,
+      "loss": 4.335433578491211,
+      "step": 8360
+    },
+    {
+      "epoch": 1.41409021794222,
+      "grad_norm": 0.499116450548172,
+      "learning_rate": 8.300055874210903e-05,
+      "loss": 4.389838027954101,
+      "step": 8370
+    },
+    {
+      "epoch": 1.4157796925156276,
+      "grad_norm": 0.49717390537261963,
+      "learning_rate": 8.257233985704021e-05,
+      "loss": 4.351043319702148,
+      "step": 8380
+    },
+    {
+      "epoch": 1.4174691670890354,
+      "grad_norm": 0.4758422374725342,
+      "learning_rate": 8.214480855291084e-05,
+      "loss": 4.337965774536133,
+      "step": 8390
+    },
+    {
+      "epoch": 1.419158641662443,
+      "grad_norm": 0.4693518877029419,
+      "learning_rate": 8.171796918939142e-05,
+      "loss": 4.340887832641601,
+      "step": 8400
+    },
+    {
+      "epoch": 1.4208481162358506,
+      "grad_norm": 0.47933727502822876,
+      "learning_rate": 8.129182611909642e-05,
+      "loss": 4.35279426574707,
+      "step": 8410
+    },
+    {
+      "epoch": 1.4225375908092583,
+      "grad_norm": 0.46771925687789917,
+      "learning_rate": 8.086638368753993e-05,
+      "loss": 4.373394012451172,
+      "step": 8420
+    },
+    {
+      "epoch": 1.424227065382666,
+      "grad_norm": 0.48759225010871887,
+      "learning_rate": 8.04416462330916e-05,
+      "loss": 4.366844940185547,
+      "step": 8430
+    },
+    {
+      "epoch": 1.4259165399560736,
+      "grad_norm": 0.46530693769454956,
+      "learning_rate": 8.0017618086932e-05,
+      "loss": 4.354487609863281,
+      "step": 8440
+    },
+    {
+      "epoch": 1.4276060145294813,
+      "grad_norm": 0.4575703740119934,
+      "learning_rate": 7.959430357300885e-05,
+      "loss": 4.339031219482422,
+      "step": 8450
+    },
+    {
+      "epoch": 1.429295489102889,
+      "grad_norm": 0.4815446436405182,
+      "learning_rate": 7.917170700799256e-05,
+      "loss": 4.333696365356445,
+      "step": 8460
+    },
+    {
+      "epoch": 1.4309849636762966,
+      "grad_norm": 0.47673627734184265,
+      "learning_rate": 7.874983270123254e-05,
+      "loss": 4.352823638916016,
+      "step": 8470
+    },
+    {
+      "epoch": 1.4326744382497043,
+      "grad_norm": 0.5032398700714111,
+      "learning_rate": 7.832868495471306e-05,
+      "loss": 4.35656852722168,
+      "step": 8480
+    },
+    {
+      "epoch": 1.434363912823112,
+      "grad_norm": 0.5017210245132446,
+      "learning_rate": 7.790826806300928e-05,
+      "loss": 4.358552169799805,
+      "step": 8490
+    },
+    {
+      "epoch": 1.4360533873965196,
+      "grad_norm": 0.46991026401519775,
+      "learning_rate": 7.748858631324393e-05,
+      "loss": 4.356417465209961,
+      "step": 8500
+    },
+    {
+      "epoch": 1.4360533873965196,
+      "eval_loss": 4.313642501831055,
+      "eval_runtime": 5.3487,
+      "eval_samples_per_second": 186.962,
+      "eval_steps_per_second": 3.926,
+      "step": 8500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.8428620737491763e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null