Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6e3a61755ce1ee753f0e8d104d120e50755452bd8cbf6e05ff0a62e9faa8d42
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:88dd721178de7cb9a4bacf024fc5633ddcfb9a0c3e0c623a628ad9477d487830
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91744d22093227f73ff956561d21826bda5cf09b77b7d63e333247291b5a2ff3
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:5aaf7eff4e98edf3615725ee84d901bec88b6934e6cc793a70cccc1ba139f1b1
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:577f0b7cee8114520712167e366c7fd1da45e6cc96d21bb243dccf2193c0d60f
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5c11efa1814b5739819e47e5bc390045b533d07baee31a6d67f2f2c2f772d60
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:641712abd35039f810da46b5ecace55e8c31f5b5a7d2cfa0aaa8182597f8aad6
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2219b103874c49a564cb9902ed8bfe290939ff6276f6750739e5f7ca5ec6aba7
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.16894745734076702,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 272.774,
       "eval_steps_per_second": 5.728,
       "step": 1000
     }
   ],
   "logging_steps": 10,
@@ -750,7 +1108,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3445682085888e+16,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.25342118601115055,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 272.774,
       "eval_steps_per_second": 5.728,
       "step": 1000
+    },
+    {
+      "epoch": 0.1706369319141747,
+      "grad_norm": 1.1271182298660278,
+      "learning_rate": 0.00015134999999999997,
+      "loss": 6.613565063476562,
+      "step": 1010
+    },
+    {
+      "epoch": 0.17232640648758235,
+      "grad_norm": 0.986314058303833,
+      "learning_rate": 0.00015284999999999997,
+      "loss": 6.617231750488282,
+      "step": 1020
+    },
+    {
+      "epoch": 0.17401588106099003,
+      "grad_norm": 0.9544497132301331,
+      "learning_rate": 0.00015434999999999998,
+      "loss": 6.588863372802734,
+      "step": 1030
+    },
+    {
+      "epoch": 0.1757053556343977,
+      "grad_norm": 0.9558138251304626,
+      "learning_rate": 0.00015584999999999997,
+      "loss": 6.589711761474609,
+      "step": 1040
+    },
+    {
+      "epoch": 0.17739483020780536,
+      "grad_norm": 0.7995399236679077,
+      "learning_rate": 0.00015734999999999998,
+      "loss": 6.585386657714844,
+      "step": 1050
+    },
+    {
+      "epoch": 0.17908430478121304,
+      "grad_norm": 1.052297830581665,
+      "learning_rate": 0.00015884999999999999,
+      "loss": 6.567500305175781,
+      "step": 1060
+    },
+    {
+      "epoch": 0.18077377935462072,
+      "grad_norm": 1.0039197206497192,
+      "learning_rate": 0.00016034999999999997,
+      "loss": 6.520351409912109,
+      "step": 1070
+    },
+    {
+      "epoch": 0.1824632539280284,
+      "grad_norm": 1.1218979358673096,
+      "learning_rate": 0.00016184999999999998,
+      "loss": 6.544094848632812,
+      "step": 1080
+    },
+    {
+      "epoch": 0.18415272850143605,
+      "grad_norm": 0.9787916541099548,
+      "learning_rate": 0.00016334999999999999,
+      "loss": 6.525911712646485,
+      "step": 1090
+    },
+    {
+      "epoch": 0.18584220307484373,
+      "grad_norm": 1.0371917486190796,
+      "learning_rate": 0.00016485,
+      "loss": 6.497917175292969,
+      "step": 1100
+    },
+    {
+      "epoch": 0.1875316776482514,
+      "grad_norm": 0.9600743055343628,
+      "learning_rate": 0.00016634999999999998,
+      "loss": 6.508014678955078,
+      "step": 1110
+    },
+    {
+      "epoch": 0.18922115222165906,
+      "grad_norm": 1.0070927143096924,
+      "learning_rate": 0.00016785,
+      "loss": 6.495113372802734,
+      "step": 1120
+    },
+    {
+      "epoch": 0.19091062679506673,
+      "grad_norm": 1.0297925472259521,
+      "learning_rate": 0.00016935,
+      "loss": 6.476868438720703,
+      "step": 1130
+    },
+    {
+      "epoch": 0.1926001013684744,
+      "grad_norm": 1.2697237730026245,
+      "learning_rate": 0.00017084999999999998,
+      "loss": 6.457928466796875,
+      "step": 1140
+    },
+    {
+      "epoch": 0.19428957594188206,
+      "grad_norm": 1.0294984579086304,
+      "learning_rate": 0.00017235,
+      "loss": 6.44539794921875,
+      "step": 1150
+    },
+    {
+      "epoch": 0.19597905051528974,
+      "grad_norm": 0.9561747908592224,
+      "learning_rate": 0.00017385,
+      "loss": 6.428233337402344,
+      "step": 1160
+    },
+    {
+      "epoch": 0.19766852508869742,
+      "grad_norm": 1.0781433582305908,
+      "learning_rate": 0.00017534999999999998,
+      "loss": 6.419010925292969,
+      "step": 1170
+    },
+    {
+      "epoch": 0.19935799966210507,
+      "grad_norm": 1.1035155057907104,
+      "learning_rate": 0.00017685,
+      "loss": 6.415547180175781,
+      "step": 1180
+    },
+    {
+      "epoch": 0.20104747423551275,
+      "grad_norm": 1.3168368339538574,
+      "learning_rate": 0.00017835,
+      "loss": 6.426744842529297,
+      "step": 1190
+    },
+    {
+      "epoch": 0.20273694880892043,
+      "grad_norm": 1.0347086191177368,
+      "learning_rate": 0.00017984999999999998,
+      "loss": 6.390957641601562,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2044264233823281,
+      "grad_norm": 1.1279572248458862,
+      "learning_rate": 0.00018135,
+      "loss": 6.382788848876953,
+      "step": 1210
+    },
+    {
+      "epoch": 0.20611589795573576,
+      "grad_norm": 1.072667121887207,
+      "learning_rate": 0.00018285,
+      "loss": 6.360079956054688,
+      "step": 1220
+    },
+    {
+      "epoch": 0.20780537252914344,
+      "grad_norm": 0.9861840605735779,
+      "learning_rate": 0.00018435,
+      "loss": 6.357261657714844,
+      "step": 1230
+    },
+    {
+      "epoch": 0.20949484710255112,
+      "grad_norm": 1.1492271423339844,
+      "learning_rate": 0.00018585,
+      "loss": 6.357462310791016,
+      "step": 1240
+    },
+    {
+      "epoch": 0.21118432167595877,
+      "grad_norm": 1.0800551176071167,
+      "learning_rate": 0.00018735,
+      "loss": 6.335888290405274,
+      "step": 1250
+    },
+    {
+      "epoch": 0.21287379624936645,
+      "grad_norm": 1.2155574560165405,
+      "learning_rate": 0.00018884999999999996,
+      "loss": 6.315219497680664,
+      "step": 1260
+    },
+    {
+      "epoch": 0.21456327082277413,
+      "grad_norm": 1.1489802598953247,
+      "learning_rate": 0.00019034999999999996,
+      "loss": 6.315352249145508,
+      "step": 1270
+    },
+    {
+      "epoch": 0.21625274539618178,
+      "grad_norm": 0.8910436034202576,
+      "learning_rate": 0.00019184999999999997,
+      "loss": 6.315536117553711,
+      "step": 1280
+    },
+    {
+      "epoch": 0.21794221996958946,
+      "grad_norm": 1.3812509775161743,
+      "learning_rate": 0.00019334999999999998,
+      "loss": 6.30749282836914,
+      "step": 1290
+    },
+    {
+      "epoch": 0.21963169454299714,
+      "grad_norm": 1.0909061431884766,
+      "learning_rate": 0.00019484999999999997,
+      "loss": 6.276274108886719,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2213211691164048,
+      "grad_norm": 1.1523410081863403,
+      "learning_rate": 0.00019634999999999998,
+      "loss": 6.271069717407227,
+      "step": 1310
+    },
+    {
+      "epoch": 0.22301064368981247,
+      "grad_norm": 1.1942309141159058,
+      "learning_rate": 0.00019784999999999998,
+      "loss": 6.243044662475586,
+      "step": 1320
+    },
+    {
+      "epoch": 0.22470011826322014,
+      "grad_norm": 1.0811495780944824,
+      "learning_rate": 0.00019934999999999997,
+      "loss": 6.263803100585937,
+      "step": 1330
+    },
+    {
+      "epoch": 0.2263895928366278,
+      "grad_norm": 0.9704897999763489,
+      "learning_rate": 0.00020084999999999998,
+      "loss": 6.227846145629883,
+      "step": 1340
+    },
+    {
+      "epoch": 0.22807906741003547,
+      "grad_norm": 1.1559011936187744,
+      "learning_rate": 0.00020234999999999999,
+      "loss": 6.219324111938477,
+      "step": 1350
+    },
+    {
+      "epoch": 0.22976854198344315,
+      "grad_norm": 1.4220818281173706,
+      "learning_rate": 0.00020384999999999997,
+      "loss": 6.193642807006836,
+      "step": 1360
+    },
+    {
+      "epoch": 0.23145801655685083,
+      "grad_norm": 1.257460594177246,
+      "learning_rate": 0.00020534999999999998,
+      "loss": 6.204745483398438,
+      "step": 1370
+    },
+    {
+      "epoch": 0.23314749113025848,
+      "grad_norm": 0.998426079750061,
+      "learning_rate": 0.00020684999999999999,
+      "loss": 6.19123649597168,
+      "step": 1380
+    },
+    {
+      "epoch": 0.23483696570366616,
+      "grad_norm": 1.0262788534164429,
+      "learning_rate": 0.00020835,
+      "loss": 6.168861389160156,
+      "step": 1390
+    },
+    {
+      "epoch": 0.23652644027707384,
+      "grad_norm": 1.2289084196090698,
+      "learning_rate": 0.00020984999999999998,
+      "loss": 6.1512306213378904,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2382159148504815,
+      "grad_norm": 0.981163740158081,
+      "learning_rate": 0.00021135,
+      "loss": 6.15844497680664,
+      "step": 1410
+    },
+    {
+      "epoch": 0.23990538942388917,
+      "grad_norm": 1.2685691118240356,
+      "learning_rate": 0.00021285,
+      "loss": 6.120241165161133,
+      "step": 1420
+    },
+    {
+      "epoch": 0.24159486399729685,
+      "grad_norm": 1.2658777236938477,
+      "learning_rate": 0.00021434999999999998,
+      "loss": 6.137707901000977,
+      "step": 1430
+    },
+    {
+      "epoch": 0.2432843385707045,
+      "grad_norm": 1.0119268894195557,
+      "learning_rate": 0.00021585,
+      "loss": 6.122516250610351,
+      "step": 1440
+    },
+    {
+      "epoch": 0.24497381314411218,
+      "grad_norm": 1.2874401807785034,
+      "learning_rate": 0.00021735,
+      "loss": 6.107418441772461,
+      "step": 1450
+    },
+    {
+      "epoch": 0.24666328771751986,
+      "grad_norm": 1.0223300457000732,
+      "learning_rate": 0.00021884999999999998,
+      "loss": 6.101365280151367,
+      "step": 1460
+    },
+    {
+      "epoch": 0.2483527622909275,
+      "grad_norm": 1.1164225339889526,
+      "learning_rate": 0.00022035,
+      "loss": 6.099144744873047,
+      "step": 1470
+    },
+    {
+      "epoch": 0.2500422368643352,
+      "grad_norm": 1.2341437339782715,
+      "learning_rate": 0.00022185,
+      "loss": 6.07642822265625,
+      "step": 1480
+    },
+    {
+      "epoch": 0.25173171143774287,
+      "grad_norm": 1.0508023500442505,
+      "learning_rate": 0.00022335,
+      "loss": 6.062232208251953,
+      "step": 1490
+    },
+    {
+      "epoch": 0.25342118601115055,
+      "grad_norm": 1.7231544256210327,
+      "learning_rate": 0.00022485,
+      "loss": 6.033694458007813,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25342118601115055,
+      "eval_loss": 6.021761894226074,
+      "eval_runtime": 3.6574,
+      "eval_samples_per_second": 273.42,
+      "eval_steps_per_second": 5.742,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.0168523128832e+16,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null