Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +375 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe2a15bf99c0f458b2206d6f35220f4c958e95e187565eba49da4fb8564ae369
 size 990197608

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bd739e3030cabd9261b2fb8ca1428184e2711c13722ac619bc934519bf3051c
 size 990197608

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c91c5b91e574bf8d32168fe23a0d8f97d2c0d7a1ad5ad3fe64951d9602e1bdc7
 size 1980569867

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0a7cfc818dd03b695689292cf139f33a9b667b8a8e134f4c54f6a29163bbd4
 size 1980569867

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2276a80239d2bec0f27af2510173a92b0a5242a76a5b11dff11d2bba9784d26
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e86f46b4125143fd9131eedafad3b1c11fa3edb1d514dbfb16332dc9646a522
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa9bf41974fd17e7e1e3fb4258cf1a9ed2a23fdde64d539be88a5a088f814ff5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:723dfd3f2d8a568ebabe037a79a9ffd4dd726a3f691a794a96a82766663bf137
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 5241,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -380,6 +380,378 @@
       "eval_samples_per_second": 23.052,
       "eval_steps_per_second": 2.885,
       "step": 5241
     }
   ],
   "logging_steps": 100,
@@ -399,7 +771,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4352011987779584e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 10482,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.052,
       "eval_steps_per_second": 2.885,
       "step": 5241
+    },
+    {
+      "epoch": 1.0112573936271705,
+      "grad_norm": 6.653578281402588,
+      "learning_rate": 4.4944667048273234e-05,
+      "loss": 2.8934,
+      "step": 5300
+    },
+    {
+      "epoch": 1.0303377218088152,
+      "grad_norm": 4.845913887023926,
+      "learning_rate": 4.484926540736501e-05,
+      "loss": 2.6501,
+      "step": 5400
+    },
+    {
+      "epoch": 1.0494180499904597,
+      "grad_norm": 5.232843399047852,
+      "learning_rate": 4.475386376645678e-05,
+      "loss": 2.7856,
+      "step": 5500
+    },
+    {
+      "epoch": 1.0684983781721045,
+      "grad_norm": 6.629660129547119,
+      "learning_rate": 4.465846212554856e-05,
+      "loss": 2.8155,
+      "step": 5600
+    },
+    {
+      "epoch": 1.0875787063537492,
+      "grad_norm": 4.096762180328369,
+      "learning_rate": 4.456306048464034e-05,
+      "loss": 2.789,
+      "step": 5700
+    },
+    {
+      "epoch": 1.106659034535394,
+      "grad_norm": 6.521574020385742,
+      "learning_rate": 4.4467658843732114e-05,
+      "loss": 2.749,
+      "step": 5800
+    },
+    {
+      "epoch": 1.1257393627170387,
+      "grad_norm": 4.849175930023193,
+      "learning_rate": 4.4372257202823894e-05,
+      "loss": 2.7133,
+      "step": 5900
+    },
+    {
+      "epoch": 1.1448196908986834,
+      "grad_norm": 5.988980770111084,
+      "learning_rate": 4.427685556191567e-05,
+      "loss": 2.704,
+      "step": 6000
+    },
+    {
+      "epoch": 1.1639000190803281,
+      "grad_norm": 4.623400688171387,
+      "learning_rate": 4.418145392100744e-05,
+      "loss": 2.6576,
+      "step": 6100
+    },
+    {
+      "epoch": 1.1829803472619729,
+      "grad_norm": 4.707732200622559,
+      "learning_rate": 4.408605228009922e-05,
+      "loss": 2.7199,
+      "step": 6200
+    },
+    {
+      "epoch": 1.2020606754436176,
+      "grad_norm": 6.403053283691406,
+      "learning_rate": 4.399065063919099e-05,
+      "loss": 2.6899,
+      "step": 6300
+    },
+    {
+      "epoch": 1.2211410036252623,
+      "grad_norm": 6.6001152992248535,
+      "learning_rate": 4.389524899828277e-05,
+      "loss": 2.7606,
+      "step": 6400
+    },
+    {
+      "epoch": 1.240221331806907,
+      "grad_norm": 5.213536739349365,
+      "learning_rate": 4.379984735737455e-05,
+      "loss": 2.7052,
+      "step": 6500
+    },
+    {
+      "epoch": 1.2593016599885518,
+      "grad_norm": 4.794836044311523,
+      "learning_rate": 4.3704445716466326e-05,
+      "loss": 2.7579,
+      "step": 6600
+    },
+    {
+      "epoch": 1.2783819881701965,
+      "grad_norm": 5.8824143409729,
+      "learning_rate": 4.3609044075558106e-05,
+      "loss": 2.6076,
+      "step": 6700
+    },
+    {
+      "epoch": 1.2974623163518413,
+      "grad_norm": 6.338265419006348,
+      "learning_rate": 4.351364243464988e-05,
+      "loss": 2.5968,
+      "step": 6800
+    },
+    {
+      "epoch": 1.316542644533486,
+      "grad_norm": 6.901667594909668,
+      "learning_rate": 4.341824079374165e-05,
+      "loss": 2.6482,
+      "step": 6900
+    },
+    {
+      "epoch": 1.3356229727151308,
+      "grad_norm": 6.267462730407715,
+      "learning_rate": 4.332283915283343e-05,
+      "loss": 2.6434,
+      "step": 7000
+    },
+    {
+      "epoch": 1.3547033008967755,
+      "grad_norm": 5.581694602966309,
+      "learning_rate": 4.3227437511925206e-05,
+      "loss": 2.5478,
+      "step": 7100
+    },
+    {
+      "epoch": 1.3737836290784202,
+      "grad_norm": 4.70138692855835,
+      "learning_rate": 4.3132035871016985e-05,
+      "loss": 2.5637,
+      "step": 7200
+    },
+    {
+      "epoch": 1.392863957260065,
+      "grad_norm": 6.99065637588501,
+      "learning_rate": 4.303663423010876e-05,
+      "loss": 2.5464,
+      "step": 7300
+    },
+    {
+      "epoch": 1.4119442854417095,
+      "grad_norm": 6.660660743713379,
+      "learning_rate": 4.294123258920054e-05,
+      "loss": 2.5766,
+      "step": 7400
+    },
+    {
+      "epoch": 1.4310246136233542,
+      "grad_norm": 5.83965539932251,
+      "learning_rate": 4.284583094829231e-05,
+      "loss": 2.5757,
+      "step": 7500
+    },
+    {
+      "epoch": 1.450104941804999,
+      "grad_norm": 5.41910982131958,
+      "learning_rate": 4.2750429307384085e-05,
+      "loss": 2.6146,
+      "step": 7600
+    },
+    {
+      "epoch": 1.4691852699866437,
+      "grad_norm": 4.368034839630127,
+      "learning_rate": 4.2655027666475865e-05,
+      "loss": 2.4073,
+      "step": 7700
+    },
+    {
+      "epoch": 1.4882655981682884,
+      "grad_norm": 3.716670036315918,
+      "learning_rate": 4.255962602556764e-05,
+      "loss": 2.5729,
+      "step": 7800
+    },
+    {
+      "epoch": 1.5073459263499331,
+      "grad_norm": 4.219146251678467,
+      "learning_rate": 4.246422438465942e-05,
+      "loss": 2.4766,
+      "step": 7900
+    },
+    {
+      "epoch": 1.5264262545315779,
+      "grad_norm": 5.474557399749756,
+      "learning_rate": 4.23688227437512e-05,
+      "loss": 2.5176,
+      "step": 8000
+    },
+    {
+      "epoch": 1.5455065827132226,
+      "grad_norm": 93.11466217041016,
+      "learning_rate": 4.227342110284297e-05,
+      "loss": 2.3887,
+      "step": 8100
+    },
+    {
+      "epoch": 1.5645869108948673,
+      "grad_norm": 6.055609703063965,
+      "learning_rate": 4.217801946193475e-05,
+      "loss": 2.5206,
+      "step": 8200
+    },
+    {
+      "epoch": 1.583667239076512,
+      "grad_norm": 6.243997573852539,
+      "learning_rate": 4.2082617821026524e-05,
+      "loss": 2.4598,
+      "step": 8300
+    },
+    {
+      "epoch": 1.6027475672581568,
+      "grad_norm": 5.589599132537842,
+      "learning_rate": 4.19872161801183e-05,
+      "loss": 2.4932,
+      "step": 8400
+    },
+    {
+      "epoch": 1.6218278954398015,
+      "grad_norm": 6.761661052703857,
+      "learning_rate": 4.189181453921008e-05,
+      "loss": 2.4582,
+      "step": 8500
+    },
+    {
+      "epoch": 1.6409082236214463,
+      "grad_norm": 4.9730963706970215,
+      "learning_rate": 4.179641289830185e-05,
+      "loss": 2.4221,
+      "step": 8600
+    },
+    {
+      "epoch": 1.659988551803091,
+      "grad_norm": 6.11653995513916,
+      "learning_rate": 4.170101125739363e-05,
+      "loss": 2.4959,
+      "step": 8700
+    },
+    {
+      "epoch": 1.6790688799847358,
+      "grad_norm": 5.8039398193359375,
+      "learning_rate": 4.160560961648541e-05,
+      "loss": 2.4431,
+      "step": 8800
+    },
+    {
+      "epoch": 1.6981492081663805,
+      "grad_norm": 4.404674530029297,
+      "learning_rate": 4.1510207975577184e-05,
+      "loss": 2.5057,
+      "step": 8900
+    },
+    {
+      "epoch": 1.7172295363480252,
+      "grad_norm": 4.7745256423950195,
+      "learning_rate": 4.141480633466896e-05,
+      "loss": 2.4474,
+      "step": 9000
+    },
+    {
+      "epoch": 1.73630986452967,
+      "grad_norm": 4.619002819061279,
+      "learning_rate": 4.131940469376073e-05,
+      "loss": 2.3865,
+      "step": 9100
+    },
+    {
+      "epoch": 1.7553901927113147,
+      "grad_norm": 5.063472270965576,
+      "learning_rate": 4.122400305285251e-05,
+      "loss": 2.3381,
+      "step": 9200
+    },
+    {
+      "epoch": 1.7744705208929594,
+      "grad_norm": 5.410485744476318,
+      "learning_rate": 4.112860141194429e-05,
+      "loss": 2.4036,
+      "step": 9300
+    },
+    {
+      "epoch": 1.7935508490746042,
+      "grad_norm": 5.242465496063232,
+      "learning_rate": 4.103319977103606e-05,
+      "loss": 2.3774,
+      "step": 9400
+    },
+    {
+      "epoch": 1.812631177256249,
+      "grad_norm": 5.760533809661865,
+      "learning_rate": 4.093779813012784e-05,
+      "loss": 2.3344,
+      "step": 9500
+    },
+    {
+      "epoch": 1.8317115054378936,
+      "grad_norm": 6.042536735534668,
+      "learning_rate": 4.0842396489219616e-05,
+      "loss": 2.37,
+      "step": 9600
+    },
+    {
+      "epoch": 1.8507918336195384,
+      "grad_norm": 5.290925025939941,
+      "learning_rate": 4.0746994848311396e-05,
+      "loss": 2.4738,
+      "step": 9700
+    },
+    {
+      "epoch": 1.869872161801183,
+      "grad_norm": 4.640475273132324,
+      "learning_rate": 4.065159320740317e-05,
+      "loss": 2.3234,
+      "step": 9800
+    },
+    {
+      "epoch": 1.8889524899828278,
+      "grad_norm": 6.546270847320557,
+      "learning_rate": 4.055619156649494e-05,
+      "loss": 2.412,
+      "step": 9900
+    },
+    {
+      "epoch": 1.9080328181644726,
+      "grad_norm": 4.5001325607299805,
+      "learning_rate": 4.046078992558672e-05,
+      "loss": 2.3115,
+      "step": 10000
+    },
+    {
+      "epoch": 1.9271131463461173,
+      "grad_norm": 4.442992210388184,
+      "learning_rate": 4.0365388284678495e-05,
+      "loss": 2.3329,
+      "step": 10100
+    },
+    {
+      "epoch": 1.946193474527762,
+      "grad_norm": 4.229004383087158,
+      "learning_rate": 4.0269986643770275e-05,
+      "loss": 2.2672,
+      "step": 10200
+    },
+    {
+      "epoch": 1.9652738027094065,
+      "grad_norm": 5.293257713317871,
+      "learning_rate": 4.0174585002862055e-05,
+      "loss": 2.3171,
+      "step": 10300
+    },
+    {
+      "epoch": 1.9843541308910513,
+      "grad_norm": 5.781225681304932,
+      "learning_rate": 4.007918336195383e-05,
+      "loss": 2.4069,
+      "step": 10400
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8545597791671753,
+      "eval_runtime": 201.9056,
+      "eval_samples_per_second": 23.07,
+      "eval_steps_per_second": 2.887,
+      "step": 10482
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 2.870402397555917e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null