Training in progress, step 8536, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +406 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14971b6e04cadaa88534f712e721171d13999a95ce9d9ac46c4729800b89e946
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:703b75465ed45e4a47b755f4dbf7613f34e8cb9a9c6557491a46a67bc25a57ef
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cebce73c6f9897e73bc658e05632b2e976a2c1891e8ef3f6c3c2f8924ba60b4c
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:943fd807c0afa2eb74111f9b3a9e2bfca879f4ad22f91c7601145761a7d127c8
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff2a98b7b58dd272a86869334fd0edf641ab47ceb102b634b242c3ff92151a26
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:774612f2d4811ca7da639cec8d3b509c1f87b5ffc57761546af6466447a0619a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7a23627952aa878a89c58e1effd3a883c81420a06e0fccd761ecb8b1539b91f
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bece9809bf70ad158471014e9f0407932e462ce7f7864e1800e151872b48ca7
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.7488284910965324,
   "eval_steps": 250,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6119,6 +6119,409 @@
       "eval_spearman_manhattan": 0.8023527525471515,
       "eval_steps_per_second": 29.406,
       "step": 8000
     }
   ],
   "logging_steps": 10,
@@ -6133,7 +6536,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 250,
+  "global_step": 8536,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8023527525471515,
       "eval_steps_per_second": 29.406,
       "step": 8000
+    },
+    {
+      "epoch": 3.753514526710403,
+      "grad_norm": 1.525901198387146,
+      "learning_rate": 1.7654053420805998e-05,
+      "loss": 0.1211,
+      "step": 8010
+    },
+    {
+      "epoch": 3.758200562324274,
+      "grad_norm": 2.8532297611236572,
+      "learning_rate": 1.765112464854733e-05,
+      "loss": 0.1165,
+      "step": 8020
+    },
+    {
+      "epoch": 3.7628865979381443,
+      "grad_norm": 1.453282117843628,
+      "learning_rate": 1.764819587628866e-05,
+      "loss": 0.1293,
+      "step": 8030
+    },
+    {
+      "epoch": 3.7675726335520148,
+      "grad_norm": 1.6476629972457886,
+      "learning_rate": 1.7645267104029993e-05,
+      "loss": 0.1104,
+      "step": 8040
+    },
+    {
+      "epoch": 3.7722586691658857,
+      "grad_norm": 1.583380103111267,
+      "learning_rate": 1.7642338331771322e-05,
+      "loss": 0.1191,
+      "step": 8050
+    },
+    {
+      "epoch": 3.776944704779756,
+      "grad_norm": 1.4234002828598022,
+      "learning_rate": 1.7639409559512655e-05,
+      "loss": 0.1201,
+      "step": 8060
+    },
+    {
+      "epoch": 3.781630740393627,
+      "grad_norm": 2.0201187133789062,
+      "learning_rate": 1.7636480787253985e-05,
+      "loss": 0.1398,
+      "step": 8070
+    },
+    {
+      "epoch": 3.7863167760074976,
+      "grad_norm": 1.8647639751434326,
+      "learning_rate": 1.7633552014995314e-05,
+      "loss": 0.1344,
+      "step": 8080
+    },
+    {
+      "epoch": 3.791002811621368,
+      "grad_norm": 1.5310838222503662,
+      "learning_rate": 1.7630623242736647e-05,
+      "loss": 0.118,
+      "step": 8090
+    },
+    {
+      "epoch": 3.795688847235239,
+      "grad_norm": 1.740401268005371,
+      "learning_rate": 1.7627694470477977e-05,
+      "loss": 0.1187,
+      "step": 8100
+    },
+    {
+      "epoch": 3.8003748828491095,
+      "grad_norm": 1.0978221893310547,
+      "learning_rate": 1.762476569821931e-05,
+      "loss": 0.1218,
+      "step": 8110
+    },
+    {
+      "epoch": 3.8050609184629804,
+      "grad_norm": 1.8838212490081787,
+      "learning_rate": 1.762183692596064e-05,
+      "loss": 0.1349,
+      "step": 8120
+    },
+    {
+      "epoch": 3.809746954076851,
+      "grad_norm": 1.8535819053649902,
+      "learning_rate": 1.761890815370197e-05,
+      "loss": 0.118,
+      "step": 8130
+    },
+    {
+      "epoch": 3.8144329896907214,
+      "grad_norm": 1.482851266860962,
+      "learning_rate": 1.76159793814433e-05,
+      "loss": 0.1136,
+      "step": 8140
+    },
+    {
+      "epoch": 3.8191190253045924,
+      "grad_norm": 1.4817432165145874,
+      "learning_rate": 1.761305060918463e-05,
+      "loss": 0.1144,
+      "step": 8150
+    },
+    {
+      "epoch": 3.823805060918463,
+      "grad_norm": 1.8795218467712402,
+      "learning_rate": 1.761012183692596e-05,
+      "loss": 0.1337,
+      "step": 8160
+    },
+    {
+      "epoch": 3.8284910965323338,
+      "grad_norm": 1.5762320756912231,
+      "learning_rate": 1.7607193064667293e-05,
+      "loss": 0.1186,
+      "step": 8170
+    },
+    {
+      "epoch": 3.8331771321462043,
+      "grad_norm": 1.3855458498001099,
+      "learning_rate": 1.7604264292408623e-05,
+      "loss": 0.1213,
+      "step": 8180
+    },
+    {
+      "epoch": 3.8378631677600747,
+      "grad_norm": 1.619994044303894,
+      "learning_rate": 1.7601335520149952e-05,
+      "loss": 0.1484,
+      "step": 8190
+    },
+    {
+      "epoch": 3.8425492033739457,
+      "grad_norm": 1.3682477474212646,
+      "learning_rate": 1.7598406747891285e-05,
+      "loss": 0.0907,
+      "step": 8200
+    },
+    {
+      "epoch": 3.847235238987816,
+      "grad_norm": 1.5766955614089966,
+      "learning_rate": 1.7595477975632615e-05,
+      "loss": 0.1081,
+      "step": 8210
+    },
+    {
+      "epoch": 3.851921274601687,
+      "grad_norm": 1.5448287725448608,
+      "learning_rate": 1.7592549203373948e-05,
+      "loss": 0.1296,
+      "step": 8220
+    },
+    {
+      "epoch": 3.8566073102155576,
+      "grad_norm": 1.2130484580993652,
+      "learning_rate": 1.7589620431115277e-05,
+      "loss": 0.1141,
+      "step": 8230
+    },
+    {
+      "epoch": 3.861293345829428,
+      "grad_norm": 1.5601420402526855,
+      "learning_rate": 1.758669165885661e-05,
+      "loss": 0.1303,
+      "step": 8240
+    },
+    {
+      "epoch": 3.865979381443299,
+      "grad_norm": 1.26397705078125,
+      "learning_rate": 1.758376288659794e-05,
+      "loss": 0.1017,
+      "step": 8250
+    },
+    {
+      "epoch": 3.865979381443299,
+      "eval_loss": 0.031061464920639992,
+      "eval_pearson_cosine": 0.8181771715322625,
+      "eval_pearson_dot": 0.753218304404399,
+      "eval_pearson_euclidean": 0.7900298439690836,
+      "eval_pearson_manhattan": 0.792536151039883,
+      "eval_runtime": 3.1857,
+      "eval_samples_per_second": 470.856,
+      "eval_spearman_cosine": 0.8174158550444287,
+      "eval_spearman_dot": 0.7522993308222343,
+      "eval_spearman_euclidean": 0.798562890702385,
+      "eval_spearman_manhattan": 0.8006887717421057,
+      "eval_steps_per_second": 29.507,
+      "step": 8250
+    },
+    {
+      "epoch": 3.8706654170571695,
+      "grad_norm": 1.8911367654800415,
+      "learning_rate": 1.7580834114339272e-05,
+      "loss": 0.1197,
+      "step": 8260
+    },
+    {
+      "epoch": 3.8753514526710404,
+      "grad_norm": 1.5515751838684082,
+      "learning_rate": 1.7577905342080602e-05,
+      "loss": 0.1278,
+      "step": 8270
+    },
+    {
+      "epoch": 3.880037488284911,
+      "grad_norm": 2.1667306423187256,
+      "learning_rate": 1.757497656982193e-05,
+      "loss": 0.1387,
+      "step": 8280
+    },
+    {
+      "epoch": 3.8847235238987814,
+      "grad_norm": 1.149591326713562,
+      "learning_rate": 1.7572047797563264e-05,
+      "loss": 0.1231,
+      "step": 8290
+    },
+    {
+      "epoch": 3.8894095595126523,
+      "grad_norm": 1.848067283630371,
+      "learning_rate": 1.7569119025304594e-05,
+      "loss": 0.1228,
+      "step": 8300
+    },
+    {
+      "epoch": 3.894095595126523,
+      "grad_norm": 1.451674222946167,
+      "learning_rate": 1.7566190253045923e-05,
+      "loss": 0.1161,
+      "step": 8310
+    },
+    {
+      "epoch": 3.8987816307403937,
+      "grad_norm": 1.7280783653259277,
+      "learning_rate": 1.7563261480787256e-05,
+      "loss": 0.1191,
+      "step": 8320
+    },
+    {
+      "epoch": 3.9034676663542642,
+      "grad_norm": 1.5939549207687378,
+      "learning_rate": 1.7560332708528586e-05,
+      "loss": 0.1272,
+      "step": 8330
+    },
+    {
+      "epoch": 3.9081537019681347,
+      "grad_norm": 1.6509348154067993,
+      "learning_rate": 1.7557403936269915e-05,
+      "loss": 0.127,
+      "step": 8340
+    },
+    {
+      "epoch": 3.9128397375820057,
+      "grad_norm": 1.8915349245071411,
+      "learning_rate": 1.7554475164011248e-05,
+      "loss": 0.1352,
+      "step": 8350
+    },
+    {
+      "epoch": 3.917525773195876,
+      "grad_norm": 2.188493490219116,
+      "learning_rate": 1.7551546391752578e-05,
+      "loss": 0.1105,
+      "step": 8360
+    },
+    {
+      "epoch": 3.922211808809747,
+      "grad_norm": 1.8589377403259277,
+      "learning_rate": 1.754861761949391e-05,
+      "loss": 0.1031,
+      "step": 8370
+    },
+    {
+      "epoch": 3.9268978444236176,
+      "grad_norm": 1.7054208517074585,
+      "learning_rate": 1.754568884723524e-05,
+      "loss": 0.1165,
+      "step": 8380
+    },
+    {
+      "epoch": 3.931583880037488,
+      "grad_norm": 1.2826303243637085,
+      "learning_rate": 1.754276007497657e-05,
+      "loss": 0.0994,
+      "step": 8390
+    },
+    {
+      "epoch": 3.936269915651359,
+      "grad_norm": 2.087935209274292,
+      "learning_rate": 1.7539831302717902e-05,
+      "loss": 0.1493,
+      "step": 8400
+    },
+    {
+      "epoch": 3.9409559512652295,
+      "grad_norm": 1.4399867057800293,
+      "learning_rate": 1.7536902530459232e-05,
+      "loss": 0.1126,
+      "step": 8410
+    },
+    {
+      "epoch": 3.9456419868791004,
+      "grad_norm": 2.081295967102051,
+      "learning_rate": 1.7533973758200565e-05,
+      "loss": 0.1149,
+      "step": 8420
+    },
+    {
+      "epoch": 3.950328022492971,
+      "grad_norm": 1.6477272510528564,
+      "learning_rate": 1.7531044985941894e-05,
+      "loss": 0.124,
+      "step": 8430
+    },
+    {
+      "epoch": 3.9550140581068414,
+      "grad_norm": 1.43690025806427,
+      "learning_rate": 1.7528116213683227e-05,
+      "loss": 0.1175,
+      "step": 8440
+    },
+    {
+      "epoch": 3.9597000937207123,
+      "grad_norm": 2.231391429901123,
+      "learning_rate": 1.7525187441424557e-05,
+      "loss": 0.1039,
+      "step": 8450
+    },
+    {
+      "epoch": 3.964386129334583,
+      "grad_norm": 1.699771761894226,
+      "learning_rate": 1.752225866916589e-05,
+      "loss": 0.096,
+      "step": 8460
+    },
+    {
+      "epoch": 3.9690721649484537,
+      "grad_norm": 0.9869770407676697,
+      "learning_rate": 1.751932989690722e-05,
+      "loss": 0.1318,
+      "step": 8470
+    },
+    {
+      "epoch": 3.973758200562324,
+      "grad_norm": 1.2464418411254883,
+      "learning_rate": 1.751640112464855e-05,
+      "loss": 0.1025,
+      "step": 8480
+    },
+    {
+      "epoch": 3.9784442361761947,
+      "grad_norm": 1.8724063634872437,
+      "learning_rate": 1.751347235238988e-05,
+      "loss": 0.1154,
+      "step": 8490
+    },
+    {
+      "epoch": 3.9831302717900656,
+      "grad_norm": 1.6470191478729248,
+      "learning_rate": 1.751054358013121e-05,
+      "loss": 0.1132,
+      "step": 8500
+    },
+    {
+      "epoch": 3.9831302717900656,
+      "eval_loss": 0.03063393384218216,
+      "eval_pearson_cosine": 0.821106317003462,
+      "eval_pearson_dot": 0.7578136492444401,
+      "eval_pearson_euclidean": 0.7882531341441634,
+      "eval_pearson_manhattan": 0.790852878268538,
+      "eval_runtime": 3.174,
+      "eval_samples_per_second": 472.588,
+      "eval_spearman_cosine": 0.8198241690509209,
+      "eval_spearman_dot": 0.7578266102334076,
+      "eval_spearman_euclidean": 0.7967830640080272,
+      "eval_spearman_manhattan": 0.7991467507473939,
+      "eval_steps_per_second": 29.616,
+      "step": 8500
+    },
+    {
+      "epoch": 3.987816307403936,
+      "grad_norm": 1.676721453666687,
+      "learning_rate": 1.750761480787254e-05,
+      "loss": 0.1188,
+      "step": 8510
+    },
+    {
+      "epoch": 3.992502343017807,
+      "grad_norm": 1.187525987625122,
+      "learning_rate": 1.750468603561387e-05,
+      "loss": 0.132,
+      "step": 8520
+    },
+    {
+      "epoch": 3.9971883786316775,
+      "grad_norm": 1.2841644287109375,
+      "learning_rate": 1.7501757263355203e-05,
+      "loss": 0.1379,
+      "step": 8530
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }