Training in progress, step 8536, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +406 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63b8d2f54dcc233ad06ab39430ee3ef4e9969c8462dbe0a0663055814f28088c
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:5506ccea2414f4acaa8ed413cb646ff560b431e5f2ab781d9d1c3c3fadd5af75
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4236b0fedc806b4de7d27d910cef5ebb9c225250d3c23afcbea1ab330a679e73
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:44a732b77585886a6fb022dbe21d3f3de54f8e919f9982a63ff1c4f2a7c9834a
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff2a98b7b58dd272a86869334fd0edf641ab47ceb102b634b242c3ff92151a26
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:774612f2d4811ca7da639cec8d3b509c1f87b5ffc57761546af6466447a0619a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7a23627952aa878a89c58e1effd3a883c81420a06e0fccd761ecb8b1539b91f
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bece9809bf70ad158471014e9f0407932e462ce7f7864e1800e151872b48ca7
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.7488284910965324,
   "eval_steps": 250,
-  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6119,6 +6119,409 @@
       "eval_spearman_manhattan": 0.767544325158077,
       "eval_steps_per_second": 25.45,
       "step": 8000
     }
   ],
   "logging_steps": 10,
@@ -6133,7 +6536,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 250,
+  "global_step": 8536,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.767544325158077,
       "eval_steps_per_second": 25.45,
       "step": 8000
+    },
+    {
+      "epoch": 3.753514526710403,
+      "grad_norm": 2.859675645828247,
+      "learning_rate": 1.7654053420805998e-05,
+      "loss": 0.1442,
+      "step": 8010
+    },
+    {
+      "epoch": 3.758200562324274,
+      "grad_norm": 1.54740571975708,
+      "learning_rate": 1.765112464854733e-05,
+      "loss": 0.1194,
+      "step": 8020
+    },
+    {
+      "epoch": 3.7628865979381443,
+      "grad_norm": 1.5696630477905273,
+      "learning_rate": 1.764819587628866e-05,
+      "loss": 0.1542,
+      "step": 8030
+    },
+    {
+      "epoch": 3.7675726335520148,
+      "grad_norm": 1.8833867311477661,
+      "learning_rate": 1.7645267104029993e-05,
+      "loss": 0.1222,
+      "step": 8040
+    },
+    {
+      "epoch": 3.7722586691658857,
+      "grad_norm": 2.2312562465667725,
+      "learning_rate": 1.7642338331771322e-05,
+      "loss": 0.1378,
+      "step": 8050
+    },
+    {
+      "epoch": 3.776944704779756,
+      "grad_norm": 1.9470106363296509,
+      "learning_rate": 1.7639409559512655e-05,
+      "loss": 0.136,
+      "step": 8060
+    },
+    {
+      "epoch": 3.781630740393627,
+      "grad_norm": 1.736140489578247,
+      "learning_rate": 1.7636480787253985e-05,
+      "loss": 0.144,
+      "step": 8070
+    },
+    {
+      "epoch": 3.7863167760074976,
+      "grad_norm": 2.0280628204345703,
+      "learning_rate": 1.7633552014995314e-05,
+      "loss": 0.1331,
+      "step": 8080
+    },
+    {
+      "epoch": 3.791002811621368,
+      "grad_norm": 1.1331037282943726,
+      "learning_rate": 1.7630623242736647e-05,
+      "loss": 0.1327,
+      "step": 8090
+    },
+    {
+      "epoch": 3.795688847235239,
+      "grad_norm": 2.00110125541687,
+      "learning_rate": 1.7627694470477977e-05,
+      "loss": 0.1335,
+      "step": 8100
+    },
+    {
+      "epoch": 3.8003748828491095,
+      "grad_norm": 1.589747428894043,
+      "learning_rate": 1.762476569821931e-05,
+      "loss": 0.1222,
+      "step": 8110
+    },
+    {
+      "epoch": 3.8050609184629804,
+      "grad_norm": 1.8979542255401611,
+      "learning_rate": 1.762183692596064e-05,
+      "loss": 0.1534,
+      "step": 8120
+    },
+    {
+      "epoch": 3.809746954076851,
+      "grad_norm": 2.384608268737793,
+      "learning_rate": 1.761890815370197e-05,
+      "loss": 0.1395,
+      "step": 8130
+    },
+    {
+      "epoch": 3.8144329896907214,
+      "grad_norm": 1.8555763959884644,
+      "learning_rate": 1.76159793814433e-05,
+      "loss": 0.1298,
+      "step": 8140
+    },
+    {
+      "epoch": 3.8191190253045924,
+      "grad_norm": 2.0810048580169678,
+      "learning_rate": 1.761305060918463e-05,
+      "loss": 0.1165,
+      "step": 8150
+    },
+    {
+      "epoch": 3.823805060918463,
+      "grad_norm": 1.9116188287734985,
+      "learning_rate": 1.761012183692596e-05,
+      "loss": 0.1316,
+      "step": 8160
+    },
+    {
+      "epoch": 3.8284910965323338,
+      "grad_norm": 2.3420250415802,
+      "learning_rate": 1.7607193064667293e-05,
+      "loss": 0.1176,
+      "step": 8170
+    },
+    {
+      "epoch": 3.8331771321462043,
+      "grad_norm": 2.0588436126708984,
+      "learning_rate": 1.7604264292408623e-05,
+      "loss": 0.1365,
+      "step": 8180
+    },
+    {
+      "epoch": 3.8378631677600747,
+      "grad_norm": 1.89832603931427,
+      "learning_rate": 1.7601335520149952e-05,
+      "loss": 0.1459,
+      "step": 8190
+    },
+    {
+      "epoch": 3.8425492033739457,
+      "grad_norm": 2.0133140087127686,
+      "learning_rate": 1.7598406747891285e-05,
+      "loss": 0.1075,
+      "step": 8200
+    },
+    {
+      "epoch": 3.847235238987816,
+      "grad_norm": 1.7235685586929321,
+      "learning_rate": 1.7595477975632615e-05,
+      "loss": 0.1143,
+      "step": 8210
+    },
+    {
+      "epoch": 3.851921274601687,
+      "grad_norm": 1.6717524528503418,
+      "learning_rate": 1.7592549203373948e-05,
+      "loss": 0.1269,
+      "step": 8220
+    },
+    {
+      "epoch": 3.8566073102155576,
+      "grad_norm": 1.5314955711364746,
+      "learning_rate": 1.7589620431115277e-05,
+      "loss": 0.1264,
+      "step": 8230
+    },
+    {
+      "epoch": 3.861293345829428,
+      "grad_norm": 2.4005510807037354,
+      "learning_rate": 1.758669165885661e-05,
+      "loss": 0.1299,
+      "step": 8240
+    },
+    {
+      "epoch": 3.865979381443299,
+      "grad_norm": 1.6033201217651367,
+      "learning_rate": 1.758376288659794e-05,
+      "loss": 0.1107,
+      "step": 8250
+    },
+    {
+      "epoch": 3.865979381443299,
+      "eval_loss": 0.04320518299937248,
+      "eval_pearson_cosine": 0.7953389681810563,
+      "eval_pearson_dot": 0.6355398535557981,
+      "eval_pearson_euclidean": 0.7518228241740452,
+      "eval_pearson_manhattan": 0.7507054666151873,
+      "eval_runtime": 3.6594,
+      "eval_samples_per_second": 409.902,
+      "eval_spearman_cosine": 0.799221389686279,
+      "eval_spearman_dot": 0.6411224962967852,
+      "eval_spearman_euclidean": 0.7674570737836293,
+      "eval_spearman_manhattan": 0.7673149114040088,
+      "eval_steps_per_second": 25.687,
+      "step": 8250
+    },
+    {
+      "epoch": 3.8706654170571695,
+      "grad_norm": 1.8069274425506592,
+      "learning_rate": 1.7580834114339272e-05,
+      "loss": 0.1293,
+      "step": 8260
+    },
+    {
+      "epoch": 3.8753514526710404,
+      "grad_norm": 1.9214448928833008,
+      "learning_rate": 1.7577905342080602e-05,
+      "loss": 0.1235,
+      "step": 8270
+    },
+    {
+      "epoch": 3.880037488284911,
+      "grad_norm": 2.0332281589508057,
+      "learning_rate": 1.757497656982193e-05,
+      "loss": 0.1303,
+      "step": 8280
+    },
+    {
+      "epoch": 3.8847235238987814,
+      "grad_norm": 1.8587048053741455,
+      "learning_rate": 1.7572047797563264e-05,
+      "loss": 0.1272,
+      "step": 8290
+    },
+    {
+      "epoch": 3.8894095595126523,
+      "grad_norm": 1.7040314674377441,
+      "learning_rate": 1.7569119025304594e-05,
+      "loss": 0.1304,
+      "step": 8300
+    },
+    {
+      "epoch": 3.894095595126523,
+      "grad_norm": 1.7979313135147095,
+      "learning_rate": 1.7566190253045923e-05,
+      "loss": 0.1226,
+      "step": 8310
+    },
+    {
+      "epoch": 3.8987816307403937,
+      "grad_norm": 1.6295264959335327,
+      "learning_rate": 1.7563261480787256e-05,
+      "loss": 0.1198,
+      "step": 8320
+    },
+    {
+      "epoch": 3.9034676663542642,
+      "grad_norm": 1.764858603477478,
+      "learning_rate": 1.7560332708528586e-05,
+      "loss": 0.1294,
+      "step": 8330
+    },
+    {
+      "epoch": 3.9081537019681347,
+      "grad_norm": 2.3997533321380615,
+      "learning_rate": 1.7557403936269915e-05,
+      "loss": 0.1288,
+      "step": 8340
+    },
+    {
+      "epoch": 3.9128397375820057,
+      "grad_norm": 2.302992820739746,
+      "learning_rate": 1.7554475164011248e-05,
+      "loss": 0.1482,
+      "step": 8350
+    },
+    {
+      "epoch": 3.917525773195876,
+      "grad_norm": 1.8705153465270996,
+      "learning_rate": 1.7551546391752578e-05,
+      "loss": 0.1203,
+      "step": 8360
+    },
+    {
+      "epoch": 3.922211808809747,
+      "grad_norm": 2.1490349769592285,
+      "learning_rate": 1.754861761949391e-05,
+      "loss": 0.1074,
+      "step": 8370
+    },
+    {
+      "epoch": 3.9268978444236176,
+      "grad_norm": 1.5012431144714355,
+      "learning_rate": 1.754568884723524e-05,
+      "loss": 0.1202,
+      "step": 8380
+    },
+    {
+      "epoch": 3.931583880037488,
+      "grad_norm": 1.2775022983551025,
+      "learning_rate": 1.754276007497657e-05,
+      "loss": 0.1241,
+      "step": 8390
+    },
+    {
+      "epoch": 3.936269915651359,
+      "grad_norm": 2.361064910888672,
+      "learning_rate": 1.7539831302717902e-05,
+      "loss": 0.1393,
+      "step": 8400
+    },
+    {
+      "epoch": 3.9409559512652295,
+      "grad_norm": 1.8726896047592163,
+      "learning_rate": 1.7536902530459232e-05,
+      "loss": 0.1191,
+      "step": 8410
+    },
+    {
+      "epoch": 3.9456419868791004,
+      "grad_norm": 1.8277250528335571,
+      "learning_rate": 1.7533973758200565e-05,
+      "loss": 0.1265,
+      "step": 8420
+    },
+    {
+      "epoch": 3.950328022492971,
+      "grad_norm": 1.534006118774414,
+      "learning_rate": 1.7531044985941894e-05,
+      "loss": 0.1153,
+      "step": 8430
+    },
+    {
+      "epoch": 3.9550140581068414,
+      "grad_norm": 1.9085185527801514,
+      "learning_rate": 1.7528116213683227e-05,
+      "loss": 0.1216,
+      "step": 8440
+    },
+    {
+      "epoch": 3.9597000937207123,
+      "grad_norm": 2.059544563293457,
+      "learning_rate": 1.7525187441424557e-05,
+      "loss": 0.1185,
+      "step": 8450
+    },
+    {
+      "epoch": 3.964386129334583,
+      "grad_norm": 2.6308438777923584,
+      "learning_rate": 1.752225866916589e-05,
+      "loss": 0.1137,
+      "step": 8460
+    },
+    {
+      "epoch": 3.9690721649484537,
+      "grad_norm": 1.2617682218551636,
+      "learning_rate": 1.751932989690722e-05,
+      "loss": 0.143,
+      "step": 8470
+    },
+    {
+      "epoch": 3.973758200562324,
+      "grad_norm": 2.1921794414520264,
+      "learning_rate": 1.751640112464855e-05,
+      "loss": 0.1086,
+      "step": 8480
+    },
+    {
+      "epoch": 3.9784442361761947,
+      "grad_norm": 1.7036564350128174,
+      "learning_rate": 1.751347235238988e-05,
+      "loss": 0.127,
+      "step": 8490
+    },
+    {
+      "epoch": 3.9831302717900656,
+      "grad_norm": 1.6190659999847412,
+      "learning_rate": 1.751054358013121e-05,
+      "loss": 0.1232,
+      "step": 8500
+    },
+    {
+      "epoch": 3.9831302717900656,
+      "eval_loss": 0.04382430762052536,
+      "eval_pearson_cosine": 0.7946660833476784,
+      "eval_pearson_dot": 0.6408322008008298,
+      "eval_pearson_euclidean": 0.7506581872281402,
+      "eval_pearson_manhattan": 0.7492952268314212,
+      "eval_runtime": 3.2595,
+      "eval_samples_per_second": 460.2,
+      "eval_spearman_cosine": 0.7991836067006112,
+      "eval_spearman_dot": 0.6471776019534929,
+      "eval_spearman_euclidean": 0.7665561093361127,
+      "eval_spearman_manhattan": 0.7655283844207366,
+      "eval_steps_per_second": 28.839,
+      "step": 8500
+    },
+    {
+      "epoch": 3.987816307403936,
+      "grad_norm": 1.5553314685821533,
+      "learning_rate": 1.750761480787254e-05,
+      "loss": 0.1199,
+      "step": 8510
+    },
+    {
+      "epoch": 3.992502343017807,
+      "grad_norm": 1.8198939561843872,
+      "learning_rate": 1.750468603561387e-05,
+      "loss": 0.1387,
+      "step": 8520
+    },
+    {
+      "epoch": 3.9971883786316775,
+      "grad_norm": 1.5737895965576172,
+      "learning_rate": 1.7501757263355203e-05,
+      "loss": 0.1291,
+      "step": 8530
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }