Training in progress, step 3500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +432 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0336b9d4a5405b35eb41810e914f8235995602c3b470eb98cb5172e5614a1617
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:c03dfe3ff98720b641d5b3253f189443475f90c5848bfce1ee42b4e25e9a06d9
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb14199c8ed85d5530890aaca81a88b88623101addc71c4dba17e1262410aecb
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:781ca001e4eef0894d5dc0a043ec1d7414e5f687b44a3bb27578a66df794e142
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9819055317e0aa1215ad120239bc4cecc175225c0dc18c98ca0bffe9f465133f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cd02421b7ec256714ec03c37d51589e92544068eeda4bae107d407e8dfd0cb9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7947fe218b4344129921368e2448c6474704c87d577f328a448eabc5c93d4cc3
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:8785b8509dc9a197581e45af973f623b343ec6de3eb0eeab89b29a64ed0e10d5
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4058106841611997,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2587,6 +2587,436 @@
       "eval_spearman_manhattan": 0.8242741076199507,
       "eval_steps_per_second": 15.409,
       "step": 3000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.640112464854733,
   "eval_steps": 100,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8242741076199507,
       "eval_steps_per_second": 15.409,
       "step": 3000
+    },
+    {
+      "epoch": 1.4104967197750704,
+      "grad_norm": 1.681735873222351,
+      "learning_rate": 4.559219775070291e-05,
+      "loss": 0.2028,
+      "step": 3010
+    },
+    {
+      "epoch": 1.415182755388941,
+      "grad_norm": 1.349747896194458,
+      "learning_rate": 4.5577553889409565e-05,
+      "loss": 0.1849,
+      "step": 3020
+    },
+    {
+      "epoch": 1.4198687910028116,
+      "grad_norm": 1.752896785736084,
+      "learning_rate": 4.556291002811622e-05,
+      "loss": 0.1939,
+      "step": 3030
+    },
+    {
+      "epoch": 1.4245548266166823,
+      "grad_norm": 1.538013219833374,
+      "learning_rate": 4.5548266166822874e-05,
+      "loss": 0.1711,
+      "step": 3040
+    },
+    {
+      "epoch": 1.429240862230553,
+      "grad_norm": 1.6929601430892944,
+      "learning_rate": 4.553362230552952e-05,
+      "loss": 0.1835,
+      "step": 3050
+    },
+    {
+      "epoch": 1.4339268978444237,
+      "grad_norm": 1.9702001810073853,
+      "learning_rate": 4.5518978444236176e-05,
+      "loss": 0.1968,
+      "step": 3060
+    },
+    {
+      "epoch": 1.4386129334582942,
+      "grad_norm": 1.5056127309799194,
+      "learning_rate": 4.550433458294283e-05,
+      "loss": 0.1856,
+      "step": 3070
+    },
+    {
+      "epoch": 1.443298969072165,
+      "grad_norm": 1.8639978170394897,
+      "learning_rate": 4.5489690721649484e-05,
+      "loss": 0.1854,
+      "step": 3080
+    },
+    {
+      "epoch": 1.4479850046860356,
+      "grad_norm": 1.6516441106796265,
+      "learning_rate": 4.547504686035614e-05,
+      "loss": 0.1816,
+      "step": 3090
+    },
+    {
+      "epoch": 1.4526710402999063,
+      "grad_norm": 1.3151347637176514,
+      "learning_rate": 4.546040299906279e-05,
+      "loss": 0.1777,
+      "step": 3100
+    },
+    {
+      "epoch": 1.4526710402999063,
+      "eval_loss": 0.036029454320669174,
+      "eval_pearson_cosine": 0.8219421674547647,
+      "eval_pearson_dot": 0.7544857842745216,
+      "eval_pearson_euclidean": 0.8154423230591377,
+      "eval_pearson_manhattan": 0.8169259606030721,
+      "eval_runtime": 5.9655,
+      "eval_samples_per_second": 251.446,
+      "eval_spearman_cosine": 0.8227245969216198,
+      "eval_spearman_dot": 0.7556651515459966,
+      "eval_spearman_euclidean": 0.8221360306356487,
+      "eval_spearman_manhattan": 0.8232106684973721,
+      "eval_steps_per_second": 15.757,
+      "step": 3100
+    },
+    {
+      "epoch": 1.457357075913777,
+      "grad_norm": 1.5906847715377808,
+      "learning_rate": 4.544575913776945e-05,
+      "loss": 0.2292,
+      "step": 3110
+    },
+    {
+      "epoch": 1.4620431115276475,
+      "grad_norm": 1.2340494394302368,
+      "learning_rate": 4.543111527647611e-05,
+      "loss": 0.1885,
+      "step": 3120
+    },
+    {
+      "epoch": 1.4667291471415183,
+      "grad_norm": 1.7530288696289062,
+      "learning_rate": 4.541647141518276e-05,
+      "loss": 0.2088,
+      "step": 3130
+    },
+    {
+      "epoch": 1.471415182755389,
+      "grad_norm": 1.7493581771850586,
+      "learning_rate": 4.540182755388942e-05,
+      "loss": 0.1704,
+      "step": 3140
+    },
+    {
+      "epoch": 1.4761012183692597,
+      "grad_norm": 1.5426673889160156,
+      "learning_rate": 4.5387183692596064e-05,
+      "loss": 0.1743,
+      "step": 3150
+    },
+    {
+      "epoch": 1.4807872539831304,
+      "grad_norm": 1.4274178743362427,
+      "learning_rate": 4.537253983130272e-05,
+      "loss": 0.1929,
+      "step": 3160
+    },
+    {
+      "epoch": 1.4854732895970009,
+      "grad_norm": 1.372902512550354,
+      "learning_rate": 4.535789597000937e-05,
+      "loss": 0.1913,
+      "step": 3170
+    },
+    {
+      "epoch": 1.4901593252108716,
+      "grad_norm": 2.073024272918701,
+      "learning_rate": 4.534325210871603e-05,
+      "loss": 0.2104,
+      "step": 3180
+    },
+    {
+      "epoch": 1.4948453608247423,
+      "grad_norm": 1.5448635816574097,
+      "learning_rate": 4.532860824742268e-05,
+      "loss": 0.2018,
+      "step": 3190
+    },
+    {
+      "epoch": 1.499531396438613,
+      "grad_norm": 1.4171442985534668,
+      "learning_rate": 4.5313964386129336e-05,
+      "loss": 0.1816,
+      "step": 3200
+    },
+    {
+      "epoch": 1.499531396438613,
+      "eval_loss": 0.036359407007694244,
+      "eval_pearson_cosine": 0.821300031874455,
+      "eval_pearson_dot": 0.7616346380196859,
+      "eval_pearson_euclidean": 0.8169013356741246,
+      "eval_pearson_manhattan": 0.8184860654262422,
+      "eval_runtime": 5.9202,
+      "eval_samples_per_second": 253.369,
+      "eval_spearman_cosine": 0.8228088882125945,
+      "eval_spearman_dot": 0.7590379988222679,
+      "eval_spearman_euclidean": 0.8237353804832064,
+      "eval_spearman_manhattan": 0.82472345338271,
+      "eval_steps_per_second": 15.878,
+      "step": 3200
+    },
+    {
+      "epoch": 1.5042174320524837,
+      "grad_norm": 1.7904757261276245,
+      "learning_rate": 4.529932052483599e-05,
+      "loss": 0.1955,
+      "step": 3210
+    },
+    {
+      "epoch": 1.5089034676663542,
+      "grad_norm": 2.021733522415161,
+      "learning_rate": 4.5284676663542644e-05,
+      "loss": 0.1776,
+      "step": 3220
+    },
+    {
+      "epoch": 1.513589503280225,
+      "grad_norm": 1.2433106899261475,
+      "learning_rate": 4.52700328022493e-05,
+      "loss": 0.1626,
+      "step": 3230
+    },
+    {
+      "epoch": 1.5182755388940956,
+      "grad_norm": 1.4370200634002686,
+      "learning_rate": 4.525538894095596e-05,
+      "loss": 0.1752,
+      "step": 3240
+    },
+    {
+      "epoch": 1.522961574507966,
+      "grad_norm": 1.9471467733383179,
+      "learning_rate": 4.524074507966261e-05,
+      "loss": 0.1782,
+      "step": 3250
+    },
+    {
+      "epoch": 1.527647610121837,
+      "grad_norm": 1.829440712928772,
+      "learning_rate": 4.522610121836926e-05,
+      "loss": 0.2014,
+      "step": 3260
+    },
+    {
+      "epoch": 1.5323336457357075,
+      "grad_norm": 1.703355073928833,
+      "learning_rate": 4.5211457357075915e-05,
+      "loss": 0.1762,
+      "step": 3270
+    },
+    {
+      "epoch": 1.5370196813495782,
+      "grad_norm": 1.6706669330596924,
+      "learning_rate": 4.519681349578257e-05,
+      "loss": 0.1937,
+      "step": 3280
+    },
+    {
+      "epoch": 1.541705716963449,
+      "grad_norm": 1.5066584348678589,
+      "learning_rate": 4.5182169634489224e-05,
+      "loss": 0.2008,
+      "step": 3290
+    },
+    {
+      "epoch": 1.5463917525773194,
+      "grad_norm": 1.4767428636550903,
+      "learning_rate": 4.516752577319588e-05,
+      "loss": 0.229,
+      "step": 3300
+    },
+    {
+      "epoch": 1.5463917525773194,
+      "eval_loss": 0.039627715945243835,
+      "eval_pearson_cosine": 0.8169224788587428,
+      "eval_pearson_dot": 0.7529223671879777,
+      "eval_pearson_euclidean": 0.816545384611743,
+      "eval_pearson_manhattan": 0.8176740235496034,
+      "eval_runtime": 6.324,
+      "eval_samples_per_second": 237.191,
+      "eval_spearman_cosine": 0.8199004477023643,
+      "eval_spearman_dot": 0.7498417362110426,
+      "eval_spearman_euclidean": 0.8235117073588528,
+      "eval_spearman_manhattan": 0.8240841209374519,
+      "eval_steps_per_second": 14.864,
+      "step": 3300
+    },
+    {
+      "epoch": 1.5510777881911904,
+      "grad_norm": 1.3127154111862183,
+      "learning_rate": 4.515288191190253e-05,
+      "loss": 0.1849,
+      "step": 3310
+    },
+    {
+      "epoch": 1.5557638238050608,
+      "grad_norm": 0.9424723982810974,
+      "learning_rate": 4.513823805060919e-05,
+      "loss": 0.2011,
+      "step": 3320
+    },
+    {
+      "epoch": 1.5604498594189316,
+      "grad_norm": 1.585274577140808,
+      "learning_rate": 4.512359418931584e-05,
+      "loss": 0.1935,
+      "step": 3330
+    },
+    {
+      "epoch": 1.5651358950328023,
+      "grad_norm": 1.4503992795944214,
+      "learning_rate": 4.5108950328022495e-05,
+      "loss": 0.2189,
+      "step": 3340
+    },
+    {
+      "epoch": 1.569821930646673,
+      "grad_norm": 1.6958515644073486,
+      "learning_rate": 4.509430646672915e-05,
+      "loss": 0.1949,
+      "step": 3350
+    },
+    {
+      "epoch": 1.5745079662605437,
+      "grad_norm": 1.7165809869766235,
+      "learning_rate": 4.5079662605435804e-05,
+      "loss": 0.1897,
+      "step": 3360
+    },
+    {
+      "epoch": 1.5791940018744142,
+      "grad_norm": 1.4036378860473633,
+      "learning_rate": 4.506501874414246e-05,
+      "loss": 0.2173,
+      "step": 3370
+    },
+    {
+      "epoch": 1.5838800374882849,
+      "grad_norm": 1.4913054704666138,
+      "learning_rate": 4.505037488284911e-05,
+      "loss": 0.1931,
+      "step": 3380
+    },
+    {
+      "epoch": 1.5885660731021556,
+      "grad_norm": 1.7645376920700073,
+      "learning_rate": 4.503573102155577e-05,
+      "loss": 0.201,
+      "step": 3390
+    },
+    {
+      "epoch": 1.5932521087160263,
+      "grad_norm": 1.2109887599945068,
+      "learning_rate": 4.502108716026242e-05,
+      "loss": 0.1742,
+      "step": 3400
+    },
+    {
+      "epoch": 1.5932521087160263,
+      "eval_loss": 0.034527041018009186,
+      "eval_pearson_cosine": 0.8244957125194645,
+      "eval_pearson_dot": 0.7646698456086369,
+      "eval_pearson_euclidean": 0.8169295762368449,
+      "eval_pearson_manhattan": 0.8185445852885636,
+      "eval_runtime": 5.9441,
+      "eval_samples_per_second": 252.35,
+      "eval_spearman_cosine": 0.8251998390698203,
+      "eval_spearman_dot": 0.7633691785479392,
+      "eval_spearman_euclidean": 0.8242535656619165,
+      "eval_spearman_manhattan": 0.825256335833904,
+      "eval_steps_per_second": 15.814,
+      "step": 3400
+    },
+    {
+      "epoch": 1.597938144329897,
+      "grad_norm": 0.9772526621818542,
+      "learning_rate": 4.5006443298969075e-05,
+      "loss": 0.1646,
+      "step": 3410
+    },
+    {
+      "epoch": 1.6026241799437675,
+      "grad_norm": 1.2620090246200562,
+      "learning_rate": 4.499179943767573e-05,
+      "loss": 0.1849,
+      "step": 3420
+    },
+    {
+      "epoch": 1.6073102155576382,
+      "grad_norm": 1.5649354457855225,
+      "learning_rate": 4.4977155576382384e-05,
+      "loss": 0.2149,
+      "step": 3430
+    },
+    {
+      "epoch": 1.611996251171509,
+      "grad_norm": 1.3986328840255737,
+      "learning_rate": 4.496251171508904e-05,
+      "loss": 0.1706,
+      "step": 3440
+    },
+    {
+      "epoch": 1.6166822867853796,
+      "grad_norm": 1.0502641201019287,
+      "learning_rate": 4.4947867853795686e-05,
+      "loss": 0.18,
+      "step": 3450
+    },
+    {
+      "epoch": 1.6213683223992503,
+      "grad_norm": 2.1642649173736572,
+      "learning_rate": 4.4933223992502347e-05,
+      "loss": 0.1903,
+      "step": 3460
+    },
+    {
+      "epoch": 1.6260543580131208,
+      "grad_norm": 2.1181936264038086,
+      "learning_rate": 4.4918580131209e-05,
+      "loss": 0.2061,
+      "step": 3470
+    },
+    {
+      "epoch": 1.6307403936269915,
+      "grad_norm": 1.52034592628479,
+      "learning_rate": 4.4903936269915655e-05,
+      "loss": 0.1612,
+      "step": 3480
+    },
+    {
+      "epoch": 1.6354264292408622,
+      "grad_norm": 1.6476225852966309,
+      "learning_rate": 4.488929240862231e-05,
+      "loss": 0.1825,
+      "step": 3490
+    },
+    {
+      "epoch": 1.640112464854733,
+      "grad_norm": 1.46713387966156,
+      "learning_rate": 4.4874648547328964e-05,
+      "loss": 0.1606,
+      "step": 3500
+    },
+    {
+      "epoch": 1.640112464854733,
+      "eval_loss": 0.03454529866576195,
+      "eval_pearson_cosine": 0.8219067533222528,
+      "eval_pearson_dot": 0.7628975832542579,
+      "eval_pearson_euclidean": 0.8128236856339015,
+      "eval_pearson_manhattan": 0.8145631898507872,
+      "eval_runtime": 5.977,
+      "eval_samples_per_second": 250.962,
+      "eval_spearman_cosine": 0.8230006137618159,
+      "eval_spearman_dot": 0.7622148554080955,
+      "eval_spearman_euclidean": 0.8212688136914371,
+      "eval_spearman_manhattan": 0.8222685344671697,
+      "eval_steps_per_second": 15.727,
+      "step": 3500
     }
   ],
   "logging_steps": 10,