Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +432 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c854e311156a00fb209c1d5b18bf088757f9e875811a4af0292d4b051e6c6446
 size 735217848

 version https://git-lfs.github.com/spec/v1
+oid sha256:74572018ac522fe8bf3b91fec5b2e11a917f01268eb7fa79d8c28e82716c3641
 size 735217848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de307672e8d7a91febef716662f5657dacb787fa03178bc23fb37badcafa7ed1
 size 1470521978

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaf6e503e47ad9a45b9fb2dbb896936f1d179d52c20c550add65c77f44a8193c
 size 1470521978

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:038ef74d9d7647e927602a31e3ff40ed015ce2147efee9b81efc43a4be3f559b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5672d4a2bab2f5ec1b202aa86f336deecf9ade33ecc3e9f1ae101d08c2403c85
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fca3c514eb217652ef846414a7b25fe2d542ec928f14020a84d1e47090ecb880
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:8dfb306257217b253dcb010fa8e7db4904b5a105fb159cc7b2977c1d185fc223
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.46860356138706655,
   "eval_steps": 100,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -867,6 +867,436 @@
       "eval_spearman_manhattan": 0.8284194308491212,
       "eval_steps_per_second": 15.014,
       "step": 1000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7029053420805998,
   "eval_steps": 100,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8284194308491212,
       "eval_steps_per_second": 15.014,
       "step": 1000
+    },
+    {
+      "epoch": 0.4732895970009372,
+      "grad_norm": 2.064291477203369,
+      "learning_rate": 4.7041940018744145e-05,
+      "loss": 0.3188,
+      "step": 1010
+    },
+    {
+      "epoch": 0.47797563261480785,
+      "grad_norm": 1.338891625404358,
+      "learning_rate": 4.7012652296157454e-05,
+      "loss": 0.3381,
+      "step": 1020
+    },
+    {
+      "epoch": 0.48266166822867856,
+      "grad_norm": 1.4479578733444214,
+      "learning_rate": 4.698336457357076e-05,
+      "loss": 0.3187,
+      "step": 1030
+    },
+    {
+      "epoch": 0.4873477038425492,
+      "grad_norm": 2.0868189334869385,
+      "learning_rate": 4.695407685098407e-05,
+      "loss": 0.3697,
+      "step": 1040
+    },
+    {
+      "epoch": 0.49203373945641987,
+      "grad_norm": 1.9820175170898438,
+      "learning_rate": 4.692478912839738e-05,
+      "loss": 0.3079,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4967197750702905,
+      "grad_norm": 1.2479910850524902,
+      "learning_rate": 4.689550140581069e-05,
+      "loss": 0.3129,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5014058106841612,
+      "grad_norm": 1.5005191564559937,
+      "learning_rate": 4.6866213683223996e-05,
+      "loss": 0.3588,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5060918462980318,
+      "grad_norm": 1.730153203010559,
+      "learning_rate": 4.68369259606373e-05,
+      "loss": 0.3511,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5107778819119025,
+      "grad_norm": 1.8256272077560425,
+      "learning_rate": 4.680763823805061e-05,
+      "loss": 0.3483,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "grad_norm": 1.8275713920593262,
+      "learning_rate": 4.677835051546392e-05,
+      "loss": 0.3301,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "eval_loss": 0.06174962595105171,
+      "eval_pearson_cosine": 0.8116036079365685,
+      "eval_pearson_dot": 0.7637833872485942,
+      "eval_pearson_euclidean": 0.8160585823410784,
+      "eval_pearson_manhattan": 0.8176746469698344,
+      "eval_runtime": 6.1383,
+      "eval_samples_per_second": 244.369,
+      "eval_spearman_cosine": 0.8149952741898824,
+      "eval_spearman_dot": 0.759784369983796,
+      "eval_spearman_euclidean": 0.8211588786730816,
+      "eval_spearman_manhattan": 0.8228445193252625,
+      "eval_steps_per_second": 15.314,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5201499531396439,
+      "grad_norm": 1.7808656692504883,
+      "learning_rate": 4.674906279287723e-05,
+      "loss": 0.3378,
+      "step": 1110
+    },
+    {
+      "epoch": 0.5248359887535146,
+      "grad_norm": 1.3912303447723389,
+      "learning_rate": 4.671977507029054e-05,
+      "loss": 0.3247,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5295220243673852,
+      "grad_norm": 1.619547724723816,
+      "learning_rate": 4.669048734770384e-05,
+      "loss": 0.3548,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5342080599812559,
+      "grad_norm": 1.6785143613815308,
+      "learning_rate": 4.666119962511715e-05,
+      "loss": 0.4056,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5388940955951266,
+      "grad_norm": 1.4282417297363281,
+      "learning_rate": 4.6631911902530465e-05,
+      "loss": 0.3136,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5435801312089972,
+      "grad_norm": 1.5950373411178589,
+      "learning_rate": 4.660262417994377e-05,
+      "loss": 0.3094,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5482661668228679,
+      "grad_norm": 1.9235565662384033,
+      "learning_rate": 4.657333645735708e-05,
+      "loss": 0.3409,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5529522024367385,
+      "grad_norm": 1.2192574739456177,
+      "learning_rate": 4.6544048734770383e-05,
+      "loss": 0.3387,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5576382380506092,
+      "grad_norm": 1.5550990104675293,
+      "learning_rate": 4.651476101218369e-05,
+      "loss": 0.3184,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5623242736644799,
+      "grad_norm": 1.8576079607009888,
+      "learning_rate": 4.6485473289597e-05,
+      "loss": 0.3637,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5623242736644799,
+      "eval_loss": 0.05324321612715721,
+      "eval_pearson_cosine": 0.8107929850304814,
+      "eval_pearson_dot": 0.768063847349957,
+      "eval_pearson_euclidean": 0.8155502077488883,
+      "eval_pearson_manhattan": 0.8174981555238503,
+      "eval_runtime": 5.9644,
+      "eval_samples_per_second": 251.492,
+      "eval_spearman_cosine": 0.8145222586962418,
+      "eval_spearman_dot": 0.7642997219390888,
+      "eval_spearman_euclidean": 0.8201735536723759,
+      "eval_spearman_manhattan": 0.8222186632592043,
+      "eval_steps_per_second": 15.76,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5670103092783505,
+      "grad_norm": 1.41835618019104,
+      "learning_rate": 4.6456185567010316e-05,
+      "loss": 0.3039,
+      "step": 1210
+    },
+    {
+      "epoch": 0.5716963448922212,
+      "grad_norm": 1.3850994110107422,
+      "learning_rate": 4.6426897844423624e-05,
+      "loss": 0.3187,
+      "step": 1220
+    },
+    {
+      "epoch": 0.5763823805060918,
+      "grad_norm": 1.437373399734497,
+      "learning_rate": 4.6397610121836926e-05,
+      "loss": 0.3337,
+      "step": 1230
+    },
+    {
+      "epoch": 0.5810684161199625,
+      "grad_norm": 1.2328146696090698,
+      "learning_rate": 4.6368322399250235e-05,
+      "loss": 0.2975,
+      "step": 1240
+    },
+    {
+      "epoch": 0.5857544517338332,
+      "grad_norm": 1.6191329956054688,
+      "learning_rate": 4.633903467666354e-05,
+      "loss": 0.3275,
+      "step": 1250
+    },
+    {
+      "epoch": 0.5904404873477038,
+      "grad_norm": 1.695470929145813,
+      "learning_rate": 4.630974695407685e-05,
+      "loss": 0.3485,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5951265229615745,
+      "grad_norm": 1.6120591163635254,
+      "learning_rate": 4.628045923149017e-05,
+      "loss": 0.3515,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5998125585754451,
+      "grad_norm": 1.6157792806625366,
+      "learning_rate": 4.625117150890347e-05,
+      "loss": 0.3043,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6044985941893158,
+      "grad_norm": 1.1465294361114502,
+      "learning_rate": 4.622188378631678e-05,
+      "loss": 0.2884,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6091846298031866,
+      "grad_norm": 1.583688497543335,
+      "learning_rate": 4.6192596063730086e-05,
+      "loss": 0.2885,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6091846298031866,
+      "eval_loss": 0.04511857405304909,
+      "eval_pearson_cosine": 0.8272008065998051,
+      "eval_pearson_dot": 0.7924789666171037,
+      "eval_pearson_euclidean": 0.8268065548805623,
+      "eval_pearson_manhattan": 0.827500349653536,
+      "eval_runtime": 6.0244,
+      "eval_samples_per_second": 248.988,
+      "eval_spearman_cosine": 0.8278338594350843,
+      "eval_spearman_dot": 0.7887595412839734,
+      "eval_spearman_euclidean": 0.8317669408319824,
+      "eval_spearman_manhattan": 0.8323949761116776,
+      "eval_steps_per_second": 15.603,
+      "step": 1300
+    },
+    {
+      "epoch": 0.6138706654170571,
+      "grad_norm": 1.081640362739563,
+      "learning_rate": 4.6163308341143395e-05,
+      "loss": 0.3526,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6185567010309279,
+      "grad_norm": 1.760512351989746,
+      "learning_rate": 4.61340206185567e-05,
+      "loss": 0.3113,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6232427366447985,
+      "grad_norm": 1.106444239616394,
+      "learning_rate": 4.610473289597001e-05,
+      "loss": 0.3126,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6279287722586692,
+      "grad_norm": 1.3500837087631226,
+      "learning_rate": 4.607544517338332e-05,
+      "loss": 0.3094,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6326148078725399,
+      "grad_norm": 1.727953553199768,
+      "learning_rate": 4.604615745079663e-05,
+      "loss": 0.3304,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6373008434864105,
+      "grad_norm": 1.4341022968292236,
+      "learning_rate": 4.601686972820994e-05,
+      "loss": 0.2804,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6419868791002812,
+      "grad_norm": 1.4479708671569824,
+      "learning_rate": 4.5987582005623246e-05,
+      "loss": 0.31,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6466729147141518,
+      "grad_norm": 1.5667890310287476,
+      "learning_rate": 4.5958294283036554e-05,
+      "loss": 0.3149,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6513589503280225,
+      "grad_norm": 1.7333146333694458,
+      "learning_rate": 4.592900656044986e-05,
+      "loss": 0.3247,
+      "step": 1390
+    },
+    {
+      "epoch": 0.6560449859418932,
+      "grad_norm": 1.914392113685608,
+      "learning_rate": 4.589971883786317e-05,
+      "loss": 0.2852,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6560449859418932,
+      "eval_loss": 0.04731455817818642,
+      "eval_pearson_cosine": 0.8245641713392331,
+      "eval_pearson_dot": 0.7893189374890994,
+      "eval_pearson_euclidean": 0.8220644314223797,
+      "eval_pearson_manhattan": 0.8227839674683928,
+      "eval_runtime": 6.0521,
+      "eval_samples_per_second": 247.846,
+      "eval_spearman_cosine": 0.8264178003782281,
+      "eval_spearman_dot": 0.7874134051082518,
+      "eval_spearman_euclidean": 0.8274821508565314,
+      "eval_spearman_manhattan": 0.8280999297389011,
+      "eval_steps_per_second": 15.532,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6607310215557638,
+      "grad_norm": 1.2458995580673218,
+      "learning_rate": 4.587043111527648e-05,
+      "loss": 0.3068,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6654170571696345,
+      "grad_norm": 1.6540151834487915,
+      "learning_rate": 4.584114339268979e-05,
+      "loss": 0.3034,
+      "step": 1420
+    },
+    {
+      "epoch": 0.6701030927835051,
+      "grad_norm": 1.2585715055465698,
+      "learning_rate": 4.581185567010309e-05,
+      "loss": 0.3297,
+      "step": 1430
+    },
+    {
+      "epoch": 0.6747891283973758,
+      "grad_norm": 1.5088609457015991,
+      "learning_rate": 4.5782567947516406e-05,
+      "loss": 0.3444,
+      "step": 1440
+    },
+    {
+      "epoch": 0.6794751640112465,
+      "grad_norm": 1.3120390176773071,
+      "learning_rate": 4.5753280224929714e-05,
+      "loss": 0.2882,
+      "step": 1450
+    },
+    {
+      "epoch": 0.6841611996251171,
+      "grad_norm": 1.1074262857437134,
+      "learning_rate": 4.572399250234302e-05,
+      "loss": 0.287,
+      "step": 1460
+    },
+    {
+      "epoch": 0.6888472352389878,
+      "grad_norm": 1.5284086465835571,
+      "learning_rate": 4.569470477975633e-05,
+      "loss": 0.3175,
+      "step": 1470
+    },
+    {
+      "epoch": 0.6935332708528584,
+      "grad_norm": 1.5610471963882446,
+      "learning_rate": 4.566541705716963e-05,
+      "loss": 0.3033,
+      "step": 1480
+    },
+    {
+      "epoch": 0.6982193064667291,
+      "grad_norm": 1.1839112043380737,
+      "learning_rate": 4.563612933458294e-05,
+      "loss": 0.2917,
+      "step": 1490
+    },
+    {
+      "epoch": 0.7029053420805998,
+      "grad_norm": 1.2611138820648193,
+      "learning_rate": 4.560684161199626e-05,
+      "loss": 0.3225,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7029053420805998,
+      "eval_loss": 0.05073302239179611,
+      "eval_pearson_cosine": 0.8258767050389224,
+      "eval_pearson_dot": 0.7737186817222579,
+      "eval_pearson_euclidean": 0.826299226589029,
+      "eval_pearson_manhattan": 0.8274116157485736,
+      "eval_runtime": 6.1756,
+      "eval_samples_per_second": 242.892,
+      "eval_spearman_cosine": 0.828410027637777,
+      "eval_spearman_dot": 0.7707599871747091,
+      "eval_spearman_euclidean": 0.8324611004376368,
+      "eval_spearman_manhattan": 0.8335300441487923,
+      "eval_steps_per_second": 15.221,
+      "step": 1500
     }
   ],
   "logging_steps": 10,