Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +432 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6b296b786d5bd2121d4bba7dc69f589c0f5e83973a65ff1a6c67b9053cf2381
 size 735217848

 version https://git-lfs.github.com/spec/v1
+oid sha256:c854e311156a00fb209c1d5b18bf088757f9e875811a4af0292d4b051e6c6446
 size 735217848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ec8e23938fd7c55c2ccf015da2bd80ad3d755e4ee0d6634623f07ae27d815c7
 size 1470521978

 version https://git-lfs.github.com/spec/v1
+oid sha256:de307672e8d7a91febef716662f5657dacb787fa03178bc23fb37badcafa7ed1
 size 1470521978

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:558a4b0fbdb033d779e0f95e05927694fea0f2ec8f7e3ce8de68c5939e6b9f27
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:038ef74d9d7647e927602a31e3ff40ed015ce2147efee9b81efc43a4be3f559b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:228d14efa38075e5075e5f3ea1c158f27661d545dab61c548dfe15e36f9e3d44
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:fca3c514eb217652ef846414a7b25fe2d542ec928f14020a84d1e47090ecb880
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23430178069353327,
   "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -437,6 +437,436 @@
       "eval_spearman_manhattan": 0.8187222998801444,
       "eval_steps_per_second": 15.744,
       "step": 500
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.46860356138706655,
   "eval_steps": 100,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8187222998801444,
       "eval_steps_per_second": 15.744,
       "step": 500
+    },
+    {
+      "epoch": 0.23898781630740393,
+      "grad_norm": 1.9643880128860474,
+      "learning_rate": 4.850632614807873e-05,
+      "loss": 0.4231,
+      "step": 510
+    },
+    {
+      "epoch": 0.2436738519212746,
+      "grad_norm": 1.7972699403762817,
+      "learning_rate": 4.847703842549204e-05,
+      "loss": 0.3893,
+      "step": 520
+    },
+    {
+      "epoch": 0.24835988753514526,
+      "grad_norm": 1.6312799453735352,
+      "learning_rate": 4.844775070290534e-05,
+      "loss": 0.3869,
+      "step": 530
+    },
+    {
+      "epoch": 0.2530459231490159,
+      "grad_norm": 1.8009634017944336,
+      "learning_rate": 4.841846298031865e-05,
+      "loss": 0.4,
+      "step": 540
+    },
+    {
+      "epoch": 0.25773195876288657,
+      "grad_norm": 1.1453664302825928,
+      "learning_rate": 4.838917525773196e-05,
+      "loss": 0.3568,
+      "step": 550
+    },
+    {
+      "epoch": 0.2624179943767573,
+      "grad_norm": 1.683673620223999,
+      "learning_rate": 4.8359887535145274e-05,
+      "loss": 0.3674,
+      "step": 560
+    },
+    {
+      "epoch": 0.26710402999062793,
+      "grad_norm": 1.3695913553237915,
+      "learning_rate": 4.833059981255858e-05,
+      "loss": 0.3817,
+      "step": 570
+    },
+    {
+      "epoch": 0.2717900656044986,
+      "grad_norm": 1.8631620407104492,
+      "learning_rate": 4.8301312089971884e-05,
+      "loss": 0.3546,
+      "step": 580
+    },
+    {
+      "epoch": 0.27647610121836924,
+      "grad_norm": 1.5883185863494873,
+      "learning_rate": 4.827202436738519e-05,
+      "loss": 0.3973,
+      "step": 590
+    },
+    {
+      "epoch": 0.28116213683223995,
+      "grad_norm": 1.7056660652160645,
+      "learning_rate": 4.82427366447985e-05,
+      "loss": 0.3754,
+      "step": 600
+    },
+    {
+      "epoch": 0.28116213683223995,
+      "eval_loss": 0.059529613703489304,
+      "eval_pearson_cosine": 0.8104839357699305,
+      "eval_pearson_dot": 0.7706455959096417,
+      "eval_pearson_euclidean": 0.8087417307856555,
+      "eval_pearson_manhattan": 0.8101299227665919,
+      "eval_runtime": 6.0212,
+      "eval_samples_per_second": 249.121,
+      "eval_spearman_cosine": 0.8125251228747598,
+      "eval_spearman_dot": 0.7680727600884657,
+      "eval_spearman_euclidean": 0.8146128693278114,
+      "eval_spearman_manhattan": 0.8161621120875591,
+      "eval_steps_per_second": 15.612,
+      "step": 600
+    },
+    {
+      "epoch": 0.2858481724461106,
+      "grad_norm": 1.8564058542251587,
+      "learning_rate": 4.821344892221181e-05,
+      "loss": 0.4016,
+      "step": 610
+    },
+    {
+      "epoch": 0.29053420805998126,
+      "grad_norm": 1.467993974685669,
+      "learning_rate": 4.818416119962512e-05,
+      "loss": 0.3858,
+      "step": 620
+    },
+    {
+      "epoch": 0.2952202436738519,
+      "grad_norm": 2.3624465465545654,
+      "learning_rate": 4.815487347703843e-05,
+      "loss": 0.3796,
+      "step": 630
+    },
+    {
+      "epoch": 0.29990627928772257,
+      "grad_norm": 1.588629126548767,
+      "learning_rate": 4.8125585754451736e-05,
+      "loss": 0.3667,
+      "step": 640
+    },
+    {
+      "epoch": 0.3045923149015933,
+      "grad_norm": 1.380112886428833,
+      "learning_rate": 4.8096298031865044e-05,
+      "loss": 0.3453,
+      "step": 650
+    },
+    {
+      "epoch": 0.30927835051546393,
+      "grad_norm": 1.4270693063735962,
+      "learning_rate": 4.806701030927835e-05,
+      "loss": 0.3345,
+      "step": 660
+    },
+    {
+      "epoch": 0.3139643861293346,
+      "grad_norm": 2.204744338989258,
+      "learning_rate": 4.803772258669166e-05,
+      "loss": 0.395,
+      "step": 670
+    },
+    {
+      "epoch": 0.31865042174320524,
+      "grad_norm": 1.4480923414230347,
+      "learning_rate": 4.800843486410497e-05,
+      "loss": 0.3691,
+      "step": 680
+    },
+    {
+      "epoch": 0.3233364573570759,
+      "grad_norm": 1.8864325284957886,
+      "learning_rate": 4.797914714151828e-05,
+      "loss": 0.3986,
+      "step": 690
+    },
+    {
+      "epoch": 0.3280224929709466,
+      "grad_norm": 1.3784370422363281,
+      "learning_rate": 4.794985941893159e-05,
+      "loss": 0.3729,
+      "step": 700
+    },
+    {
+      "epoch": 0.3280224929709466,
+      "eval_loss": 0.061924997717142105,
+      "eval_pearson_cosine": 0.8155259960165324,
+      "eval_pearson_dot": 0.7761366153485074,
+      "eval_pearson_euclidean": 0.8127568794877789,
+      "eval_pearson_manhattan": 0.8144288026347226,
+      "eval_runtime": 6.0626,
+      "eval_samples_per_second": 247.42,
+      "eval_spearman_cosine": 0.8175981152530937,
+      "eval_spearman_dot": 0.7736443532595881,
+      "eval_spearman_euclidean": 0.8195662973032031,
+      "eval_spearman_manhattan": 0.8212465310439688,
+      "eval_steps_per_second": 15.505,
+      "step": 700
+    },
+    {
+      "epoch": 0.33270852858481725,
+      "grad_norm": 1.7109017372131348,
+      "learning_rate": 4.7920571696344895e-05,
+      "loss": 0.3345,
+      "step": 710
+    },
+    {
+      "epoch": 0.3373945641986879,
+      "grad_norm": 1.8547511100769043,
+      "learning_rate": 4.7891283973758204e-05,
+      "loss": 0.3735,
+      "step": 720
+    },
+    {
+      "epoch": 0.34208059981255856,
+      "grad_norm": 1.5369923114776611,
+      "learning_rate": 4.786199625117151e-05,
+      "loss": 0.3304,
+      "step": 730
+    },
+    {
+      "epoch": 0.3467666354264292,
+      "grad_norm": 1.308568000793457,
+      "learning_rate": 4.783270852858482e-05,
+      "loss": 0.3717,
+      "step": 740
+    },
+    {
+      "epoch": 0.3514526710402999,
+      "grad_norm": 1.3743574619293213,
+      "learning_rate": 4.780342080599813e-05,
+      "loss": 0.3381,
+      "step": 750
+    },
+    {
+      "epoch": 0.3561387066541706,
+      "grad_norm": 1.874657154083252,
+      "learning_rate": 4.777413308341144e-05,
+      "loss": 0.3193,
+      "step": 760
+    },
+    {
+      "epoch": 0.36082474226804123,
+      "grad_norm": 1.4700101613998413,
+      "learning_rate": 4.774484536082475e-05,
+      "loss": 0.3799,
+      "step": 770
+    },
+    {
+      "epoch": 0.3655107778819119,
+      "grad_norm": 1.5662988424301147,
+      "learning_rate": 4.771555763823805e-05,
+      "loss": 0.3453,
+      "step": 780
+    },
+    {
+      "epoch": 0.3701968134957826,
+      "grad_norm": 1.4666754007339478,
+      "learning_rate": 4.768626991565136e-05,
+      "loss": 0.3175,
+      "step": 790
+    },
+    {
+      "epoch": 0.37488284910965325,
+      "grad_norm": 1.3993242979049683,
+      "learning_rate": 4.765698219306467e-05,
+      "loss": 0.341,
+      "step": 800
+    },
+    {
+      "epoch": 0.37488284910965325,
+      "eval_loss": 0.05296875163912773,
+      "eval_pearson_cosine": 0.8137295797811834,
+      "eval_pearson_dot": 0.7695932846417932,
+      "eval_pearson_euclidean": 0.8189567419998482,
+      "eval_pearson_manhattan": 0.8200667930673546,
+      "eval_runtime": 6.3175,
+      "eval_samples_per_second": 237.436,
+      "eval_spearman_cosine": 0.815541427803139,
+      "eval_spearman_dot": 0.7663341686268886,
+      "eval_spearman_euclidean": 0.8233566840888671,
+      "eval_spearman_manhattan": 0.8246092914965037,
+      "eval_steps_per_second": 14.879,
+      "step": 800
+    },
+    {
+      "epoch": 0.3795688847235239,
+      "grad_norm": 1.4209802150726318,
+      "learning_rate": 4.762769447047798e-05,
+      "loss": 0.3831,
+      "step": 810
+    },
+    {
+      "epoch": 0.38425492033739456,
+      "grad_norm": 1.4097892045974731,
+      "learning_rate": 4.759840674789129e-05,
+      "loss": 0.3318,
+      "step": 820
+    },
+    {
+      "epoch": 0.3889409559512652,
+      "grad_norm": 1.706900715827942,
+      "learning_rate": 4.756911902530459e-05,
+      "loss": 0.3328,
+      "step": 830
+    },
+    {
+      "epoch": 0.3936269915651359,
+      "grad_norm": 1.610275149345398,
+      "learning_rate": 4.75398313027179e-05,
+      "loss": 0.3575,
+      "step": 840
+    },
+    {
+      "epoch": 0.3983130271790066,
+      "grad_norm": 1.4575105905532837,
+      "learning_rate": 4.751054358013121e-05,
+      "loss": 0.307,
+      "step": 850
+    },
+    {
+      "epoch": 0.4029990627928772,
+      "grad_norm": 1.638424277305603,
+      "learning_rate": 4.7481255857544524e-05,
+      "loss": 0.3504,
+      "step": 860
+    },
+    {
+      "epoch": 0.4076850984067479,
+      "grad_norm": 1.8157601356506348,
+      "learning_rate": 4.745196813495783e-05,
+      "loss": 0.3931,
+      "step": 870
+    },
+    {
+      "epoch": 0.41237113402061853,
+      "grad_norm": 1.6680104732513428,
+      "learning_rate": 4.7422680412371134e-05,
+      "loss": 0.362,
+      "step": 880
+    },
+    {
+      "epoch": 0.41705716963448924,
+      "grad_norm": 1.4331028461456299,
+      "learning_rate": 4.739339268978444e-05,
+      "loss": 0.3451,
+      "step": 890
+    },
+    {
+      "epoch": 0.4217432052483599,
+      "grad_norm": 1.3940101861953735,
+      "learning_rate": 4.736410496719775e-05,
+      "loss": 0.3161,
+      "step": 900
+    },
+    {
+      "epoch": 0.4217432052483599,
+      "eval_loss": 0.05680527910590172,
+      "eval_pearson_cosine": 0.816164907471336,
+      "eval_pearson_dot": 0.7659985241939467,
+      "eval_pearson_euclidean": 0.8198292531320703,
+      "eval_pearson_manhattan": 0.8209187797411488,
+      "eval_runtime": 6.6335,
+      "eval_samples_per_second": 226.126,
+      "eval_spearman_cosine": 0.8181742542924034,
+      "eval_spearman_dot": 0.7624851760530289,
+      "eval_spearman_euclidean": 0.8251528076462932,
+      "eval_spearman_manhattan": 0.8261936560831687,
+      "eval_steps_per_second": 14.171,
+      "step": 900
+    },
+    {
+      "epoch": 0.42642924086223055,
+      "grad_norm": 1.5849499702453613,
+      "learning_rate": 4.733481724461106e-05,
+      "loss": 0.2852,
+      "step": 910
+    },
+    {
+      "epoch": 0.4311152764761012,
+      "grad_norm": 1.8611364364624023,
+      "learning_rate": 4.7305529522024375e-05,
+      "loss": 0.3517,
+      "step": 920
+    },
+    {
+      "epoch": 0.43580131208997186,
+      "grad_norm": 1.759479284286499,
+      "learning_rate": 4.727624179943768e-05,
+      "loss": 0.3309,
+      "step": 930
+    },
+    {
+      "epoch": 0.44048734770384257,
+      "grad_norm": 1.3715683221817017,
+      "learning_rate": 4.7246954076850985e-05,
+      "loss": 0.2964,
+      "step": 940
+    },
+    {
+      "epoch": 0.4451733833177132,
+      "grad_norm": 1.6326545476913452,
+      "learning_rate": 4.7217666354264294e-05,
+      "loss": 0.3501,
+      "step": 950
+    },
+    {
+      "epoch": 0.4498594189315839,
+      "grad_norm": 1.238206148147583,
+      "learning_rate": 4.71883786316776e-05,
+      "loss": 0.3366,
+      "step": 960
+    },
+    {
+      "epoch": 0.45454545454545453,
+      "grad_norm": 1.6656396389007568,
+      "learning_rate": 4.715909090909091e-05,
+      "loss": 0.3594,
+      "step": 970
+    },
+    {
+      "epoch": 0.4592314901593252,
+      "grad_norm": 1.5264825820922852,
+      "learning_rate": 4.712980318650422e-05,
+      "loss": 0.3309,
+      "step": 980
+    },
+    {
+      "epoch": 0.4639175257731959,
+      "grad_norm": 1.4031989574432373,
+      "learning_rate": 4.710051546391753e-05,
+      "loss": 0.3616,
+      "step": 990
+    },
+    {
+      "epoch": 0.46860356138706655,
+      "grad_norm": 1.439453125,
+      "learning_rate": 4.7071227741330836e-05,
+      "loss": 0.3122,
+      "step": 1000
+    },
+    {
+      "epoch": 0.46860356138706655,
+      "eval_loss": 0.05414344370365143,
+      "eval_pearson_cosine": 0.8215390057088641,
+      "eval_pearson_dot": 0.7789934072191471,
+      "eval_pearson_euclidean": 0.8206818537339018,
+      "eval_pearson_manhattan": 0.8219733991381624,
+      "eval_runtime": 6.2607,
+      "eval_samples_per_second": 239.588,
+      "eval_spearman_cosine": 0.8235945278831797,
+      "eval_spearman_dot": 0.7745226194646113,
+      "eval_spearman_euclidean": 0.8268444005248111,
+      "eval_spearman_manhattan": 0.8284194308491212,
+      "eval_steps_per_second": 15.014,
+      "step": 1000
     }
   ],
   "logging_steps": 10,