Training in progress, step 3500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +352 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cec89bf2039662963370b7b120f954195514e1fceebb4b4ea6003a3e21329206
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb53436017de402cbb3e140080f626c219565b34350f5e9e7ce03a50b8632f27
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17b4021c7c06c88903f5c45803a9ae6b47edbd2a52a39dfd2ae2ba28dcdce07c
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5cf04a4be9db3b89f43af102704d1b2bcf9d56231564ef6cbf77066898e38fe
 size 1475248442

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e26a12cbe9066670dcd780a67f036cdb9a7df96f07de60a4ccff4560738ea392
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:6381e104397d82ea368bc2021f98181e9d693a8a280be6f239801ae904b1ab83
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4058106841611997,
   "eval_steps": 2.0,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2107,6 +2107,356 @@
       "learning_rate": 2.82427366447985e-05,
       "loss": 0.2173,
       "step": 3000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.640112464854733,
   "eval_steps": 2.0,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.82427366447985e-05,
       "loss": 0.2173,
       "step": 3000
+    },
+    {
+      "epoch": 1.4104967197750704,
+      "grad_norm": 1.8364263772964478,
+      "learning_rate": 2.8236879100281162e-05,
+      "loss": 0.2239,
+      "step": 3010
+    },
+    {
+      "epoch": 1.415182755388941,
+      "grad_norm": 1.565895676612854,
+      "learning_rate": 2.8231021555763825e-05,
+      "loss": 0.2123,
+      "step": 3020
+    },
+    {
+      "epoch": 1.4198687910028116,
+      "grad_norm": 1.5840765237808228,
+      "learning_rate": 2.8225164011246487e-05,
+      "loss": 0.2115,
+      "step": 3030
+    },
+    {
+      "epoch": 1.4245548266166823,
+      "grad_norm": 1.595318078994751,
+      "learning_rate": 2.821930646672915e-05,
+      "loss": 0.1864,
+      "step": 3040
+    },
+    {
+      "epoch": 1.429240862230553,
+      "grad_norm": 1.6979650259017944,
+      "learning_rate": 2.821344892221181e-05,
+      "loss": 0.212,
+      "step": 3050
+    },
+    {
+      "epoch": 1.4339268978444237,
+      "grad_norm": 1.9207825660705566,
+      "learning_rate": 2.8207591377694474e-05,
+      "loss": 0.2162,
+      "step": 3060
+    },
+    {
+      "epoch": 1.4386129334582942,
+      "grad_norm": 1.597359538078308,
+      "learning_rate": 2.8201733833177133e-05,
+      "loss": 0.2067,
+      "step": 3070
+    },
+    {
+      "epoch": 1.443298969072165,
+      "grad_norm": 1.8102576732635498,
+      "learning_rate": 2.8195876288659796e-05,
+      "loss": 0.2056,
+      "step": 3080
+    },
+    {
+      "epoch": 1.4479850046860356,
+      "grad_norm": 1.665094256401062,
+      "learning_rate": 2.8190018744142455e-05,
+      "loss": 0.1952,
+      "step": 3090
+    },
+    {
+      "epoch": 1.4526710402999063,
+      "grad_norm": 1.6013555526733398,
+      "learning_rate": 2.818416119962512e-05,
+      "loss": 0.1906,
+      "step": 3100
+    },
+    {
+      "epoch": 1.457357075913777,
+      "grad_norm": 1.7371183633804321,
+      "learning_rate": 2.817830365510778e-05,
+      "loss": 0.2575,
+      "step": 3110
+    },
+    {
+      "epoch": 1.4620431115276475,
+      "grad_norm": 1.4190640449523926,
+      "learning_rate": 2.817244611059044e-05,
+      "loss": 0.203,
+      "step": 3120
+    },
+    {
+      "epoch": 1.4667291471415183,
+      "grad_norm": 1.9308714866638184,
+      "learning_rate": 2.81665885660731e-05,
+      "loss": 0.232,
+      "step": 3130
+    },
+    {
+      "epoch": 1.471415182755389,
+      "grad_norm": 1.9426283836364746,
+      "learning_rate": 2.8160731021555766e-05,
+      "loss": 0.1885,
+      "step": 3140
+    },
+    {
+      "epoch": 1.4761012183692597,
+      "grad_norm": 1.6833382844924927,
+      "learning_rate": 2.8154873477038425e-05,
+      "loss": 0.1841,
+      "step": 3150
+    },
+    {
+      "epoch": 1.4807872539831304,
+      "grad_norm": 1.7456724643707275,
+      "learning_rate": 2.8149015932521088e-05,
+      "loss": 0.2141,
+      "step": 3160
+    },
+    {
+      "epoch": 1.4854732895970009,
+      "grad_norm": 1.4256864786148071,
+      "learning_rate": 2.8143158388003747e-05,
+      "loss": 0.218,
+      "step": 3170
+    },
+    {
+      "epoch": 1.4901593252108716,
+      "grad_norm": 2.305438280105591,
+      "learning_rate": 2.8137300843486413e-05,
+      "loss": 0.234,
+      "step": 3180
+    },
+    {
+      "epoch": 1.4948453608247423,
+      "grad_norm": 1.771371841430664,
+      "learning_rate": 2.813144329896907e-05,
+      "loss": 0.2251,
+      "step": 3190
+    },
+    {
+      "epoch": 1.499531396438613,
+      "grad_norm": 1.5220532417297363,
+      "learning_rate": 2.8125585754451734e-05,
+      "loss": 0.2034,
+      "step": 3200
+    },
+    {
+      "epoch": 1.5042174320524837,
+      "grad_norm": 1.782240390777588,
+      "learning_rate": 2.8119728209934396e-05,
+      "loss": 0.2212,
+      "step": 3210
+    },
+    {
+      "epoch": 1.5089034676663542,
+      "grad_norm": 1.8846886157989502,
+      "learning_rate": 2.811387066541706e-05,
+      "loss": 0.1933,
+      "step": 3220
+    },
+    {
+      "epoch": 1.513589503280225,
+      "grad_norm": 1.5082029104232788,
+      "learning_rate": 2.8108013120899718e-05,
+      "loss": 0.1816,
+      "step": 3230
+    },
+    {
+      "epoch": 1.5182755388940956,
+      "grad_norm": 1.4220314025878906,
+      "learning_rate": 2.810215557638238e-05,
+      "loss": 0.2041,
+      "step": 3240
+    },
+    {
+      "epoch": 1.522961574507966,
+      "grad_norm": 2.5237534046173096,
+      "learning_rate": 2.8096298031865043e-05,
+      "loss": 0.2104,
+      "step": 3250
+    },
+    {
+      "epoch": 1.527647610121837,
+      "grad_norm": 1.8641676902770996,
+      "learning_rate": 2.8090440487347705e-05,
+      "loss": 0.2253,
+      "step": 3260
+    },
+    {
+      "epoch": 1.5323336457357075,
+      "grad_norm": 1.6378123760223389,
+      "learning_rate": 2.8084582942830367e-05,
+      "loss": 0.1995,
+      "step": 3270
+    },
+    {
+      "epoch": 1.5370196813495782,
+      "grad_norm": 1.7604594230651855,
+      "learning_rate": 2.8078725398313026e-05,
+      "loss": 0.2078,
+      "step": 3280
+    },
+    {
+      "epoch": 1.541705716963449,
+      "grad_norm": 2.0301594734191895,
+      "learning_rate": 2.8072867853795692e-05,
+      "loss": 0.2207,
+      "step": 3290
+    },
+    {
+      "epoch": 1.5463917525773194,
+      "grad_norm": 1.7639228105545044,
+      "learning_rate": 2.806701030927835e-05,
+      "loss": 0.2543,
+      "step": 3300
+    },
+    {
+      "epoch": 1.5510777881911904,
+      "grad_norm": 1.3346034288406372,
+      "learning_rate": 2.8061152764761013e-05,
+      "loss": 0.206,
+      "step": 3310
+    },
+    {
+      "epoch": 1.5557638238050608,
+      "grad_norm": 1.0351877212524414,
+      "learning_rate": 2.8055295220243672e-05,
+      "loss": 0.2225,
+      "step": 3320
+    },
+    {
+      "epoch": 1.5604498594189316,
+      "grad_norm": 1.6889092922210693,
+      "learning_rate": 2.8049437675726338e-05,
+      "loss": 0.2162,
+      "step": 3330
+    },
+    {
+      "epoch": 1.5651358950328023,
+      "grad_norm": 1.7433794736862183,
+      "learning_rate": 2.8043580131208997e-05,
+      "loss": 0.2479,
+      "step": 3340
+    },
+    {
+      "epoch": 1.569821930646673,
+      "grad_norm": 1.883331060409546,
+      "learning_rate": 2.803772258669166e-05,
+      "loss": 0.2169,
+      "step": 3350
+    },
+    {
+      "epoch": 1.5745079662605437,
+      "grad_norm": 1.9640493392944336,
+      "learning_rate": 2.8031865042174322e-05,
+      "loss": 0.2186,
+      "step": 3360
+    },
+    {
+      "epoch": 1.5791940018744142,
+      "grad_norm": 1.5412628650665283,
+      "learning_rate": 2.8026007497656984e-05,
+      "loss": 0.2374,
+      "step": 3370
+    },
+    {
+      "epoch": 1.5838800374882849,
+      "grad_norm": 1.5945382118225098,
+      "learning_rate": 2.8020149953139643e-05,
+      "loss": 0.2022,
+      "step": 3380
+    },
+    {
+      "epoch": 1.5885660731021556,
+      "grad_norm": 1.8626048564910889,
+      "learning_rate": 2.8014292408622306e-05,
+      "loss": 0.2264,
+      "step": 3390
+    },
+    {
+      "epoch": 1.5932521087160263,
+      "grad_norm": 1.4371192455291748,
+      "learning_rate": 2.8008434864104968e-05,
+      "loss": 0.2032,
+      "step": 3400
+    },
+    {
+      "epoch": 1.597938144329897,
+      "grad_norm": 1.1432685852050781,
+      "learning_rate": 2.800257731958763e-05,
+      "loss": 0.1795,
+      "step": 3410
+    },
+    {
+      "epoch": 1.6026241799437675,
+      "grad_norm": 1.5578374862670898,
+      "learning_rate": 2.799671977507029e-05,
+      "loss": 0.2066,
+      "step": 3420
+    },
+    {
+      "epoch": 1.6073102155576382,
+      "grad_norm": 1.7294032573699951,
+      "learning_rate": 2.7990862230552952e-05,
+      "loss": 0.2319,
+      "step": 3430
+    },
+    {
+      "epoch": 1.611996251171509,
+      "grad_norm": 1.1976913213729858,
+      "learning_rate": 2.7985004686035614e-05,
+      "loss": 0.1805,
+      "step": 3440
+    },
+    {
+      "epoch": 1.6166822867853796,
+      "grad_norm": 1.4271414279937744,
+      "learning_rate": 2.7979147141518277e-05,
+      "loss": 0.2059,
+      "step": 3450
+    },
+    {
+      "epoch": 1.6213683223992503,
+      "grad_norm": 2.3763184547424316,
+      "learning_rate": 2.7973289597000936e-05,
+      "loss": 0.2138,
+      "step": 3460
+    },
+    {
+      "epoch": 1.6260543580131208,
+      "grad_norm": 2.302598476409912,
+      "learning_rate": 2.7967432052483598e-05,
+      "loss": 0.2158,
+      "step": 3470
+    },
+    {
+      "epoch": 1.6307403936269915,
+      "grad_norm": 1.8099658489227295,
+      "learning_rate": 2.796157450796626e-05,
+      "loss": 0.1839,
+      "step": 3480
+    },
+    {
+      "epoch": 1.6354264292408622,
+      "grad_norm": 1.8809782266616821,
+      "learning_rate": 2.7955716963448923e-05,
+      "loss": 0.1924,
+      "step": 3490
+    },
+    {
+      "epoch": 1.640112464854733,
+      "grad_norm": 1.3889508247375488,
+      "learning_rate": 2.7949859418931585e-05,
+      "loss": 0.1801,
+      "step": 3500
     }
   ],
   "logging_steps": 10,