Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +352 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8691ff71b090554b749389b543d86609cfacdab476bf9bcda11ba39222817d0d
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:d26418e85327bf4072ba76aa01dde18a1716eaa86660c26fb299ceaf6d71c5cd
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25031bd9459b2ecca16cfe1a60ba2badffd9564c789d995f26a7db2a1e4a8e67
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:6df5d87deb87ff09bd2a9c94e587bd25dd1604f3de6ca09e11fd8c4b22cb9b3a
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:835f869ea325fd6edf27b48b589309fb66641cb92b45f2fc13d1bb6e8814106c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c733f603eddfbf8aea2db46dfb96d2d44052ea3c8d772ba82a9011002700581
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db7eaec1ca57d40804cf0ff2a2ceba3277ffbb4ac8dc6548b227514adb077117
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:05888e792c6fd0be576ebc92f377eec054b707510467523fa4c87d94e18c0540
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9372071227741331,
   "eval_steps": 2.0,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1407,6 +1407,356 @@
       "learning_rate": 2.8828491096532332e-05,
       "loss": 0.3261,
       "step": 2000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1715089034676662,
   "eval_steps": 2.0,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.8828491096532332e-05,
       "loss": 0.3261,
       "step": 2000
+    },
+    {
+      "epoch": 0.9418931583880038,
+      "grad_norm": 1.3600877523422241,
+      "learning_rate": 2.8822633552014998e-05,
+      "loss": 0.2581,
+      "step": 2010
+    },
+    {
+      "epoch": 0.9465791940018744,
+      "grad_norm": 2.0142452716827393,
+      "learning_rate": 2.8816776007497657e-05,
+      "loss": 0.2926,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9512652296157451,
+      "grad_norm": 2.2205429077148438,
+      "learning_rate": 2.881091846298032e-05,
+      "loss": 0.2978,
+      "step": 2030
+    },
+    {
+      "epoch": 0.9559512652296157,
+      "grad_norm": 1.5943437814712524,
+      "learning_rate": 2.880506091846298e-05,
+      "loss": 0.2801,
+      "step": 2040
+    },
+    {
+      "epoch": 0.9606373008434864,
+      "grad_norm": 1.8343549966812134,
+      "learning_rate": 2.8799203373945644e-05,
+      "loss": 0.3144,
+      "step": 2050
+    },
+    {
+      "epoch": 0.9653233364573571,
+      "grad_norm": 2.438775062561035,
+      "learning_rate": 2.8793345829428303e-05,
+      "loss": 0.3031,
+      "step": 2060
+    },
+    {
+      "epoch": 0.9700093720712277,
+      "grad_norm": 1.6122407913208008,
+      "learning_rate": 2.8787488284910966e-05,
+      "loss": 0.3102,
+      "step": 2070
+    },
+    {
+      "epoch": 0.9746954076850984,
+      "grad_norm": 1.8684320449829102,
+      "learning_rate": 2.8781630740393625e-05,
+      "loss": 0.3064,
+      "step": 2080
+    },
+    {
+      "epoch": 0.979381443298969,
+      "grad_norm": 1.4418230056762695,
+      "learning_rate": 2.877577319587629e-05,
+      "loss": 0.2812,
+      "step": 2090
+    },
+    {
+      "epoch": 0.9840674789128397,
+      "grad_norm": 1.684371829032898,
+      "learning_rate": 2.8769915651358953e-05,
+      "loss": 0.2871,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9887535145267105,
+      "grad_norm": 1.8952980041503906,
+      "learning_rate": 2.8764058106841612e-05,
+      "loss": 0.3098,
+      "step": 2110
+    },
+    {
+      "epoch": 0.993439550140581,
+      "grad_norm": 1.9636595249176025,
+      "learning_rate": 2.8758200562324274e-05,
+      "loss": 0.2493,
+      "step": 2120
+    },
+    {
+      "epoch": 0.9981255857544518,
+      "grad_norm": 1.9494707584381104,
+      "learning_rate": 2.8752343017806937e-05,
+      "loss": 0.304,
+      "step": 2130
+    },
+    {
+      "epoch": 1.0028116213683225,
+      "grad_norm": 1.5540398359298706,
+      "learning_rate": 2.87464854732896e-05,
+      "loss": 0.2886,
+      "step": 2140
+    },
+    {
+      "epoch": 1.007497656982193,
+      "grad_norm": 1.4713643789291382,
+      "learning_rate": 2.8740627928772258e-05,
+      "loss": 0.2194,
+      "step": 2150
+    },
+    {
+      "epoch": 1.0121836925960637,
+      "grad_norm": 1.5880275964736938,
+      "learning_rate": 2.8734770384254924e-05,
+      "loss": 0.208,
+      "step": 2160
+    },
+    {
+      "epoch": 1.0168697282099344,
+      "grad_norm": 1.8418326377868652,
+      "learning_rate": 2.8728912839737583e-05,
+      "loss": 0.2111,
+      "step": 2170
+    },
+    {
+      "epoch": 1.021555763823805,
+      "grad_norm": 1.6184002161026,
+      "learning_rate": 2.8723055295220245e-05,
+      "loss": 0.223,
+      "step": 2180
+    },
+    {
+      "epoch": 1.0262417994376758,
+      "grad_norm": 1.714209794998169,
+      "learning_rate": 2.8717197750702904e-05,
+      "loss": 0.2069,
+      "step": 2190
+    },
+    {
+      "epoch": 1.0309278350515463,
+      "grad_norm": 1.788393497467041,
+      "learning_rate": 2.871134020618557e-05,
+      "loss": 0.1906,
+      "step": 2200
+    },
+    {
+      "epoch": 1.035613870665417,
+      "grad_norm": 1.3916633129119873,
+      "learning_rate": 2.870548266166823e-05,
+      "loss": 0.2254,
+      "step": 2210
+    },
+    {
+      "epoch": 1.0402999062792877,
+      "grad_norm": 1.4615910053253174,
+      "learning_rate": 2.869962511715089e-05,
+      "loss": 0.2189,
+      "step": 2220
+    },
+    {
+      "epoch": 1.0449859418931584,
+      "grad_norm": 1.9119755029678345,
+      "learning_rate": 2.869376757263355e-05,
+      "loss": 0.2505,
+      "step": 2230
+    },
+    {
+      "epoch": 1.0496719775070291,
+      "grad_norm": 1.8039140701293945,
+      "learning_rate": 2.8687910028116216e-05,
+      "loss": 0.2127,
+      "step": 2240
+    },
+    {
+      "epoch": 1.0543580131208996,
+      "grad_norm": 1.394958734512329,
+      "learning_rate": 2.8682052483598875e-05,
+      "loss": 0.2105,
+      "step": 2250
+    },
+    {
+      "epoch": 1.0590440487347703,
+      "grad_norm": 1.660672903060913,
+      "learning_rate": 2.8676194939081537e-05,
+      "loss": 0.2337,
+      "step": 2260
+    },
+    {
+      "epoch": 1.063730084348641,
+      "grad_norm": 1.7532225847244263,
+      "learning_rate": 2.8670337394564196e-05,
+      "loss": 0.2435,
+      "step": 2270
+    },
+    {
+      "epoch": 1.0684161199625117,
+      "grad_norm": 1.5861754417419434,
+      "learning_rate": 2.8664479850046862e-05,
+      "loss": 0.2258,
+      "step": 2280
+    },
+    {
+      "epoch": 1.0731021555763824,
+      "grad_norm": 2.068645477294922,
+      "learning_rate": 2.865862230552952e-05,
+      "loss": 0.2332,
+      "step": 2290
+    },
+    {
+      "epoch": 1.077788191190253,
+      "grad_norm": 1.5656896829605103,
+      "learning_rate": 2.8652764761012184e-05,
+      "loss": 0.226,
+      "step": 2300
+    },
+    {
+      "epoch": 1.0824742268041236,
+      "grad_norm": 1.4442079067230225,
+      "learning_rate": 2.8646907216494846e-05,
+      "loss": 0.2371,
+      "step": 2310
+    },
+    {
+      "epoch": 1.0871602624179943,
+      "grad_norm": 1.9563679695129395,
+      "learning_rate": 2.864104967197751e-05,
+      "loss": 0.1806,
+      "step": 2320
+    },
+    {
+      "epoch": 1.091846298031865,
+      "grad_norm": 2.3428823947906494,
+      "learning_rate": 2.863519212746017e-05,
+      "loss": 0.2078,
+      "step": 2330
+    },
+    {
+      "epoch": 1.0965323336457358,
+      "grad_norm": 1.921542763710022,
+      "learning_rate": 2.862933458294283e-05,
+      "loss": 0.1881,
+      "step": 2340
+    },
+    {
+      "epoch": 1.1012183692596063,
+      "grad_norm": 2.0102312564849854,
+      "learning_rate": 2.8623477038425496e-05,
+      "loss": 0.2039,
+      "step": 2350
+    },
+    {
+      "epoch": 1.105904404873477,
+      "grad_norm": 2.0634419918060303,
+      "learning_rate": 2.8617619493908155e-05,
+      "loss": 0.2375,
+      "step": 2360
+    },
+    {
+      "epoch": 1.1105904404873477,
+      "grad_norm": 1.7795848846435547,
+      "learning_rate": 2.8611761949390817e-05,
+      "loss": 0.1827,
+      "step": 2370
+    },
+    {
+      "epoch": 1.1152764761012184,
+      "grad_norm": 1.6190413236618042,
+      "learning_rate": 2.8605904404873476e-05,
+      "loss": 0.2205,
+      "step": 2380
+    },
+    {
+      "epoch": 1.119962511715089,
+      "grad_norm": 1.917844295501709,
+      "learning_rate": 2.8600046860356142e-05,
+      "loss": 0.2144,
+      "step": 2390
+    },
+    {
+      "epoch": 1.1246485473289598,
+      "grad_norm": 1.9821206331253052,
+      "learning_rate": 2.85941893158388e-05,
+      "loss": 0.2305,
+      "step": 2400
+    },
+    {
+      "epoch": 1.1293345829428303,
+      "grad_norm": 1.897702932357788,
+      "learning_rate": 2.8588331771321463e-05,
+      "loss": 0.2189,
+      "step": 2410
+    },
+    {
+      "epoch": 1.134020618556701,
+      "grad_norm": 1.575378179550171,
+      "learning_rate": 2.8582474226804122e-05,
+      "loss": 0.2072,
+      "step": 2420
+    },
+    {
+      "epoch": 1.1387066541705717,
+      "grad_norm": 1.5781910419464111,
+      "learning_rate": 2.8576616682286788e-05,
+      "loss": 0.2167,
+      "step": 2430
+    },
+    {
+      "epoch": 1.1433926897844424,
+      "grad_norm": 1.253761887550354,
+      "learning_rate": 2.8570759137769447e-05,
+      "loss": 0.2054,
+      "step": 2440
+    },
+    {
+      "epoch": 1.148078725398313,
+      "grad_norm": 1.4306617975234985,
+      "learning_rate": 2.856490159325211e-05,
+      "loss": 0.2507,
+      "step": 2450
+    },
+    {
+      "epoch": 1.1527647610121836,
+      "grad_norm": 1.815042495727539,
+      "learning_rate": 2.855904404873477e-05,
+      "loss": 0.1929,
+      "step": 2460
+    },
+    {
+      "epoch": 1.1574507966260543,
+      "grad_norm": 1.771567940711975,
+      "learning_rate": 2.8553186504217434e-05,
+      "loss": 0.2143,
+      "step": 2470
+    },
+    {
+      "epoch": 1.162136832239925,
+      "grad_norm": 1.0400657653808594,
+      "learning_rate": 2.8547328959700093e-05,
+      "loss": 0.223,
+      "step": 2480
+    },
+    {
+      "epoch": 1.1668228678537957,
+      "grad_norm": 1.6412447690963745,
+      "learning_rate": 2.8541471415182755e-05,
+      "loss": 0.1909,
+      "step": 2490
+    },
+    {
+      "epoch": 1.1715089034676662,
+      "grad_norm": 1.7133567333221436,
+      "learning_rate": 2.8535613870665418e-05,
+      "loss": 0.2286,
+      "step": 2500
     }
   ],
   "logging_steps": 10,