Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -152
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a902e03f78d73a65a225e2670272f5ab30fa9243753252da0d81bf6ae1ab88f8
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e35c0a039e011c6e00ef634a8dc0f2cda4896d950cbec75fb392478d5d17482
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c2f7579a0d7be4b045d3119455fa8aacab3cc5e2ee7588dffdebcb0ee31366a
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bd911e53eca1edc6531cdaf03144775e49eec62caac968aadbcc0c56c01cdb4
 size 1475248442

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:228d14efa38075e5075e5f3ea1c158f27661d545dab61c548dfe15e36f9e3d44
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1b787e89d41eb6f9d786f351cf52ef6900e90a96d79898c6e78dbb6b0c072cc
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,359 +10,359 @@
   "log_history": [
     {
       "epoch": 0.004686035613870665,
-      "grad_norm": 4.305652141571045,
-      "learning_rate": 4.997071227741331e-05,
-      "loss": 2.2476,
       "step": 10
     },
     {
       "epoch": 0.00937207122774133,
-      "grad_norm": 3.343132972717285,
-      "learning_rate": 4.994142455482662e-05,
-      "loss": 1.2208,
       "step": 20
     },
     {
       "epoch": 0.014058106841611996,
-      "grad_norm": 3.07961368560791,
-      "learning_rate": 4.991213683223993e-05,
-      "loss": 0.9737,
       "step": 30
     },
     {
       "epoch": 0.01874414245548266,
-      "grad_norm": 2.348374128341675,
-      "learning_rate": 4.9882849109653237e-05,
-      "loss": 0.8232,
       "step": 40
     },
     {
       "epoch": 0.023430178069353328,
-      "grad_norm": 2.149184465408325,
-      "learning_rate": 4.9853561387066545e-05,
-      "loss": 0.7357,
       "step": 50
     },
     {
       "epoch": 0.028116213683223992,
-      "grad_norm": 2.793274164199829,
-      "learning_rate": 4.9824273664479854e-05,
-      "loss": 0.6115,
       "step": 60
     },
     {
       "epoch": 0.03280224929709466,
-      "grad_norm": 2.3996222019195557,
-      "learning_rate": 4.979498594189316e-05,
-      "loss": 0.5681,
       "step": 70
     },
     {
       "epoch": 0.03748828491096532,
-      "grad_norm": 2.7164816856384277,
-      "learning_rate": 4.9765698219306464e-05,
-      "loss": 0.6132,
       "step": 80
     },
     {
       "epoch": 0.04217432052483599,
-      "grad_norm": 2.3677186965942383,
-      "learning_rate": 4.973641049671978e-05,
-      "loss": 0.5407,
       "step": 90
     },
     {
       "epoch": 0.046860356138706656,
-      "grad_norm": 2.1071460247039795,
-      "learning_rate": 4.970712277413309e-05,
-      "loss": 0.5947,
       "step": 100
     },
     {
       "epoch": 0.05154639175257732,
-      "grad_norm": 2.226364850997925,
-      "learning_rate": 4.9677835051546396e-05,
-      "loss": 0.532,
       "step": 110
     },
     {
       "epoch": 0.056232427366447985,
-      "grad_norm": 1.9689487218856812,
-      "learning_rate": 4.9648547328959705e-05,
-      "loss": 0.4874,
       "step": 120
     },
     {
       "epoch": 0.06091846298031865,
-      "grad_norm": 2.2253146171569824,
-      "learning_rate": 4.961925960637301e-05,
-      "loss": 0.5034,
       "step": 130
     },
     {
       "epoch": 0.06560449859418932,
-      "grad_norm": 1.8077352046966553,
-      "learning_rate": 4.9589971883786315e-05,
-      "loss": 0.4774,
       "step": 140
     },
     {
       "epoch": 0.07029053420805999,
-      "grad_norm": 1.9207241535186768,
-      "learning_rate": 4.956068416119963e-05,
-      "loss": 0.5066,
       "step": 150
     },
     {
       "epoch": 0.07497656982193064,
-      "grad_norm": 2.000474691390991,
-      "learning_rate": 4.953139643861294e-05,
-      "loss": 0.5007,
       "step": 160
     },
     {
       "epoch": 0.07966260543580131,
-      "grad_norm": 2.3965399265289307,
-      "learning_rate": 4.950210871602625e-05,
-      "loss": 0.4752,
       "step": 170
     },
     {
       "epoch": 0.08434864104967198,
-      "grad_norm": 2.164004325866699,
-      "learning_rate": 4.947282099343955e-05,
-      "loss": 0.4241,
       "step": 180
     },
     {
       "epoch": 0.08903467666354264,
-      "grad_norm": 2.105633497238159,
-      "learning_rate": 4.944353327085286e-05,
-      "loss": 0.4975,
       "step": 190
     },
     {
       "epoch": 0.09372071227741331,
-      "grad_norm": 2.2528748512268066,
-      "learning_rate": 4.9414245548266166e-05,
-      "loss": 0.4117,
       "step": 200
     },
     {
       "epoch": 0.09840674789128398,
-      "grad_norm": 2.4957821369171143,
-      "learning_rate": 4.938495782567948e-05,
-      "loss": 0.4842,
       "step": 210
     },
     {
       "epoch": 0.10309278350515463,
-      "grad_norm": 1.6977312564849854,
-      "learning_rate": 4.935567010309279e-05,
-      "loss": 0.4407,
       "step": 220
     },
     {
       "epoch": 0.1077788191190253,
-      "grad_norm": 2.498537302017212,
-      "learning_rate": 4.932638238050609e-05,
-      "loss": 0.4402,
       "step": 230
     },
     {
       "epoch": 0.11246485473289597,
-      "grad_norm": 1.9550998210906982,
-      "learning_rate": 4.92970946579194e-05,
-      "loss": 0.4062,
       "step": 240
     },
     {
       "epoch": 0.11715089034676664,
-      "grad_norm": 1.692822813987732,
-      "learning_rate": 4.926780693533271e-05,
-      "loss": 0.4135,
       "step": 250
     },
     {
       "epoch": 0.1218369259606373,
-      "grad_norm": 1.936856985092163,
-      "learning_rate": 4.923851921274602e-05,
-      "loss": 0.4518,
       "step": 260
     },
     {
       "epoch": 0.12652296157450796,
-      "grad_norm": 2.509472370147705,
-      "learning_rate": 4.920923149015933e-05,
-      "loss": 0.4065,
       "step": 270
     },
     {
       "epoch": 0.13120899718837864,
-      "grad_norm": 1.993790864944458,
-      "learning_rate": 4.9179943767572635e-05,
-      "loss": 0.4252,
       "step": 280
     },
     {
       "epoch": 0.1358950328022493,
-      "grad_norm": 2.542051315307617,
-      "learning_rate": 4.9150656044985943e-05,
-      "loss": 0.4342,
       "step": 290
     },
     {
       "epoch": 0.14058106841611998,
-      "grad_norm": 2.0401690006256104,
-      "learning_rate": 4.912136832239925e-05,
-      "loss": 0.4005,
       "step": 300
     },
     {
       "epoch": 0.14526710402999063,
-      "grad_norm": 2.234344005584717,
-      "learning_rate": 4.909208059981256e-05,
-      "loss": 0.4044,
       "step": 310
     },
     {
       "epoch": 0.14995313964386128,
-      "grad_norm": 2.4048752784729004,
-      "learning_rate": 4.906279287722587e-05,
-      "loss": 0.3832,
       "step": 320
     },
     {
       "epoch": 0.15463917525773196,
-      "grad_norm": 2.027322769165039,
-      "learning_rate": 4.903350515463918e-05,
-      "loss": 0.4425,
       "step": 330
     },
     {
       "epoch": 0.15932521087160262,
-      "grad_norm": 1.7849469184875488,
-      "learning_rate": 4.9004217432052486e-05,
-      "loss": 0.4034,
       "step": 340
     },
     {
       "epoch": 0.1640112464854733,
-      "grad_norm": 1.865513563156128,
-      "learning_rate": 4.8974929709465795e-05,
-      "loss": 0.4256,
       "step": 350
     },
     {
       "epoch": 0.16869728209934395,
-      "grad_norm": 2.17820143699646,
-      "learning_rate": 4.89456419868791e-05,
-      "loss": 0.388,
       "step": 360
     },
     {
       "epoch": 0.1733833177132146,
-      "grad_norm": 2.6553549766540527,
-      "learning_rate": 4.891635426429241e-05,
-      "loss": 0.3645,
       "step": 370
     },
     {
       "epoch": 0.1780693533270853,
-      "grad_norm": 2.155061960220337,
-      "learning_rate": 4.888706654170572e-05,
-      "loss": 0.3819,
       "step": 380
     },
     {
       "epoch": 0.18275538894095594,
-      "grad_norm": 1.9706778526306152,
-      "learning_rate": 4.885777881911903e-05,
-      "loss": 0.3959,
       "step": 390
     },
     {
       "epoch": 0.18744142455482662,
-      "grad_norm": 2.111262321472168,
-      "learning_rate": 4.882849109653234e-05,
-      "loss": 0.3929,
       "step": 400
     },
     {
       "epoch": 0.19212746016869728,
-      "grad_norm": 2.65875244140625,
-      "learning_rate": 4.8799203373945646e-05,
-      "loss": 0.4151,
       "step": 410
     },
     {
       "epoch": 0.19681349578256796,
-      "grad_norm": 1.8690752983093262,
-      "learning_rate": 4.8769915651358954e-05,
-      "loss": 0.3823,
       "step": 420
     },
     {
       "epoch": 0.2014995313964386,
-      "grad_norm": 2.35809326171875,
-      "learning_rate": 4.8740627928772256e-05,
-      "loss": 0.4079,
       "step": 430
     },
     {
       "epoch": 0.20618556701030927,
-      "grad_norm": 1.4293204545974731,
-      "learning_rate": 4.871134020618557e-05,
-      "loss": 0.3732,
       "step": 440
     },
     {
       "epoch": 0.21087160262417995,
-      "grad_norm": 2.2345097064971924,
-      "learning_rate": 4.868205248359888e-05,
-      "loss": 0.3513,
       "step": 450
     },
     {
       "epoch": 0.2155576382380506,
-      "grad_norm": 1.7603412866592407,
-      "learning_rate": 4.865276476101219e-05,
-      "loss": 0.3872,
       "step": 460
     },
     {
       "epoch": 0.22024367385192128,
-      "grad_norm": 1.8551238775253296,
-      "learning_rate": 4.86234770384255e-05,
-      "loss": 0.377,
       "step": 470
     },
     {
       "epoch": 0.22492970946579194,
-      "grad_norm": 2.2718453407287598,
-      "learning_rate": 4.85941893158388e-05,
-      "loss": 0.3466,
       "step": 480
     },
     {
       "epoch": 0.2296157450796626,
-      "grad_norm": 2.021726608276367,
-      "learning_rate": 4.856490159325211e-05,
-      "loss": 0.3778,
       "step": 490
     },
     {
       "epoch": 0.23430178069353327,
-      "grad_norm": 1.4741500616073608,
-      "learning_rate": 4.853561387066542e-05,
-      "loss": 0.3862,
       "step": 500
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2134,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

   "log_history": [
     {
       "epoch": 0.004686035613870665,
+      "grad_norm": 5.220367431640625,
+      "learning_rate": 2.9994142455482663e-05,
+      "loss": 2.5957,
       "step": 10
     },
     {
       "epoch": 0.00937207122774133,
+      "grad_norm": 3.371006727218628,
+      "learning_rate": 2.9988284910965326e-05,
+      "loss": 1.5747,
       "step": 20
     },
     {
       "epoch": 0.014058106841611996,
+      "grad_norm": 3.472994089126587,
+      "learning_rate": 2.9982427366447988e-05,
+      "loss": 1.1705,
       "step": 30
     },
     {
       "epoch": 0.01874414245548266,
+      "grad_norm": 2.5914783477783203,
+      "learning_rate": 2.9976569821930647e-05,
+      "loss": 0.9675,
       "step": 40
     },
     {
       "epoch": 0.023430178069353328,
+      "grad_norm": 2.4140474796295166,
+      "learning_rate": 2.997071227741331e-05,
+      "loss": 0.8732,
       "step": 50
     },
     {
       "epoch": 0.028116213683223992,
+      "grad_norm": 2.682596445083618,
+      "learning_rate": 2.996485473289597e-05,
+      "loss": 0.7256,
       "step": 60
     },
     {
       "epoch": 0.03280224929709466,
+      "grad_norm": 2.314147710800171,
+      "learning_rate": 2.9958997188378634e-05,
+      "loss": 0.6851,
       "step": 70
     },
     {
       "epoch": 0.03748828491096532,
+      "grad_norm": 2.5694925785064697,
+      "learning_rate": 2.9953139643861293e-05,
+      "loss": 0.7023,
       "step": 80
     },
     {
       "epoch": 0.04217432052483599,
+      "grad_norm": 2.3703269958496094,
+      "learning_rate": 2.9947282099343955e-05,
+      "loss": 0.6234,
       "step": 90
     },
     {
       "epoch": 0.046860356138706656,
+      "grad_norm": 2.1802964210510254,
+      "learning_rate": 2.9941424554826618e-05,
+      "loss": 0.6581,
       "step": 100
     },
     {
       "epoch": 0.05154639175257732,
+      "grad_norm": 2.3675317764282227,
+      "learning_rate": 2.993556701030928e-05,
+      "loss": 0.5909,
       "step": 110
     },
     {
       "epoch": 0.056232427366447985,
+      "grad_norm": 2.01214861869812,
+      "learning_rate": 2.992970946579194e-05,
+      "loss": 0.5289,
       "step": 120
     },
     {
       "epoch": 0.06091846298031865,
+      "grad_norm": 2.2935709953308105,
+      "learning_rate": 2.99238519212746e-05,
+      "loss": 0.5569,
       "step": 130
     },
     {
       "epoch": 0.06560449859418932,
+      "grad_norm": 1.9559593200683594,
+      "learning_rate": 2.9917994376757264e-05,
+      "loss": 0.5183,
       "step": 140
     },
     {
       "epoch": 0.07029053420805999,
+      "grad_norm": 2.05462646484375,
+      "learning_rate": 2.9912136832239926e-05,
+      "loss": 0.5539,
       "step": 150
     },
     {
       "epoch": 0.07497656982193064,
+      "grad_norm": 2.1993629932403564,
+      "learning_rate": 2.9906279287722585e-05,
+      "loss": 0.5439,
       "step": 160
     },
     {
       "epoch": 0.07966260543580131,
+      "grad_norm": 2.555629014968872,
+      "learning_rate": 2.990042174320525e-05,
+      "loss": 0.5188,
       "step": 170
     },
     {
       "epoch": 0.08434864104967198,
+      "grad_norm": 2.2826337814331055,
+      "learning_rate": 2.989456419868791e-05,
+      "loss": 0.4585,
       "step": 180
     },
     {
       "epoch": 0.08903467666354264,
+      "grad_norm": 2.173414707183838,
+      "learning_rate": 2.9888706654170573e-05,
+      "loss": 0.5359,
       "step": 190
     },
     {
       "epoch": 0.09372071227741331,
+      "grad_norm": 2.4092049598693848,
+      "learning_rate": 2.988284910965323e-05,
+      "loss": 0.4549,
       "step": 200
     },
     {
       "epoch": 0.09840674789128398,
+      "grad_norm": 2.387390613555908,
+      "learning_rate": 2.9876991565135897e-05,
+      "loss": 0.5258,
       "step": 210
     },
     {
       "epoch": 0.10309278350515463,
+      "grad_norm": 1.883385419845581,
+      "learning_rate": 2.9871134020618556e-05,
+      "loss": 0.4752,
       "step": 220
     },
     {
       "epoch": 0.1077788191190253,
+      "grad_norm": 2.5751266479492188,
+      "learning_rate": 2.986527647610122e-05,
+      "loss": 0.4699,
       "step": 230
     },
     {
       "epoch": 0.11246485473289597,
+      "grad_norm": 2.1457631587982178,
+      "learning_rate": 2.985941893158388e-05,
+      "loss": 0.4332,
       "step": 240
     },
     {
       "epoch": 0.11715089034676664,
+      "grad_norm": 1.7320219278335571,
+      "learning_rate": 2.9853561387066543e-05,
+      "loss": 0.4479,
       "step": 250
     },
     {
       "epoch": 0.1218369259606373,
+      "grad_norm": 2.135741710662842,
+      "learning_rate": 2.9847703842549206e-05,
+      "loss": 0.4913,
       "step": 260
     },
     {
       "epoch": 0.12652296157450796,
+      "grad_norm": 2.620173692703247,
+      "learning_rate": 2.9841846298031865e-05,
+      "loss": 0.4424,
       "step": 270
     },
     {
       "epoch": 0.13120899718837864,
+      "grad_norm": 2.100153923034668,
+      "learning_rate": 2.9835988753514527e-05,
+      "loss": 0.4565,
       "step": 280
     },
     {
       "epoch": 0.1358950328022493,
+      "grad_norm": 2.8917932510375977,
+      "learning_rate": 2.983013120899719e-05,
+      "loss": 0.4651,
       "step": 290
     },
     {
       "epoch": 0.14058106841611998,
+      "grad_norm": 2.2539947032928467,
+      "learning_rate": 2.9824273664479852e-05,
+      "loss": 0.429,
       "step": 300
     },
     {
       "epoch": 0.14526710402999063,
+      "grad_norm": 2.31528902053833,
+      "learning_rate": 2.981841611996251e-05,
+      "loss": 0.4361,
       "step": 310
     },
     {
       "epoch": 0.14995313964386128,
+      "grad_norm": 2.411919355392456,
+      "learning_rate": 2.9812558575445177e-05,
+      "loss": 0.4066,
       "step": 320
     },
     {
       "epoch": 0.15463917525773196,
+      "grad_norm": 2.171355962753296,
+      "learning_rate": 2.9806701030927836e-05,
+      "loss": 0.4747,
       "step": 330
     },
     {
       "epoch": 0.15932521087160262,
+      "grad_norm": 1.8483142852783203,
+      "learning_rate": 2.9800843486410498e-05,
+      "loss": 0.4319,
       "step": 340
     },
     {
       "epoch": 0.1640112464854733,
+      "grad_norm": 1.8609999418258667,
+      "learning_rate": 2.9794985941893157e-05,
+      "loss": 0.4505,
       "step": 350
     },
     {
       "epoch": 0.16869728209934395,
+      "grad_norm": 2.3997716903686523,
+      "learning_rate": 2.9789128397375823e-05,
+      "loss": 0.4064,
       "step": 360
     },
     {
       "epoch": 0.1733833177132146,
+      "grad_norm": 2.9913573265075684,
+      "learning_rate": 2.9783270852858482e-05,
+      "loss": 0.3854,
       "step": 370
     },
     {
       "epoch": 0.1780693533270853,
+      "grad_norm": 2.4520344734191895,
+      "learning_rate": 2.9777413308341144e-05,
+      "loss": 0.4209,
       "step": 380
     },
     {
       "epoch": 0.18275538894095594,
+      "grad_norm": 2.0448389053344727,
+      "learning_rate": 2.9771555763823803e-05,
+      "loss": 0.4138,
       "step": 390
     },
     {
       "epoch": 0.18744142455482662,
+      "grad_norm": 2.2204527854919434,
+      "learning_rate": 2.976569821930647e-05,
+      "loss": 0.4102,
       "step": 400
     },
     {
       "epoch": 0.19212746016869728,
+      "grad_norm": 3.0180537700653076,
+      "learning_rate": 2.9759840674789128e-05,
+      "loss": 0.4453,
       "step": 410
     },
     {
       "epoch": 0.19681349578256796,
+      "grad_norm": 2.0707952976226807,
+      "learning_rate": 2.975398313027179e-05,
+      "loss": 0.3989,
       "step": 420
     },
     {
       "epoch": 0.2014995313964386,
+      "grad_norm": 2.5086822509765625,
+      "learning_rate": 2.974812558575445e-05,
+      "loss": 0.4437,
       "step": 430
     },
     {
       "epoch": 0.20618556701030927,
+      "grad_norm": 1.620863676071167,
+      "learning_rate": 2.9742268041237115e-05,
+      "loss": 0.4011,
       "step": 440
     },
     {
       "epoch": 0.21087160262417995,
+      "grad_norm": 2.257568836212158,
+      "learning_rate": 2.9736410496719774e-05,
+      "loss": 0.3762,
       "step": 450
     },
     {
       "epoch": 0.2155576382380506,
+      "grad_norm": 1.987035870552063,
+      "learning_rate": 2.9730552952202437e-05,
+      "loss": 0.4063,
       "step": 460
     },
     {
       "epoch": 0.22024367385192128,
+      "grad_norm": 2.036618232727051,
+      "learning_rate": 2.9724695407685102e-05,
+      "loss": 0.398,
       "step": 470
     },
     {
       "epoch": 0.22492970946579194,
+      "grad_norm": 2.373523712158203,
+      "learning_rate": 2.971883786316776e-05,
+      "loss": 0.3716,
       "step": 480
     },
     {
       "epoch": 0.2296157450796626,
+      "grad_norm": 1.9843388795852661,
+      "learning_rate": 2.9712980318650424e-05,
+      "loss": 0.4055,
       "step": 490
     },
     {
       "epoch": 0.23430178069353327,
+      "grad_norm": 1.565252661705017,
+      "learning_rate": 2.9707122774133083e-05,
+      "loss": 0.4085,
       "step": 500
     }
   ],
   "logging_steps": 10,
+  "max_steps": 6402,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7be9e20c2c0889091baaa0347720d7888707c1703a6f97836e6beae35fe15fe
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce8f1dcf8c04bff784ab6173867f92c54393d497d44862732f99a4728c6cb74d
 size 5368