Training in progress, step 1000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +352 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e35c0a039e011c6e00ef634a8dc0f2cda4896d950cbec75fb392478d5d17482
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:a424a2b0f4bba2668648fad242ba4bc01129a8dfff560cb28160583a32cc8795
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bd911e53eca1edc6531cdaf03144775e49eec62caac968aadbcc0c56c01cdb4
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:4147564c0aebe4adfc533256efb0c26f7c34d829d8cfd1faf86069796ae5e92b
 size 1475248442

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1b787e89d41eb6f9d786f351cf52ef6900e90a96d79898c6e78dbb6b0c072cc
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:1798148c8ddbef876c6eb294160aa711b50b4fbc294eeefa2c2edd714ea4965e
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23430178069353327,
   "eval_steps": 2.0,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -357,6 +357,356 @@
       "learning_rate": 2.9707122774133083e-05,
       "loss": 0.4085,
       "step": 500
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.46860356138706655,
   "eval_steps": 2.0,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.9707122774133083e-05,
       "loss": 0.4085,
       "step": 500
+    },
+    {
+      "epoch": 0.23898781630740393,
+      "grad_norm": 1.9792900085449219,
+      "learning_rate": 2.970126522961575e-05,
+      "loss": 0.4074,
+      "step": 510
+    },
+    {
+      "epoch": 0.2436738519212746,
+      "grad_norm": 2.3620975017547607,
+      "learning_rate": 2.9695407685098408e-05,
+      "loss": 0.4076,
+      "step": 520
+    },
+    {
+      "epoch": 0.24835988753514526,
+      "grad_norm": 1.7499839067459106,
+      "learning_rate": 2.968955014058107e-05,
+      "loss": 0.4033,
+      "step": 530
+    },
+    {
+      "epoch": 0.2530459231490159,
+      "grad_norm": 2.367208480834961,
+      "learning_rate": 2.968369259606373e-05,
+      "loss": 0.4166,
+      "step": 540
+    },
+    {
+      "epoch": 0.25773195876288657,
+      "grad_norm": 1.5346542596817017,
+      "learning_rate": 2.9677835051546395e-05,
+      "loss": 0.3523,
+      "step": 550
+    },
+    {
+      "epoch": 0.2624179943767573,
+      "grad_norm": 2.177263021469116,
+      "learning_rate": 2.9671977507029054e-05,
+      "loss": 0.379,
+      "step": 560
+    },
+    {
+      "epoch": 0.26710402999062793,
+      "grad_norm": 1.6328988075256348,
+      "learning_rate": 2.9666119962511716e-05,
+      "loss": 0.3885,
+      "step": 570
+    },
+    {
+      "epoch": 0.2717900656044986,
+      "grad_norm": 2.2757279872894287,
+      "learning_rate": 2.9660262417994375e-05,
+      "loss": 0.3579,
+      "step": 580
+    },
+    {
+      "epoch": 0.27647610121836924,
+      "grad_norm": 1.8637791872024536,
+      "learning_rate": 2.965440487347704e-05,
+      "loss": 0.4114,
+      "step": 590
+    },
+    {
+      "epoch": 0.28116213683223995,
+      "grad_norm": 1.9911636114120483,
+      "learning_rate": 2.96485473289597e-05,
+      "loss": 0.3793,
+      "step": 600
+    },
+    {
+      "epoch": 0.2858481724461106,
+      "grad_norm": 2.3302886486053467,
+      "learning_rate": 2.9642689784442362e-05,
+      "loss": 0.3858,
+      "step": 610
+    },
+    {
+      "epoch": 0.29053420805998126,
+      "grad_norm": 1.5424076318740845,
+      "learning_rate": 2.9636832239925025e-05,
+      "loss": 0.3759,
+      "step": 620
+    },
+    {
+      "epoch": 0.2952202436738519,
+      "grad_norm": 2.340257406234741,
+      "learning_rate": 2.9630974695407687e-05,
+      "loss": 0.3868,
+      "step": 630
+    },
+    {
+      "epoch": 0.29990627928772257,
+      "grad_norm": 1.9387434720993042,
+      "learning_rate": 2.9625117150890346e-05,
+      "loss": 0.381,
+      "step": 640
+    },
+    {
+      "epoch": 0.3045923149015933,
+      "grad_norm": 1.7054346799850464,
+      "learning_rate": 2.961925960637301e-05,
+      "loss": 0.3469,
+      "step": 650
+    },
+    {
+      "epoch": 0.30927835051546393,
+      "grad_norm": 1.667858600616455,
+      "learning_rate": 2.961340206185567e-05,
+      "loss": 0.3419,
+      "step": 660
+    },
+    {
+      "epoch": 0.3139643861293346,
+      "grad_norm": 2.5740160942077637,
+      "learning_rate": 2.9607544517338333e-05,
+      "loss": 0.3887,
+      "step": 670
+    },
+    {
+      "epoch": 0.31865042174320524,
+      "grad_norm": 1.893171787261963,
+      "learning_rate": 2.9601686972820992e-05,
+      "loss": 0.3661,
+      "step": 680
+    },
+    {
+      "epoch": 0.3233364573570759,
+      "grad_norm": 2.29376220703125,
+      "learning_rate": 2.9595829428303655e-05,
+      "loss": 0.408,
+      "step": 690
+    },
+    {
+      "epoch": 0.3280224929709466,
+      "grad_norm": 1.6235976219177246,
+      "learning_rate": 2.958997188378632e-05,
+      "loss": 0.3872,
+      "step": 700
+    },
+    {
+      "epoch": 0.33270852858481725,
+      "grad_norm": 1.8210023641586304,
+      "learning_rate": 2.958411433926898e-05,
+      "loss": 0.3276,
+      "step": 710
+    },
+    {
+      "epoch": 0.3373945641986879,
+      "grad_norm": 2.2085988521575928,
+      "learning_rate": 2.9578256794751642e-05,
+      "loss": 0.378,
+      "step": 720
+    },
+    {
+      "epoch": 0.34208059981255856,
+      "grad_norm": 1.9474214315414429,
+      "learning_rate": 2.95723992502343e-05,
+      "loss": 0.3429,
+      "step": 730
+    },
+    {
+      "epoch": 0.3467666354264292,
+      "grad_norm": 1.4176770448684692,
+      "learning_rate": 2.9566541705716967e-05,
+      "loss": 0.3686,
+      "step": 740
+    },
+    {
+      "epoch": 0.3514526710402999,
+      "grad_norm": 1.9044578075408936,
+      "learning_rate": 2.9560684161199626e-05,
+      "loss": 0.3359,
+      "step": 750
+    },
+    {
+      "epoch": 0.3561387066541706,
+      "grad_norm": 2.1233558654785156,
+      "learning_rate": 2.9554826616682288e-05,
+      "loss": 0.3344,
+      "step": 760
+    },
+    {
+      "epoch": 0.36082474226804123,
+      "grad_norm": 2.1498265266418457,
+      "learning_rate": 2.954896907216495e-05,
+      "loss": 0.3844,
+      "step": 770
+    },
+    {
+      "epoch": 0.3655107778819119,
+      "grad_norm": 1.8201932907104492,
+      "learning_rate": 2.9543111527647613e-05,
+      "loss": 0.3395,
+      "step": 780
+    },
+    {
+      "epoch": 0.3701968134957826,
+      "grad_norm": 1.6369259357452393,
+      "learning_rate": 2.953725398313027e-05,
+      "loss": 0.3046,
+      "step": 790
+    },
+    {
+      "epoch": 0.37488284910965325,
+      "grad_norm": 1.9067765474319458,
+      "learning_rate": 2.9531396438612934e-05,
+      "loss": 0.3411,
+      "step": 800
+    },
+    {
+      "epoch": 0.3795688847235239,
+      "grad_norm": 1.7853655815124512,
+      "learning_rate": 2.9525538894095596e-05,
+      "loss": 0.3942,
+      "step": 810
+    },
+    {
+      "epoch": 0.38425492033739456,
+      "grad_norm": 1.6428436040878296,
+      "learning_rate": 2.951968134957826e-05,
+      "loss": 0.3446,
+      "step": 820
+    },
+    {
+      "epoch": 0.3889409559512652,
+      "grad_norm": 1.761293649673462,
+      "learning_rate": 2.9513823805060918e-05,
+      "loss": 0.3368,
+      "step": 830
+    },
+    {
+      "epoch": 0.3936269915651359,
+      "grad_norm": 1.8849061727523804,
+      "learning_rate": 2.950796626054358e-05,
+      "loss": 0.3595,
+      "step": 840
+    },
+    {
+      "epoch": 0.3983130271790066,
+      "grad_norm": 1.6948515176773071,
+      "learning_rate": 2.9502108716026243e-05,
+      "loss": 0.3225,
+      "step": 850
+    },
+    {
+      "epoch": 0.4029990627928772,
+      "grad_norm": 1.8712960481643677,
+      "learning_rate": 2.9496251171508905e-05,
+      "loss": 0.3528,
+      "step": 860
+    },
+    {
+      "epoch": 0.4076850984067479,
+      "grad_norm": 2.2388830184936523,
+      "learning_rate": 2.9490393626991564e-05,
+      "loss": 0.3981,
+      "step": 870
+    },
+    {
+      "epoch": 0.41237113402061853,
+      "grad_norm": 1.8384082317352295,
+      "learning_rate": 2.9484536082474226e-05,
+      "loss": 0.3575,
+      "step": 880
+    },
+    {
+      "epoch": 0.41705716963448924,
+      "grad_norm": 2.068216323852539,
+      "learning_rate": 2.947867853795689e-05,
+      "loss": 0.3448,
+      "step": 890
+    },
+    {
+      "epoch": 0.4217432052483599,
+      "grad_norm": 1.5086658000946045,
+      "learning_rate": 2.947282099343955e-05,
+      "loss": 0.3214,
+      "step": 900
+    },
+    {
+      "epoch": 0.42642924086223055,
+      "grad_norm": 1.5989112854003906,
+      "learning_rate": 2.946696344892221e-05,
+      "loss": 0.2719,
+      "step": 910
+    },
+    {
+      "epoch": 0.4311152764761012,
+      "grad_norm": 2.223735809326172,
+      "learning_rate": 2.9461105904404876e-05,
+      "loss": 0.3691,
+      "step": 920
+    },
+    {
+      "epoch": 0.43580131208997186,
+      "grad_norm": 1.928982138633728,
+      "learning_rate": 2.9455248359887535e-05,
+      "loss": 0.3446,
+      "step": 930
+    },
+    {
+      "epoch": 0.44048734770384257,
+      "grad_norm": 1.7856864929199219,
+      "learning_rate": 2.9449390815370197e-05,
+      "loss": 0.2984,
+      "step": 940
+    },
+    {
+      "epoch": 0.4451733833177132,
+      "grad_norm": 2.044851779937744,
+      "learning_rate": 2.944353327085286e-05,
+      "loss": 0.3396,
+      "step": 950
+    },
+    {
+      "epoch": 0.4498594189315839,
+      "grad_norm": 1.5885918140411377,
+      "learning_rate": 2.9437675726335522e-05,
+      "loss": 0.3529,
+      "step": 960
+    },
+    {
+      "epoch": 0.45454545454545453,
+      "grad_norm": 2.08933162689209,
+      "learning_rate": 2.9431818181818184e-05,
+      "loss": 0.3561,
+      "step": 970
+    },
+    {
+      "epoch": 0.4592314901593252,
+      "grad_norm": 1.5980266332626343,
+      "learning_rate": 2.9425960637300843e-05,
+      "loss": 0.3512,
+      "step": 980
+    },
+    {
+      "epoch": 0.4639175257731959,
+      "grad_norm": 1.570770025253296,
+      "learning_rate": 2.9420103092783506e-05,
+      "loss": 0.3678,
+      "step": 990
+    },
+    {
+      "epoch": 0.46860356138706655,
+      "grad_norm": 1.8862972259521484,
+      "learning_rate": 2.9414245548266168e-05,
+      "loss": 0.3148,
+      "step": 1000
     }
   ],
   "logging_steps": 10,