Training in progress, step 138, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +357 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faaccbff72b5ac06b6a0df5c9080f2abfc0357d5ced0d4f8cd41a0132fbc01c9
 size 2436951232

 version https://git-lfs.github.com/spec/v1
+oid sha256:f719a64470755771748becc2d79750c1dfc3c56ede76336615f2287e3183de55
 size 2436951232

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:623d23ee9bd96430d20c02db1931c340263ee334ae7e77686bf643c2ef657f8a
 size 2274077596

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b98a96d8f832a2978139f64d417323559b2351dd714affdd97f8810a53a1c30
 size 2274077596

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc504633953a1bc6ad5282190e1dfa0d9a6e9c0298769de5bbe61202fcee389d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:734e89105df261b24dbde0e06f6215c07754ac7f546e434ffc90b4c4aeac7c05
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:194d2ac2c6cfc971682599aa0b4aa84395dc81930a4609447db40281d4881264
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:21d7f598026e67cff206e8b45c13b9fe02c682beb205dd1fd163b157e36c8d6c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.855614973262032,
   "eval_steps": 12,
-  "global_step": 92,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -715,6 +715,360 @@
       "learning_rate": 0.00010901530811120655,
       "loss": 0.283,
       "step": 92
     }
   ],
   "logging_steps": 1,
@@ -734,7 +1088,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9173011097714688.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.732620320855615,
   "eval_steps": 12,
+  "global_step": 138,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00010901530811120655,
       "loss": 0.283,
       "step": 92
+    },
+    {
+      "epoch": 1.8770053475935828,
+      "grad_norm": 4.964606285095215,
+      "learning_rate": 0.00010721577558006164,
+      "loss": 0.2673,
+      "step": 93
+    },
+    {
+      "epoch": 1.8983957219251337,
+      "grad_norm": 8.798148155212402,
+      "learning_rate": 0.00010541389085854176,
+      "loss": 0.2055,
+      "step": 94
+    },
+    {
+      "epoch": 1.9197860962566846,
+      "grad_norm": 5.59722375869751,
+      "learning_rate": 0.00010361024132299364,
+      "loss": 0.209,
+      "step": 95
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 8.256745338439941,
+      "learning_rate": 0.00010180541492505604,
+      "loss": 0.1079,
+      "step": 96
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "eval_loss": 0.7684900760650635,
+      "eval_runtime": 17.746,
+      "eval_samples_per_second": 16.905,
+      "eval_steps_per_second": 8.453,
+      "step": 96
+    },
+    {
+      "epoch": 1.962566844919786,
+      "grad_norm": 4.481995582580566,
+      "learning_rate": 0.0001,
+      "loss": 0.1824,
+      "step": 97
+    },
+    {
+      "epoch": 1.9839572192513368,
+      "grad_norm": 3.852792263031006,
+      "learning_rate": 9.819458507494394e-05,
+      "loss": 0.124,
+      "step": 98
+    },
+    {
+      "epoch": 2.0053475935828877,
+      "grad_norm": 29.360998153686523,
+      "learning_rate": 9.638975867700638e-05,
+      "loss": 0.1844,
+      "step": 99
+    },
+    {
+      "epoch": 2.0267379679144386,
+      "grad_norm": 4.80811071395874,
+      "learning_rate": 9.458610914145826e-05,
+      "loss": 0.1347,
+      "step": 100
+    },
+    {
+      "epoch": 2.048128342245989,
+      "grad_norm": 17.53403091430664,
+      "learning_rate": 9.27842244199384e-05,
+      "loss": 0.3378,
+      "step": 101
+    },
+    {
+      "epoch": 2.06951871657754,
+      "grad_norm": 7.34214973449707,
+      "learning_rate": 9.098469188879349e-05,
+      "loss": 0.2045,
+      "step": 102
+    },
+    {
+      "epoch": 2.090909090909091,
+      "grad_norm": 4.968944072723389,
+      "learning_rate": 8.918809815760585e-05,
+      "loss": 0.2284,
+      "step": 103
+    },
+    {
+      "epoch": 2.0053475935828877,
+      "grad_norm": 4.202042579650879,
+      "learning_rate": 8.739502887797107e-05,
+      "loss": 0.1655,
+      "step": 104
+    },
+    {
+      "epoch": 2.0267379679144386,
+      "grad_norm": 3.561790704727173,
+      "learning_rate": 8.560606855258808e-05,
+      "loss": 0.0442,
+      "step": 105
+    },
+    {
+      "epoch": 2.0481283422459895,
+      "grad_norm": 3.8292624950408936,
+      "learning_rate": 8.382180034472353e-05,
+      "loss": 0.0821,
+      "step": 106
+    },
+    {
+      "epoch": 2.06951871657754,
+      "grad_norm": 2.1650640964508057,
+      "learning_rate": 8.204280588811283e-05,
+      "loss": 0.0384,
+      "step": 107
+    },
+    {
+      "epoch": 2.090909090909091,
+      "grad_norm": 1.6922334432601929,
+      "learning_rate": 8.026966509736001e-05,
+      "loss": 0.0342,
+      "step": 108
+    },
+    {
+      "epoch": 2.090909090909091,
+      "eval_loss": 0.7716657519340515,
+      "eval_runtime": 17.9156,
+      "eval_samples_per_second": 16.745,
+      "eval_steps_per_second": 8.373,
+      "step": 108
+    },
+    {
+      "epoch": 2.1122994652406417,
+      "grad_norm": 1.0654356479644775,
+      "learning_rate": 7.85029559788976e-05,
+      "loss": 0.0184,
+      "step": 109
+    },
+    {
+      "epoch": 2.1336898395721926,
+      "grad_norm": 3.1057019233703613,
+      "learning_rate": 7.674325444256899e-05,
+      "loss": 0.0417,
+      "step": 110
+    },
+    {
+      "epoch": 2.1550802139037435,
+      "grad_norm": 0.19042205810546875,
+      "learning_rate": 7.499113411389371e-05,
+      "loss": 0.0026,
+      "step": 111
+    },
+    {
+      "epoch": 2.176470588235294,
+      "grad_norm": 1.5116851329803467,
+      "learning_rate": 7.324716614707793e-05,
+      "loss": 0.0089,
+      "step": 112
+    },
+    {
+      "epoch": 2.197860962566845,
+      "grad_norm": 2.5151679515838623,
+      "learning_rate": 7.151191903883001e-05,
+      "loss": 0.0357,
+      "step": 113
+    },
+    {
+      "epoch": 2.2192513368983957,
+      "grad_norm": 2.838503837585449,
+      "learning_rate": 6.978595844304271e-05,
+      "loss": 0.0366,
+      "step": 114
+    },
+    {
+      "epoch": 2.2406417112299466,
+      "grad_norm": 3.835000514984131,
+      "learning_rate": 6.806984698640202e-05,
+      "loss": 0.1412,
+      "step": 115
+    },
+    {
+      "epoch": 2.2620320855614975,
+      "grad_norm": 3.4443538188934326,
+      "learning_rate": 6.636414408498249e-05,
+      "loss": 0.0707,
+      "step": 116
+    },
+    {
+      "epoch": 2.283422459893048,
+      "grad_norm": 2.701524496078491,
+      "learning_rate": 6.466940576188977e-05,
+      "loss": 0.0497,
+      "step": 117
+    },
+    {
+      "epoch": 2.304812834224599,
+      "grad_norm": 2.612593412399292,
+      "learning_rate": 6.298618446600856e-05,
+      "loss": 0.052,
+      "step": 118
+    },
+    {
+      "epoch": 2.3262032085561497,
+      "grad_norm": 4.986962795257568,
+      "learning_rate": 6.13150288919161e-05,
+      "loss": 0.1255,
+      "step": 119
+    },
+    {
+      "epoch": 2.3475935828877006,
+      "grad_norm": 1.8598374128341675,
+      "learning_rate": 5.965648380101916e-05,
+      "loss": 0.0309,
+      "step": 120
+    },
+    {
+      "epoch": 2.3475935828877006,
+      "eval_loss": 0.785007119178772,
+      "eval_runtime": 17.7923,
+      "eval_samples_per_second": 16.861,
+      "eval_steps_per_second": 8.431,
+      "step": 120
+    },
+    {
+      "epoch": 2.3689839572192515,
+      "grad_norm": 1.5813214778900146,
+      "learning_rate": 5.801108984397354e-05,
+      "loss": 0.0201,
+      "step": 121
+    },
+    {
+      "epoch": 2.3903743315508024,
+      "grad_norm": 0.13843385875225067,
+      "learning_rate": 5.6379383384443255e-05,
+      "loss": 0.0018,
+      "step": 122
+    },
+    {
+      "epoch": 2.411764705882353,
+      "grad_norm": 4.4155707359313965,
+      "learning_rate": 5.476189632425732e-05,
+      "loss": 0.0326,
+      "step": 123
+    },
+    {
+      "epoch": 2.4331550802139037,
+      "grad_norm": 3.5101325511932373,
+      "learning_rate": 5.3159155930021e-05,
+      "loss": 0.0259,
+      "step": 124
+    },
+    {
+      "epoch": 2.4545454545454546,
+      "grad_norm": 5.201532363891602,
+      "learning_rate": 5.1571684661238075e-05,
+      "loss": 0.0761,
+      "step": 125
+    },
+    {
+      "epoch": 2.4759358288770055,
+      "grad_norm": 2.48543119430542,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.0587,
+      "step": 126
+    },
+    {
+      "epoch": 2.497326203208556,
+      "grad_norm": 7.39755916595459,
+      "learning_rate": 4.844461428229782e-05,
+      "loss": 0.0391,
+      "step": 127
+    },
+    {
+      "epoch": 2.518716577540107,
+      "grad_norm": 4.151485443115234,
+      "learning_rate": 4.6906034531011346e-05,
+      "loss": 0.0982,
+      "step": 128
+    },
+    {
+      "epoch": 2.5401069518716577,
+      "grad_norm": 4.144845485687256,
+      "learning_rate": 4.53847622906303e-05,
+      "loss": 0.0707,
+      "step": 129
+    },
+    {
+      "epoch": 2.5614973262032086,
+      "grad_norm": 7.3682732582092285,
+      "learning_rate": 4.388129346376178e-05,
+      "loss": 0.0455,
+      "step": 130
+    },
+    {
+      "epoch": 2.5828877005347595,
+      "grad_norm": 4.947929382324219,
+      "learning_rate": 4.239611814947605e-05,
+      "loss": 0.033,
+      "step": 131
+    },
+    {
+      "epoch": 2.6042780748663104,
+      "grad_norm": 3.0208606719970703,
+      "learning_rate": 4.092972048354491e-05,
+      "loss": 0.0373,
+      "step": 132
+    },
+    {
+      "epoch": 2.6042780748663104,
+      "eval_loss": 0.776565432548523,
+      "eval_runtime": 17.3019,
+      "eval_samples_per_second": 17.339,
+      "eval_steps_per_second": 8.67,
+      "step": 132
+    },
+    {
+      "epoch": 2.625668449197861,
+      "grad_norm": 7.514610290527344,
+      "learning_rate": 3.948257848062351e-05,
+      "loss": 0.0323,
+      "step": 133
+    },
+    {
+      "epoch": 2.6470588235294117,
+      "grad_norm": 1.8352607488632202,
+      "learning_rate": 3.80551638784277e-05,
+      "loss": 0.043,
+      "step": 134
+    },
+    {
+      "epoch": 2.6684491978609626,
+      "grad_norm": 3.525506019592285,
+      "learning_rate": 3.664794198395764e-05,
+      "loss": 0.0643,
+      "step": 135
+    },
+    {
+      "epoch": 2.6898395721925135,
+      "grad_norm": 5.074891567230225,
+      "learning_rate": 3.5261371521817244e-05,
+      "loss": 0.0658,
+      "step": 136
+    },
+    {
+      "epoch": 2.711229946524064,
+      "grad_norm": 3.6220922470092773,
+      "learning_rate": 3.3895904484679984e-05,
+      "loss": 0.1535,
+      "step": 137
+    },
+    {
+      "epoch": 2.732620320855615,
+      "grad_norm": 3.9044840335845947,
+      "learning_rate": 3.2551985985948616e-05,
+      "loss": 0.0572,
+      "step": 138
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3759516646572032e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null