Training in progress, step 2500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92ecbb21d1e0fe04a76374b42b85859839cd5847c3b922def8d9c835efea99e0
 size 1917255968

 version https://git-lfs.github.com/spec/v1
+oid sha256:fffc04b59c62fd75993065cac00d29eabde87430fe6889a8d0a88622aaf4bff7
 size 1917255968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb40c6114ec922d7714527c3e12b5ccaf476fde4ca857ba014ddc6cfb4ede0c4
-size 2479129381

 version https://git-lfs.github.com/spec/v1
+oid sha256:734307ae4ce6cfe0da3c2c0adc7de19df318654f89f713e32d45992201dd3c38
+size 2479961379

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:946649cc0ec301f9f67d287ff0bc2472a821330c5cd88309b298943469bb0e90
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:e67abcfba71a76609e77cfb89c9a6ffd007caab84f81a31e8c3a8feeab5e1904
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2878531755614586,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1415,6 +1415,356 @@
       "learning_rate": 1.541138862413009e-05,
       "loss": 0.1555,
       "step": 2000
     }
   ],
   "logging_steps": 10,
@@ -1434,7 +1784,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5616435963670323e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.609836593415439,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.541138862413009e-05,
       "loss": 0.1555,
       "step": 2000
+    },
+    {
+      "epoch": 1.2942928439185382,
+      "grad_norm": 2.5,
+      "learning_rate": 1.5165978463439823e-05,
+      "loss": 0.129,
+      "step": 2010
+    },
+    {
+      "epoch": 1.300732512275618,
+      "grad_norm": 7.9375,
+      "learning_rate": 1.4921684336293367e-05,
+      "loss": 0.1734,
+      "step": 2020
+    },
+    {
+      "epoch": 1.3071721806326975,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.467853396689688e-05,
+      "loss": 0.1907,
+      "step": 2030
+    },
+    {
+      "epoch": 1.313611848989777,
+      "grad_norm": 11.125,
+      "learning_rate": 1.4436554949654906e-05,
+      "loss": 0.139,
+      "step": 2040
+    },
+    {
+      "epoch": 1.3200515173468568,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.4195774746038723e-05,
+      "loss": 0.1053,
+      "step": 2050
+    },
+    {
+      "epoch": 1.3264911857039363,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.3956220681469866e-05,
+      "loss": 0.1758,
+      "step": 2060
+    },
+    {
+      "epoch": 1.3329308540610159,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.3717919942219067e-05,
+      "loss": 0.1186,
+      "step": 2070
+    },
+    {
+      "epoch": 1.3393705224180954,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.3480899572320893e-05,
+      "loss": 0.1283,
+      "step": 2080
+    },
+    {
+      "epoch": 1.345810190775175,
+      "grad_norm": 7.375,
+      "learning_rate": 1.3245186470504647e-05,
+      "loss": 0.1294,
+      "step": 2090
+    },
+    {
+      "epoch": 1.3522498591322547,
+      "grad_norm": 8.875,
+      "learning_rate": 1.3010807387141738e-05,
+      "loss": 0.1039,
+      "step": 2100
+    },
+    {
+      "epoch": 1.3586895274893342,
+      "grad_norm": 9.75,
+      "learning_rate": 1.2777788921209805e-05,
+      "loss": 0.1128,
+      "step": 2110
+    },
+    {
+      "epoch": 1.3651291958464138,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.25461575172741e-05,
+      "loss": 0.1235,
+      "step": 2120
+    },
+    {
+      "epoch": 1.3715688642034936,
+      "grad_norm": 9.1875,
+      "learning_rate": 1.2315939462486395e-05,
+      "loss": 0.1536,
+      "step": 2130
+    },
+    {
+      "epoch": 1.378008532560573,
+      "grad_norm": 4.75,
+      "learning_rate": 1.2087160883601695e-05,
+      "loss": 0.1011,
+      "step": 2140
+    },
+    {
+      "epoch": 1.3844482009176526,
+      "grad_norm": 7.0,
+      "learning_rate": 1.185984774401325e-05,
+      "loss": 0.1795,
+      "step": 2150
+    },
+    {
+      "epoch": 1.3908878692747324,
+      "grad_norm": 4.25,
+      "learning_rate": 1.163402584080597e-05,
+      "loss": 0.089,
+      "step": 2160
+    },
+    {
+      "epoch": 1.397327537631812,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.1409720801828849e-05,
+      "loss": 0.1405,
+      "step": 2170
+    },
+    {
+      "epoch": 1.4037672059888915,
+      "grad_norm": 2.84375,
+      "learning_rate": 1.1186958082786517e-05,
+      "loss": 0.1533,
+      "step": 2180
+    },
+    {
+      "epoch": 1.4102068743459713,
+      "grad_norm": 4.75,
+      "learning_rate": 1.096576296435034e-05,
+      "loss": 0.1359,
+      "step": 2190
+    },
+    {
+      "epoch": 1.4166465427030508,
+      "grad_norm": 13.875,
+      "learning_rate": 1.0746160549289424e-05,
+      "loss": 0.1046,
+      "step": 2200
+    },
+    {
+      "epoch": 1.4230862110601303,
+      "grad_norm": 5.375,
+      "learning_rate": 1.0528175759621727e-05,
+      "loss": 0.1285,
+      "step": 2210
+    },
+    {
+      "epoch": 1.42952587941721,
+      "grad_norm": 4.375,
+      "learning_rate": 1.0311833333785807e-05,
+      "loss": 0.163,
+      "step": 2220
+    },
+    {
+      "epoch": 1.4359655477742896,
+      "grad_norm": 7.3125,
+      "learning_rate": 1.0097157823833248e-05,
+      "loss": 0.2187,
+      "step": 2230
+    },
+    {
+      "epoch": 1.4424052161313692,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.884173592642374e-06,
+      "loss": 0.1137,
+      "step": 2240
+    },
+    {
+      "epoch": 1.448844884488449,
+      "grad_norm": 12.625,
+      "learning_rate": 9.672904811153363e-06,
+      "loss": 0.1985,
+      "step": 2250
+    },
+    {
+      "epoch": 1.4552845528455285,
+      "grad_norm": 3.96875,
+      "learning_rate": 9.463375455625183e-06,
+      "loss": 0.0877,
+      "step": 2260
+    },
+    {
+      "epoch": 1.461724221202608,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.255609304914556e-06,
+      "loss": 0.1086,
+      "step": 2270
+    },
+    {
+      "epoch": 1.4681638895596878,
+      "grad_norm": 3.0,
+      "learning_rate": 9.049629937777382e-06,
+      "loss": 0.1154,
+      "step": 2280
+    },
+    {
+      "epoch": 1.4746035579167673,
+      "grad_norm": 3.671875,
+      "learning_rate": 8.8454607301929e-06,
+      "loss": 0.1317,
+      "step": 2290
+    },
+    {
+      "epoch": 1.4810432262738469,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.643124852710749e-06,
+      "loss": 0.0975,
+      "step": 2300
+    },
+    {
+      "epoch": 1.4874828946309266,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.442645267821458e-06,
+      "loss": 0.1085,
+      "step": 2310
+    },
+    {
+      "epoch": 1.4939225629880062,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.244044727350492e-06,
+      "loss": 0.1105,
+      "step": 2320
+    },
+    {
+      "epoch": 1.5003622313450857,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.047345769876204e-06,
+      "loss": 0.1523,
+      "step": 2330
+    },
+    {
+      "epoch": 1.5068018997021655,
+      "grad_norm": 12.5,
+      "learning_rate": 7.85257071817202e-06,
+      "loss": 0.1637,
+      "step": 2340
+    },
+    {
+      "epoch": 1.5132415680592448,
+      "grad_norm": 4.125,
+      "learning_rate": 7.659741676673066e-06,
+      "loss": 0.1124,
+      "step": 2350
+    },
+    {
+      "epoch": 1.5196812364163246,
+      "grad_norm": 9.0,
+      "learning_rate": 7.468880528967651e-06,
+      "loss": 0.0965,
+      "step": 2360
+    },
+    {
+      "epoch": 1.5261209047734041,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.280008935313701e-06,
+      "loss": 0.0999,
+      "step": 2370
+    },
+    {
+      "epoch": 1.5325605731304837,
+      "grad_norm": 3.578125,
+      "learning_rate": 7.093148330180649e-06,
+      "loss": 0.1199,
+      "step": 2380
+    },
+    {
+      "epoch": 1.5390002414875634,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.908319919816877e-06,
+      "loss": 0.1595,
+      "step": 2390
+    },
+    {
+      "epoch": 1.545439909844643,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.725544679843101e-06,
+      "loss": 0.0966,
+      "step": 2400
+    },
+    {
+      "epoch": 1.5518795782017225,
+      "grad_norm": 2.765625,
+      "learning_rate": 6.5448433528718876e-06,
+      "loss": 0.0993,
+      "step": 2410
+    },
+    {
+      "epoch": 1.5583192465588023,
+      "grad_norm": 7.875,
+      "learning_rate": 6.3662364461536725e-06,
+      "loss": 0.1303,
+      "step": 2420
+    },
+    {
+      "epoch": 1.5647589149158818,
+      "grad_norm": 4.625,
+      "learning_rate": 6.189744229249406e-06,
+      "loss": 0.1044,
+      "step": 2430
+    },
+    {
+      "epoch": 1.5711985832729614,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.015386731730277e-06,
+      "loss": 0.1186,
+      "step": 2440
+    },
+    {
+      "epoch": 1.5776382516300411,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.843183740904564e-06,
+      "loss": 0.1427,
+      "step": 2450
+    },
+    {
+      "epoch": 1.5840779199871207,
+      "grad_norm": 8.5625,
+      "learning_rate": 5.673154799572064e-06,
+      "loss": 0.0971,
+      "step": 2460
+    },
+    {
+      "epoch": 1.5905175883442002,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.505319203806239e-06,
+      "loss": 0.0823,
+      "step": 2470
+    },
+    {
+      "epoch": 1.59695725670128,
+      "grad_norm": 8.625,
+      "learning_rate": 5.339696000764346e-06,
+      "loss": 0.0963,
+      "step": 2480
+    },
+    {
+      "epoch": 1.6033969250583595,
+      "grad_norm": 4.25,
+      "learning_rate": 5.17630398652584e-06,
+      "loss": 0.1075,
+      "step": 2490
+    },
+    {
+      "epoch": 1.609836593415439,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.01516170395929e-06,
+      "loss": 0.0782,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.9527822955090944e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ef279fd8d8317bf8b36d84bffa82d19dc9808ff2d80cffafbb2e258d411547d
 size 6417

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a850724e0b50935e4c4d54b3c968fe94638af4b1c59c2e07336ea7136cfb41e
 size 6417