Training in progress, step 3300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:850413a014ce1afd15263ab6c3f76035a2a29120ea6d95d7c7a3b16fe27706ee
 size 1482788592

 version https://git-lfs.github.com/spec/v1
+oid sha256:de70de6b2da329ca8f9cd9782e5a8c63d35eb534a3da73d45c4d69f261b03dcd
 size 1482788592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81f1e42b57804054b595cc72714a0e29484e0a4f3f3db1a9b40226e25e29ae9d
-size 2897966842

 version https://git-lfs.github.com/spec/v1
+oid sha256:68600c4e47ab0d9fdeb2af5cf775c372faa1ed05d5bd6f5ca06681a6894cec35
+size 2897966906

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48324ba9470305ba9a4f19447fdf98548c8bfaa12e85cde93aac4b610d7b8e47
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:17668b377d77858255543f365889c1f2a879ebada82f52b754b1ab5a50728344
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63611ac194f86478fc723503311fa2cab6531bc9b416ef9b084dffa82990342b
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5e8d6bc6f3de9c0fa44c9cf11dc26e20febd8fd847e70f98451b9a254aee2c2
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.000785625830758363,
   "best_model_checkpoint": "./output/checkpoint-2400",
-  "epoch": 2.4725274725274726,
   "eval_steps": 150,
-  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2380,6 +2380,119 @@
       "eval_samples_per_second": 9.443,
       "eval_steps_per_second": 9.443,
       "step": 3150
     }
   ],
   "logging_steps": 10,
@@ -2399,7 +2512,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.7840567611990016e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.000785625830758363,
   "best_model_checkpoint": "./output/checkpoint-2400",
+  "epoch": 2.5902668759811616,
   "eval_steps": 150,
+  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.443,
       "eval_steps_per_second": 9.443,
       "step": 3150
+    },
+    {
+      "epoch": 2.4803767660910516,
+      "grad_norm": 0.06127491593360901,
+      "learning_rate": 2.373287048582997e-06,
+      "loss": 0.0,
+      "step": 3160
+    },
+    {
+      "epoch": 2.488226059654631,
+      "grad_norm": 0.0004414320283103734,
+      "learning_rate": 2.3505841745683646e-06,
+      "loss": 0.0022,
+      "step": 3170
+    },
+    {
+      "epoch": 2.4960753532182105,
+      "grad_norm": 0.027753857895731926,
+      "learning_rate": 2.3279423321670197e-06,
+      "loss": 0.0,
+      "step": 3180
+    },
+    {
+      "epoch": 2.5039246467817895,
+      "grad_norm": 0.0014922439586371183,
+      "learning_rate": 2.305362452096422e-06,
+      "loss": 0.0,
+      "step": 3190
+    },
+    {
+      "epoch": 2.511773940345369,
+      "grad_norm": 0.0009659648058004677,
+      "learning_rate": 2.2828454625270022e-06,
+      "loss": 0.0001,
+      "step": 3200
+    },
+    {
+      "epoch": 2.5196232339089484,
+      "grad_norm": 0.0004056979960296303,
+      "learning_rate": 2.260392289044009e-06,
+      "loss": 0.0,
+      "step": 3210
+    },
+    {
+      "epoch": 2.5274725274725274,
+      "grad_norm": 0.011858894489705563,
+      "learning_rate": 2.2380038546094595e-06,
+      "loss": 0.0,
+      "step": 3220
+    },
+    {
+      "epoch": 2.535321821036107,
+      "grad_norm": 0.15677396953105927,
+      "learning_rate": 2.2156810795242044e-06,
+      "loss": 0.0,
+      "step": 3230
+    },
+    {
+      "epoch": 2.5431711145996863,
+      "grad_norm": 0.0002763714292086661,
+      "learning_rate": 2.1934248813900955e-06,
+      "loss": 0.0,
+      "step": 3240
+    },
+    {
+      "epoch": 2.5510204081632653,
+      "grad_norm": 0.000499962130561471,
+      "learning_rate": 2.1712361750722664e-06,
+      "loss": 0.0,
+      "step": 3250
+    },
+    {
+      "epoch": 2.5588697017268447,
+      "grad_norm": 0.0006597275496460497,
+      "learning_rate": 2.1491158726615267e-06,
+      "loss": 0.0,
+      "step": 3260
+    },
+    {
+      "epoch": 2.566718995290424,
+      "grad_norm": 7.362648466369137e-05,
+      "learning_rate": 2.127064883436869e-06,
+      "loss": 0.0,
+      "step": 3270
+    },
+    {
+      "epoch": 2.574568288854003,
+      "grad_norm": 0.010624408721923828,
+      "learning_rate": 2.1050841138280927e-06,
+      "loss": 0.0,
+      "step": 3280
+    },
+    {
+      "epoch": 2.5824175824175826,
+      "grad_norm": 0.0006421171128749847,
+      "learning_rate": 2.0831744673785437e-06,
+      "loss": 0.0,
+      "step": 3290
+    },
+    {
+      "epoch": 2.5902668759811616,
+      "grad_norm": 0.0017485865391790867,
+      "learning_rate": 2.0613368447079754e-06,
+      "loss": 0.0,
+      "step": 3300
+    },
+    {
+      "epoch": 2.5902668759811616,
+      "eval_loss": 0.0013308656634762883,
+      "eval_runtime": 52.675,
+      "eval_samples_per_second": 9.492,
+      "eval_steps_per_second": 9.492,
+      "step": 3300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.918295426915533e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null