dev v1 run epoch 2

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +312 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:921adda863e0351928e7ea50247b82ca865b3621936767ceeb9a80fd357ac393
 size 167832688

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4cbada59623194f6c69a68d8c36c90528947cf9952ad098a827be4df7f954a9
 size 167832688

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0eac29e8b18904353a37433106e598c61b5f7df1d385d625677e3c6d4687005e
 size 335928722

 version https://git-lfs.github.com/spec/v1
+oid sha256:90465c9ea7d82334c5b100de3426a8eb9e8f7c982bcf019dbaefa8bcb8009641
 size 335928722

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d65074ec4acc545701030f5ea4ceadb1b1f0dcdfcf93b5c3b3b245a40ec009f6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bed885709ed3a9466ff15e38eedc83597e774b6cceb79f6cd7499cf5ffa6725d
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89863f3912f019669cfea60f1797f53313f2c8d5bf8721f6e9ee094e6cd17f6d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:de5a38ab50c47292a1483af688075150937969dc0e638274974d85780ed606dc
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9985553308292401,
   "eval_steps": 500,
-  "global_step": 432,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -316,6 +316,315 @@
       "eval_samples_per_second": 0.984,
       "eval_steps_per_second": 0.984,
       "step": 432
     }
   ],
   "logging_steps": 10,
@@ -323,7 +632,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
-  "total_flos": 3.059751851843912e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9971106616584802,
   "eval_steps": 500,
+  "global_step": 864,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.984,
       "eval_steps_per_second": 0.984,
       "step": 432
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.259765625,
+      "learning_rate": 0.00012,
+      "loss": 1.5637,
+      "step": 440
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.2734375,
+      "learning_rate": 0.00012,
+      "loss": 1.5142,
+      "step": 450
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 0.294921875,
+      "learning_rate": 0.00012,
+      "loss": 1.533,
+      "step": 460
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 0.296875,
+      "learning_rate": 0.00012,
+      "loss": 1.5256,
+      "step": 470
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 0.318359375,
+      "learning_rate": 0.00012,
+      "loss": 1.5749,
+      "step": 480
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 0.302734375,
+      "learning_rate": 0.00012,
+      "loss": 1.5535,
+      "step": 490
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.3359375,
+      "learning_rate": 0.00012,
+      "loss": 1.5754,
+      "step": 500
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 0.302734375,
+      "learning_rate": 0.00012,
+      "loss": 1.52,
+      "step": 510
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.31640625,
+      "learning_rate": 0.00012,
+      "loss": 1.5559,
+      "step": 520
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 0.32421875,
+      "learning_rate": 0.00012,
+      "loss": 1.5231,
+      "step": 530
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 0.3203125,
+      "learning_rate": 0.00012,
+      "loss": 1.5671,
+      "step": 540
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 0.318359375,
+      "learning_rate": 0.00012,
+      "loss": 1.5529,
+      "step": 550
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 0.35546875,
+      "learning_rate": 0.00012,
+      "loss": 1.5415,
+      "step": 560
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.33203125,
+      "learning_rate": 0.00012,
+      "loss": 1.5511,
+      "step": 570
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 0.3359375,
+      "learning_rate": 0.00012,
+      "loss": 1.5398,
+      "step": 580
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 0.34375,
+      "learning_rate": 0.00012,
+      "loss": 1.5426,
+      "step": 590
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 0.35546875,
+      "learning_rate": 0.00012,
+      "loss": 1.5334,
+      "step": 600
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 0.330078125,
+      "learning_rate": 0.00012,
+      "loss": 1.5096,
+      "step": 610
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 0.333984375,
+      "learning_rate": 0.00012,
+      "loss": 1.5416,
+      "step": 620
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 0.376953125,
+      "learning_rate": 0.00012,
+      "loss": 1.5343,
+      "step": 630
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 0.3359375,
+      "learning_rate": 0.00012,
+      "loss": 1.5416,
+      "step": 640
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.33984375,
+      "learning_rate": 0.00012,
+      "loss": 1.5444,
+      "step": 650
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 0.35546875,
+      "learning_rate": 0.00012,
+      "loss": 1.5112,
+      "step": 660
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 0.35546875,
+      "learning_rate": 0.00012,
+      "loss": 1.5403,
+      "step": 670
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 0.337890625,
+      "learning_rate": 0.00012,
+      "loss": 1.532,
+      "step": 680
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 0.345703125,
+      "learning_rate": 0.00012,
+      "loss": 1.5451,
+      "step": 690
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 0.337890625,
+      "learning_rate": 0.00012,
+      "loss": 1.5487,
+      "step": 700
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 0.376953125,
+      "learning_rate": 0.00012,
+      "loss": 1.5529,
+      "step": 710
+    },
+    {
+      "epoch": 1.66,
+      "grad_norm": 0.3515625,
+      "learning_rate": 0.00012,
+      "loss": 1.5351,
+      "step": 720
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 0.33984375,
+      "learning_rate": 0.00012,
+      "loss": 1.5045,
+      "step": 730
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 0.33984375,
+      "learning_rate": 0.00012,
+      "loss": 1.5431,
+      "step": 740
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 0.353515625,
+      "learning_rate": 0.00012,
+      "loss": 1.5456,
+      "step": 750
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 0.353515625,
+      "learning_rate": 0.00012,
+      "loss": 1.537,
+      "step": 760
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 0.3671875,
+      "learning_rate": 0.00012,
+      "loss": 1.5375,
+      "step": 770
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 0.345703125,
+      "learning_rate": 0.00012,
+      "loss": 1.5305,
+      "step": 780
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 0.369140625,
+      "learning_rate": 0.00012,
+      "loss": 1.5455,
+      "step": 790
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 0.37109375,
+      "learning_rate": 0.00012,
+      "loss": 1.5163,
+      "step": 800
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 0.349609375,
+      "learning_rate": 0.00012,
+      "loss": 1.5578,
+      "step": 810
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 0.3515625,
+      "learning_rate": 0.00012,
+      "loss": 1.5191,
+      "step": 820
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.357421875,
+      "learning_rate": 0.00012,
+      "loss": 1.5257,
+      "step": 830
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 0.35546875,
+      "learning_rate": 0.00012,
+      "loss": 1.527,
+      "step": 840
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.361328125,
+      "learning_rate": 0.00012,
+      "loss": 1.51,
+      "step": 850
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 0.359375,
+      "learning_rate": 0.00012,
+      "loss": 1.5232,
+      "step": 860
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.692084550857544,
+      "eval_runtime": 905.0512,
+      "eval_samples_per_second": 0.984,
+      "eval_steps_per_second": 0.984,
+      "step": 864
     }
   ],
   "logging_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 6.110663045346755e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null