Training in progress, step 4800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +229 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a80296700bbec8fac1fb407554306ca32ff6044fcb3bf9450e5d4002d6675b80
 size 1482788592

 version https://git-lfs.github.com/spec/v1
+oid sha256:ece60875a5af29008a1db947f37d0c4e41a5f40d67190f9268f23085b8ae7125
 size 1482788592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9140ffcb7a076479a2cdfed6c16b89cae69908eed57b3fe47619040eeed8784
 size 2897966842

 version https://git-lfs.github.com/spec/v1
+oid sha256:b613bbe7e00aa50cc4953564c3dd94412444451a44d0c95d0dfbdaf287ec8a09
 size 2897966842

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ad74da39d39419907bbd72b2c6fb28029f5ea893201638cfb40daf17a380719
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc93c8df3d2c508d95b256c21be191d97f1b117d9c86f242d9f503ffa40419f3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f72d12e08f2981b12196a00ff48fe5cac0ba4d9d1aa54f91464a195ecde87c8
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:716d7ef0d2def98440e32b2cba336f73e613b85c0427aef8f0c8a6789d61bd46
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.6921895742416382,
   "best_model_checkpoint": "./output/checkpoint-4500",
-  "epoch": 0.14539110206455366,
   "eval_steps": 150,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3397,6 +3397,232 @@
       "eval_samples_per_second": 10.053,
       "eval_steps_per_second": 10.053,
       "step": 4500
     }
   ],
   "logging_steps": 10,
@@ -3416,7 +3642,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.769852918977331e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.6921895742416382,
   "best_model_checkpoint": "./output/checkpoint-4500",
+  "epoch": 0.15508384220219057,
   "eval_steps": 150,
+  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.053,
       "eval_steps_per_second": 10.053,
       "step": 4500
+    },
+    {
+      "epoch": 0.14571419340247488,
+      "grad_norm": 7.294159889221191,
+      "learning_rate": 5.472047830984499e-07,
+      "loss": 1.7577,
+      "step": 4510
+    },
+    {
+      "epoch": 0.14603728474039612,
+      "grad_norm": 9.507523536682129,
+      "learning_rate": 5.252725889984403e-07,
+      "loss": 1.7748,
+      "step": 4520
+    },
+    {
+      "epoch": 0.14636037607831734,
+      "grad_norm": 10.296547889709473,
+      "learning_rate": 5.037783829820298e-07,
+      "loss": 1.6676,
+      "step": 4530
+    },
+    {
+      "epoch": 0.14668346741623858,
+      "grad_norm": 10.683934211730957,
+      "learning_rate": 4.827230485918372e-07,
+      "loss": 1.703,
+      "step": 4540
+    },
+    {
+      "epoch": 0.1470065587541598,
+      "grad_norm": 13.149202346801758,
+      "learning_rate": 4.6210745133019236e-07,
+      "loss": 1.8596,
+      "step": 4550
+    },
+    {
+      "epoch": 0.14732965009208104,
+      "grad_norm": 10.627421379089355,
+      "learning_rate": 4.419324386235529e-07,
+      "loss": 1.5863,
+      "step": 4560
+    },
+    {
+      "epoch": 0.14765274143000226,
+      "grad_norm": 8.185441970825195,
+      "learning_rate": 4.2219883978767386e-07,
+      "loss": 1.7421,
+      "step": 4570
+    },
+    {
+      "epoch": 0.1479758327679235,
+      "grad_norm": 6.5582804679870605,
+      "learning_rate": 4.029074659935082e-07,
+      "loss": 1.7486,
+      "step": 4580
+    },
+    {
+      "epoch": 0.14829892410584472,
+      "grad_norm": 7.293984413146973,
+      "learning_rate": 3.8405911023387444e-07,
+      "loss": 1.7631,
+      "step": 4590
+    },
+    {
+      "epoch": 0.14862201544376596,
+      "grad_norm": 10.495855331420898,
+      "learning_rate": 3.6565454729085526e-07,
+      "loss": 1.8289,
+      "step": 4600
+    },
+    {
+      "epoch": 0.14894510678168718,
+      "grad_norm": 7.07685661315918,
+      "learning_rate": 3.4769453370394753e-07,
+      "loss": 1.6386,
+      "step": 4610
+    },
+    {
+      "epoch": 0.14926819811960843,
+      "grad_norm": 8.069764137268066,
+      "learning_rate": 3.301798077389637e-07,
+      "loss": 1.585,
+      "step": 4620
+    },
+    {
+      "epoch": 0.14959128945752964,
+      "grad_norm": 8.399779319763184,
+      "learning_rate": 3.1311108935768926e-07,
+      "loss": 1.5544,
+      "step": 4630
+    },
+    {
+      "epoch": 0.14991438079545089,
+      "grad_norm": 7.10072660446167,
+      "learning_rate": 2.964890801882817e-07,
+      "loss": 1.7765,
+      "step": 4640
+    },
+    {
+      "epoch": 0.1502374721333721,
+      "grad_norm": 12.693696022033691,
+      "learning_rate": 2.8031446349643393e-07,
+      "loss": 1.5691,
+      "step": 4650
+    },
+    {
+      "epoch": 0.1502374721333721,
+      "eval_loss": 1.6924811601638794,
+      "eval_runtime": 50.4888,
+      "eval_samples_per_second": 9.923,
+      "eval_steps_per_second": 9.923,
+      "step": 4650
+    },
+    {
+      "epoch": 0.15056056347129335,
+      "grad_norm": 8.841912269592285,
+      "learning_rate": 2.645879041572891e-07,
+      "loss": 1.6589,
+      "step": 4660
+    },
+    {
+      "epoch": 0.15088365480921456,
+      "grad_norm": 7.690126895904541,
+      "learning_rate": 2.4931004862810295e-07,
+      "loss": 1.7137,
+      "step": 4670
+    },
+    {
+      "epoch": 0.1512067461471358,
+      "grad_norm": 14.600467681884766,
+      "learning_rate": 2.3448152492167586e-07,
+      "loss": 1.8001,
+      "step": 4680
+    },
+    {
+      "epoch": 0.15152983748505702,
+      "grad_norm": 8.619688034057617,
+      "learning_rate": 2.201029425805393e-07,
+      "loss": 1.7615,
+      "step": 4690
+    },
+    {
+      "epoch": 0.15185292882297827,
+      "grad_norm": 12.033727645874023,
+      "learning_rate": 2.061748926518972e-07,
+      "loss": 1.6317,
+      "step": 4700
+    },
+    {
+      "epoch": 0.15217602016089948,
+      "grad_norm": 9.276659965515137,
+      "learning_rate": 1.9269794766333073e-07,
+      "loss": 1.6155,
+      "step": 4710
+    },
+    {
+      "epoch": 0.15249911149882073,
+      "grad_norm": 8.645523071289062,
+      "learning_rate": 1.7967266159925864e-07,
+      "loss": 1.5958,
+      "step": 4720
+    },
+    {
+      "epoch": 0.15282220283674194,
+      "grad_norm": 13.718961715698242,
+      "learning_rate": 1.670995698781777e-07,
+      "loss": 1.5768,
+      "step": 4730
+    },
+    {
+      "epoch": 0.1531452941746632,
+      "grad_norm": 12.2525634765625,
+      "learning_rate": 1.549791893306424e-07,
+      "loss": 1.571,
+      "step": 4740
+    },
+    {
+      "epoch": 0.1534683855125844,
+      "grad_norm": 7.851583003997803,
+      "learning_rate": 1.4331201817802332e-07,
+      "loss": 1.7923,
+      "step": 4750
+    },
+    {
+      "epoch": 0.15379147685050565,
+      "grad_norm": 10.048659324645996,
+      "learning_rate": 1.320985360120322e-07,
+      "loss": 1.7102,
+      "step": 4760
+    },
+    {
+      "epoch": 0.15411456818842686,
+      "grad_norm": 9.430795669555664,
+      "learning_rate": 1.2133920377499848e-07,
+      "loss": 1.6879,
+      "step": 4770
+    },
+    {
+      "epoch": 0.1544376595263481,
+      "grad_norm": 12.329809188842773,
+      "learning_rate": 1.1103446374092981e-07,
+      "loss": 1.7557,
+      "step": 4780
+    },
+    {
+      "epoch": 0.15476075086426933,
+      "grad_norm": 11.180129051208496,
+      "learning_rate": 1.0118473949732765e-07,
+      "loss": 1.7791,
+      "step": 4790
+    },
+    {
+      "epoch": 0.15508384220219057,
+      "grad_norm": 8.690634727478027,
+      "learning_rate": 9.179043592777716e-08,
+      "loss": 1.6464,
+      "step": 4800
+    },
+    {
+      "epoch": 0.15508384220219057,
+      "eval_loss": 1.6925097703933716,
+      "eval_runtime": 44.8573,
+      "eval_samples_per_second": 11.169,
+      "eval_steps_per_second": 11.169,
+      "step": 4800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.0155209275981824e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null