Training in progress, step 800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +299 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19465df8c765c100b1ba5242ef17b58f9b637c549a87ac2747076fa42c39e0a6
 size 723674912

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f20ee9d85e078def0a1968e25a4afa65844c8a597217ce9d41e6cc154906c92
 size 723674912

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9552643304156bc0ff61539cee518c025cee2d6eea5aac4a16b479330d4d36b2
 size 735625626

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8b113fad7926aed3da6821423f32ab4f6eae5ec06013cff7b635f914358c996
 size 735625626

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9feae33b2fec0a6229240e7adaee6ecc8f5cfdf1a8bd0e827b1d8a241424e3c0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c431bcafebc4c8ee346d130e382b11c81be579ca0bfd3918fae07b16e10b92f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a673aaf85c0fe6b6c29cb8f3e7dbd829eef637110e4ad9a775f3fcf001c92591
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:40b6b717644e21f80a22ec98694b3a2fd9d62a6467e549d64314725dba905d52
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11837821840781296,
   "eval_steps": 200,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -311,6 +311,302 @@
       "eval_samples_per_second": 39.591,
       "eval_steps_per_second": 9.911,
       "step": 400
     }
   ],
   "logging_steps": 10,
@@ -330,7 +626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6216909638860800.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23675643681562591,
   "eval_steps": 200,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 39.591,
       "eval_steps_per_second": 9.911,
       "step": 400
+    },
+    {
+      "epoch": 0.12133767386800828,
+      "grad_norm": 2.15625,
+      "learning_rate": 0.00019297764858882514,
+      "loss": 2.3662,
+      "step": 410
+    },
+    {
+      "epoch": 0.12429712932820361,
+      "grad_norm": 3.171875,
+      "learning_rate": 0.00019248258232139388,
+      "loss": 2.1696,
+      "step": 420
+    },
+    {
+      "epoch": 0.12725658478839894,
+      "grad_norm": 4.3125,
+      "learning_rate": 0.00019197133427991436,
+      "loss": 2.0936,
+      "step": 430
+    },
+    {
+      "epoch": 0.13021604024859426,
+      "grad_norm": 4.15625,
+      "learning_rate": 0.00019144399391799043,
+      "loss": 1.9139,
+      "step": 440
+    },
+    {
+      "epoch": 0.1331754957087896,
+      "grad_norm": 17.75,
+      "learning_rate": 0.00019090065350491626,
+      "loss": 2.2588,
+      "step": 450
+    },
+    {
+      "epoch": 0.1361349511689849,
+      "grad_norm": 2.21875,
+      "learning_rate": 0.0001903414081095315,
+      "loss": 2.3196,
+      "step": 460
+    },
+    {
+      "epoch": 0.13909440662918024,
+      "grad_norm": 2.46875,
+      "learning_rate": 0.00018976635558358722,
+      "loss": 2.0432,
+      "step": 470
+    },
+    {
+      "epoch": 0.14205386208937557,
+      "grad_norm": 4.40625,
+      "learning_rate": 0.00018917559654462474,
+      "loss": 2.1155,
+      "step": 480
+    },
+    {
+      "epoch": 0.1450133175495709,
+      "grad_norm": 5.21875,
+      "learning_rate": 0.00018856923435837022,
+      "loss": 2.0727,
+      "step": 490
+    },
+    {
+      "epoch": 0.1479727730097662,
+      "grad_norm": 12.25,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 1.5163,
+      "step": 500
+    },
+    {
+      "epoch": 0.15093222846996152,
+      "grad_norm": 2.171875,
+      "learning_rate": 0.00018731012763882133,
+      "loss": 2.3348,
+      "step": 510
+    },
+    {
+      "epoch": 0.15389168393015684,
+      "grad_norm": 3.109375,
+      "learning_rate": 0.00018665760341274505,
+      "loss": 2.1121,
+      "step": 520
+    },
+    {
+      "epoch": 0.15685113939035217,
+      "grad_norm": 3.75,
+      "learning_rate": 0.00018598991661526572,
+      "loss": 2.201,
+      "step": 530
+    },
+    {
+      "epoch": 0.1598105948505475,
+      "grad_norm": 3.859375,
+      "learning_rate": 0.00018530718407223974,
+      "loss": 2.1016,
+      "step": 540
+    },
+    {
+      "epoch": 0.16277005031074282,
+      "grad_norm": 16.125,
+      "learning_rate": 0.00018460952524209355,
+      "loss": 1.8499,
+      "step": 550
+    },
+    {
+      "epoch": 0.16572950577093815,
+      "grad_norm": 2.109375,
+      "learning_rate": 0.00018389706219492147,
+      "loss": 2.1731,
+      "step": 560
+    },
+    {
+      "epoch": 0.16868896123113347,
+      "grad_norm": 2.515625,
+      "learning_rate": 0.00018316991959112716,
+      "loss": 2.3097,
+      "step": 570
+    },
+    {
+      "epoch": 0.1716484166913288,
+      "grad_norm": 3.296875,
+      "learning_rate": 0.00018242822465961176,
+      "loss": 1.7914,
+      "step": 580
+    },
+    {
+      "epoch": 0.17460787215152412,
+      "grad_norm": 6.90625,
+      "learning_rate": 0.00018167210717551224,
+      "loss": 1.9812,
+      "step": 590
+    },
+    {
+      "epoch": 0.17756732761171945,
+      "grad_norm": 15.125,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.7489,
+      "step": 600
+    },
+    {
+      "epoch": 0.17756732761171945,
+      "eval_loss": 2.0746848583221436,
+      "eval_runtime": 37.5843,
+      "eval_samples_per_second": 39.964,
+      "eval_steps_per_second": 10.004,
+      "step": 600
+    },
+    {
+      "epoch": 0.18052678307191478,
+      "grad_norm": 2.859375,
+      "learning_rate": 0.00018011713624460608,
+      "loss": 1.9754,
+      "step": 610
+    },
+    {
+      "epoch": 0.1834862385321101,
+      "grad_norm": 2.453125,
+      "learning_rate": 0.00017931855487268782,
+      "loss": 1.9933,
+      "step": 620
+    },
+    {
+      "epoch": 0.18644569399230543,
+      "grad_norm": 3.140625,
+      "learning_rate": 0.0001785060950503568,
+      "loss": 2.3726,
+      "step": 630
+    },
+    {
+      "epoch": 0.18940514945250073,
+      "grad_norm": 10.125,
+      "learning_rate": 0.00017767989893455698,
+      "loss": 2.0989,
+      "step": 640
+    },
+    {
+      "epoch": 0.19236460491269605,
+      "grad_norm": 16.125,
+      "learning_rate": 0.00017684011108568592,
+      "loss": 2.0883,
+      "step": 650
+    },
+    {
+      "epoch": 0.19532406037289138,
+      "grad_norm": 2.0625,
+      "learning_rate": 0.00017598687844230088,
+      "loss": 2.3784,
+      "step": 660
+    },
+    {
+      "epoch": 0.1982835158330867,
+      "grad_norm": 2.640625,
+      "learning_rate": 0.00017512035029540885,
+      "loss": 2.1031,
+      "step": 670
+    },
+    {
+      "epoch": 0.20124297129328203,
+      "grad_norm": 4.0625,
+      "learning_rate": 0.000174240678262345,
+      "loss": 2.1489,
+      "step": 680
+    },
+    {
+      "epoch": 0.20420242675347736,
+      "grad_norm": 6.0,
+      "learning_rate": 0.000173348016260244,
+      "loss": 1.8543,
+      "step": 690
+    },
+    {
+      "epoch": 0.20716188221367268,
+      "grad_norm": 18.375,
+      "learning_rate": 0.00017244252047910892,
+      "loss": 1.7568,
+      "step": 700
+    },
+    {
+      "epoch": 0.210121337673868,
+      "grad_norm": 2.296875,
+      "learning_rate": 0.00017152434935448256,
+      "loss": 2.1479,
+      "step": 710
+    },
+    {
+      "epoch": 0.21308079313406333,
+      "grad_norm": 2.796875,
+      "learning_rate": 0.0001705936635397259,
+      "loss": 2.2194,
+      "step": 720
+    },
+    {
+      "epoch": 0.21604024859425866,
+      "grad_norm": 3.578125,
+      "learning_rate": 0.00016965062587790823,
+      "loss": 2.0353,
+      "step": 730
+    },
+    {
+      "epoch": 0.218999704054454,
+      "grad_norm": 3.203125,
+      "learning_rate": 0.00016869540137331445,
+      "loss": 1.8538,
+      "step": 740
+    },
+    {
+      "epoch": 0.2219591595146493,
+      "grad_norm": 10.4375,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 1.8197,
+      "step": 750
+    },
+    {
+      "epoch": 0.22491861497484464,
+      "grad_norm": 2.21875,
+      "learning_rate": 0.00016674906248541726,
+      "loss": 2.2368,
+      "step": 760
+    },
+    {
+      "epoch": 0.22787807043503996,
+      "grad_norm": 3.890625,
+      "learning_rate": 0.00016575828865506245,
+      "loss": 2.0362,
+      "step": 770
+    },
+    {
+      "epoch": 0.2308375258952353,
+      "grad_norm": 4.0625,
+      "learning_rate": 0.0001647560090282419,
+      "loss": 1.9445,
+      "step": 780
+    },
+    {
+      "epoch": 0.2337969813554306,
+      "grad_norm": 6.75,
+      "learning_rate": 0.000163742398974869,
+      "loss": 1.819,
+      "step": 790
+    },
+    {
+      "epoch": 0.23675643681562591,
+      "grad_norm": 28.25,
+      "learning_rate": 0.0001627176358473537,
+      "loss": 1.913,
+      "step": 800
+    },
+    {
+      "epoch": 0.23675643681562591,
+      "eval_loss": 2.06573748588562,
+      "eval_runtime": 37.9697,
+      "eval_samples_per_second": 39.558,
+      "eval_steps_per_second": 9.903,
+      "step": 800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.24028893790208e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null