Training in progress, step 126000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:811ff470374af97e47c736f298958834b69f1700c42f81f0e13b4a5264484ae8
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:710baf14c92f1a6ab3eef32ca39e73342de5da970d1c32a072279db6a546bd6e
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d11d76e5f8cf7c010d7ddfa9e036517a28b9f13eec8d65dc499e46a38c1f4b3
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dde6003afedc6dd2fd3bca69826bc4c2467f2fe522f76deae105d064b39f61f
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc320281dd48fee58a87ebe65c5af2ea4c357e61810ad0f123ab838f0f93b01f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e596b43a0993defe8386429a74c73648ebeab624d8851d1dff893410d726b8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31f9a4be764158103ef48222bfd8b15ec527d59f5ba7b3fa5af00980fe9404f9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5773cfed09936b668e41d5a19336896fe4fe897bf551564d5056fa5a83c98331
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1925086754832632,
   "eval_steps": 500,
-  "global_step": 125000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -22258,11 +22258,189 @@
       "eval_steps_per_second": 15.182,
       "num_input_tokens_seen": 65525493280,
       "step": 125000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 65525493280,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -22277,7 +22455,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1596817125562573e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2020487258070287,
   "eval_steps": 500,
+  "global_step": 126000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.182,
       "num_input_tokens_seen": 65525493280,
       "step": 125000
+    },
+    {
+      "epoch": 1.1929856779994514,
+      "grad_norm": 0.13272584974765778,
+      "learning_rate": 0.0005531940155086557,
+      "loss": 2.0602,
+      "num_input_tokens_seen": 65551700064,
+      "step": 125050
+    },
+    {
+      "epoch": 1.1934626805156396,
+      "grad_norm": 0.14066773653030396,
+      "learning_rate": 0.0005504041188505022,
+      "loss": 2.0695,
+      "num_input_tokens_seen": 65577910784,
+      "step": 125100
+    },
+    {
+      "epoch": 1.193939683031828,
+      "grad_norm": 0.13133113086223602,
+      "learning_rate": 0.0005476126358804593,
+      "loss": 2.0686,
+      "num_input_tokens_seen": 65604124224,
+      "step": 125150
+    },
+    {
+      "epoch": 1.1944166855480163,
+      "grad_norm": 0.13990654051303864,
+      "learning_rate": 0.0005448196544517168,
+      "loss": 2.0532,
+      "num_input_tokens_seen": 65630324960,
+      "step": 125200
+    },
+    {
+      "epoch": 1.1948936880642045,
+      "grad_norm": 0.14154765009880066,
+      "learning_rate": 0.0005420252624646238,
+      "loss": 2.0518,
+      "num_input_tokens_seen": 65656532992,
+      "step": 125250
+    },
+    {
+      "epoch": 1.195370690580393,
+      "grad_norm": 0.13149969279766083,
+      "learning_rate": 0.0005392295478639225,
+      "loss": 2.0619,
+      "num_input_tokens_seen": 65682736768,
+      "step": 125300
+    },
+    {
+      "epoch": 1.1958476930965811,
+      "grad_norm": 0.1339765191078186,
+      "learning_rate": 0.0005364325986359802,
+      "loss": 2.0706,
+      "num_input_tokens_seen": 65708951168,
+      "step": 125350
+    },
+    {
+      "epoch": 1.1963246956127693,
+      "grad_norm": 0.13910150527954102,
+      "learning_rate": 0.0005336345028060199,
+      "loss": 2.0596,
+      "num_input_tokens_seen": 65735165568,
+      "step": 125400
+    },
+    {
+      "epoch": 1.1968016981289575,
+      "grad_norm": 0.1447630077600479,
+      "learning_rate": 0.0005308353484353508,
+      "loss": 2.0518,
+      "num_input_tokens_seen": 65761369888,
+      "step": 125450
+    },
+    {
+      "epoch": 1.197278700645146,
+      "grad_norm": 0.13201679289340973,
+      "learning_rate": 0.0005280352236185959,
+      "loss": 2.0645,
+      "num_input_tokens_seen": 65787582144,
+      "step": 125500
+    },
+    {
+      "epoch": 1.197278700645146,
+      "eval_loss": 1.9799100160598755,
+      "eval_runtime": 83.01,
+      "eval_samples_per_second": 60.234,
+      "eval_steps_per_second": 15.058,
+      "num_input_tokens_seen": 65787582144,
+      "step": 125500
+    },
+    {
+      "epoch": 1.1977557031613342,
+      "grad_norm": 0.1335040032863617,
+      "learning_rate": 0.0005252342164809204,
+      "loss": 2.0597,
+      "num_input_tokens_seen": 65813796352,
+      "step": 125550
+    },
+    {
+      "epoch": 1.1982327056775224,
+      "grad_norm": 0.13693130016326904,
+      "learning_rate": 0.0005224324151752575,
+      "loss": 2.0594,
+      "num_input_tokens_seen": 65840010208,
+      "step": 125600
+    },
+    {
+      "epoch": 1.1987097081937108,
+      "grad_norm": 0.13866880536079407,
+      "learning_rate": 0.0005196299078795343,
+      "loss": 2.0511,
+      "num_input_tokens_seen": 65866216672,
+      "step": 125650
+    },
+    {
+      "epoch": 1.199186710709899,
+      "grad_norm": 0.12740108370780945,
+      "learning_rate": 0.000516826782793897,
+      "loss": 2.0607,
+      "num_input_tokens_seen": 65892430944,
+      "step": 125700
+    },
+    {
+      "epoch": 1.1996637132260872,
+      "grad_norm": 0.13575108349323273,
+      "learning_rate": 0.0005140231281379345,
+      "loss": 2.0555,
+      "num_input_tokens_seen": 65918642496,
+      "step": 125750
+    },
+    {
+      "epoch": 1.2001407157422754,
+      "grad_norm": 0.13791455328464508,
+      "learning_rate": 0.0005112190321479025,
+      "loss": 2.0632,
+      "num_input_tokens_seen": 65944852960,
+      "step": 125800
+    },
+    {
+      "epoch": 1.2006177182584639,
+      "grad_norm": 0.1315431296825409,
+      "learning_rate": 0.0005084145830739461,
+      "loss": 2.0646,
+      "num_input_tokens_seen": 65971066432,
+      "step": 125850
+    },
+    {
+      "epoch": 1.201094720774652,
+      "grad_norm": 0.12288303673267365,
+      "learning_rate": 0.000505609869177323,
+      "loss": 2.0748,
+      "num_input_tokens_seen": 65997277888,
+      "step": 125900
+    },
+    {
+      "epoch": 1.2015717232908403,
+      "grad_norm": 0.12677106261253357,
+      "learning_rate": 0.0005028049787276249,
+      "loss": 2.0595,
+      "num_input_tokens_seen": 66023480960,
+      "step": 125950
+    },
+    {
+      "epoch": 1.2020487258070287,
+      "grad_norm": 0.140994593501091,
+      "learning_rate": 0.0005,
+      "loss": 2.0556,
+      "num_input_tokens_seen": 66049692768,
+      "step": 126000
+    },
+    {
+      "epoch": 1.2020487258070287,
+      "eval_loss": 1.978381633758545,
+      "eval_runtime": 81.8164,
+      "eval_samples_per_second": 61.112,
+      "eval_steps_per_second": 15.278,
+      "num_input_tokens_seen": 66049692768,
+      "step": 126000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 66049692768,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1689590873539912e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null