Training in progress, step 41000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b7729248601047f8e38f3850e7e18cf7889b4308d9f9580a679de009332f3da
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fb18d4c27c64f6607996dc76ab059b3274f96bf50194e20861ca91446bac906
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:358495fc0c32209eebada050e3f21202035c40fdaedcd448ad4300b16ac6f351
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a71156c2d2f2da1c265821c7ca99486fbc72cc466c418215c7150c425f5836
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88b68a8a714da2056a995b3e2624d11f9159cf571839f94eec4ca36bd56bea1f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:028c63076d3d8e5d0c73e4da1b6fc8793d1c56810af68c19f7f253b3016ce7ac
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adaad33497c37859c99058576b7822dd684fa1b3784f6f798b4f9dc171601aff
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bafdd2692f3ffed299379761090a99347b59a938d0713ea16130141db6dd54e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.19080100647530915,
   "eval_steps": 500,
-  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7128,11 +7128,189 @@
       "eval_steps_per_second": 24.51,
       "num_input_tokens_seen": 10485755456,
       "step": 40000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 10485755456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -7147,7 +7325,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8050419254532506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1955710316371919,
   "eval_steps": 500,
+  "global_step": 41000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 24.51,
       "num_input_tokens_seen": 10485755456,
       "step": 40000
+    },
+    {
+      "epoch": 0.19103950773340328,
+      "grad_norm": 0.18717694282531738,
+      "learning_rate": 0.001,
+      "loss": 2.6512,
+      "num_input_tokens_seen": 10498862656,
+      "step": 40050
+    },
+    {
+      "epoch": 0.19127800899149744,
+      "grad_norm": 0.2009858638048172,
+      "learning_rate": 0.001,
+      "loss": 2.6289,
+      "num_input_tokens_seen": 10511969856,
+      "step": 40100
+    },
+    {
+      "epoch": 0.19151651024959157,
+      "grad_norm": 0.2515949010848999,
+      "learning_rate": 0.001,
+      "loss": 2.6342,
+      "num_input_tokens_seen": 10525077056,
+      "step": 40150
+    },
+    {
+      "epoch": 0.1917550115076857,
+      "grad_norm": 0.19864948093891144,
+      "learning_rate": 0.001,
+      "loss": 2.6191,
+      "num_input_tokens_seen": 10538184256,
+      "step": 40200
+    },
+    {
+      "epoch": 0.19199351276577983,
+      "grad_norm": 0.17704185843467712,
+      "learning_rate": 0.001,
+      "loss": 2.6176,
+      "num_input_tokens_seen": 10551291456,
+      "step": 40250
+    },
+    {
+      "epoch": 0.19223201402387396,
+      "grad_norm": 0.2097242772579193,
+      "learning_rate": 0.001,
+      "loss": 2.6509,
+      "num_input_tokens_seen": 10564398656,
+      "step": 40300
+    },
+    {
+      "epoch": 0.19247051528196812,
+      "grad_norm": 0.18630579113960266,
+      "learning_rate": 0.001,
+      "loss": 2.6273,
+      "num_input_tokens_seen": 10577505856,
+      "step": 40350
+    },
+    {
+      "epoch": 0.19270901654006226,
+      "grad_norm": 0.24162743985652924,
+      "learning_rate": 0.001,
+      "loss": 2.6405,
+      "num_input_tokens_seen": 10590613056,
+      "step": 40400
+    },
+    {
+      "epoch": 0.1929475177981564,
+      "grad_norm": 0.19576874375343323,
+      "learning_rate": 0.001,
+      "loss": 2.6403,
+      "num_input_tokens_seen": 10603720256,
+      "step": 40450
+    },
+    {
+      "epoch": 0.19318601905625052,
+      "grad_norm": 0.18408045172691345,
+      "learning_rate": 0.001,
+      "loss": 2.6149,
+      "num_input_tokens_seen": 10616827456,
+      "step": 40500
+    },
+    {
+      "epoch": 0.19318601905625052,
+      "eval_loss": 2.511899709701538,
+      "eval_runtime": 51.5326,
+      "eval_samples_per_second": 97.026,
+      "eval_steps_per_second": 24.257,
+      "num_input_tokens_seen": 10616827456,
+      "step": 40500
+    },
+    {
+      "epoch": 0.19342452031434465,
+      "grad_norm": 0.20845313370227814,
+      "learning_rate": 0.001,
+      "loss": 2.6242,
+      "num_input_tokens_seen": 10629934656,
+      "step": 40550
+    },
+    {
+      "epoch": 0.19366302157243878,
+      "grad_norm": 0.20603816211223602,
+      "learning_rate": 0.001,
+      "loss": 2.6305,
+      "num_input_tokens_seen": 10643041856,
+      "step": 40600
+    },
+    {
+      "epoch": 0.19390152283053294,
+      "grad_norm": 0.2180013507604599,
+      "learning_rate": 0.001,
+      "loss": 2.6271,
+      "num_input_tokens_seen": 10656149056,
+      "step": 40650
+    },
+    {
+      "epoch": 0.19414002408862707,
+      "grad_norm": 0.22217005491256714,
+      "learning_rate": 0.001,
+      "loss": 2.6407,
+      "num_input_tokens_seen": 10669256256,
+      "step": 40700
+    },
+    {
+      "epoch": 0.1943785253467212,
+      "grad_norm": 0.21379347145557404,
+      "learning_rate": 0.001,
+      "loss": 2.6209,
+      "num_input_tokens_seen": 10682363456,
+      "step": 40750
+    },
+    {
+      "epoch": 0.19461702660481534,
+      "grad_norm": 0.2011626958847046,
+      "learning_rate": 0.001,
+      "loss": 2.6471,
+      "num_input_tokens_seen": 10695470656,
+      "step": 40800
+    },
+    {
+      "epoch": 0.19485552786290947,
+      "grad_norm": 0.1946493685245514,
+      "learning_rate": 0.001,
+      "loss": 2.6267,
+      "num_input_tokens_seen": 10708577856,
+      "step": 40850
+    },
+    {
+      "epoch": 0.19509402912100363,
+      "grad_norm": 0.19157454371452332,
+      "learning_rate": 0.001,
+      "loss": 2.6362,
+      "num_input_tokens_seen": 10721685056,
+      "step": 40900
+    },
+    {
+      "epoch": 0.19533253037909776,
+      "grad_norm": 0.1978122442960739,
+      "learning_rate": 0.001,
+      "loss": 2.6448,
+      "num_input_tokens_seen": 10734792256,
+      "step": 40950
+    },
+    {
+      "epoch": 0.1955710316371919,
+      "grad_norm": 0.19996555149555206,
+      "learning_rate": 0.001,
+      "loss": 2.626,
+      "num_input_tokens_seen": 10747899456,
+      "step": 41000
+    },
+    {
+      "epoch": 0.1955710316371919,
+      "eval_loss": 2.5084941387176514,
+      "eval_runtime": 51.6987,
+      "eval_samples_per_second": 96.714,
+      "eval_steps_per_second": 24.179,
+      "num_input_tokens_seen": 10747899456,
+      "step": 41000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 10747899456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 2.8751680039786906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null