Training in progress, step 56000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5142916764b6385c48d096b2a7f336531a047dd5a1c0cd7b8aa09a2fdd35007
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:75a54732bc39e58afccb21a46f57190dd49c2ae00c7fd73b4d8434827934d2aa
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c871f297ec758cbe8e1e4a52c756dfd036112baba8fbed3f20c9699d23ba9b0
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:da1643d7c66b6de7210d626427e81524686db0e0650499f03aeaee61e640ca95
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a5eacfa99e53a8a1de73851121ef39f03223e9cc67398ac06a0e84e6dbf4ae3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f1d7953b9adf97d81c8d5df7c90f2cd3786e196584c751d3c25ee459604bb2b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaffe7b6e7bde964bb6e6784b39ca6209cca3589a90aff9795b02fa93025464e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:56dc1edb3d2e4264095d54347eab2555bc17fb9d10875074bfbbaaa6e5eeeb69
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2623513839035501,
   "eval_steps": 500,
-  "global_step": 55000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9798,11 +9798,189 @@
       "eval_steps_per_second": 23.444,
       "num_input_tokens_seen": 14417915456,
       "step": 55000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 14417915456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9817,7 +9995,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.8569331033348506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2671214090654328,
   "eval_steps": 500,
+  "global_step": 56000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.444,
       "num_input_tokens_seen": 14417915456,
       "step": 55000
+    },
+    {
+      "epoch": 0.2625898851616442,
+      "grad_norm": 0.22046101093292236,
+      "learning_rate": 0.001,
+      "loss": 2.6077,
+      "num_input_tokens_seen": 14431022656,
+      "step": 55050
+    },
+    {
+      "epoch": 0.2628283864197384,
+      "grad_norm": 0.4682837724685669,
+      "learning_rate": 0.001,
+      "loss": 2.6065,
+      "num_input_tokens_seen": 14444129856,
+      "step": 55100
+    },
+    {
+      "epoch": 0.2630668876778325,
+      "grad_norm": 0.21442484855651855,
+      "learning_rate": 0.001,
+      "loss": 2.6079,
+      "num_input_tokens_seen": 14457237056,
+      "step": 55150
+    },
+    {
+      "epoch": 0.26330538893592664,
+      "grad_norm": 0.2513403296470642,
+      "learning_rate": 0.001,
+      "loss": 2.6037,
+      "num_input_tokens_seen": 14470344256,
+      "step": 55200
+    },
+    {
+      "epoch": 0.26354389019402075,
+      "grad_norm": 0.21526487171649933,
+      "learning_rate": 0.001,
+      "loss": 2.6049,
+      "num_input_tokens_seen": 14483451456,
+      "step": 55250
+    },
+    {
+      "epoch": 0.2637823914521149,
+      "grad_norm": 0.22567112743854523,
+      "learning_rate": 0.001,
+      "loss": 2.5953,
+      "num_input_tokens_seen": 14496558656,
+      "step": 55300
+    },
+    {
+      "epoch": 0.26402089271020907,
+      "grad_norm": 0.20226064324378967,
+      "learning_rate": 0.001,
+      "loss": 2.609,
+      "num_input_tokens_seen": 14509665856,
+      "step": 55350
+    },
+    {
+      "epoch": 0.26425939396830317,
+      "grad_norm": 0.31736019253730774,
+      "learning_rate": 0.001,
+      "loss": 2.6174,
+      "num_input_tokens_seen": 14522773056,
+      "step": 55400
+    },
+    {
+      "epoch": 0.26449789522639733,
+      "grad_norm": 0.2573414146900177,
+      "learning_rate": 0.001,
+      "loss": 2.612,
+      "num_input_tokens_seen": 14535880256,
+      "step": 55450
+    },
+    {
+      "epoch": 0.26473639648449143,
+      "grad_norm": 0.278160959482193,
+      "learning_rate": 0.001,
+      "loss": 2.6713,
+      "num_input_tokens_seen": 14548987456,
+      "step": 55500
+    },
+    {
+      "epoch": 0.26473639648449143,
+      "eval_loss": 2.5104730129241943,
+      "eval_runtime": 54.2403,
+      "eval_samples_per_second": 92.182,
+      "eval_steps_per_second": 23.046,
+      "num_input_tokens_seen": 14548987456,
+      "step": 55500
+    },
+    {
+      "epoch": 0.2649748977425856,
+      "grad_norm": 0.25843819975852966,
+      "learning_rate": 0.001,
+      "loss": 2.6223,
+      "num_input_tokens_seen": 14562094656,
+      "step": 55550
+    },
+    {
+      "epoch": 0.26521339900067975,
+      "grad_norm": 0.42813193798065186,
+      "learning_rate": 0.001,
+      "loss": 2.6114,
+      "num_input_tokens_seen": 14575201856,
+      "step": 55600
+    },
+    {
+      "epoch": 0.26545190025877385,
+      "grad_norm": 0.23324181139469147,
+      "learning_rate": 0.001,
+      "loss": 2.6149,
+      "num_input_tokens_seen": 14588309056,
+      "step": 55650
+    },
+    {
+      "epoch": 0.265690401516868,
+      "grad_norm": 0.2795487940311432,
+      "learning_rate": 0.001,
+      "loss": 2.6067,
+      "num_input_tokens_seen": 14601416256,
+      "step": 55700
+    },
+    {
+      "epoch": 0.2659289027749621,
+      "grad_norm": 0.6856834888458252,
+      "learning_rate": 0.001,
+      "loss": 2.6135,
+      "num_input_tokens_seen": 14614523456,
+      "step": 55750
+    },
+    {
+      "epoch": 0.2661674040330563,
+      "grad_norm": 0.348906934261322,
+      "learning_rate": 0.001,
+      "loss": 2.6384,
+      "num_input_tokens_seen": 14627630656,
+      "step": 55800
+    },
+    {
+      "epoch": 0.26640590529115044,
+      "grad_norm": 0.2510247528553009,
+      "learning_rate": 0.001,
+      "loss": 2.6224,
+      "num_input_tokens_seen": 14640737856,
+      "step": 55850
+    },
+    {
+      "epoch": 0.26664440654924454,
+      "grad_norm": 0.34429189562797546,
+      "learning_rate": 0.001,
+      "loss": 2.6139,
+      "num_input_tokens_seen": 14653845056,
+      "step": 55900
+    },
+    {
+      "epoch": 0.2668829078073387,
+      "grad_norm": 0.25697243213653564,
+      "learning_rate": 0.001,
+      "loss": 2.6143,
+      "num_input_tokens_seen": 14666952256,
+      "step": 55950
+    },
+    {
+      "epoch": 0.2671214090654328,
+      "grad_norm": 0.2812611758708954,
+      "learning_rate": 0.001,
+      "loss": 2.6172,
+      "num_input_tokens_seen": 14680059456,
+      "step": 56000
+    },
+    {
+      "epoch": 0.2671214090654328,
+      "eval_loss": 2.492490291595459,
+      "eval_runtime": 53.3814,
+      "eval_samples_per_second": 93.666,
+      "eval_steps_per_second": 23.416,
+      "num_input_tokens_seen": 14680059456,
+      "step": 56000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 14680059456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.9270591818602906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null