Training in progress, step 51000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c9956ceaa01a8262c17e82fea9ac349503f1643baa686fe83baf73d6c182cfd
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:b71ed16611cd95fe8479b9b5158a65681e32cd86fc06fd6104792dca5e0ea90c
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9a8f8b0ff9c7ab62e432b714de9517f6859e2ebcb731ff15954b08eab3fa5fd
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4d0121bc94172a095cdea5c65ddbc39cc2a2d68c3e7dea1521191e5bf66d6e4
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08d6a67f7616cccd33f77a5e076df0611e7b35eb8ba28bbeb4122e81eca5afa0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:871241677306799dd94bb012f99e77b35a49885274956fc7cf6b8c017fdd6180
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66168c288d1955c1c664cfa64be79d9023fb79ca5529a1e6b201d572885b2dfe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:38e628546b6b3793b4db9c04b0c48bd7f457b5c91e760c9c29b133754fb90815
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23850125809413644,
   "eval_steps": 500,
-  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8908,11 +8908,189 @@
       "eval_steps_per_second": 23.298,
       "num_input_tokens_seen": 13107195456,
       "step": 50000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 13107195456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -8927,7 +9105,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.5063027107076506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.24327128325601918,
   "eval_steps": 500,
+  "global_step": 51000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.298,
       "num_input_tokens_seen": 13107195456,
       "step": 50000
+    },
+    {
+      "epoch": 0.23873975935223057,
+      "grad_norm": 0.5069316029548645,
+      "learning_rate": 0.001,
+      "loss": 2.6591,
+      "num_input_tokens_seen": 13120302656,
+      "step": 50050
+    },
+    {
+      "epoch": 0.23897826061032473,
+      "grad_norm": 0.21306034922599792,
+      "learning_rate": 0.001,
+      "loss": 2.6455,
+      "num_input_tokens_seen": 13133409856,
+      "step": 50100
+    },
+    {
+      "epoch": 0.23921676186841886,
+      "grad_norm": 0.2045888900756836,
+      "learning_rate": 0.001,
+      "loss": 2.6227,
+      "num_input_tokens_seen": 13146517056,
+      "step": 50150
+    },
+    {
+      "epoch": 0.239455263126513,
+      "grad_norm": 0.2335623949766159,
+      "learning_rate": 0.001,
+      "loss": 2.6097,
+      "num_input_tokens_seen": 13159624256,
+      "step": 50200
+    },
+    {
+      "epoch": 0.23969376438460713,
+      "grad_norm": 0.19884036481380463,
+      "learning_rate": 0.001,
+      "loss": 2.6189,
+      "num_input_tokens_seen": 13172731456,
+      "step": 50250
+    },
+    {
+      "epoch": 0.23993226564270126,
+      "grad_norm": 0.21080589294433594,
+      "learning_rate": 0.001,
+      "loss": 2.6057,
+      "num_input_tokens_seen": 13185838656,
+      "step": 50300
+    },
+    {
+      "epoch": 0.2401707669007954,
+      "grad_norm": 0.21613669395446777,
+      "learning_rate": 0.001,
+      "loss": 2.6045,
+      "num_input_tokens_seen": 13198945856,
+      "step": 50350
+    },
+    {
+      "epoch": 0.24040926815888955,
+      "grad_norm": 0.2029023915529251,
+      "learning_rate": 0.001,
+      "loss": 2.6127,
+      "num_input_tokens_seen": 13212053056,
+      "step": 50400
+    },
+    {
+      "epoch": 0.24064776941698368,
+      "grad_norm": 0.2275777906179428,
+      "learning_rate": 0.001,
+      "loss": 2.6149,
+      "num_input_tokens_seen": 13225160256,
+      "step": 50450
+    },
+    {
+      "epoch": 0.2408862706750778,
+      "grad_norm": 0.3332397937774658,
+      "learning_rate": 0.001,
+      "loss": 2.6013,
+      "num_input_tokens_seen": 13238267456,
+      "step": 50500
+    },
+    {
+      "epoch": 0.2408862706750778,
+      "eval_loss": 2.5022270679473877,
+      "eval_runtime": 53.5942,
+      "eval_samples_per_second": 93.294,
+      "eval_steps_per_second": 23.323,
+      "num_input_tokens_seen": 13238267456,
+      "step": 50500
+    },
+    {
+      "epoch": 0.24112477193317194,
+      "grad_norm": 0.2197851538658142,
+      "learning_rate": 0.001,
+      "loss": 2.6326,
+      "num_input_tokens_seen": 13251374656,
+      "step": 50550
+    },
+    {
+      "epoch": 0.24136327319126608,
+      "grad_norm": 0.2201780080795288,
+      "learning_rate": 0.001,
+      "loss": 2.6265,
+      "num_input_tokens_seen": 13264481856,
+      "step": 50600
+    },
+    {
+      "epoch": 0.2416017744493602,
+      "grad_norm": 0.2196362316608429,
+      "learning_rate": 0.001,
+      "loss": 2.6272,
+      "num_input_tokens_seen": 13277589056,
+      "step": 50650
+    },
+    {
+      "epoch": 0.24184027570745437,
+      "grad_norm": 0.2234160453081131,
+      "learning_rate": 0.001,
+      "loss": 2.6178,
+      "num_input_tokens_seen": 13290696256,
+      "step": 50700
+    },
+    {
+      "epoch": 0.2420787769655485,
+      "grad_norm": 0.24019016325473785,
+      "learning_rate": 0.001,
+      "loss": 2.6142,
+      "num_input_tokens_seen": 13303803456,
+      "step": 50750
+    },
+    {
+      "epoch": 0.24231727822364263,
+      "grad_norm": 0.21481236815452576,
+      "learning_rate": 0.001,
+      "loss": 2.6149,
+      "num_input_tokens_seen": 13316910656,
+      "step": 50800
+    },
+    {
+      "epoch": 0.24255577948173676,
+      "grad_norm": 0.20477178692817688,
+      "learning_rate": 0.001,
+      "loss": 2.5977,
+      "num_input_tokens_seen": 13330017856,
+      "step": 50850
+    },
+    {
+      "epoch": 0.2427942807398309,
+      "grad_norm": 0.20742499828338623,
+      "learning_rate": 0.001,
+      "loss": 2.6153,
+      "num_input_tokens_seen": 13343125056,
+      "step": 50900
+    },
+    {
+      "epoch": 0.24303278199792505,
+      "grad_norm": 0.21933062374591827,
+      "learning_rate": 0.001,
+      "loss": 2.5966,
+      "num_input_tokens_seen": 13356232256,
+      "step": 50950
+    },
+    {
+      "epoch": 0.24327128325601918,
+      "grad_norm": 0.3282420337200165,
+      "learning_rate": 0.001,
+      "loss": 2.6063,
+      "num_input_tokens_seen": 13369339456,
+      "step": 51000
+    },
+    {
+      "epoch": 0.24327128325601918,
+      "eval_loss": 2.4981296062469482,
+      "eval_runtime": 53.5536,
+      "eval_samples_per_second": 93.364,
+      "eval_steps_per_second": 23.341,
+      "num_input_tokens_seen": 13369339456,
+      "step": 51000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 13369339456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.5764287892330906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null