Training in progress, step 43000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b793c31018c10b83151888a761e5fecf881d8cfcf10fe82ad108fb7a30b9cb35
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ef4495c71186600e4deb9626160177c8fff186d1b83ba3e101354820ff0b557
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c753061fb3a47402b7408e67c6f3761fca04d13fb94ac46b9adfdfc16d0184d4
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4fe7eac54f364f5be220dedbdbb5b62a67232200bda7c79c78a104963651e13
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9aaf95bbf390f32ec661a712de605a0c816388cfa815f81914058fe6bdabdcd9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:37df8b5d43f22ad1aaa4d7dfd1f99c1668bea9e213ed7e601e62de46919c3f7c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a94a7467707318fda39e274661a096a9de559314c283be40d75a871d8d1d3d18
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c21038d5c74dc9feef98b9cc841f29561ac202ab70974b8a5e9d4e813a417597
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2003410567990746,
   "eval_steps": 500,
-  "global_step": 42000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7484,11 +7484,189 @@
       "eval_steps_per_second": 24.246,
       "num_input_tokens_seen": 11010043456,
       "step": 42000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 11010043456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -7503,7 +7681,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.9452940825041306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.20511108196095734,
   "eval_steps": 500,
+  "global_step": 43000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 24.246,
       "num_input_tokens_seen": 11010043456,
       "step": 42000
+    },
+    {
+      "epoch": 0.20057955805716876,
+      "grad_norm": 0.17952106893062592,
+      "learning_rate": 0.001,
+      "loss": 2.6165,
+      "num_input_tokens_seen": 11023150656,
+      "step": 42050
+    },
+    {
+      "epoch": 0.2008180593152629,
+      "grad_norm": 0.20292694866657257,
+      "learning_rate": 0.001,
+      "loss": 2.6357,
+      "num_input_tokens_seen": 11036257856,
+      "step": 42100
+    },
+    {
+      "epoch": 0.20105656057335702,
+      "grad_norm": 0.19588933885097504,
+      "learning_rate": 0.001,
+      "loss": 2.6102,
+      "num_input_tokens_seen": 11049365056,
+      "step": 42150
+    },
+    {
+      "epoch": 0.20129506183145116,
+      "grad_norm": 0.1982785314321518,
+      "learning_rate": 0.001,
+      "loss": 2.6019,
+      "num_input_tokens_seen": 11062472256,
+      "step": 42200
+    },
+    {
+      "epoch": 0.2015335630895453,
+      "grad_norm": 0.18049876391887665,
+      "learning_rate": 0.001,
+      "loss": 2.6081,
+      "num_input_tokens_seen": 11075579456,
+      "step": 42250
+    },
+    {
+      "epoch": 0.20177206434763945,
+      "grad_norm": 0.2069908082485199,
+      "learning_rate": 0.001,
+      "loss": 2.6173,
+      "num_input_tokens_seen": 11088686656,
+      "step": 42300
+    },
+    {
+      "epoch": 0.20201056560573358,
+      "grad_norm": 0.2415982335805893,
+      "learning_rate": 0.001,
+      "loss": 2.6173,
+      "num_input_tokens_seen": 11101793856,
+      "step": 42350
+    },
+    {
+      "epoch": 0.2022490668638277,
+      "grad_norm": 0.20267252624034882,
+      "learning_rate": 0.001,
+      "loss": 2.6299,
+      "num_input_tokens_seen": 11114901056,
+      "step": 42400
+    },
+    {
+      "epoch": 0.20248756812192184,
+      "grad_norm": 0.20683065056800842,
+      "learning_rate": 0.001,
+      "loss": 2.6282,
+      "num_input_tokens_seen": 11128008256,
+      "step": 42450
+    },
+    {
+      "epoch": 0.20272606938001597,
+      "grad_norm": 0.22137881815433502,
+      "learning_rate": 0.001,
+      "loss": 2.6271,
+      "num_input_tokens_seen": 11141115456,
+      "step": 42500
+    },
+    {
+      "epoch": 0.20272606938001597,
+      "eval_loss": 2.5125572681427,
+      "eval_runtime": 51.794,
+      "eval_samples_per_second": 96.536,
+      "eval_steps_per_second": 24.134,
+      "num_input_tokens_seen": 11141115456,
+      "step": 42500
+    },
+    {
+      "epoch": 0.2029645706381101,
+      "grad_norm": 0.20610037446022034,
+      "learning_rate": 0.001,
+      "loss": 2.6255,
+      "num_input_tokens_seen": 11154222656,
+      "step": 42550
+    },
+    {
+      "epoch": 0.20320307189620426,
+      "grad_norm": 0.21218810975551605,
+      "learning_rate": 0.001,
+      "loss": 2.6149,
+      "num_input_tokens_seen": 11167329856,
+      "step": 42600
+    },
+    {
+      "epoch": 0.2034415731542984,
+      "grad_norm": 0.19685466587543488,
+      "learning_rate": 0.001,
+      "loss": 2.6208,
+      "num_input_tokens_seen": 11180437056,
+      "step": 42650
+    },
+    {
+      "epoch": 0.20368007441239253,
+      "grad_norm": 0.20507460832595825,
+      "learning_rate": 0.001,
+      "loss": 2.6227,
+      "num_input_tokens_seen": 11193544256,
+      "step": 42700
+    },
+    {
+      "epoch": 0.20391857567048666,
+      "grad_norm": 0.20014505088329315,
+      "learning_rate": 0.001,
+      "loss": 2.6238,
+      "num_input_tokens_seen": 11206651456,
+      "step": 42750
+    },
+    {
+      "epoch": 0.2041570769285808,
+      "grad_norm": 0.1907282918691635,
+      "learning_rate": 0.001,
+      "loss": 2.6157,
+      "num_input_tokens_seen": 11219758656,
+      "step": 42800
+    },
+    {
+      "epoch": 0.20439557818667495,
+      "grad_norm": 0.18553833663463593,
+      "learning_rate": 0.001,
+      "loss": 2.6123,
+      "num_input_tokens_seen": 11232865856,
+      "step": 42850
+    },
+    {
+      "epoch": 0.20463407944476908,
+      "grad_norm": 0.20382866263389587,
+      "learning_rate": 0.001,
+      "loss": 2.6163,
+      "num_input_tokens_seen": 11245973056,
+      "step": 42900
+    },
+    {
+      "epoch": 0.2048725807028632,
+      "grad_norm": 0.18923860788345337,
+      "learning_rate": 0.001,
+      "loss": 2.5981,
+      "num_input_tokens_seen": 11259080256,
+      "step": 42950
+    },
+    {
+      "epoch": 0.20511108196095734,
+      "grad_norm": 0.19230851531028748,
+      "learning_rate": 0.001,
+      "loss": 2.618,
+      "num_input_tokens_seen": 11272187456,
+      "step": 43000
+    },
+    {
+      "epoch": 0.20511108196095734,
+      "eval_loss": 2.5047237873077393,
+      "eval_runtime": 51.2959,
+      "eval_samples_per_second": 97.474,
+      "eval_steps_per_second": 24.368,
+      "num_input_tokens_seen": 11272187456,
+      "step": 43000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 11272187456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.0154201610295706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null