Training in progress, step 44000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ef4495c71186600e4deb9626160177c8fff186d1b83ba3e101354820ff0b557
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:9605858ca8b64eb89cb8c33fd56e7ec671551b1e5005f2598e074ca5b397cafd
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4fe7eac54f364f5be220dedbdbb5b62a67232200bda7c79c78a104963651e13
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2584fadfe92de84830b6f68a11ff9f4508f42d733151a8e29faa8885164fa9e
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37df8b5d43f22ad1aaa4d7dfd1f99c1668bea9e213ed7e601e62de46919c3f7c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c93fe38009a049e639e4ec9c47956d4822c559f5ecfd6d8454c217a91259ec7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c21038d5c74dc9feef98b9cc841f29561ac202ab70974b8a5e9d4e813a417597
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5356afb30d3aa5783dfb45e83d3ec8fbfdbc01397770efc134aa996a2dcb7311
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.20511108196095734,
   "eval_steps": 500,
-  "global_step": 43000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7662,11 +7662,189 @@
       "eval_steps_per_second": 24.368,
       "num_input_tokens_seen": 11272187456,
       "step": 43000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 11272187456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -7681,7 +7859,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.0154201610295706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.20988110712284008,
   "eval_steps": 500,
+  "global_step": 44000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 24.368,
       "num_input_tokens_seen": 11272187456,
       "step": 43000
+    },
+    {
+      "epoch": 0.20534958321905147,
+      "grad_norm": 0.22746357321739197,
+      "learning_rate": 0.001,
+      "loss": 2.6281,
+      "num_input_tokens_seen": 11285294656,
+      "step": 43050
+    },
+    {
+      "epoch": 0.2055880844771456,
+      "grad_norm": 0.21107150614261627,
+      "learning_rate": 0.001,
+      "loss": 2.6154,
+      "num_input_tokens_seen": 11298401856,
+      "step": 43100
+    },
+    {
+      "epoch": 0.20582658573523976,
+      "grad_norm": 0.18025045096874237,
+      "learning_rate": 0.001,
+      "loss": 2.6141,
+      "num_input_tokens_seen": 11311509056,
+      "step": 43150
+    },
+    {
+      "epoch": 0.2060650869933339,
+      "grad_norm": 0.2009642869234085,
+      "learning_rate": 0.001,
+      "loss": 2.6133,
+      "num_input_tokens_seen": 11324616256,
+      "step": 43200
+    },
+    {
+      "epoch": 0.20630358825142803,
+      "grad_norm": 0.1872788518667221,
+      "learning_rate": 0.001,
+      "loss": 2.6197,
+      "num_input_tokens_seen": 11337723456,
+      "step": 43250
+    },
+    {
+      "epoch": 0.20654208950952216,
+      "grad_norm": 0.216310054063797,
+      "learning_rate": 0.001,
+      "loss": 2.6353,
+      "num_input_tokens_seen": 11350830656,
+      "step": 43300
+    },
+    {
+      "epoch": 0.2067805907676163,
+      "grad_norm": 0.2705513536930084,
+      "learning_rate": 0.001,
+      "loss": 2.6333,
+      "num_input_tokens_seen": 11363937856,
+      "step": 43350
+    },
+    {
+      "epoch": 0.20701909202571045,
+      "grad_norm": 0.3040550649166107,
+      "learning_rate": 0.001,
+      "loss": 2.6094,
+      "num_input_tokens_seen": 11377045056,
+      "step": 43400
+    },
+    {
+      "epoch": 0.20725759328380458,
+      "grad_norm": 0.2075599879026413,
+      "learning_rate": 0.001,
+      "loss": 2.6225,
+      "num_input_tokens_seen": 11390152256,
+      "step": 43450
+    },
+    {
+      "epoch": 0.2074960945418987,
+      "grad_norm": 0.22293590009212494,
+      "learning_rate": 0.001,
+      "loss": 2.6271,
+      "num_input_tokens_seen": 11403259456,
+      "step": 43500
+    },
+    {
+      "epoch": 0.2074960945418987,
+      "eval_loss": 2.5097975730895996,
+      "eval_runtime": 51.7037,
+      "eval_samples_per_second": 96.705,
+      "eval_steps_per_second": 24.176,
+      "num_input_tokens_seen": 11403259456,
+      "step": 43500
+    },
+    {
+      "epoch": 0.20773459579999284,
+      "grad_norm": 0.21221335232257843,
+      "learning_rate": 0.001,
+      "loss": 2.618,
+      "num_input_tokens_seen": 11416366656,
+      "step": 43550
+    },
+    {
+      "epoch": 0.20797309705808698,
+      "grad_norm": 0.19894948601722717,
+      "learning_rate": 0.001,
+      "loss": 2.6305,
+      "num_input_tokens_seen": 11429473856,
+      "step": 43600
+    },
+    {
+      "epoch": 0.2082115983161811,
+      "grad_norm": 0.29371336102485657,
+      "learning_rate": 0.001,
+      "loss": 2.6211,
+      "num_input_tokens_seen": 11442581056,
+      "step": 43650
+    },
+    {
+      "epoch": 0.20845009957427527,
+      "grad_norm": 0.19441936910152435,
+      "learning_rate": 0.001,
+      "loss": 2.6355,
+      "num_input_tokens_seen": 11455688256,
+      "step": 43700
+    },
+    {
+      "epoch": 0.2086886008323694,
+      "grad_norm": 0.19868114590644836,
+      "learning_rate": 0.001,
+      "loss": 2.6206,
+      "num_input_tokens_seen": 11468795456,
+      "step": 43750
+    },
+    {
+      "epoch": 0.20892710209046353,
+      "grad_norm": 0.19971340894699097,
+      "learning_rate": 0.001,
+      "loss": 2.6124,
+      "num_input_tokens_seen": 11481902656,
+      "step": 43800
+    },
+    {
+      "epoch": 0.20916560334855766,
+      "grad_norm": 0.22261051833629608,
+      "learning_rate": 0.001,
+      "loss": 2.623,
+      "num_input_tokens_seen": 11495009856,
+      "step": 43850
+    },
+    {
+      "epoch": 0.2094041046066518,
+      "grad_norm": 0.20982281863689423,
+      "learning_rate": 0.001,
+      "loss": 2.6182,
+      "num_input_tokens_seen": 11508117056,
+      "step": 43900
+    },
+    {
+      "epoch": 0.20964260586474592,
+      "grad_norm": 0.2216535359621048,
+      "learning_rate": 0.001,
+      "loss": 2.6086,
+      "num_input_tokens_seen": 11521224256,
+      "step": 43950
+    },
+    {
+      "epoch": 0.20988110712284008,
+      "grad_norm": 0.19298988580703735,
+      "learning_rate": 0.001,
+      "loss": 2.6364,
+      "num_input_tokens_seen": 11534331456,
+      "step": 44000
+    },
+    {
+      "epoch": 0.20988110712284008,
+      "eval_loss": 2.5009121894836426,
+      "eval_runtime": 51.4356,
+      "eval_samples_per_second": 97.209,
+      "eval_steps_per_second": 24.302,
+      "num_input_tokens_seen": 11534331456,
+      "step": 44000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 11534331456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.0855462395550106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null