Training in progress, step 14000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b7373ac11401636769557d7c41bd131eaa1ff29f1ac0bd8ece04d73a85d45b3
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:67b3b35db2c19f35fe025798e859f89450cb9547846af5202deac481cd7c5f41
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:600ff1a38a47f869ae5492791562a9ea82c55e0368079b5f56587277995a7652
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:6db4391958de2af60b776a710ac499c24b4612827a08c4c3d9596c220966f1b3
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa45bf7feccf57a31c0d1db361074f3cc8988037f2a20ad89dd89a197a5582fe
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:703a2c772f49bb55a4740bd10b6f1adb07416bc938539fda0388f46713083aaa
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:314b286b574cdec8b8035ea2a5d06f7aaf8f954a409646e55b7a4304b27476aa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3982f421b6a562fab23a5b9409962e3a2e613661137ac332f25f7e679b9669f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2855585621577244,
   "eval_steps": 500,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2322,11 +2322,189 @@
       "eval_steps_per_second": 18.93,
       "num_input_tokens_seen": 13631488000,
       "step": 13000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 13631488000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -2341,7 +2519,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.763232307544064e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3075246054006263,
   "eval_steps": 500,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.93,
       "num_input_tokens_seen": 13631488000,
       "step": 13000
+    },
+    {
+      "epoch": 0.28665686431986953,
+      "grad_norm": 0.13635839521884918,
+      "learning_rate": 0.001,
+      "loss": 2.7705,
+      "num_input_tokens_seen": 13683916800,
+      "step": 13050
+    },
+    {
+      "epoch": 0.2877551664820146,
+      "grad_norm": 0.1449163854122162,
+      "learning_rate": 0.001,
+      "loss": 2.775,
+      "num_input_tokens_seen": 13736345600,
+      "step": 13100
+    },
+    {
+      "epoch": 0.2888534686441597,
+      "grad_norm": 0.1385536640882492,
+      "learning_rate": 0.001,
+      "loss": 2.7705,
+      "num_input_tokens_seen": 13788774400,
+      "step": 13150
+    },
+    {
+      "epoch": 0.2899517708063048,
+      "grad_norm": 0.14647842943668365,
+      "learning_rate": 0.001,
+      "loss": 2.7709,
+      "num_input_tokens_seen": 13841203200,
+      "step": 13200
+    },
+    {
+      "epoch": 0.2910500729684499,
+      "grad_norm": 0.14193060994148254,
+      "learning_rate": 0.001,
+      "loss": 2.7753,
+      "num_input_tokens_seen": 13893632000,
+      "step": 13250
+    },
+    {
+      "epoch": 0.292148375130595,
+      "grad_norm": 0.15065765380859375,
+      "learning_rate": 0.001,
+      "loss": 2.7725,
+      "num_input_tokens_seen": 13946060800,
+      "step": 13300
+    },
+    {
+      "epoch": 0.29324667729274007,
+      "grad_norm": 0.1726570725440979,
+      "learning_rate": 0.001,
+      "loss": 2.7677,
+      "num_input_tokens_seen": 13998489600,
+      "step": 13350
+    },
+    {
+      "epoch": 0.2943449794548852,
+      "grad_norm": 0.13577735424041748,
+      "learning_rate": 0.001,
+      "loss": 2.7661,
+      "num_input_tokens_seen": 14050918400,
+      "step": 13400
+    },
+    {
+      "epoch": 0.29544328161703026,
+      "grad_norm": 0.1286347657442093,
+      "learning_rate": 0.001,
+      "loss": 2.7642,
+      "num_input_tokens_seen": 14103347200,
+      "step": 13450
+    },
+    {
+      "epoch": 0.2965415837791754,
+      "grad_norm": 0.12374001741409302,
+      "learning_rate": 0.001,
+      "loss": 2.7651,
+      "num_input_tokens_seen": 14155776000,
+      "step": 13500
+    },
+    {
+      "epoch": 0.2965415837791754,
+      "eval_loss": 2.6711983680725098,
+      "eval_runtime": 65.6737,
+      "eval_samples_per_second": 76.134,
+      "eval_steps_per_second": 19.033,
+      "num_input_tokens_seen": 14155776000,
+      "step": 13500
+    },
+    {
+      "epoch": 0.29763988594132046,
+      "grad_norm": 0.1733749508857727,
+      "learning_rate": 0.001,
+      "loss": 2.765,
+      "num_input_tokens_seen": 14208204800,
+      "step": 13550
+    },
+    {
+      "epoch": 0.29873818810346553,
+      "grad_norm": 0.1459003984928131,
+      "learning_rate": 0.001,
+      "loss": 2.7683,
+      "num_input_tokens_seen": 14260633600,
+      "step": 13600
+    },
+    {
+      "epoch": 0.29983649026561066,
+      "grad_norm": 0.1527784913778305,
+      "learning_rate": 0.001,
+      "loss": 2.7678,
+      "num_input_tokens_seen": 14313062400,
+      "step": 13650
+    },
+    {
+      "epoch": 0.3009347924277557,
+      "grad_norm": 0.1344996690750122,
+      "learning_rate": 0.001,
+      "loss": 2.7613,
+      "num_input_tokens_seen": 14365491200,
+      "step": 13700
+    },
+    {
+      "epoch": 0.30203309458990085,
+      "grad_norm": 0.1291748583316803,
+      "learning_rate": 0.001,
+      "loss": 2.7682,
+      "num_input_tokens_seen": 14417920000,
+      "step": 13750
+    },
+    {
+      "epoch": 0.3031313967520459,
+      "grad_norm": 0.1352360099554062,
+      "learning_rate": 0.001,
+      "loss": 2.764,
+      "num_input_tokens_seen": 14470348800,
+      "step": 13800
+    },
+    {
+      "epoch": 0.30422969891419105,
+      "grad_norm": 0.13686618208885193,
+      "learning_rate": 0.001,
+      "loss": 2.7638,
+      "num_input_tokens_seen": 14522777600,
+      "step": 13850
+    },
+    {
+      "epoch": 0.3053280010763361,
+      "grad_norm": 0.15377116203308105,
+      "learning_rate": 0.001,
+      "loss": 2.7639,
+      "num_input_tokens_seen": 14575206400,
+      "step": 13900
+    },
+    {
+      "epoch": 0.3064263032384812,
+      "grad_norm": 0.13904446363449097,
+      "learning_rate": 0.001,
+      "loss": 2.7666,
+      "num_input_tokens_seen": 14627635200,
+      "step": 13950
+    },
+    {
+      "epoch": 0.3075246054006263,
+      "grad_norm": 0.12402611970901489,
+      "learning_rate": 0.001,
+      "loss": 2.759,
+      "num_input_tokens_seen": 14680064000,
+      "step": 14000
+    },
+    {
+      "epoch": 0.3075246054006263,
+      "eval_loss": 2.6654388904571533,
+      "eval_runtime": 65.2775,
+      "eval_samples_per_second": 76.596,
+      "eval_steps_per_second": 19.149,
+      "num_input_tokens_seen": 14680064000,
+      "step": 14000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 14680064000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 8.360404023508992e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null