Training in progress, epoch 1, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +201 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87dd5c70c6c914c585594e1d4cbf58a6da0b18b66f98644c3bbc7875d550bcf7
+size 2695611744

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:903051cae919b64f28e65c5ac74026e5575a028832b3e87c6833bbc9cfeefb6e
+size 26261260

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:838e024e0a852529a2257dc1dc52b7019dd292f53abc55b9fa61835eb1065232
+size 15006

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bca4dbe650e04bc8012dd3f1938dfb2a637329721abd75c3bd59d28a64007b54
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,201 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 10,
+  "global_step": 129,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07808687164470474,
+      "grad_norm": 498170.15625,
+      "learning_rate": 9.921875000000001e-05,
+      "loss": 24141.5234,
+      "step": 10
+    },
+    {
+      "epoch": 0.07808687164470474,
+      "eval_runtime": 19.5232,
+      "eval_samples_per_second": 22.128,
+      "eval_steps_per_second": 5.532,
+      "step": 10
+    },
+    {
+      "epoch": 0.15617374328940947,
+      "grad_norm": 281270.96875,
+      "learning_rate": 9.84375e-05,
+      "loss": 11375.4516,
+      "step": 20
+    },
+    {
+      "epoch": 0.15617374328940947,
+      "eval_runtime": 19.5682,
+      "eval_samples_per_second": 22.077,
+      "eval_steps_per_second": 5.519,
+      "step": 20
+    },
+    {
+      "epoch": 0.2342606149341142,
+      "grad_norm": 567554.3125,
+      "learning_rate": 9.765625e-05,
+      "loss": 8222.268,
+      "step": 30
+    },
+    {
+      "epoch": 0.2342606149341142,
+      "eval_runtime": 19.5935,
+      "eval_samples_per_second": 22.048,
+      "eval_steps_per_second": 5.512,
+      "step": 30
+    },
+    {
+      "epoch": 0.31234748657881894,
+      "grad_norm": 256184.6875,
+      "learning_rate": 9.687500000000001e-05,
+      "loss": 6837.6664,
+      "step": 40
+    },
+    {
+      "epoch": 0.31234748657881894,
+      "eval_runtime": 19.5946,
+      "eval_samples_per_second": 22.047,
+      "eval_steps_per_second": 5.512,
+      "step": 40
+    },
+    {
+      "epoch": 0.3904343582235237,
+      "grad_norm": 365265.625,
+      "learning_rate": 9.609375e-05,
+      "loss": 5512.5262,
+      "step": 50
+    },
+    {
+      "epoch": 0.3904343582235237,
+      "eval_runtime": 19.603,
+      "eval_samples_per_second": 22.037,
+      "eval_steps_per_second": 5.509,
+      "step": 50
+    },
+    {
+      "epoch": 0.4685212298682284,
+      "grad_norm": 318942.46875,
+      "learning_rate": 9.53125e-05,
+      "loss": 4918.2848,
+      "step": 60
+    },
+    {
+      "epoch": 0.4685212298682284,
+      "eval_runtime": 19.625,
+      "eval_samples_per_second": 22.013,
+      "eval_steps_per_second": 5.503,
+      "step": 60
+    },
+    {
+      "epoch": 0.5466081015129332,
+      "grad_norm": 508354.03125,
+      "learning_rate": 9.453125000000001e-05,
+      "loss": 4611.2082,
+      "step": 70
+    },
+    {
+      "epoch": 0.5466081015129332,
+      "eval_runtime": 19.629,
+      "eval_samples_per_second": 22.008,
+      "eval_steps_per_second": 5.502,
+      "step": 70
+    },
+    {
+      "epoch": 0.6246949731576379,
+      "grad_norm": 372461.53125,
+      "learning_rate": 9.375e-05,
+      "loss": 4174.407,
+      "step": 80
+    },
+    {
+      "epoch": 0.6246949731576379,
+      "eval_runtime": 19.625,
+      "eval_samples_per_second": 22.013,
+      "eval_steps_per_second": 5.503,
+      "step": 80
+    },
+    {
+      "epoch": 0.7027818448023426,
+      "grad_norm": 196101.109375,
+      "learning_rate": 9.296875e-05,
+      "loss": 3694.2605,
+      "step": 90
+    },
+    {
+      "epoch": 0.7027818448023426,
+      "eval_runtime": 19.6048,
+      "eval_samples_per_second": 22.035,
+      "eval_steps_per_second": 5.509,
+      "step": 90
+    },
+    {
+      "epoch": 0.7808687164470474,
+      "grad_norm": 324380.46875,
+      "learning_rate": 9.21875e-05,
+      "loss": 3561.6039,
+      "step": 100
+    },
+    {
+      "epoch": 0.7808687164470474,
+      "eval_runtime": 19.6105,
+      "eval_samples_per_second": 22.029,
+      "eval_steps_per_second": 5.507,
+      "step": 100
+    },
+    {
+      "epoch": 0.8589555880917521,
+      "grad_norm": 253753.125,
+      "learning_rate": 9.140625e-05,
+      "loss": 3622.6652,
+      "step": 110
+    },
+    {
+      "epoch": 0.8589555880917521,
+      "eval_runtime": 19.6179,
+      "eval_samples_per_second": 22.021,
+      "eval_steps_per_second": 5.505,
+      "step": 110
+    },
+    {
+      "epoch": 0.9370424597364568,
+      "grad_norm": 471811.90625,
+      "learning_rate": 9.062500000000001e-05,
+      "loss": 3647.8051,
+      "step": 120
+    },
+    {
+      "epoch": 0.9370424597364568,
+      "eval_runtime": 19.628,
+      "eval_samples_per_second": 22.009,
+      "eval_steps_per_second": 5.502,
+      "step": 120
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38c6a63ec4c4930b895b9b2c38482c3f00670f918edf566cda7d6c982c1fa789
+size 5368