Training in progress, epoch 1, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +201 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6531ff136929ea8b6d94dfbb165131581a2ff74ef461f35b4b43c0141cb9657b
+size 2695611744

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5847d96eb1458c9681ef9789a0a9c39c7dcffa10b6a0bf06cc6d997929dc0904
+size 26261260

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:838e024e0a852529a2257dc1dc52b7019dd292f53abc55b9fa61835eb1065232
+size 15006

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bca4dbe650e04bc8012dd3f1938dfb2a637329721abd75c3bd59d28a64007b54
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,201 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 10,
+  "global_step": 129,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07808687164470474,
+      "grad_norm": 5.6974077224731445,
+      "learning_rate": 9.921875000000001e-05,
+      "loss": 2.4868,
+      "step": 10
+    },
+    {
+      "epoch": 0.07808687164470474,
+      "eval_runtime": 19.5929,
+      "eval_samples_per_second": 22.049,
+      "eval_steps_per_second": 5.512,
+      "step": 10
+    },
+    {
+      "epoch": 0.15617374328940947,
+      "grad_norm": 0.9350260496139526,
+      "learning_rate": 9.84375e-05,
+      "loss": 1.9465,
+      "step": 20
+    },
+    {
+      "epoch": 0.15617374328940947,
+      "eval_runtime": 19.5995,
+      "eval_samples_per_second": 22.041,
+      "eval_steps_per_second": 5.51,
+      "step": 20
+    },
+    {
+      "epoch": 0.2342606149341142,
+      "grad_norm": 1.3057231903076172,
+      "learning_rate": 9.765625e-05,
+      "loss": 1.9343,
+      "step": 30
+    },
+    {
+      "epoch": 0.2342606149341142,
+      "eval_runtime": 19.6332,
+      "eval_samples_per_second": 22.004,
+      "eval_steps_per_second": 5.501,
+      "step": 30
+    },
+    {
+      "epoch": 0.31234748657881894,
+      "grad_norm": 1.9099351167678833,
+      "learning_rate": 9.687500000000001e-05,
+      "loss": 1.9046,
+      "step": 40
+    },
+    {
+      "epoch": 0.31234748657881894,
+      "eval_runtime": 19.6252,
+      "eval_samples_per_second": 22.012,
+      "eval_steps_per_second": 5.503,
+      "step": 40
+    },
+    {
+      "epoch": 0.3904343582235237,
+      "grad_norm": 2.5234413146972656,
+      "learning_rate": 9.609375e-05,
+      "loss": 1.9183,
+      "step": 50
+    },
+    {
+      "epoch": 0.3904343582235237,
+      "eval_runtime": 19.625,
+      "eval_samples_per_second": 22.013,
+      "eval_steps_per_second": 5.503,
+      "step": 50
+    },
+    {
+      "epoch": 0.4685212298682284,
+      "grad_norm": 0.48715436458587646,
+      "learning_rate": 9.53125e-05,
+      "loss": 1.9369,
+      "step": 60
+    },
+    {
+      "epoch": 0.4685212298682284,
+      "eval_runtime": 19.6362,
+      "eval_samples_per_second": 22.0,
+      "eval_steps_per_second": 5.5,
+      "step": 60
+    },
+    {
+      "epoch": 0.5466081015129332,
+      "grad_norm": 1.055819034576416,
+      "learning_rate": 9.453125000000001e-05,
+      "loss": 1.9165,
+      "step": 70
+    },
+    {
+      "epoch": 0.5466081015129332,
+      "eval_runtime": 19.6382,
+      "eval_samples_per_second": 21.998,
+      "eval_steps_per_second": 5.499,
+      "step": 70
+    },
+    {
+      "epoch": 0.6246949731576379,
+      "grad_norm": 2.736585855484009,
+      "learning_rate": 9.375e-05,
+      "loss": 1.9191,
+      "step": 80
+    },
+    {
+      "epoch": 0.6246949731576379,
+      "eval_runtime": 19.6361,
+      "eval_samples_per_second": 22.0,
+      "eval_steps_per_second": 5.5,
+      "step": 80
+    },
+    {
+      "epoch": 0.7027818448023426,
+      "grad_norm": 0.8047299981117249,
+      "learning_rate": 9.296875e-05,
+      "loss": 1.8992,
+      "step": 90
+    },
+    {
+      "epoch": 0.7027818448023426,
+      "eval_runtime": 19.6635,
+      "eval_samples_per_second": 21.97,
+      "eval_steps_per_second": 5.492,
+      "step": 90
+    },
+    {
+      "epoch": 0.7808687164470474,
+      "grad_norm": 0.355388879776001,
+      "learning_rate": 9.21875e-05,
+      "loss": 1.8858,
+      "step": 100
+    },
+    {
+      "epoch": 0.7808687164470474,
+      "eval_runtime": 19.6737,
+      "eval_samples_per_second": 21.958,
+      "eval_steps_per_second": 5.49,
+      "step": 100
+    },
+    {
+      "epoch": 0.8589555880917521,
+      "grad_norm": 0.6104502081871033,
+      "learning_rate": 9.140625e-05,
+      "loss": 1.9002,
+      "step": 110
+    },
+    {
+      "epoch": 0.8589555880917521,
+      "eval_runtime": 19.6568,
+      "eval_samples_per_second": 21.977,
+      "eval_steps_per_second": 5.494,
+      "step": 110
+    },
+    {
+      "epoch": 0.9370424597364568,
+      "grad_norm": 0.8698236346244812,
+      "learning_rate": 9.062500000000001e-05,
+      "loss": 1.8947,
+      "step": 120
+    },
+    {
+      "epoch": 0.9370424597364568,
+      "eval_runtime": 19.6402,
+      "eval_samples_per_second": 21.996,
+      "eval_steps_per_second": 5.499,
+      "step": 120
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1280,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e9b8d0f5e1ad6c6f64799e6683e75c42ae3c739cfd533ef6cffca1d30e122d5
+size 5368