Training in progress, step 300, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +3 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scaler.pt +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +251 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d40c404ef2c6591a63d62d374d2ae723dbb012f99f314f1f0721032e50b86c4
+size 2558403928

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ffd4ecbcd1f5cdd5bd52f54030b72efa2c358b8e75c6c4731b1e15ea43bd19c
+size 1313044361

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fb5c3c2c6a04f8bf56e98b3d5a045f8c1ab465d43652320e01114dda9b0cb0d
+size 14645

last-checkpoint/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30af866df24edce708e1eb20700878b402fa05707fa9bc5f332496baf440dbbb
+size 1383

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e2eb54ad71aa36e8a3c519325614d3113e01de2bc05cb8cce62c849b7fd068c
+size 1465

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,251 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.24,
+  "eval_steps": 500,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0008,
+      "grad_norm": 10.566986083984375,
+      "learning_rate": 0.0,
+      "loss": 14.1421,
+      "step": 1
+    },
+    {
+      "epoch": 0.008,
+      "grad_norm": 12.296218872070312,
+      "learning_rate": 1.730769230769231e-05,
+      "loss": 13.35,
+      "step": 10
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 6.457699775695801,
+      "learning_rate": 3.653846153846154e-05,
+      "loss": 11.8957,
+      "step": 20
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 6.461245059967041,
+      "learning_rate": 5.576923076923077e-05,
+      "loss": 11.2465,
+      "step": 30
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 6.351202011108398,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.7197,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 5.675596714019775,
+      "learning_rate": 9.423076923076924e-05,
+      "loss": 10.4108,
+      "step": 50
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 6.45210599899292,
+      "learning_rate": 0.00011346153846153846,
+      "loss": 9.499,
+      "step": 60
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 3.97434663772583,
+      "learning_rate": 0.0001326923076923077,
+      "loss": 9.2464,
+      "step": 70
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 4.443643093109131,
+      "learning_rate": 0.00015192307692307692,
+      "loss": 9.0007,
+      "step": 80
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 4.448770046234131,
+      "learning_rate": 0.00017115384615384616,
+      "loss": 8.8057,
+      "step": 90
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 5.425487041473389,
+      "learning_rate": 0.00019038461538461538,
+      "loss": 8.9744,
+      "step": 100
+    },
+    {
+      "epoch": 0.088,
+      "grad_norm": 4.242831230163574,
+      "learning_rate": 0.00019999785100910492,
+      "loss": 8.9241,
+      "step": 110
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 3.6791751384735107,
+      "learning_rate": 0.00019998065963611962,
+      "loss": 8.8742,
+      "step": 120
+    },
+    {
+      "epoch": 0.104,
+      "grad_norm": 5.0801777839660645,
+      "learning_rate": 0.00019994627984564557,
+      "loss": 8.8388,
+      "step": 130
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 5.117883205413818,
+      "learning_rate": 0.00019989471754816785,
+      "loss": 8.412,
+      "step": 140
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 5.7691802978515625,
+      "learning_rate": 0.00019982598160814377,
+      "loss": 8.7482,
+      "step": 150
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 4.111888885498047,
+      "learning_rate": 0.00019974008384247908,
+      "loss": 8.6456,
+      "step": 160
+    },
+    {
+      "epoch": 0.136,
+      "grad_norm": 3.717806816101074,
+      "learning_rate": 0.0001996370390184965,
+      "loss": 8.3429,
+      "step": 170
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 5.897804260253906,
+      "learning_rate": 0.00019951686485139672,
+      "loss": 8.5481,
+      "step": 180
+    },
+    {
+      "epoch": 0.152,
+      "grad_norm": 4.452871799468994,
+      "learning_rate": 0.00019937958200121303,
+      "loss": 8.6357,
+      "step": 190
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 5.103796482086182,
+      "learning_rate": 0.0001992252140692594,
+      "loss": 8.5245,
+      "step": 200
+    },
+    {
+      "epoch": 0.168,
+      "grad_norm": 5.806966304779053,
+      "learning_rate": 0.00019905378759407314,
+      "loss": 8.4875,
+      "step": 210
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 4.293936729431152,
+      "learning_rate": 0.00019886533204685228,
+      "loss": 8.3073,
+      "step": 220
+    },
+    {
+      "epoch": 0.184,
+      "grad_norm": 3.6153390407562256,
+      "learning_rate": 0.00019865987982638914,
+      "loss": 8.5256,
+      "step": 230
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 5.031829357147217,
+      "learning_rate": 0.00019843746625350028,
+      "loss": 8.3936,
+      "step": 240
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 4.666059970855713,
+      "learning_rate": 0.0001981981295649543,
+      "loss": 7.9453,
+      "step": 250
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 4.338928699493408,
+      "learning_rate": 0.0001979419109068982,
+      "loss": 8.5403,
+      "step": 260
+    },
+    {
+      "epoch": 0.216,
+      "grad_norm": 5.491336345672607,
+      "learning_rate": 0.0001976688543277838,
+      "loss": 8.5499,
+      "step": 270
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 4.206221580505371,
+      "learning_rate": 0.00019737900677079483,
+      "loss": 8.202,
+      "step": 280
+    },
+    {
+      "epoch": 0.232,
+      "grad_norm": 4.248091220855713,
+      "learning_rate": 0.0001970724180657768,
+      "loss": 8.1605,
+      "step": 290
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 4.153928279876709,
+      "learning_rate": 0.00019674914092067015,
+      "loss": 8.2001,
+      "step": 300
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2cbad370ceca105eb29fd83703abdf3f11645c66605ea050dcf46365bfd8be8
+size 5905