Training in progress, step 1000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +15 -199
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7993fcf68be828d73fa2ee6b4a5dc32e8cace8dc797569a99953ce1a3ae5d83
 size 498612824

 version https://git-lfs.github.com/spec/v1
+oid sha256:42690867e778f4db141a39c02caa1a4a181fb1838de64648f76992024bb090d6
 size 498612824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b02915a79788add5d714c8aaeec8c9d2926b4de85c51dc0ca45b65e8d73f63ed
 size 997345931

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cee156cc7324a335bd0cf2e1fa7a6de4b52ebb3d6ee59259f88882100a16a0a
 size 997345931

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3106ce26d8876d17e74b10716d47cadecb00ff3a2233d08bdb01a7952809d554
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:41afff64258c100464839a9401c63f65038ccc9dbd2dd2c5f61f68f3b93f2b79
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00b4eb0c27b559cfd649f7c80a6d3394a55880d92b3ee2ca98f71b67e7b2333a
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:14ae2a2128444abab378aa06c09a61a84665f758fcc19fc46f5789b0bc1b5665
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe28f7d29e7f98f2600c3c6c7c0177a5ef0e8009ada6a2b943e31e01e5a4324e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed290419ddbbaf4c4f46d92ab98980c1b33e3e9b93e34d7bc94d8d13097423b4
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,220 +1,36 @@
 {
-  "best_global_step": 9000,
-  "best_metric": 0.035129010677337646,
-  "best_model_checkpoint": "./training_output/checkpoint-9000",
-  "epoch": 0.45,
   "eval_steps": 1000,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.025,
-      "grad_norm": 0.034924205392599106,
       "learning_rate": 1.9501000000000002e-05,
-      "loss": 0.1359,
       "step": 500
     },
     {
       "epoch": 0.05,
-      "grad_norm": 11.011366844177246,
       "learning_rate": 1.9001e-05,
-      "loss": 0.1002,
       "step": 1000
     },
     {
       "epoch": 0.05,
-      "eval_accuracy": 0.91145,
-      "eval_loss": 0.12729284167289734,
-      "eval_runtime": 363.6281,
-      "eval_samples_per_second": 55.001,
-      "eval_steps_per_second": 3.438,
       "step": 1000
-    },
-    {
-      "epoch": 0.075,
-      "grad_norm": 0.017511729151010513,
-      "learning_rate": 1.8501e-05,
-      "loss": 0.0956,
-      "step": 1500
-    },
-    {
-      "epoch": 0.1,
-      "grad_norm": 0.022739391773939133,
-      "learning_rate": 1.8001000000000003e-05,
-      "loss": 0.0721,
-      "step": 2000
-    },
-    {
-      "epoch": 0.1,
-      "eval_accuracy": 0.88555,
-      "eval_loss": 0.21215863525867462,
-      "eval_runtime": 363.0614,
-      "eval_samples_per_second": 55.087,
-      "eval_steps_per_second": 3.443,
-      "step": 2000
-    },
-    {
-      "epoch": 0.125,
-      "grad_norm": 0.02591518871486187,
-      "learning_rate": 1.7501e-05,
-      "loss": 0.0668,
-      "step": 2500
-    },
-    {
-      "epoch": 0.15,
-      "grad_norm": 0.07041072845458984,
-      "learning_rate": 1.7001000000000002e-05,
-      "loss": 0.0606,
-      "step": 3000
-    },
-    {
-      "epoch": 0.15,
-      "eval_accuracy": 0.9291,
-      "eval_loss": 0.12173645943403244,
-      "eval_runtime": 362.8269,
-      "eval_samples_per_second": 55.123,
-      "eval_steps_per_second": 3.445,
-      "step": 3000
-    },
-    {
-      "epoch": 0.175,
-      "grad_norm": 37.91666793823242,
-      "learning_rate": 1.6501e-05,
-      "loss": 0.0647,
-      "step": 3500
-    },
-    {
-      "epoch": 0.2,
-      "grad_norm": 0.18077421188354492,
-      "learning_rate": 1.6001e-05,
-      "loss": 0.0587,
-      "step": 4000
-    },
-    {
-      "epoch": 0.2,
-      "eval_accuracy": 0.9575,
-      "eval_loss": 0.04343162104487419,
-      "eval_runtime": 361.6433,
-      "eval_samples_per_second": 55.303,
-      "eval_steps_per_second": 3.456,
-      "step": 4000
-    },
-    {
-      "epoch": 0.225,
-      "grad_norm": 0.002397062722593546,
-      "learning_rate": 1.5501000000000003e-05,
-      "loss": 0.0491,
-      "step": 4500
-    },
-    {
-      "epoch": 0.25,
-      "grad_norm": 0.02433067187666893,
-      "learning_rate": 1.5001000000000001e-05,
-      "loss": 0.0511,
-      "step": 5000
-    },
-    {
-      "epoch": 0.25,
-      "eval_accuracy": 0.9532,
-      "eval_loss": 0.07725899666547775,
-      "eval_runtime": 363.254,
-      "eval_samples_per_second": 55.058,
-      "eval_steps_per_second": 3.441,
-      "step": 5000
-    },
-    {
-      "epoch": 0.275,
-      "grad_norm": 0.2668807804584503,
-      "learning_rate": 1.4501e-05,
-      "loss": 0.0442,
-      "step": 5500
-    },
-    {
-      "epoch": 0.3,
-      "grad_norm": 0.0010613143676891923,
-      "learning_rate": 1.4001e-05,
-      "loss": 0.042,
-      "step": 6000
-    },
-    {
-      "epoch": 0.3,
-      "eval_accuracy": 0.93495,
-      "eval_loss": 0.15857931971549988,
-      "eval_runtime": 363.6803,
-      "eval_samples_per_second": 54.993,
-      "eval_steps_per_second": 3.437,
-      "step": 6000
-    },
-    {
-      "epoch": 0.325,
-      "grad_norm": 0.002066701650619507,
-      "learning_rate": 1.3501000000000002e-05,
-      "loss": 0.039,
-      "step": 6500
-    },
-    {
-      "epoch": 0.35,
-      "grad_norm": 0.06389991194009781,
-      "learning_rate": 1.3001000000000001e-05,
-      "loss": 0.0416,
-      "step": 7000
-    },
-    {
-      "epoch": 0.35,
-      "eval_accuracy": 0.9366,
-      "eval_loss": 0.11077161878347397,
-      "eval_runtime": 363.1946,
-      "eval_samples_per_second": 55.067,
-      "eval_steps_per_second": 3.442,
-      "step": 7000
-    },
-    {
-      "epoch": 0.375,
-      "grad_norm": 0.01402213703840971,
-      "learning_rate": 1.2501000000000001e-05,
-      "loss": 0.0418,
-      "step": 7500
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 0.30465877056121826,
-      "learning_rate": 1.2001e-05,
-      "loss": 0.0428,
-      "step": 8000
-    },
-    {
-      "epoch": 0.4,
-      "eval_accuracy": 0.92455,
-      "eval_loss": 0.11909274756908417,
-      "eval_runtime": 362.4651,
-      "eval_samples_per_second": 55.178,
-      "eval_steps_per_second": 3.449,
-      "step": 8000
-    },
-    {
-      "epoch": 0.425,
-      "grad_norm": 0.002914857817813754,
-      "learning_rate": 1.1501e-05,
-      "loss": 0.0383,
-      "step": 8500
-    },
-    {
-      "epoch": 0.45,
-      "grad_norm": 40.46672821044922,
-      "learning_rate": 1.1001000000000002e-05,
-      "loss": 0.0387,
-      "step": 9000
-    },
-    {
-      "epoch": 0.45,
-      "eval_accuracy": 0.9744,
-      "eval_loss": 0.035129010677337646,
-      "eval_runtime": 362.2389,
-      "eval_samples_per_second": 55.212,
-      "eval_steps_per_second": 3.451,
-      "step": 9000
     }
   ],
   "logging_steps": 500,
@@ -234,7 +50,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9471997992960000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1000,
+  "best_metric": 0.10802757740020752,
+  "best_model_checkpoint": "./training_output/checkpoint-1000",
+  "epoch": 0.05,
   "eval_steps": 1000,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.025,
+      "grad_norm": 0.8834348917007446,
       "learning_rate": 1.9501000000000002e-05,
+      "loss": 0.1437,
       "step": 500
     },
     {
       "epoch": 0.05,
+      "grad_norm": 9.513919830322266,
       "learning_rate": 1.9001e-05,
+      "loss": 0.1085,
       "step": 1000
     },
     {
       "epoch": 0.05,
+      "eval_accuracy": 0.91835,
+      "eval_loss": 0.10802757740020752,
+      "eval_runtime": 381.1922,
+      "eval_samples_per_second": 52.467,
+      "eval_steps_per_second": 3.279,
       "step": 1000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1052444221440000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:058d9b420a19f886dad1393fb6d59bbf96d0b7d2e42eee2aba9c86caa3a2da81
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:4672bef08597eaac4166af409003080f023f24990f8f58c185b2b990119dc93e
 size 5841