Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +9 -108
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "ccore/RDW",
   "_remove_final_layer_norm": false,
   "activation_dropout": 0.0,
   "activation_function": "relu",

 {
+  "_name_or_path": "ccore/RDW2",
   "_remove_final_layer_norm": false,
   "activation_dropout": 0.0,
   "activation_function": "relu",

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7f177ac17d529e29efb6e2c90b4fac1aac05de2d76cd0a83c56954cf8b22078
 size 500979600

 version https://git-lfs.github.com/spec/v1
+oid sha256:c25ff01c23d13ed3137b2274e6ca83d4a20e50cc5caa72cbb5e10a7b23252df9
 size 500979600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed9d1686584d5775da006b6d922cf6c3eacb2065b66a18f07fbae7e722e33ba8
 size 1002078330

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f0300a6d21bd10dd2251435d23b360d5ea677c5d3bcc755b496012552e39e42
 size 1002078330

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6edbde201324905f6602d4ac3a66a2f9df04374cec29badfe0ef7e38dacc7b2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2aee0a005e9c584d35058f5950f9994ef813f416a0e69d6e9ccf6aa888689f86
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c54e76d8423a6511375b8501c7ed973174257694d1818266bf8544e0951cc13c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a547db3d9bb996ec70227440fa3c775a359414e054f09a8f9234161532ebca1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,119 +1,20 @@
 {
-  "best_metric": 0.29721641540527344,
-  "best_model_checkpoint": "./opt_trained/checkpoint-2576",
-  "epoch": 9.0,
   "eval_steps": 500,
-  "global_step": 2898,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 0.29984787106513977,
-      "eval_runtime": 145.4869,
-      "eval_samples_per_second": 19.631,
-      "eval_steps_per_second": 4.908,
       "step": 322
-    },
-    {
-      "epoch": 1.5540856031128405,
-      "grad_norm": 2.1858065128326416,
-      "learning_rate": 3.940433505043101e-05,
-      "loss": 0.2998,
-      "step": 500
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.29886579513549805,
-      "eval_runtime": 145.5758,
-      "eval_samples_per_second": 19.619,
-      "eval_steps_per_second": 4.905,
-      "step": 644
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.29954472184181213,
-      "eval_runtime": 145.5114,
-      "eval_samples_per_second": 19.627,
-      "eval_steps_per_second": 4.907,
-      "step": 966
-    },
-    {
-      "epoch": 3.1058365758754864,
-      "grad_norm": 2.7013330459594727,
-      "learning_rate": 3.765282187493851e-05,
-      "loss": 0.2968,
-      "step": 1000
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.2978520393371582,
-      "eval_runtime": 145.3893,
-      "eval_samples_per_second": 19.644,
-      "eval_steps_per_second": 4.911,
-      "step": 1288
-    },
-    {
-      "epoch": 4.659922178988327,
-      "grad_norm": 2.5350475311279297,
-      "learning_rate": 3.484979197425745e-05,
-      "loss": 0.2948,
-      "step": 1500
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.29741692543029785,
-      "eval_runtime": 145.627,
-      "eval_samples_per_second": 19.612,
-      "eval_steps_per_second": 4.903,
-      "step": 1610
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 0.29865920543670654,
-      "eval_runtime": 145.5148,
-      "eval_samples_per_second": 19.627,
-      "eval_steps_per_second": 4.907,
-      "step": 1932
-    },
-    {
-      "epoch": 6.211673151750973,
-      "grad_norm": 2.5450387001037598,
-      "learning_rate": 3.11703315146825e-05,
-      "loss": 0.292,
-      "step": 2000
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 0.29770833253860474,
-      "eval_runtime": 146.0174,
-      "eval_samples_per_second": 19.559,
-      "eval_steps_per_second": 4.89,
-      "step": 2254
-    },
-    {
-      "epoch": 7.765758754863813,
-      "grad_norm": 2.2594358921051025,
-      "learning_rate": 2.6818939512889293e-05,
-      "loss": 0.2897,
-      "step": 2500
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.29721641540527344,
-      "eval_runtime": 146.0416,
-      "eval_samples_per_second": 19.556,
-      "eval_steps_per_second": 4.889,
-      "step": 2576
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.29853811860084534,
-      "eval_runtime": 145.9347,
-      "eval_samples_per_second": 19.57,
-      "eval_steps_per_second": 4.893,
-      "step": 2898
     }
   ],
   "logging_steps": 500,
@@ -133,7 +34,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2085017772032e+17,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2863014340400696,
+  "best_model_checkpoint": "./opt_trained/checkpoint-322",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 322,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 0.2863014340400696,
+      "eval_runtime": 114.3677,
+      "eval_samples_per_second": 24.972,
+      "eval_steps_per_second": 6.243,
       "step": 322
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.014952664448e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85dbb59c613e3aa11d2eed3526fd27daf20a8edc39c428468a730da95c5973db
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e5977c21c679dfb75a8cca2ae67dcb35c2eb17a3f181db6ee924c38ad4e6f39
 size 5368