Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +12 -101
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/opt-125m",
   "_remove_final_layer_norm": false,
   "activation_dropout": 0.0,
   "activation_function": "relu",

 {
+  "_name_or_path": "ccore/ccore-v3",
   "_remove_final_layer_norm": false,
   "activation_dropout": 0.0,
   "activation_function": "relu",

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a40dec7e30253e75e422b47ab951addd60730e7951035834622549ac801367e
 size 500979600

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4013af1bfe8d529a0921d3154adc965111f5f1e71176b73e3b888780d625357
 size 500979600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddc053d38b879409c8034df7340972100796763466dd69d9c7b037470814f772
 size 1002078330

 version https://git-lfs.github.com/spec/v1
+oid sha256:757da7d4f6896bd7517037c1352fee52b788211aeff771636b1687b889bfad65
 size 1002078330

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebdf656e7a36761328b5fb073dd978028ede2fdcdc132424304899457e59ad39
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:574024fd0bef58b4ca8af0606c1be9cf07d7494e9e30913df874b1f6896f01c2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a9e472ef49de9b8b8e7b375a6d84ff735f7d72dc421adbe419aa4444b7c6057
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d4270c057ffbe7d94d3a4a46e15a61be9cfe5f3368f1f48731c220c26ede867
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,113 +1,24 @@
 {
-  "best_metric": 0.9929500818252563,
-  "best_model_checkpoint": "./opt_trained3/checkpoint-3654",
-  "epoch": 5.998769987699877,
   "eval_steps": 500,
-  "global_step": 3654,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.8200082000820008,
-      "grad_norm": 3.336149215698242,
-      "learning_rate": 9.835913054681877e-05,
-      "loss": 1.0546,
-      "step": 500
-    },
-    {
-      "epoch": 0.998769987699877,
-      "eval_loss": 1.013350248336792,
-      "eval_runtime": 259.9403,
-      "eval_samples_per_second": 50.035,
-      "eval_steps_per_second": 12.511,
-      "step": 609
-    },
-    {
-      "epoch": 1.6412464124641246,
-      "grad_norm": 2.491156578063965,
-      "learning_rate": 9.351884318196129e-05,
-      "loss": 1.0221,
-      "step": 1000
-    },
-    {
-      "epoch": 1.998769987699877,
-      "eval_loss": 1.0091875791549683,
-      "eval_runtime": 259.5356,
-      "eval_samples_per_second": 50.113,
-      "eval_steps_per_second": 12.53,
-      "step": 1218
-    },
-    {
-      "epoch": 2.4624846248462484,
-      "grad_norm": 2.6502525806427,
-      "learning_rate": 8.579934515124202e-05,
-      "loss": 1.0175,
-      "step": 1500
-    },
-    {
-      "epoch": 2.998769987699877,
-      "eval_loss": 1.0066354274749756,
-      "eval_runtime": 262.6041,
-      "eval_samples_per_second": 49.527,
-      "eval_steps_per_second": 12.384,
-      "step": 1827
-    },
-    {
-      "epoch": 3.2837228372283724,
-      "grad_norm": 1.8426792621612549,
-      "learning_rate": 7.571135915407219e-05,
-      "loss": 1.0148,
-      "step": 2000
-    },
-    {
-      "epoch": 3.998769987699877,
-      "eval_loss": 1.003442406654358,
-      "eval_runtime": 261.9157,
-      "eval_samples_per_second": 49.657,
-      "eval_steps_per_second": 12.416,
-      "step": 2436
-    },
-    {
-      "epoch": 4.1049610496104965,
-      "grad_norm": 1.7222294807434082,
-      "learning_rate": 6.39223072714725e-05,
-      "loss": 1.0105,
-      "step": 2500
-    },
-    {
-      "epoch": 4.924969249692497,
-      "grad_norm": 3.702568292617798,
-      "learning_rate": 5.121215425983256e-05,
-      "loss": 1.0048,
-      "step": 3000
-    },
-    {
-      "epoch": 4.998769987699877,
-      "eval_loss": 0.9986960887908936,
-      "eval_runtime": 258.2811,
-      "eval_samples_per_second": 50.356,
-      "eval_steps_per_second": 12.591,
-      "step": 3045
-    },
-    {
-      "epoch": 5.74620746207462,
-      "grad_norm": 1.9525970220565796,
-      "learning_rate": 3.842180501092163e-05,
-      "loss": 1.0013,
-      "step": 3500
-    },
-    {
-      "epoch": 5.998769987699877,
-      "eval_loss": 0.9929500818252563,
-      "eval_runtime": 260.4505,
-      "eval_samples_per_second": 49.937,
-      "eval_steps_per_second": 12.486,
-      "step": 3654
     }
   ],
   "logging_steps": 500,
-  "max_steps": 6090,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -123,7 +34,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4515315375104e+17,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7184422016143799,
+  "best_model_checkpoint": "./opt_trained3/checkpoint-15",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_loss": 0.7184422016143799,
+      "eval_runtime": 5.9548,
+      "eval_samples_per_second": 50.38,
+      "eval_steps_per_second": 12.595,
+      "step": 15
     }
   ],
   "logging_steps": 500,
+  "max_steps": 140,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 556605613440000.0,
   "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:432b24e0a454c6ba118d533189ffa32a4ef3f0654798d68a647380ab38384532
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce5b37466798b22cd1c58fa164a2deb26fd86f95d9733731d6588e8abd389d38
 size 5368