Upload checkpoint-1524

Browse files

Files changed (7) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +45 -45
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5afe85109b34d54bcdfcd043a611925a1c6d60bbb4981d1cb9762832ae057cb6
 size 1112205008

 version https://git-lfs.github.com/spec/v1
+oid sha256:59f4c092752f656d7a076bd6d75f9dc1396b03c1c2310d084eb38ea6ca68e08e
 size 1112205008

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e37961b0010459a533447ff73c868d6c8d9ea78223e30f7039eee512ed9db92e
 size 2224532875

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7e1ef0dd71e8376937aebde0b6b9decdd1fff7ad00ce791495499f2c5a99965
 size 2224532875

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9468bea5147f89b99cb8342b2c15e9c9fd4431e9b3dcb297e5ffa0319bad9539
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:686d66298440cd74433f9965f0ac9b35e9e9cc81f06be802f4209cb45ed608f5
 size 14645

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de9873f44982749c625477131e8a40ba78f0297c0bc9d5f5c128d769935154aa
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:aef935e098b8ac946068ed61f5c6a616a24e161d5e715824cc90693056d84481
 size 1383

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ee3ddce54887ddb31fdf9ce85d46f40a6644164a1ce7fc32da5986665968d40
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:78a28f8cafb3c310082af0a8d650de632e1dc1d6ee3b028d80847d18180123f7
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,74 +1,74 @@
 {
-  "best_global_step": 1365,
-  "best_metric": 0.8721528265204077,
-  "best_model_checkpoint": "../model/checkpoint-1365",
   "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 1365,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 12.363642692565918,
-      "learning_rate": 1.3347985347985349e-05,
-      "loss": 0.4356,
-      "step": 455
     },
     {
       "epoch": 1.0,
-      "eval_f1_macro": 0.8346323361157264,
-      "eval_f1_micro": 0.8334897691008072,
-      "eval_loss": 0.30361834168434143,
-      "eval_precision": 0.8729846637829335,
-      "eval_recall": 0.7974137931034483,
-      "eval_runtime": 13.9315,
-      "eval_samples_per_second": 261.135,
-      "eval_steps_per_second": 4.091,
-      "step": 455
     },
     {
       "epoch": 2.0,
-      "grad_norm": 8.248332023620605,
-      "learning_rate": 6.681318681318681e-06,
-      "loss": 0.2774,
-      "step": 910
     },
     {
       "epoch": 2.0,
-      "eval_f1_macro": 0.8615056948788721,
-      "eval_f1_micro": 0.8600631852815461,
-      "eval_loss": 0.2571789026260376,
-      "eval_precision": 0.8910281093569503,
-      "eval_recall": 0.8311781609195402,
-      "eval_runtime": 14.3265,
-      "eval_samples_per_second": 253.935,
-      "eval_steps_per_second": 3.979,
-      "step": 910
     },
     {
       "epoch": 3.0,
-      "grad_norm": 8.038055419921875,
-      "learning_rate": 1.4652014652014653e-08,
-      "loss": 0.221,
-      "step": 1365
     },
     {
       "epoch": 3.0,
-      "eval_f1_macro": 0.8721528265204077,
-      "eval_f1_micro": 0.8710601719197708,
-      "eval_loss": 0.25890466570854187,
-      "eval_precision": 0.8685714285714285,
-      "eval_recall": 0.8735632183908046,
-      "eval_runtime": 13.9158,
-      "eval_samples_per_second": 261.429,
-      "eval_steps_per_second": 4.096,
-      "step": 1365
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1365,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -84,7 +84,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.148400823329792e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1524,
+  "best_metric": 0.8752606955526183,
+  "best_model_checkpoint": "../models/checkpoint-1524",
   "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 1524,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 6.651031970977783,
+      "learning_rate": 1.3346456692913388e-05,
+      "loss": 0.4228,
+      "step": 508
     },
     {
       "epoch": 1.0,
+      "eval_f1_macro": 0.843772475820936,
+      "eval_f1_micro": 0.8440423247968103,
+      "eval_loss": 0.30257782340049744,
+      "eval_precision": 0.810126582278481,
+      "eval_recall": 0.8809218950064021,
+      "eval_runtime": 15.8588,
+      "eval_samples_per_second": 256.072,
+      "eval_steps_per_second": 4.036,
+      "step": 508
     },
     {
       "epoch": 2.0,
+      "grad_norm": 7.698607444763184,
+      "learning_rate": 6.6797900262467195e-06,
+      "loss": 0.2626,
+      "step": 1016
     },
     {
       "epoch": 2.0,
+      "eval_f1_macro": 0.8678396468883778,
+      "eval_f1_micro": 0.8675043741052967,
+      "eval_loss": 0.2636893689632416,
+      "eval_precision": 0.8621561808409738,
+      "eval_recall": 0.8729193341869398,
+      "eval_runtime": 15.5885,
+      "eval_samples_per_second": 260.513,
+      "eval_steps_per_second": 4.106,
+      "step": 1016
     },
     {
       "epoch": 3.0,
+      "grad_norm": 13.880615234375,
+      "learning_rate": 1.3123359580052495e-08,
+      "loss": 0.2073,
+      "step": 1524
     },
     {
       "epoch": 3.0,
+      "eval_f1_macro": 0.8752606955526183,
+      "eval_f1_micro": 0.8743307086614174,
+      "eval_loss": 0.2604271173477173,
+      "eval_precision": 0.8605083694978302,
+      "eval_recall": 0.8886043533930857,
+      "eval_runtime": 15.6076,
+      "eval_samples_per_second": 260.194,
+      "eval_steps_per_second": 4.101,
+      "step": 1524
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1524,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1.282113861663744e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ece358947c1a7f05b113e7f0bdd313472cf78504cee40430b7e5a6fbfdf8fb62
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8688d63c0a526f909aa428b1b210ff6f9ee2fd5ca3a957e8eadfcf436359f3e
 size 5841