Training in progress, step 3000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec39b6059f46dd5c028a2b3a8df89e54652f47a7b2d1b473858cb9613ea2bf35
 size 3237829088

 version https://git-lfs.github.com/spec/v1
+oid sha256:bce8f23fe3ca54ce3a2edb635dddee9a9c329ff98d2c1c1edfce5ae419285005
 size 3237829088

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38c900497bf3dbda1d6e7c1b32cf2a719ed87675df67744d76a636bb793c4be6
 size 2062272049

 version https://git-lfs.github.com/spec/v1
+oid sha256:d48dac810dbf197987947f41644e305ca6c790e2f1c59ed452325bdbb5ba36f8
 size 2062272049

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f936c4340b1a5e33087b6159d8f0cde321033f9a21edc5ffdda56dd518d57d1d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f53ea6cca8172a2d83848e49f423fb2d70a5aed099439177ccfef05efb329dc
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29254c2526b30c1f020401ec71783f99885e5c23773b0ea29681c66ec8089ebb
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc83c3e7cbaa37ce1778897d2e62cb7b8c41ece6f6ed0596eecff4f3f73fcd86
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd91190946d7dc5a14f47d6b938cddd6477162a42282961cbb0f0f14b153eef3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:969f9b4cf700cdbd38bb540453f172b054b7fbd95efaee88d0519f169dc71ac6
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7748600947051227,
   "eval_steps": 300,
-  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1898,6 +1898,216 @@
       "learning_rate": 2.5191161013293396e-05,
       "loss": 0.7671,
       "step": 2700
     }
   ],
   "logging_steps": 10,
@@ -1917,7 +2127,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.10480834691072e+20,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8609556607834696,
   "eval_steps": 300,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.5191161013293396e-05,
       "loss": 0.7671,
       "step": 2700
+    },
+    {
+      "epoch": 0.7777299469077342,
+      "grad_norm": 4.681542873382568,
+      "learning_rate": 2.4584041064888798e-05,
+      "loss": 0.765,
+      "step": 2710
+    },
+    {
+      "epoch": 0.7805997991103458,
+      "grad_norm": 4.8185343742370605,
+      "learning_rate": 2.398329969958486e-05,
+      "loss": 0.772,
+      "step": 2720
+    },
+    {
+      "epoch": 0.7834696513129574,
+      "grad_norm": 4.85504150390625,
+      "learning_rate": 2.3388987727299982e-05,
+      "loss": 0.7655,
+      "step": 2730
+    },
+    {
+      "epoch": 0.7863395035155689,
+      "grad_norm": 4.443562030792236,
+      "learning_rate": 2.2801155414162934e-05,
+      "loss": 0.7885,
+      "step": 2740
+    },
+    {
+      "epoch": 0.7892093557181805,
+      "grad_norm": 4.084039211273193,
+      "learning_rate": 2.221985247826138e-05,
+      "loss": 0.7679,
+      "step": 2750
+    },
+    {
+      "epoch": 0.7920792079207921,
+      "grad_norm": 5.327516555786133,
+      "learning_rate": 2.164512808543686e-05,
+      "loss": 0.7704,
+      "step": 2760
+    },
+    {
+      "epoch": 0.7949490601234036,
+      "grad_norm": 5.7689313888549805,
+      "learning_rate": 2.1077030845126256e-05,
+      "loss": 0.7572,
+      "step": 2770
+    },
+    {
+      "epoch": 0.7978189123260152,
+      "grad_norm": 5.112376689910889,
+      "learning_rate": 2.0515608806250665e-05,
+      "loss": 0.7633,
+      "step": 2780
+    },
+    {
+      "epoch": 0.8006887645286268,
+      "grad_norm": 4.748579502105713,
+      "learning_rate": 1.996090945315128e-05,
+      "loss": 0.7757,
+      "step": 2790
+    },
+    {
+      "epoch": 0.8035586167312383,
+      "grad_norm": 4.38164758682251,
+      "learning_rate": 1.941297970157344e-05,
+      "loss": 0.7517,
+      "step": 2800
+    },
+    {
+      "epoch": 0.8064284689338499,
+      "grad_norm": 4.2106523513793945,
+      "learning_rate": 1.8871865894698336e-05,
+      "loss": 0.7783,
+      "step": 2810
+    },
+    {
+      "epoch": 0.8092983211364615,
+      "grad_norm": 6.83260440826416,
+      "learning_rate": 1.8337613799223586e-05,
+      "loss": 0.758,
+      "step": 2820
+    },
+    {
+      "epoch": 0.812168173339073,
+      "grad_norm": 4.018373012542725,
+      "learning_rate": 1.7810268601492164e-05,
+      "loss": 0.7464,
+      "step": 2830
+    },
+    {
+      "epoch": 0.8150380255416846,
+      "grad_norm": 5.183018207550049,
+      "learning_rate": 1.7289874903670677e-05,
+      "loss": 0.75,
+      "step": 2840
+    },
+    {
+      "epoch": 0.8179078777442962,
+      "grad_norm": 3.9134421348571777,
+      "learning_rate": 1.6776476719976974e-05,
+      "loss": 0.7991,
+      "step": 2850
+    },
+    {
+      "epoch": 0.8207777299469078,
+      "grad_norm": 5.056222915649414,
+      "learning_rate": 1.6270117472957534e-05,
+      "loss": 0.7419,
+      "step": 2860
+    },
+    {
+      "epoch": 0.8236475821495193,
+      "grad_norm": 4.9499311447143555,
+      "learning_rate": 1.5770839989814677e-05,
+      "loss": 0.7927,
+      "step": 2870
+    },
+    {
+      "epoch": 0.8265174343521309,
+      "grad_norm": 4.165496826171875,
+      "learning_rate": 1.527868649878451e-05,
+      "loss": 0.7502,
+      "step": 2880
+    },
+    {
+      "epoch": 0.8293872865547425,
+      "grad_norm": 5.458337306976318,
+      "learning_rate": 1.4793698625565122e-05,
+      "loss": 0.7699,
+      "step": 2890
+    },
+    {
+      "epoch": 0.832257138757354,
+      "grad_norm": 4.831928253173828,
+      "learning_rate": 1.4315917389796119e-05,
+      "loss": 0.7577,
+      "step": 2900
+    },
+    {
+      "epoch": 0.8351269909599656,
+      "grad_norm": 5.4457221031188965,
+      "learning_rate": 1.3845383201589057e-05,
+      "loss": 0.76,
+      "step": 2910
+    },
+    {
+      "epoch": 0.8379968431625772,
+      "grad_norm": 4.1194586753845215,
+      "learning_rate": 1.3382135858109735e-05,
+      "loss": 0.7865,
+      "step": 2920
+    },
+    {
+      "epoch": 0.8408666953651887,
+      "grad_norm": 4.45517110824585,
+      "learning_rate": 1.2926214540212155e-05,
+      "loss": 0.7414,
+      "step": 2930
+    },
+    {
+      "epoch": 0.8437365475678003,
+      "grad_norm": 4.03952169418335,
+      "learning_rate": 1.2477657809124631e-05,
+      "loss": 0.78,
+      "step": 2940
+    },
+    {
+      "epoch": 0.8466063997704119,
+      "grad_norm": 4.787744998931885,
+      "learning_rate": 1.2036503603188464e-05,
+      "loss": 0.7862,
+      "step": 2950
+    },
+    {
+      "epoch": 0.8494762519730233,
+      "grad_norm": 6.612007141113281,
+      "learning_rate": 1.1602789234648948e-05,
+      "loss": 0.7356,
+      "step": 2960
+    },
+    {
+      "epoch": 0.8523461041756349,
+      "grad_norm": 4.051847457885742,
+      "learning_rate": 1.1176551386499757e-05,
+      "loss": 0.7261,
+      "step": 2970
+    },
+    {
+      "epoch": 0.8552159563782465,
+      "grad_norm": 6.460504055023193,
+      "learning_rate": 1.0757826109380165e-05,
+      "loss": 0.7701,
+      "step": 2980
+    },
+    {
+      "epoch": 0.858085808580858,
+      "grad_norm": 7.030419826507568,
+      "learning_rate": 1.034664881852614e-05,
+      "loss": 0.7938,
+      "step": 2990
+    },
+    {
+      "epoch": 0.8609556607834696,
+      "grad_norm": 6.365281581878662,
+      "learning_rate": 9.943054290774756e-06,
+      "loss": 0.7574,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2275648299008e+20,
   "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e7bdac5d864a20d8b4fc428d3cfbb2f8cb185783eb905886cd482fff0f1081a
 size 6033

 version https://git-lfs.github.com/spec/v1
+oid sha256:af348aba05dfeee698795ada72d5bb2358474186b3755ad8421475ab7319c92e
 size 6033