Training in progress, epoch 5, checkpoint

Browse files

Files changed (4) hide show

checkpoint-235/model.safetensors +1 -1
checkpoint-235/optimizer.pt +1 -1
checkpoint-235/trainer_state.json +66 -66
checkpoint-235/training_args.bin +1 -1

checkpoint-235/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6f6a8505c36e37b1b5fcd38d4455a343639019d4e6f70f57493b8dc37fed351
 size 54221200

 version https://git-lfs.github.com/spec/v1
+oid sha256:0554aaea26bf82ed76dceefda2b717a8ddc384a4e0e7fa9c30a0c2105cb23815
 size 54221200

checkpoint-235/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5853af63ceaea0b2d7b3ed21127b9b6e8ae5ecbece3d5738b4661f18ada1d05
 size 108567563

 version https://git-lfs.github.com/spec/v1
+oid sha256:3db8bdbc0b2d87c1f3d78389504db5af7bacf4489334138009d4ac77628ee068
 size 108567563

checkpoint-235/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 235,
-  "best_metric": 0.65996599659966,
   "best_model_checkpoint": "models/electra-small-touche-base-binary/trainer/checkpoint-235",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -11,218 +11,218 @@
   "log_history": [
     {
       "epoch": 0.2127659574468085,
-      "grad_norm": 0.7140693068504333,
       "learning_rate": 1.125e-05,
-      "loss": 0.69647216796875,
       "step": 10
     },
     {
       "epoch": 0.425531914893617,
-      "grad_norm": 1.1431223154067993,
       "learning_rate": 2.3749999999999998e-05,
-      "loss": 0.6931365966796875,
       "step": 20
     },
     {
       "epoch": 0.6382978723404256,
-      "grad_norm": 0.6381158828735352,
       "learning_rate": 2.928909952606635e-05,
-      "loss": 0.69478759765625,
       "step": 30
     },
     {
       "epoch": 0.851063829787234,
-      "grad_norm": 1.9318883419036865,
       "learning_rate": 2.7867298578199053e-05,
-      "loss": 0.6951080322265625,
       "step": 40
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.555,
       "eval_fallacy_f1": 0.3597122302158273,
-      "eval_loss": 0.6898486614227295,
       "eval_macro_f1": 0.5093580308167259,
-      "eval_runtime": 0.1669,
-      "eval_samples_per_second": 1198.414,
-      "eval_steps_per_second": 23.968,
       "step": 47
     },
     {
       "epoch": 1.0638297872340425,
-      "grad_norm": 0.6443229913711548,
       "learning_rate": 2.6445497630331753e-05,
       "loss": 0.6960784912109375,
       "step": 50
     },
     {
       "epoch": 1.2765957446808511,
-      "grad_norm": 1.3156065940856934,
       "learning_rate": 2.5023696682464456e-05,
       "loss": 0.6871307373046875,
       "step": 60
     },
     {
       "epoch": 1.4893617021276595,
-      "grad_norm": 0.9663533568382263,
       "learning_rate": 2.360189573459716e-05,
       "loss": 0.69168701171875,
       "step": 70
     },
     {
       "epoch": 1.702127659574468,
-      "grad_norm": 0.7499622702598572,
       "learning_rate": 2.2180094786729858e-05,
-      "loss": 0.6835113525390625,
       "step": 80
     },
     {
       "epoch": 1.9148936170212765,
-      "grad_norm": 1.1466385126113892,
       "learning_rate": 2.075829383886256e-05,
-      "loss": 0.6876190185546875,
       "step": 90
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.64,
       "eval_fallacy_f1": 0.64,
-      "eval_loss": 0.6786279082298279,
       "eval_macro_f1": 0.64,
-      "eval_runtime": 0.2441,
-      "eval_samples_per_second": 819.224,
-      "eval_steps_per_second": 16.384,
       "step": 94
     },
     {
       "epoch": 2.127659574468085,
-      "grad_norm": 0.7131018042564392,
       "learning_rate": 1.933649289099526e-05,
-      "loss": 0.6760498046875,
       "step": 100
     },
     {
       "epoch": 2.3404255319148937,
-      "grad_norm": 0.8485779762268066,
       "learning_rate": 1.791469194312796e-05,
-      "loss": 0.67723388671875,
       "step": 110
     },
     {
       "epoch": 2.5531914893617023,
-      "grad_norm": 1.0046956539154053,
       "learning_rate": 1.6492890995260666e-05,
-      "loss": 0.6680267333984375,
       "step": 120
     },
     {
       "epoch": 2.7659574468085104,
-      "grad_norm": 1.3051499128341675,
       "learning_rate": 1.5071090047393365e-05,
-      "loss": 0.6558563232421875,
       "step": 130
     },
     {
       "epoch": 2.978723404255319,
-      "grad_norm": 1.3270968198776245,
       "learning_rate": 1.3649289099526066e-05,
-      "loss": 0.6429000854492187,
       "step": 140
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.63,
       "eval_fallacy_f1": 0.5432098765432098,
-      "eval_loss": 0.6571618914604187,
       "eval_macro_f1": 0.6161427533976553,
-      "eval_runtime": 0.1787,
-      "eval_samples_per_second": 1119.018,
-      "eval_steps_per_second": 22.38,
       "step": 141
     },
     {
       "epoch": 3.1914893617021276,
-      "grad_norm": 1.5919787883758545,
       "learning_rate": 1.2227488151658767e-05,
-      "loss": 0.6370620727539062,
       "step": 150
     },
     {
       "epoch": 3.404255319148936,
-      "grad_norm": 1.217308759689331,
       "learning_rate": 1.080568720379147e-05,
-      "loss": 0.6328628540039063,
       "step": 160
     },
     {
       "epoch": 3.617021276595745,
-      "grad_norm": 2.489976406097412,
       "learning_rate": 9.383886255924171e-06,
-      "loss": 0.6132949829101563,
       "step": 170
     },
     {
       "epoch": 3.829787234042553,
-      "grad_norm": 1.557442307472229,
       "learning_rate": 7.962085308056872e-06,
-      "loss": 0.6257461547851563,
       "step": 180
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.645,
       "eval_fallacy_f1": 0.6697674418604651,
-      "eval_loss": 0.6352868676185608,
       "eval_macro_f1": 0.6429918290383407,
-      "eval_runtime": 0.1618,
-      "eval_samples_per_second": 1236.069,
-      "eval_steps_per_second": 24.721,
       "step": 188
     },
     {
       "epoch": 4.042553191489362,
-      "grad_norm": 2.8439695835113525,
       "learning_rate": 6.5402843601895735e-06,
-      "loss": 0.60234375,
       "step": 190
     },
     {
       "epoch": 4.25531914893617,
-      "grad_norm": 1.99105703830719,
       "learning_rate": 5.1184834123222755e-06,
       "loss": 0.6104934692382813,
       "step": 200
     },
     {
       "epoch": 4.468085106382979,
-      "grad_norm": 1.5985376834869385,
       "learning_rate": 3.696682464454976e-06,
-      "loss": 0.5836532592773438,
       "step": 210
     },
     {
       "epoch": 4.680851063829787,
-      "grad_norm": 1.6915240287780762,
       "learning_rate": 2.274881516587678e-06,
-      "loss": 0.5967620849609375,
       "step": 220
     },
     {
       "epoch": 4.8936170212765955,
-      "grad_norm": 1.8389923572540283,
       "learning_rate": 8.530805687203791e-07,
-      "loss": 0.5855438232421875,
       "step": 230
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.66,
-      "eval_fallacy_f1": 0.6633663366336634,
-      "eval_loss": 0.6288647651672363,
-      "eval_macro_f1": 0.65996599659966,
-      "eval_runtime": 0.1577,
-      "eval_samples_per_second": 1268.019,
-      "eval_steps_per_second": 25.36,
       "step": 235
     }
   ],

 {
   "best_global_step": 235,
+  "best_metric": 0.6649246080368083,
   "best_model_checkpoint": "models/electra-small-touche-base-binary/trainer/checkpoint-235",
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.2127659574468085,
+      "grad_norm": 0.7142515182495117,
       "learning_rate": 1.125e-05,
+      "loss": 0.6964691162109375,
       "step": 10
     },
     {
       "epoch": 0.425531914893617,
+      "grad_norm": 1.143205165863037,
       "learning_rate": 2.3749999999999998e-05,
+      "loss": 0.6931427001953125,
       "step": 20
     },
     {
       "epoch": 0.6382978723404256,
+      "grad_norm": 0.6381425857543945,
       "learning_rate": 2.928909952606635e-05,
+      "loss": 0.6947906494140625,
       "step": 30
     },
     {
       "epoch": 0.851063829787234,
+      "grad_norm": 1.9318283796310425,
       "learning_rate": 2.7867298578199053e-05,
+      "loss": 0.695111083984375,
       "step": 40
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.555,
       "eval_fallacy_f1": 0.3597122302158273,
+      "eval_loss": 0.6898462176322937,
       "eval_macro_f1": 0.5093580308167259,
+      "eval_runtime": 0.2531,
+      "eval_samples_per_second": 790.252,
+      "eval_steps_per_second": 15.805,
       "step": 47
     },
     {
       "epoch": 1.0638297872340425,
+      "grad_norm": 0.644514262676239,
       "learning_rate": 2.6445497630331753e-05,
       "loss": 0.6960784912109375,
       "step": 50
     },
     {
       "epoch": 1.2765957446808511,
+      "grad_norm": 1.315447211265564,
       "learning_rate": 2.5023696682464456e-05,
       "loss": 0.6871307373046875,
       "step": 60
     },
     {
       "epoch": 1.4893617021276595,
+      "grad_norm": 0.9659499526023865,
       "learning_rate": 2.360189573459716e-05,
       "loss": 0.69168701171875,
       "step": 70
     },
     {
       "epoch": 1.702127659574468,
+      "grad_norm": 0.750037670135498,
       "learning_rate": 2.2180094786729858e-05,
+      "loss": 0.683502197265625,
       "step": 80
     },
     {
       "epoch": 1.9148936170212765,
+      "grad_norm": 1.1467636823654175,
       "learning_rate": 2.075829383886256e-05,
+      "loss": 0.6876312255859375,
       "step": 90
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.64,
       "eval_fallacy_f1": 0.64,
+      "eval_loss": 0.6786401271820068,
       "eval_macro_f1": 0.64,
+      "eval_runtime": 0.1813,
+      "eval_samples_per_second": 1103.211,
+      "eval_steps_per_second": 22.064,
       "step": 94
     },
     {
       "epoch": 2.127659574468085,
+      "grad_norm": 0.713529646396637,
       "learning_rate": 1.933649289099526e-05,
+      "loss": 0.6760345458984375,
       "step": 100
     },
     {
       "epoch": 2.3404255319148937,
+      "grad_norm": 0.8489329814910889,
       "learning_rate": 1.791469194312796e-05,
+      "loss": 0.6772491455078125,
       "step": 110
     },
     {
       "epoch": 2.5531914893617023,
+      "grad_norm": 1.0044538974761963,
       "learning_rate": 1.6492890995260666e-05,
+      "loss": 0.6680450439453125,
       "step": 120
     },
     {
       "epoch": 2.7659574468085104,
+      "grad_norm": 1.3042397499084473,
       "learning_rate": 1.5071090047393365e-05,
+      "loss": 0.6558624267578125,
       "step": 130
     },
     {
       "epoch": 2.978723404255319,
+      "grad_norm": 1.3250319957733154,
       "learning_rate": 1.3649289099526066e-05,
+      "loss": 0.64290771484375,
       "step": 140
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.63,
       "eval_fallacy_f1": 0.5432098765432098,
+      "eval_loss": 0.6571679711341858,
       "eval_macro_f1": 0.6161427533976553,
+      "eval_runtime": 0.2009,
+      "eval_samples_per_second": 995.653,
+      "eval_steps_per_second": 19.913,
       "step": 141
     },
     {
       "epoch": 3.1914893617021276,
+      "grad_norm": 1.5915395021438599,
       "learning_rate": 1.2227488151658767e-05,
+      "loss": 0.6370498657226562,
       "step": 150
     },
     {
       "epoch": 3.404255319148936,
+      "grad_norm": 1.217298150062561,
       "learning_rate": 1.080568720379147e-05,
+      "loss": 0.6329071044921875,
       "step": 160
     },
     {
       "epoch": 3.617021276595745,
+      "grad_norm": 2.48813533782959,
       "learning_rate": 9.383886255924171e-06,
+      "loss": 0.613275146484375,
       "step": 170
     },
     {
       "epoch": 3.829787234042553,
+      "grad_norm": 1.5584394931793213,
       "learning_rate": 7.962085308056872e-06,
+      "loss": 0.625762939453125,
       "step": 180
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.645,
       "eval_fallacy_f1": 0.6697674418604651,
+      "eval_loss": 0.6353307962417603,
       "eval_macro_f1": 0.6429918290383407,
+      "eval_runtime": 0.182,
+      "eval_samples_per_second": 1098.706,
+      "eval_steps_per_second": 21.974,
       "step": 188
     },
     {
       "epoch": 4.042553191489362,
+      "grad_norm": 2.846815824508667,
       "learning_rate": 6.5402843601895735e-06,
+      "loss": 0.6023529052734375,
       "step": 190
     },
     {
       "epoch": 4.25531914893617,
+      "grad_norm": 1.9856239557266235,
       "learning_rate": 5.1184834123222755e-06,
       "loss": 0.6104934692382813,
       "step": 200
     },
     {
       "epoch": 4.468085106382979,
+      "grad_norm": 1.5990350246429443,
       "learning_rate": 3.696682464454976e-06,
+      "loss": 0.5836715698242188,
       "step": 210
     },
     {
       "epoch": 4.680851063829787,
+      "grad_norm": 1.6923744678497314,
       "learning_rate": 2.274881516587678e-06,
+      "loss": 0.59677734375,
       "step": 220
     },
     {
       "epoch": 4.8936170212765955,
+      "grad_norm": 1.8375948667526245,
       "learning_rate": 8.530805687203791e-07,
+      "loss": 0.5855560302734375,
       "step": 230
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.665,
+      "eval_fallacy_f1": 0.6699507389162561,
+      "eval_loss": 0.6288989186286926,
+      "eval_macro_f1": 0.6649246080368083,
+      "eval_runtime": 0.1834,
+      "eval_samples_per_second": 1090.393,
+      "eval_steps_per_second": 21.808,
       "step": 235
     }
   ],

checkpoint-235/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feed2b83d33087270d16ed7f3e10fa99ab935ebc4c954f924db9b9235a327ec4
 size 5393

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad6d6165191c810bbf9da8a352ad8d8ac94cb786f3d098baa4a10209e0effe11
 size 5393