Model save

Browse files

Files changed (6) hide show

README.md +23 -23
adapter_model.safetensors +1 -1
all_results.json +5 -5
tokenizer.json +2 -2
train_results.json +5 -5
trainer_state.json +134 -134

README.md CHANGED Viewed

@@ -18,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7193
-- Balanced Accuracy: 0.6060
-- Accuracy: 0.6354
 ## Model description
@@ -51,26 +51,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Balanced Accuracy | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:-----------------:|:--------:|
-| No log        | 1.0   | 96   | 0.6971          | 0.5143            | 0.5677   |
-| No log        | 2.0   | 192  | 0.6867          | 0.5831            | 0.5625   |
-| No log        | 3.0   | 288  | 0.6729          | 0.5990            | 0.625    |
-| No log        | 4.0   | 384  | 0.6751          | 0.5691            | 0.5521   |
-| No log        | 5.0   | 480  | 0.6685          | 0.6224            | 0.6562   |
-| 0.6536        | 6.0   | 576  | 0.6699          | 0.6199            | 0.6562   |
-| 0.6536        | 7.0   | 672  | 0.6705          | 0.6219            | 0.6510   |
-| 0.6536        | 8.0   | 768  | 0.6747          | 0.6252            | 0.6562   |
-| 0.6536        | 9.0   | 864  | 0.6807          | 0.6254            | 0.6510   |
-| 0.6536        | 10.0  | 960  | 0.6782          | 0.6034            | 0.6302   |
-| 0.6132        | 11.0  | 1056 | 0.6869          | 0.5695            | 0.5885   |
-| 0.6132        | 12.0  | 1152 | 0.7084          | 0.5622            | 0.5469   |
-| 0.6132        | 13.0  | 1248 | 0.6915          | 0.6451            | 0.6771   |
-| 0.6132        | 14.0  | 1344 | 0.7046          | 0.5669            | 0.5781   |
-| 0.6132        | 15.0  | 1440 | 0.7032          | 0.6418            | 0.6719   |
-| 0.5715        | 16.0  | 1536 | 0.7011          | 0.6079            | 0.6354   |
-| 0.5715        | 17.0  | 1632 | 0.7048          | 0.6367            | 0.6667   |
-| 0.5715        | 18.0  | 1728 | 0.7149          | 0.6107            | 0.6406   |
-| 0.5715        | 19.0  | 1824 | 0.7165          | 0.5903            | 0.6146   |
-| 0.5715        | 20.0  | 1920 | 0.7193          | 0.6060            | 0.6354   |
 ### Framework versions

 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6274
+- Balanced Accuracy: 0.6563
+- Accuracy: 0.6615
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Balanced Accuracy | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:-----------------:|:--------:|
+| No log        | 1.0   | 96   | 0.6857          | 0.5462            | 0.5625   |
+| No log        | 2.0   | 192  | 0.6684          | 0.5758            | 0.5833   |
+| No log        | 3.0   | 288  | 0.7167          | 0.6384            | 0.6198   |
+| No log        | 4.0   | 384  | 0.6335          | 0.6179            | 0.625    |
+| No log        | 5.0   | 480  | 0.6574          | 0.6297            | 0.5990   |
+| 0.6776        | 6.0   | 576  | 0.6322          | 0.6168            | 0.625    |
+| 0.6776        | 7.0   | 672  | 0.6374          | 0.6114            | 0.6094   |
+| 0.6776        | 8.0   | 768  | 0.6261          | 0.6278            | 0.6354   |
+| 0.6776        | 9.0   | 864  | 0.6289          | 0.6651            | 0.6406   |
+| 0.6776        | 10.0  | 960  | 0.6082          | 0.6368            | 0.6406   |
+| 0.5732        | 11.0  | 1056 | 0.6036          | 0.6553            | 0.6615   |
+| 0.5732        | 12.0  | 1152 | 0.6445          | 0.6870            | 0.6510   |
+| 0.5732        | 13.0  | 1248 | 0.6094          | 0.6833            | 0.6875   |
+| 0.5732        | 14.0  | 1344 | 0.6104          | 0.6607            | 0.6667   |
+| 0.5732        | 15.0  | 1440 | 0.6553          | 0.6960            | 0.6927   |
+| 0.5144        | 16.0  | 1536 | 0.6262          | 0.6603            | 0.6510   |
+| 0.5144        | 17.0  | 1632 | 0.6154          | 0.6619            | 0.6667   |
+| 0.5144        | 18.0  | 1728 | 0.6210          | 0.6619            | 0.6667   |
+| 0.5144        | 19.0  | 1824 | 0.6293          | 0.6716            | 0.6771   |
+| 0.5144        | 20.0  | 1920 | 0.6274          | 0.6563            | 0.6615   |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aef5e2e402a0ddf131b976809cc4ab1cbf763289e9bb43603fcbc2600db749c0
 size 54593240

 version https://git-lfs.github.com/spec/v1
+oid sha256:55caaf3b258dd25f76e2edebe1001cb2019d391369eedb2700ef30b91034b3ac
 size 54593240

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 20.0,
-    "total_flos": 2.3164148658497126e+17,
-    "train_loss": 0.5955550193786621,
-    "train_runtime": 25564.1453,
     "train_samples": 768,
-    "train_samples_per_second": 0.601,
-    "train_steps_per_second": 0.075
 }

 {
     "epoch": 20.0,
+    "total_flos": 2.492453077307228e+17,
+    "train_loss": 0.5602036555608113,
+    "train_runtime": 27837.1599,
     "train_samples": 768,
+    "train_samples_per_second": 0.552,
+    "train_steps_per_second": 0.069
 }

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd751a4191592ee601080b532d487e2444024e3205900acca92b7c94791e29dd
-size 17210060

 version https://git-lfs.github.com/spec/v1
+oid sha256:00224c78475a2ff2e27556796824b19aed9bd853b1925d36728fd05fd9d7693b
+size 17210230

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 20.0,
-    "total_flos": 2.3164148658497126e+17,
-    "train_loss": 0.5955550193786621,
-    "train_runtime": 25564.1453,
     "train_samples": 768,
-    "train_samples_per_second": 0.601,
-    "train_steps_per_second": 0.075
 }

 {
     "epoch": 20.0,
+    "total_flos": 2.492453077307228e+17,
+    "train_loss": 0.5602036555608113,
+    "train_runtime": 27837.1599,
     "train_samples": 768,
+    "train_samples_per_second": 0.552,
+    "train_steps_per_second": 0.069
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.6770833333333334,
-  "best_model_checkpoint": "Output_llama3_80-20/checkpoint-1248",
   "epoch": 20.0,
   "eval_steps": 500,
   "global_step": 1920,
@@ -10,233 +10,233 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5677083333333334,
-      "eval_balanced_accuracy": 0.5142820380854349,
-      "eval_loss": 0.6970844864845276,
-      "eval_runtime": 97.3238,
-      "eval_samples_per_second": 1.973,
-      "eval_steps_per_second": 0.247,
       "step": 96
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5625,
-      "eval_balanced_accuracy": 0.5830662097933017,
-      "eval_loss": 0.6866571307182312,
-      "eval_runtime": 102.2158,
-      "eval_samples_per_second": 1.878,
-      "eval_steps_per_second": 0.235,
       "step": 192
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.625,
-      "eval_balanced_accuracy": 0.598974358974359,
-      "eval_loss": 0.6729380488395691,
-      "eval_runtime": 103.7077,
-      "eval_samples_per_second": 1.851,
-      "eval_steps_per_second": 0.231,
       "step": 288
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5520833333333334,
-      "eval_balanced_accuracy": 0.5691039032435404,
-      "eval_loss": 0.6750795841217041,
-      "eval_runtime": 89.7713,
-      "eval_samples_per_second": 2.139,
-      "eval_steps_per_second": 0.267,
       "step": 384
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.65625,
-      "eval_balanced_accuracy": 0.6223698781838316,
-      "eval_loss": 0.6684662699699402,
-      "eval_runtime": 106.6219,
-      "eval_samples_per_second": 1.801,
-      "eval_steps_per_second": 0.225,
       "step": 480
     },
     {
       "epoch": 5.208333333333333,
-      "grad_norm": 3.4840712547302246,
       "learning_rate": 7.395833333333335e-06,
-      "loss": 0.6536,
       "step": 500
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.65625,
-      "eval_balanced_accuracy": 0.6198547215496368,
-      "eval_loss": 0.6698883175849915,
-      "eval_runtime": 93.5707,
-      "eval_samples_per_second": 2.052,
-      "eval_steps_per_second": 0.256,
       "step": 576
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.6510416666666666,
-      "eval_balanced_accuracy": 0.6218969555035129,
-      "eval_loss": 0.6704875826835632,
-      "eval_runtime": 101.5333,
-      "eval_samples_per_second": 1.891,
-      "eval_steps_per_second": 0.236,
       "step": 672
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.65625,
-      "eval_balanced_accuracy": 0.6251940298507462,
-      "eval_loss": 0.6747407913208008,
-      "eval_runtime": 104.8955,
-      "eval_samples_per_second": 1.83,
-      "eval_steps_per_second": 0.229,
       "step": 768
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.6510416666666666,
-      "eval_balanced_accuracy": 0.6254008245533669,
-      "eval_loss": 0.6806783676147461,
-      "eval_runtime": 100.5578,
-      "eval_samples_per_second": 1.909,
-      "eval_steps_per_second": 0.239,
       "step": 864
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.6302083333333334,
-      "eval_balanced_accuracy": 0.603412734768667,
-      "eval_loss": 0.6781837344169617,
-      "eval_runtime": 99.3329,
-      "eval_samples_per_second": 1.933,
-      "eval_steps_per_second": 0.242,
       "step": 960
     },
     {
       "epoch": 10.416666666666666,
-      "grad_norm": 31.503376007080078,
       "learning_rate": 4.791666666666668e-06,
-      "loss": 0.6132,
       "step": 1000
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.5885416666666666,
-      "eval_balanced_accuracy": 0.5695121951219512,
-      "eval_loss": 0.6868965029716492,
-      "eval_runtime": 103.0036,
-      "eval_samples_per_second": 1.864,
-      "eval_steps_per_second": 0.233,
       "step": 1056
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.546875,
-      "eval_balanced_accuracy": 0.5621983326020185,
-      "eval_loss": 0.708362877368927,
-      "eval_runtime": 104.4672,
-      "eval_samples_per_second": 1.838,
-      "eval_steps_per_second": 0.23,
       "step": 1152
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.6770833333333334,
-      "eval_balanced_accuracy": 0.645100738330622,
-      "eval_loss": 0.6914852261543274,
-      "eval_runtime": 111.3687,
-      "eval_samples_per_second": 1.724,
-      "eval_steps_per_second": 0.216,
       "step": 1248
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.578125,
-      "eval_balanced_accuracy": 0.5668706293706294,
-      "eval_loss": 0.7045938968658447,
-      "eval_runtime": 102.8426,
-      "eval_samples_per_second": 1.867,
-      "eval_steps_per_second": 0.233,
       "step": 1344
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.671875,
-      "eval_balanced_accuracy": 0.6417748917748918,
-      "eval_loss": 0.7031722068786621,
-      "eval_runtime": 101.3122,
-      "eval_samples_per_second": 1.895,
-      "eval_steps_per_second": 0.237,
       "step": 1440
     },
     {
       "epoch": 15.625,
-      "grad_norm": 10.083698272705078,
       "learning_rate": 2.1875000000000002e-06,
-      "loss": 0.5715,
       "step": 1500
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.6354166666666666,
-      "eval_balanced_accuracy": 0.6079198802808794,
-      "eval_loss": 0.7011265754699707,
-      "eval_runtime": 100.5947,
-      "eval_samples_per_second": 1.909,
-      "eval_steps_per_second": 0.239,
       "step": 1536
     },
     {
       "epoch": 17.0,
       "eval_accuracy": 0.6666666666666666,
-      "eval_balanced_accuracy": 0.6366567164179104,
-      "eval_loss": 0.7047572135925293,
-      "eval_runtime": 93.643,
-      "eval_samples_per_second": 2.05,
-      "eval_steps_per_second": 0.256,
       "step": 1632
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.640625,
-      "eval_balanced_accuracy": 0.610655737704918,
-      "eval_loss": 0.7149026989936829,
-      "eval_runtime": 78.6581,
-      "eval_samples_per_second": 2.441,
-      "eval_steps_per_second": 0.305,
       "step": 1728
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.6145833333333334,
-      "eval_balanced_accuracy": 0.5902879728966686,
-      "eval_loss": 0.7165386080741882,
-      "eval_runtime": 78.477,
-      "eval_samples_per_second": 2.447,
-      "eval_steps_per_second": 0.306,
       "step": 1824
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.6354166666666666,
-      "eval_balanced_accuracy": 0.6059830054708416,
-      "eval_loss": 0.719306468963623,
-      "eval_runtime": 79.9559,
-      "eval_samples_per_second": 2.401,
-      "eval_steps_per_second": 0.3,
       "step": 1920
     },
     {
       "epoch": 20.0,
       "step": 1920,
-      "total_flos": 2.3164148658497126e+17,
-      "train_loss": 0.5955550193786621,
-      "train_runtime": 25564.1453,
-      "train_samples_per_second": 0.601,
-      "train_steps_per_second": 0.075
     }
   ],
   "logging_steps": 500,
@@ -251,7 +251,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 7
       }
     },
     "TrainerControl": {
@@ -265,7 +265,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.3164148658497126e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6927083333333334,
+  "best_model_checkpoint": "Output_llama3_80-20/checkpoint-1440",
   "epoch": 20.0,
   "eval_steps": 500,
   "global_step": 1920,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5625,
+      "eval_balanced_accuracy": 0.5461538461538462,
+      "eval_loss": 0.6857039928436279,
+      "eval_runtime": 73.4129,
+      "eval_samples_per_second": 2.615,
+      "eval_steps_per_second": 0.327,
       "step": 96
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5833333333333334,
+      "eval_balanced_accuracy": 0.5758314855875832,
+      "eval_loss": 0.6683754324913025,
+      "eval_runtime": 104.3141,
+      "eval_samples_per_second": 1.841,
+      "eval_steps_per_second": 0.23,
       "step": 192
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6197916666666666,
+      "eval_balanced_accuracy": 0.6383647798742138,
+      "eval_loss": 0.7166934609413147,
+      "eval_runtime": 110.585,
+      "eval_samples_per_second": 1.736,
+      "eval_steps_per_second": 0.217,
       "step": 288
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.625,
+      "eval_balanced_accuracy": 0.6178571428571429,
+      "eval_loss": 0.6334595084190369,
+      "eval_runtime": 109.4964,
+      "eval_samples_per_second": 1.753,
+      "eval_steps_per_second": 0.219,
       "step": 384
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.5989583333333334,
+      "eval_balanced_accuracy": 0.6296716417910448,
+      "eval_loss": 0.6574041843414307,
+      "eval_runtime": 89.6626,
+      "eval_samples_per_second": 2.141,
+      "eval_steps_per_second": 0.268,
       "step": 480
     },
     {
       "epoch": 5.208333333333333,
+      "grad_norm": 72.83433532714844,
       "learning_rate": 7.395833333333335e-06,
+      "loss": 0.6776,
       "step": 500
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.625,
+      "eval_balanced_accuracy": 0.6168117269812186,
+      "eval_loss": 0.6321956515312195,
+      "eval_runtime": 106.1665,
+      "eval_samples_per_second": 1.808,
+      "eval_steps_per_second": 0.226,
       "step": 576
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.609375,
+      "eval_balanced_accuracy": 0.6114369501466275,
+      "eval_loss": 0.6374137997627258,
+      "eval_runtime": 107.701,
+      "eval_samples_per_second": 1.783,
+      "eval_steps_per_second": 0.223,
       "step": 672
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6354166666666666,
+      "eval_balanced_accuracy": 0.6277777777777778,
+      "eval_loss": 0.6261330246925354,
+      "eval_runtime": 107.9832,
+      "eval_samples_per_second": 1.778,
+      "eval_steps_per_second": 0.222,
       "step": 768
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.640625,
+      "eval_balanced_accuracy": 0.6650742488776332,
+      "eval_loss": 0.6289492249488831,
+      "eval_runtime": 111.0235,
+      "eval_samples_per_second": 1.729,
+      "eval_steps_per_second": 0.216,
       "step": 864
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.640625,
+      "eval_balanced_accuracy": 0.6367950256354314,
+      "eval_loss": 0.6082468628883362,
+      "eval_runtime": 96.7719,
+      "eval_samples_per_second": 1.984,
+      "eval_steps_per_second": 0.248,
       "step": 960
     },
     {
       "epoch": 10.416666666666666,
+      "grad_norm": 18.0618839263916,
       "learning_rate": 4.791666666666668e-06,
+      "loss": 0.5732,
       "step": 1000
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.6614583333333334,
+      "eval_balanced_accuracy": 0.6552593256413128,
+      "eval_loss": 0.603647768497467,
+      "eval_runtime": 103.3538,
+      "eval_samples_per_second": 1.858,
+      "eval_steps_per_second": 0.232,
       "step": 1056
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.6510416666666666,
+      "eval_balanced_accuracy": 0.6869850746268656,
+      "eval_loss": 0.6444854140281677,
+      "eval_runtime": 107.7167,
+      "eval_samples_per_second": 1.782,
+      "eval_steps_per_second": 0.223,
       "step": 1152
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.6875,
+      "eval_balanced_accuracy": 0.6833333333333333,
+      "eval_loss": 0.6093500852584839,
+      "eval_runtime": 101.5591,
+      "eval_samples_per_second": 1.891,
+      "eval_steps_per_second": 0.236,
       "step": 1248
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_balanced_accuracy": 0.6607142857142857,
+      "eval_loss": 0.6103670001029968,
+      "eval_runtime": 113.5782,
+      "eval_samples_per_second": 1.69,
+      "eval_steps_per_second": 0.211,
       "step": 1344
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.6927083333333334,
+      "eval_balanced_accuracy": 0.6959704667751221,
+      "eval_loss": 0.6553041338920593,
+      "eval_runtime": 100.5241,
+      "eval_samples_per_second": 1.91,
+      "eval_steps_per_second": 0.239,
       "step": 1440
     },
     {
       "epoch": 15.625,
+      "grad_norm": 14.87450885772705,
       "learning_rate": 2.1875000000000002e-06,
+      "loss": 0.5144,
       "step": 1500
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.6510416666666666,
+      "eval_balanced_accuracy": 0.6603078614623419,
+      "eval_loss": 0.6261806488037109,
+      "eval_runtime": 106.7804,
+      "eval_samples_per_second": 1.798,
+      "eval_steps_per_second": 0.225,
       "step": 1536
     },
     {
       "epoch": 17.0,
       "eval_accuracy": 0.6666666666666666,
+      "eval_balanced_accuracy": 0.6619131197893813,
+      "eval_loss": 0.6154211163520813,
+      "eval_runtime": 86.3959,
+      "eval_samples_per_second": 2.222,
+      "eval_steps_per_second": 0.278,
       "step": 1632
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.6666666666666666,
+      "eval_balanced_accuracy": 0.6619131197893813,
+      "eval_loss": 0.6210435032844543,
+      "eval_runtime": 88.4219,
+      "eval_samples_per_second": 2.171,
+      "eval_steps_per_second": 0.271,
       "step": 1728
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.6770833333333334,
+      "eval_balanced_accuracy": 0.6716186252771619,
+      "eval_loss": 0.6292756795883179,
+      "eval_runtime": 87.5484,
+      "eval_samples_per_second": 2.193,
+      "eval_steps_per_second": 0.274,
       "step": 1824
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.6614583333333334,
+      "eval_balanced_accuracy": 0.6563496426608026,
+      "eval_loss": 0.6274305582046509,
+      "eval_runtime": 65.5102,
+      "eval_samples_per_second": 2.931,
+      "eval_steps_per_second": 0.366,
       "step": 1920
     },
     {
       "epoch": 20.0,
       "step": 1920,
+      "total_flos": 2.492453077307228e+17,
+      "train_loss": 0.5602036555608113,
+      "train_runtime": 27837.1599,
+      "train_samples_per_second": 0.552,
+      "train_steps_per_second": 0.069
     }
   ],
   "logging_steps": 500,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 5
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.492453077307228e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null