Update model to Roberta

Use Roberta-base as an example of the model instead, as it produces marginal improvements and was used as our model when we ran the prediction of further data.

Files changed (12) hide show

config.json +20 -17
merges.txt +0 -0
model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +13 -5
tokenizer.json +0 -0
tokenizer_config.json +25 -23
trainer_state.json +451 -310
training_args.bin +1 -1
vocab.json +0 -0

config.json CHANGED Viewed

@@ -1,13 +1,15 @@
 {
-  "_name_or_path": "distilbert-base-uncased",
-  "activation": "gelu",
   "architectures": [
-    "DistilBertForSequenceClassification"
   ],
-  "attention_dropout": 0.1,
-  "dim": 768,
-  "dropout": 0.1,
-  "hidden_dim": 3072,
   "id2label": {
     "0": "EVENT_Illness",
     "1": "EVENT_Accident",
@@ -23,6 +25,7 @@
     "11": "ACTION_Priest_High_Religion"
   },
   "initializer_range": 0.02,
   "label2id": {
     "ACTION_Divination": 9,
     "ACTION_Physical_Material": 7,
@@ -37,17 +40,17 @@
     "EVENT_Illness": 0,
     "EVENT_Other": 2
   },
-  "max_position_embeddings": 512,
-  "model_type": "distilbert",
-  "n_heads": 12,
-  "n_layers": 6,
-  "pad_token_id": 0,
   "problem_type": "multi_label_classification",
-  "qa_dropout": 0.1,
-  "seq_classif_dropout": 0.2,
-  "sinusoidal_pos_embds": false,
-  "tie_weights_": true,
   "torch_dtype": "float32",
   "transformers_version": "4.41.1",
-  "vocab_size": 30522
 }

 {
+  "_name_or_path": "roberta-base",
   "architectures": [
+    "RobertaForSequenceClassification"
   ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
   "id2label": {
     "0": "EVENT_Illness",
     "1": "EVENT_Accident",
     "11": "ACTION_Priest_High_Religion"
   },
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
   "label2id": {
     "ACTION_Divination": 9,
     "ACTION_Physical_Material": 7,
     "EVENT_Illness": 0,
     "EVENT_Other": 2
   },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
   "problem_type": "multi_label_classification",
   "torch_dtype": "float32",
   "transformers_version": "4.41.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
 }

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:610010ff6d1820ecda9ccc984dc14b78e65a98750da221e9da71dd4100294c76
-size 267863328

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5ca05876cf3afcab6dd3663ec1da3c4140beba4d57538335952e4fcbc5726f8
+size 498643584

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:097a9d2dbbb8bd734adf115a34b696de90b89b7e310a93e9fb3c58bd2e7ddceb
-size 535788730

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff392e23a8b29f83c080239697cb66c5590f3624a6cd4bdbd3c7bd6e416b9c3a
+size 997406970

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88ff5bb36b8e29678107a9fe193a35ed023fde1c7b0d9c95341d37f70c2cdbea
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d79ca43ed4de6070e99212deaaf8b64aeb3e2e8e121eced50b7b4583557dcafd
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10b3b185fea1205fbfcb56f550d303bc0b6cb7d325de973a2d3dc5d3e34c96cf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:66dbd422e8b77089bde7762cdb8a7cd324acef7ce31dd863b7ad1d09d9d144e4
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,7 +1,15 @@
 {
-  "cls_token": "[CLS]",
-  "mask_token": "[MASK]",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "unk_token": "[UNK]"
 }

 {
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,55 +1,57 @@
 {
   "added_tokens_decoder": {
     "0": {
-      "content": "[PAD]",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "100": {
-      "content": "[UNK]",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "101": {
-      "content": "[CLS]",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "102": {
-      "content": "[SEP]",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "103": {
-      "content": "[MASK]",
-      "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "clean_up_tokenization_spaces": true,
-  "cls_token": "[CLS]",
-  "do_lower_case": true,
-  "mask_token": "[MASK]",
   "model_max_length": 512,
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "strip_accents": null,
-  "tokenize_chinese_chars": true,
-  "tokenizer_class": "DistilBertTokenizer",
-  "unk_token": "[UNK]"
 }

 {
+  "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
+      "content": "<s>",
       "lstrip": false,
+      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "1": {
+      "content": "<pad>",
       "lstrip": false,
+      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "2": {
+      "content": "</s>",
       "lstrip": false,
+      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "3": {
+      "content": "<unk>",
       "lstrip": false,
+      "normalized": true,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
+  "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
   "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
 }

trainer_state.json CHANGED Viewed

@@ -1,904 +1,1045 @@
 {
-  "best_metric": 0.6474642162926313,
-  "best_model_checkpoint": "drive/MyDrive/NLP_HRAF//Models/HRAF_MultiLabel_SubClasses_Kfolds/Model_3_LearningRates/Learning_Rate_2e-05_fold_1/checkpoint-10790",
-  "epoch": 13.0,
   "eval_steps": 500,
-  "global_step": 10790,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.12048192771084337,
-      "grad_norm": 0.7108750343322754,
       "learning_rate": 1.9839357429718877e-05,
-      "loss": 0.4589,
       "step": 100
     },
     {
       "epoch": 0.24096385542168675,
-      "grad_norm": 0.7625552415847778,
       "learning_rate": 1.967871485943775e-05,
-      "loss": 0.3592,
       "step": 200
     },
     {
       "epoch": 0.3614457831325301,
-      "grad_norm": 0.8666885495185852,
       "learning_rate": 1.951807228915663e-05,
-      "loss": 0.3393,
       "step": 300
     },
     {
       "epoch": 0.4819277108433735,
-      "grad_norm": 0.9493631720542908,
       "learning_rate": 1.9357429718875505e-05,
-      "loss": 0.3154,
       "step": 400
     },
     {
       "epoch": 0.6024096385542169,
-      "grad_norm": 0.8787522315979004,
       "learning_rate": 1.9196787148594377e-05,
-      "loss": 0.3001,
       "step": 500
     },
     {
       "epoch": 0.7228915662650602,
-      "grad_norm": 0.9206348061561584,
       "learning_rate": 1.9036144578313255e-05,
-      "loss": 0.2905,
       "step": 600
     },
     {
       "epoch": 0.8433734939759037,
-      "grad_norm": 1.008158564567566,
       "learning_rate": 1.887550200803213e-05,
-      "loss": 0.2877,
       "step": 700
     },
     {
       "epoch": 0.963855421686747,
-      "grad_norm": 1.307525873184204,
       "learning_rate": 1.8714859437751005e-05,
-      "loss": 0.2888,
       "step": 800
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.36347197106690776,
-      "eval_f1": 0.5040954832670255,
-      "eval_loss": 0.2610304355621338,
-      "eval_roc_auc": 0.67926006705383,
-      "eval_runtime": 20.823,
-      "eval_samples_per_second": 79.671,
-      "eval_steps_per_second": 9.989,
       "step": 830
     },
     {
       "epoch": 1.0843373493975903,
-      "grad_norm": 1.141208529472351,
       "learning_rate": 1.855421686746988e-05,
-      "loss": 0.269,
       "step": 900
     },
     {
       "epoch": 1.2048192771084336,
-      "grad_norm": 0.8844193816184998,
       "learning_rate": 1.8393574297188755e-05,
-      "loss": 0.2579,
       "step": 1000
     },
     {
       "epoch": 1.3253012048192772,
-      "grad_norm": 1.1616642475128174,
       "learning_rate": 1.8232931726907634e-05,
-      "loss": 0.2549,
       "step": 1100
     },
     {
       "epoch": 1.4457831325301205,
-      "grad_norm": 1.3445640802383423,
       "learning_rate": 1.807228915662651e-05,
-      "loss": 0.2551,
       "step": 1200
     },
     {
       "epoch": 1.5662650602409638,
-      "grad_norm": 1.131273865699768,
       "learning_rate": 1.7911646586345384e-05,
-      "loss": 0.2672,
       "step": 1300
     },
     {
       "epoch": 1.6867469879518073,
-      "grad_norm": 1.3358525037765503,
       "learning_rate": 1.775100401606426e-05,
-      "loss": 0.2454,
       "step": 1400
     },
     {
       "epoch": 1.8072289156626506,
-      "grad_norm": 1.2100324630737305,
       "learning_rate": 1.7590361445783134e-05,
-      "loss": 0.2364,
       "step": 1500
     },
     {
       "epoch": 1.927710843373494,
-      "grad_norm": 1.2214767932891846,
       "learning_rate": 1.742971887550201e-05,
-      "loss": 0.2409,
       "step": 1600
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.3767329716696805,
-      "eval_f1": 0.6076237435994689,
-      "eval_loss": 0.24850943684577942,
-      "eval_roc_auc": 0.7578414834576195,
-      "eval_runtime": 21.0346,
-      "eval_samples_per_second": 78.87,
-      "eval_steps_per_second": 9.888,
       "step": 1660
     },
     {
       "epoch": 2.0481927710843375,
-      "grad_norm": 0.8881352543830872,
       "learning_rate": 1.7269076305220884e-05,
-      "loss": 0.2341,
       "step": 1700
     },
     {
       "epoch": 2.1686746987951806,
-      "grad_norm": 1.4135143756866455,
       "learning_rate": 1.710843373493976e-05,
-      "loss": 0.2119,
       "step": 1800
     },
     {
       "epoch": 2.289156626506024,
-      "grad_norm": 1.291266918182373,
       "learning_rate": 1.6947791164658637e-05,
-      "loss": 0.2074,
       "step": 1900
     },
     {
       "epoch": 2.4096385542168672,
-      "grad_norm": 1.311950445175171,
       "learning_rate": 1.6787148594377512e-05,
-      "loss": 0.2063,
       "step": 2000
     },
     {
       "epoch": 2.5301204819277108,
-      "grad_norm": 1.6564782857894897,
       "learning_rate": 1.6626506024096387e-05,
-      "loss": 0.2169,
       "step": 2100
     },
     {
       "epoch": 2.6506024096385543,
-      "grad_norm": 2.071871757507324,
       "learning_rate": 1.6465863453815262e-05,
-      "loss": 0.2041,
       "step": 2200
     },
     {
       "epoch": 2.7710843373493974,
-      "grad_norm": 1.6373318433761597,
       "learning_rate": 1.6305220883534137e-05,
-      "loss": 0.2149,
       "step": 2300
     },
     {
       "epoch": 2.891566265060241,
-      "grad_norm": 1.5182716846466064,
       "learning_rate": 1.6144578313253015e-05,
-      "loss": 0.2057,
       "step": 2400
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.3821579264617239,
-      "eval_f1": 0.6133793367835921,
-      "eval_loss": 0.24218665063381195,
-      "eval_roc_auc": 0.7590708449600018,
-      "eval_runtime": 20.7829,
-      "eval_samples_per_second": 79.825,
-      "eval_steps_per_second": 10.008,
       "step": 2490
     },
     {
       "epoch": 3.0120481927710845,
-      "grad_norm": 1.7013568878173828,
       "learning_rate": 1.5983935742971887e-05,
-      "loss": 0.202,
       "step": 2500
     },
     {
       "epoch": 3.1325301204819276,
-      "grad_norm": 1.2363818883895874,
       "learning_rate": 1.5823293172690762e-05,
-      "loss": 0.1797,
       "step": 2600
     },
     {
       "epoch": 3.253012048192771,
-      "grad_norm": 2.084066390991211,
       "learning_rate": 1.566265060240964e-05,
       "loss": 0.1788,
       "step": 2700
     },
     {
       "epoch": 3.3734939759036147,
-      "grad_norm": 1.1712193489074707,
       "learning_rate": 1.5502008032128516e-05,
-      "loss": 0.169,
       "step": 2800
     },
     {
       "epoch": 3.4939759036144578,
-      "grad_norm": 1.9433542490005493,
       "learning_rate": 1.534136546184739e-05,
-      "loss": 0.1712,
       "step": 2900
     },
     {
       "epoch": 3.6144578313253013,
-      "grad_norm": 2.300347328186035,
       "learning_rate": 1.5180722891566266e-05,
-      "loss": 0.1749,
       "step": 3000
     },
     {
       "epoch": 3.734939759036145,
-      "grad_norm": 1.4740608930587769,
       "learning_rate": 1.5020080321285142e-05,
-      "loss": 0.1736,
       "step": 3100
     },
     {
       "epoch": 3.855421686746988,
-      "grad_norm": 1.7682331800460815,
       "learning_rate": 1.4859437751004017e-05,
-      "loss": 0.1635,
       "step": 3200
     },
     {
       "epoch": 3.9759036144578315,
-      "grad_norm": 1.4352338314056396,
       "learning_rate": 1.4698795180722894e-05,
-      "loss": 0.1587,
       "step": 3300
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.38276069921639544,
-      "eval_f1": 0.6340291889894697,
-      "eval_loss": 0.2462325543165207,
-      "eval_roc_auc": 0.7771644800479557,
-      "eval_runtime": 21.0125,
-      "eval_samples_per_second": 78.953,
-      "eval_steps_per_second": 9.899,
       "step": 3320
     },
     {
       "epoch": 4.096385542168675,
-      "grad_norm": 3.4992010593414307,
       "learning_rate": 1.4538152610441769e-05,
-      "loss": 0.148,
       "step": 3400
     },
     {
       "epoch": 4.216867469879518,
-      "grad_norm": 1.555429458618164,
       "learning_rate": 1.4377510040160642e-05,
-      "loss": 0.1397,
       "step": 3500
     },
     {
       "epoch": 4.337349397590361,
-      "grad_norm": 2.655567169189453,
       "learning_rate": 1.4216867469879519e-05,
-      "loss": 0.1412,
       "step": 3600
     },
     {
       "epoch": 4.457831325301205,
-      "grad_norm": 1.797630786895752,
       "learning_rate": 1.4056224899598394e-05,
-      "loss": 0.1419,
       "step": 3700
     },
     {
       "epoch": 4.578313253012048,
-      "grad_norm": 1.2415262460708618,
       "learning_rate": 1.3895582329317269e-05,
-      "loss": 0.1405,
       "step": 3800
     },
     {
       "epoch": 4.698795180722891,
-      "grad_norm": 1.4111042022705078,
       "learning_rate": 1.3734939759036146e-05,
-      "loss": 0.1349,
       "step": 3900
     },
     {
       "epoch": 4.8192771084337345,
-      "grad_norm": 2.2596189975738525,
       "learning_rate": 1.357429718875502e-05,
-      "loss": 0.1291,
       "step": 4000
     },
     {
       "epoch": 4.9397590361445785,
-      "grad_norm": 2.264066457748413,
       "learning_rate": 1.3413654618473897e-05,
-      "loss": 0.1412,
       "step": 4100
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.38637733574442434,
-      "eval_f1": 0.627102627102627,
-      "eval_loss": 0.25749197602272034,
-      "eval_roc_auc": 0.7690261217645041,
-      "eval_runtime": 20.8914,
-      "eval_samples_per_second": 79.411,
-      "eval_steps_per_second": 9.956,
       "step": 4150
     },
     {
       "epoch": 5.0602409638554215,
-      "grad_norm": 1.1299407482147217,
       "learning_rate": 1.3253012048192772e-05,
-      "loss": 0.1223,
       "step": 4200
     },
     {
       "epoch": 5.180722891566265,
-      "grad_norm": 1.1912181377410889,
       "learning_rate": 1.309236947791165e-05,
-      "loss": 0.1112,
       "step": 4300
     },
     {
       "epoch": 5.301204819277109,
-      "grad_norm": 2.00722074508667,
       "learning_rate": 1.2931726907630524e-05,
-      "loss": 0.1035,
       "step": 4400
     },
     {
       "epoch": 5.421686746987952,
-      "grad_norm": 1.543757677078247,
       "learning_rate": 1.2771084337349398e-05,
-      "loss": 0.1082,
       "step": 4500
     },
     {
       "epoch": 5.542168674698795,
-      "grad_norm": 1.6844489574432373,
       "learning_rate": 1.2610441767068273e-05,
-      "loss": 0.1113,
       "step": 4600
     },
     {
       "epoch": 5.662650602409639,
-      "grad_norm": 2.3987362384796143,
       "learning_rate": 1.244979919678715e-05,
-      "loss": 0.1054,
       "step": 4700
     },
     {
       "epoch": 5.783132530120482,
-      "grad_norm": 1.196558952331543,
       "learning_rate": 1.2289156626506024e-05,
-      "loss": 0.1076,
       "step": 4800
     },
     {
       "epoch": 5.903614457831325,
-      "grad_norm": 1.7159672975540161,
       "learning_rate": 1.2128514056224901e-05,
-      "loss": 0.1129,
       "step": 4900
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.38396624472573837,
-      "eval_f1": 0.6401569186875892,
-      "eval_loss": 0.28615912795066833,
-      "eval_roc_auc": 0.7876849584660104,
-      "eval_runtime": 21.0174,
-      "eval_samples_per_second": 78.935,
-      "eval_steps_per_second": 9.897,
       "step": 4980
     },
     {
       "epoch": 6.024096385542169,
-      "grad_norm": 1.7499059438705444,
       "learning_rate": 1.1967871485943776e-05,
-      "loss": 0.101,
       "step": 5000
     },
     {
       "epoch": 6.144578313253012,
-      "grad_norm": 1.2233022451400757,
       "learning_rate": 1.1807228915662651e-05,
-      "loss": 0.0835,
       "step": 5100
     },
     {
       "epoch": 6.265060240963855,
-      "grad_norm": 1.219558596611023,
       "learning_rate": 1.1646586345381528e-05,
-      "loss": 0.082,
       "step": 5200
     },
     {
       "epoch": 6.385542168674699,
-      "grad_norm": 2.4673707485198975,
       "learning_rate": 1.1485943775100403e-05,
-      "loss": 0.0808,
       "step": 5300
     },
     {
       "epoch": 6.506024096385542,
-      "grad_norm": 2.749701738357544,
       "learning_rate": 1.132530120481928e-05,
-      "loss": 0.0891,
       "step": 5400
     },
     {
       "epoch": 6.626506024096385,
-      "grad_norm": 2.653024196624756,
       "learning_rate": 1.1164658634538153e-05,
-      "loss": 0.0895,
       "step": 5500
     },
     {
       "epoch": 6.746987951807229,
-      "grad_norm": 1.81606924533844,
       "learning_rate": 1.1004016064257028e-05,
-      "loss": 0.0827,
       "step": 5600
     },
     {
       "epoch": 6.867469879518072,
-      "grad_norm": 2.775585174560547,
       "learning_rate": 1.0843373493975904e-05,
-      "loss": 0.0872,
       "step": 5700
     },
     {
       "epoch": 6.9879518072289155,
-      "grad_norm": 3.0529415607452393,
       "learning_rate": 1.068273092369478e-05,
-      "loss": 0.0754,
       "step": 5800
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.3899939722724533,
-      "eval_f1": 0.6352293577981651,
-      "eval_loss": 0.30027899146080017,
-      "eval_roc_auc": 0.7791627807894616,
-      "eval_runtime": 20.9855,
-      "eval_samples_per_second": 79.054,
-      "eval_steps_per_second": 9.912,
       "step": 5810
     },
     {
       "epoch": 7.108433734939759,
-      "grad_norm": 1.6993205547332764,
       "learning_rate": 1.0522088353413654e-05,
-      "loss": 0.0723,
       "step": 5900
     },
     {
       "epoch": 7.228915662650603,
-      "grad_norm": 2.1551597118377686,
       "learning_rate": 1.0361445783132531e-05,
-      "loss": 0.0685,
       "step": 6000
     },
     {
       "epoch": 7.349397590361446,
-      "grad_norm": 1.4902188777923584,
       "learning_rate": 1.0200803212851406e-05,
-      "loss": 0.0664,
       "step": 6100
     },
     {
       "epoch": 7.469879518072289,
-      "grad_norm": 0.829651951789856,
       "learning_rate": 1.0040160642570283e-05,
-      "loss": 0.0662,
       "step": 6200
     },
     {
       "epoch": 7.590361445783133,
-      "grad_norm": 2.141355037689209,
       "learning_rate": 9.879518072289156e-06,
-      "loss": 0.0654,
       "step": 6300
     },
     {
       "epoch": 7.710843373493976,
-      "grad_norm": 0.7993516325950623,
       "learning_rate": 9.718875502008033e-06,
-      "loss": 0.0669,
       "step": 6400
     },
     {
       "epoch": 7.831325301204819,
-      "grad_norm": 0.8961694836616516,
       "learning_rate": 9.558232931726908e-06,
-      "loss": 0.0677,
       "step": 6500
     },
     {
       "epoch": 7.951807228915663,
-      "grad_norm": 1.8866826295852661,
       "learning_rate": 9.397590361445785e-06,
-      "loss": 0.058,
       "step": 6600
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.3887884267631103,
-      "eval_f1": 0.6461868190748349,
-      "eval_loss": 0.3176693618297577,
-      "eval_roc_auc": 0.790825180731994,
-      "eval_runtime": 20.9796,
-      "eval_samples_per_second": 79.077,
-      "eval_steps_per_second": 9.914,
       "step": 6640
     },
     {
       "epoch": 8.072289156626505,
-      "grad_norm": 0.4812127947807312,
       "learning_rate": 9.23694779116466e-06,
-      "loss": 0.0543,
       "step": 6700
     },
     {
       "epoch": 8.19277108433735,
-      "grad_norm": 1.1170074939727783,
       "learning_rate": 9.076305220883535e-06,
-      "loss": 0.0534,
       "step": 6800
     },
     {
       "epoch": 8.313253012048193,
-      "grad_norm": 2.044552803039551,
       "learning_rate": 8.91566265060241e-06,
-      "loss": 0.0541,
       "step": 6900
     },
     {
       "epoch": 8.433734939759036,
-      "grad_norm": 2.3580517768859863,
       "learning_rate": 8.755020080321286e-06,
-      "loss": 0.046,
       "step": 7000
     },
     {
       "epoch": 8.55421686746988,
-      "grad_norm": 2.568995952606201,
       "learning_rate": 8.594377510040161e-06,
-      "loss": 0.0516,
       "step": 7100
     },
     {
       "epoch": 8.674698795180722,
-      "grad_norm": 0.7591239213943481,
       "learning_rate": 8.433734939759038e-06,
-      "loss": 0.0503,
       "step": 7200
     },
     {
       "epoch": 8.795180722891565,
-      "grad_norm": 1.0098503828048706,
       "learning_rate": 8.273092369477911e-06,
-      "loss": 0.0452,
       "step": 7300
     },
     {
       "epoch": 8.91566265060241,
-      "grad_norm": 2.4211244583129883,
       "learning_rate": 8.112449799196788e-06,
-      "loss": 0.0611,
       "step": 7400
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.38396624472573837,
-      "eval_f1": 0.6377283414722372,
-      "eval_loss": 0.33842870593070984,
-      "eval_roc_auc": 0.783423869627736,
-      "eval_runtime": 20.9102,
-      "eval_samples_per_second": 79.339,
-      "eval_steps_per_second": 9.947,
       "step": 7470
     },
     {
       "epoch": 9.036144578313253,
-      "grad_norm": 1.7786929607391357,
       "learning_rate": 7.951807228915663e-06,
-      "loss": 0.0467,
       "step": 7500
     },
     {
       "epoch": 9.156626506024097,
-      "grad_norm": 0.9288263916969299,
       "learning_rate": 7.79116465863454e-06,
-      "loss": 0.0358,
       "step": 7600
     },
     {
       "epoch": 9.27710843373494,
-      "grad_norm": 1.6899335384368896,
       "learning_rate": 7.630522088353415e-06,
-      "loss": 0.0403,
       "step": 7700
     },
     {
       "epoch": 9.397590361445783,
-      "grad_norm": 0.633351743221283,
       "learning_rate": 7.469879518072289e-06,
-      "loss": 0.0409,
       "step": 7800
     },
     {
       "epoch": 9.518072289156626,
-      "grad_norm": 1.880730152130127,
       "learning_rate": 7.309236947791165e-06,
-      "loss": 0.04,
       "step": 7900
     },
     {
       "epoch": 9.638554216867469,
-      "grad_norm": 0.7761407494544983,
       "learning_rate": 7.148594377510041e-06,
-      "loss": 0.0416,
       "step": 8000
     },
     {
       "epoch": 9.759036144578314,
-      "grad_norm": 1.7540706396102905,
       "learning_rate": 6.987951807228917e-06,
-      "loss": 0.0383,
       "step": 8100
     },
     {
       "epoch": 9.879518072289157,
-      "grad_norm": 1.621785044670105,
       "learning_rate": 6.8273092369477925e-06,
-      "loss": 0.0399,
       "step": 8200
     },
     {
       "epoch": 10.0,
-      "grad_norm": 4.052353382110596,
       "learning_rate": 6.666666666666667e-06,
-      "loss": 0.0418,
       "step": 8300
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.38155515370705245,
-      "eval_f1": 0.6405322783672002,
-      "eval_loss": 0.3592796325683594,
-      "eval_roc_auc": 0.7861850408280293,
-      "eval_runtime": 20.9788,
-      "eval_samples_per_second": 79.08,
-      "eval_steps_per_second": 9.915,
       "step": 8300
     },
     {
       "epoch": 10.120481927710843,
-      "grad_norm": 2.524548053741455,
       "learning_rate": 6.5060240963855425e-06,
-      "loss": 0.0327,
       "step": 8400
     },
     {
       "epoch": 10.240963855421686,
-      "grad_norm": 2.5789272785186768,
       "learning_rate": 6.345381526104418e-06,
-      "loss": 0.0329,
       "step": 8500
     },
     {
       "epoch": 10.36144578313253,
-      "grad_norm": 1.6276124715805054,
       "learning_rate": 6.184738955823294e-06,
-      "loss": 0.0327,
       "step": 8600
     },
     {
       "epoch": 10.481927710843374,
-      "grad_norm": 1.2820446491241455,
       "learning_rate": 6.02409638554217e-06,
-      "loss": 0.0319,
       "step": 8700
     },
     {
       "epoch": 10.602409638554217,
-      "grad_norm": 0.8200409412384033,
       "learning_rate": 5.863453815261044e-06,
-      "loss": 0.0338,
       "step": 8800
     },
     {
       "epoch": 10.72289156626506,
-      "grad_norm": 1.6061540842056274,
       "learning_rate": 5.70281124497992e-06,
-      "loss": 0.0311,
       "step": 8900
     },
     {
       "epoch": 10.843373493975903,
-      "grad_norm": 2.1266753673553467,
       "learning_rate": 5.542168674698796e-06,
-      "loss": 0.0309,
       "step": 9000
     },
     {
       "epoch": 10.963855421686747,
-      "grad_norm": 1.8387219905853271,
       "learning_rate": 5.381526104417672e-06,
-      "loss": 0.0338,
       "step": 9100
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.38155515370705245,
-      "eval_f1": 0.6427417907769604,
-      "eval_loss": 0.37010136246681213,
-      "eval_roc_auc": 0.787888262607272,
-      "eval_runtime": 20.9246,
-      "eval_samples_per_second": 79.285,
-      "eval_steps_per_second": 9.94,
       "step": 9130
     },
     {
       "epoch": 11.08433734939759,
-      "grad_norm": 1.1557573080062866,
       "learning_rate": 5.220883534136547e-06,
-      "loss": 0.0261,
       "step": 9200
     },
     {
       "epoch": 11.204819277108435,
-      "grad_norm": 0.8962405920028687,
       "learning_rate": 5.060240963855422e-06,
-      "loss": 0.0247,
       "step": 9300
     },
     {
       "epoch": 11.325301204819278,
-      "grad_norm": 0.8799346089363098,
       "learning_rate": 4.899598393574298e-06,
-      "loss": 0.0255,
       "step": 9400
     },
     {
       "epoch": 11.44578313253012,
-      "grad_norm": 0.8840754628181458,
       "learning_rate": 4.7389558232931736e-06,
-      "loss": 0.0266,
       "step": 9500
     },
     {
       "epoch": 11.566265060240964,
-      "grad_norm": 1.1683375835418701,
       "learning_rate": 4.578313253012049e-06,
-      "loss": 0.0261,
       "step": 9600
     },
     {
       "epoch": 11.686746987951807,
-      "grad_norm": 0.885728120803833,
       "learning_rate": 4.4176706827309244e-06,
-      "loss": 0.0257,
       "step": 9700
     },
     {
       "epoch": 11.80722891566265,
-      "grad_norm": 0.2890942394733429,
       "learning_rate": 4.2570281124497995e-06,
-      "loss": 0.029,
       "step": 9800
     },
     {
       "epoch": 11.927710843373493,
-      "grad_norm": 2.2087390422821045,
       "learning_rate": 4.096385542168675e-06,
-      "loss": 0.0255,
       "step": 9900
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.3845690174804099,
-      "eval_f1": 0.6420863309352519,
-      "eval_loss": 0.3844664394855499,
-      "eval_roc_auc": 0.7870362182333409,
-      "eval_runtime": 20.95,
-      "eval_samples_per_second": 79.189,
-      "eval_steps_per_second": 9.928,
       "step": 9960
     },
     {
       "epoch": 12.048192771084338,
-      "grad_norm": 1.7163885831832886,
       "learning_rate": 3.93574297188755e-06,
-      "loss": 0.0261,
       "step": 10000
     },
     {
       "epoch": 12.168674698795181,
-      "grad_norm": 1.0416496992111206,
       "learning_rate": 3.7751004016064258e-06,
-      "loss": 0.0215,
       "step": 10100
     },
     {
       "epoch": 12.289156626506024,
-      "grad_norm": 1.3379343748092651,
       "learning_rate": 3.6144578313253016e-06,
-      "loss": 0.0223,
       "step": 10200
     },
     {
       "epoch": 12.409638554216867,
-      "grad_norm": 0.658170759677887,
       "learning_rate": 3.453815261044177e-06,
-      "loss": 0.0192,
       "step": 10300
     },
     {
       "epoch": 12.53012048192771,
-      "grad_norm": 0.9047495722770691,
       "learning_rate": 3.2931726907630525e-06,
-      "loss": 0.0237,
       "step": 10400
     },
     {
       "epoch": 12.650602409638553,
-      "grad_norm": 1.0494842529296875,
       "learning_rate": 3.132530120481928e-06,
-      "loss": 0.0193,
       "step": 10500
     },
     {
       "epoch": 12.771084337349398,
-      "grad_norm": 0.32704225182533264,
       "learning_rate": 2.9718875502008034e-06,
-      "loss": 0.0208,
       "step": 10600
     },
     {
       "epoch": 12.891566265060241,
-      "grad_norm": 0.49072301387786865,
       "learning_rate": 2.811244979919679e-06,
-      "loss": 0.0202,
       "step": 10700
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.38095238095238093,
-      "eval_f1": 0.6474642162926313,
-      "eval_loss": 0.3947090208530426,
-      "eval_roc_auc": 0.7937935574323361,
-      "eval_runtime": 21.0756,
-      "eval_samples_per_second": 78.716,
-      "eval_steps_per_second": 9.869,
       "step": 10790
     }
   ],
   "logging_steps": 100,
@@ -913,12 +1054,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8035320180521232.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6742756804214223,
+  "best_model_checkpoint": "drive/MyDrive/NLP_HRAF//Models/HRAF_MultiLabel_SubClasses_Kfolds/Model_5_Roberta/Learning_Rate_2e-05_Weight_Decay_0.01_fold_1/checkpoint-12450",
+  "epoch": 15.0,
   "eval_steps": 500,
+  "global_step": 12450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.12048192771084337,
+      "grad_norm": 0.9642070531845093,
       "learning_rate": 1.9839357429718877e-05,
+      "loss": 0.4237,
       "step": 100
     },
     {
       "epoch": 0.24096385542168675,
+      "grad_norm": 0.7253573536872864,
       "learning_rate": 1.967871485943775e-05,
+      "loss": 0.3297,
       "step": 200
     },
     {
       "epoch": 0.3614457831325301,
+      "grad_norm": 0.9410437941551208,
       "learning_rate": 1.951807228915663e-05,
+      "loss": 0.3214,
       "step": 300
     },
     {
       "epoch": 0.4819277108433735,
+      "grad_norm": 1.9593065977096558,
       "learning_rate": 1.9357429718875505e-05,
+      "loss": 0.304,
       "step": 400
     },
     {
       "epoch": 0.6024096385542169,
+      "grad_norm": 1.892052412033081,
       "learning_rate": 1.9196787148594377e-05,
+      "loss": 0.2951,
       "step": 500
     },
     {
       "epoch": 0.7228915662650602,
+      "grad_norm": 1.4741196632385254,
       "learning_rate": 1.9036144578313255e-05,
+      "loss": 0.2843,
       "step": 600
     },
     {
       "epoch": 0.8433734939759037,
+      "grad_norm": 1.5908536911010742,
       "learning_rate": 1.887550200803213e-05,
+      "loss": 0.278,
       "step": 700
     },
     {
       "epoch": 0.963855421686747,
+      "grad_norm": 2.7788383960723877,
       "learning_rate": 1.8714859437751005e-05,
+      "loss": 0.2809,
       "step": 800
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.37130801687763715,
+      "eval_f1": 0.5538327145664992,
+      "eval_loss": 0.25523483753204346,
+      "eval_roc_auc": 0.7095420424046738,
+      "eval_runtime": 36.0551,
+      "eval_samples_per_second": 46.013,
+      "eval_steps_per_second": 5.769,
       "step": 830
     },
     {
       "epoch": 1.0843373493975903,
+      "grad_norm": 2.297464370727539,
       "learning_rate": 1.855421686746988e-05,
+      "loss": 0.2649,
       "step": 900
     },
     {
       "epoch": 1.2048192771084336,
+      "grad_norm": 2.1780202388763428,
       "learning_rate": 1.8393574297188755e-05,
+      "loss": 0.2526,
       "step": 1000
     },
     {
       "epoch": 1.3253012048192772,
+      "grad_norm": 2.1221420764923096,
       "learning_rate": 1.8232931726907634e-05,
+      "loss": 0.2516,
       "step": 1100
     },
     {
       "epoch": 1.4457831325301205,
+      "grad_norm": 2.1369152069091797,
       "learning_rate": 1.807228915662651e-05,
+      "loss": 0.2512,
       "step": 1200
     },
     {
       "epoch": 1.5662650602409638,
+      "grad_norm": 1.9198232889175415,
       "learning_rate": 1.7911646586345384e-05,
+      "loss": 0.2635,
       "step": 1300
     },
     {
       "epoch": 1.6867469879518073,
+      "grad_norm": 1.4999780654907227,
       "learning_rate": 1.775100401606426e-05,
+      "loss": 0.2429,
       "step": 1400
     },
     {
       "epoch": 1.8072289156626506,
+      "grad_norm": 2.2243740558624268,
       "learning_rate": 1.7590361445783134e-05,
+      "loss": 0.2341,
       "step": 1500
     },
     {
       "epoch": 1.927710843373494,
+      "grad_norm": 1.936194896697998,
       "learning_rate": 1.742971887550201e-05,
+      "loss": 0.2358,
       "step": 1600
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.38396624472573837,
+      "eval_f1": 0.6305942773294204,
+      "eval_loss": 0.24461282789707184,
+      "eval_roc_auc": 0.7766385397275983,
+      "eval_runtime": 36.1223,
+      "eval_samples_per_second": 45.927,
+      "eval_steps_per_second": 5.758,
       "step": 1660
     },
     {
       "epoch": 2.0481927710843375,
+      "grad_norm": 1.8394912481307983,
       "learning_rate": 1.7269076305220884e-05,
+      "loss": 0.2262,
       "step": 1700
     },
     {
       "epoch": 2.1686746987951806,
+      "grad_norm": 1.9453928470611572,
       "learning_rate": 1.710843373493976e-05,
+      "loss": 0.2099,
       "step": 1800
     },
     {
       "epoch": 2.289156626506024,
+      "grad_norm": 3.4696056842803955,
       "learning_rate": 1.6947791164658637e-05,
+      "loss": 0.2055,
       "step": 1900
     },
     {
       "epoch": 2.4096385542168672,
+      "grad_norm": 3.629636764526367,
       "learning_rate": 1.6787148594377512e-05,
+      "loss": 0.2048,
       "step": 2000
     },
     {
       "epoch": 2.5301204819277108,
+      "grad_norm": 3.143533229827881,
       "learning_rate": 1.6626506024096387e-05,
+      "loss": 0.2149,
       "step": 2100
     },
     {
       "epoch": 2.6506024096385543,
+      "grad_norm": 4.122682094573975,
       "learning_rate": 1.6465863453815262e-05,
+      "loss": 0.2027,
       "step": 2200
     },
     {
       "epoch": 2.7710843373493974,
+      "grad_norm": 2.8808822631835938,
       "learning_rate": 1.6305220883534137e-05,
+      "loss": 0.2153,
       "step": 2300
     },
     {
       "epoch": 2.891566265060241,
+      "grad_norm": 2.86367130279541,
       "learning_rate": 1.6144578313253015e-05,
+      "loss": 0.2038,
       "step": 2400
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.3990355635925256,
+      "eval_f1": 0.648381788261108,
+      "eval_loss": 0.23571637272834778,
+      "eval_roc_auc": 0.7872360545001245,
+      "eval_runtime": 36.0229,
+      "eval_samples_per_second": 46.054,
+      "eval_steps_per_second": 5.774,
       "step": 2490
     },
     {
       "epoch": 3.0120481927710845,
+      "grad_norm": 2.759669780731201,
       "learning_rate": 1.5983935742971887e-05,
+      "loss": 0.2018,
       "step": 2500
     },
     {
       "epoch": 3.1325301204819276,
+      "grad_norm": 6.346066951751709,
       "learning_rate": 1.5823293172690762e-05,
+      "loss": 0.179,
       "step": 2600
     },
     {
       "epoch": 3.253012048192771,
+      "grad_norm": 2.918868064880371,
       "learning_rate": 1.566265060240964e-05,
       "loss": 0.1788,
       "step": 2700
     },
     {
       "epoch": 3.3734939759036147,
+      "grad_norm": 3.852792263031006,
       "learning_rate": 1.5502008032128516e-05,
+      "loss": 0.1727,
       "step": 2800
     },
     {
       "epoch": 3.4939759036144578,
+      "grad_norm": 6.0479655265808105,
       "learning_rate": 1.534136546184739e-05,
+      "loss": 0.1791,
       "step": 2900
     },
     {
       "epoch": 3.6144578313253013,
+      "grad_norm": 3.1924941539764404,
       "learning_rate": 1.5180722891566266e-05,
+      "loss": 0.1739,
       "step": 3000
     },
     {
       "epoch": 3.734939759036145,
+      "grad_norm": 2.770388603210449,
       "learning_rate": 1.5020080321285142e-05,
+      "loss": 0.1723,
       "step": 3100
     },
     {
       "epoch": 3.855421686746988,
+      "grad_norm": 3.522843360900879,
       "learning_rate": 1.4859437751004017e-05,
+      "loss": 0.1664,
       "step": 3200
     },
     {
       "epoch": 3.9759036144578315,
+      "grad_norm": 2.9013149738311768,
       "learning_rate": 1.4698795180722894e-05,
+      "loss": 0.1591,
       "step": 3300
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.4213381555153707,
+      "eval_f1": 0.6570518823749766,
+      "eval_loss": 0.2389475554227829,
+      "eval_roc_auc": 0.7871399448360252,
+      "eval_runtime": 35.9942,
+      "eval_samples_per_second": 46.091,
+      "eval_steps_per_second": 5.779,
       "step": 3320
     },
     {
       "epoch": 4.096385542168675,
+      "grad_norm": 2.389446258544922,
       "learning_rate": 1.4538152610441769e-05,
+      "loss": 0.1488,
       "step": 3400
     },
     {
       "epoch": 4.216867469879518,
+      "grad_norm": 2.0893971920013428,
       "learning_rate": 1.4377510040160642e-05,
+      "loss": 0.1431,
       "step": 3500
     },
     {
       "epoch": 4.337349397590361,
+      "grad_norm": 4.6121745109558105,
       "learning_rate": 1.4216867469879519e-05,
+      "loss": 0.1436,
       "step": 3600
     },
     {
       "epoch": 4.457831325301205,
+      "grad_norm": 3.5218753814697266,
       "learning_rate": 1.4056224899598394e-05,
+      "loss": 0.152,
       "step": 3700
     },
     {
       "epoch": 4.578313253012048,
+      "grad_norm": 1.686698317527771,
       "learning_rate": 1.3895582329317269e-05,
+      "loss": 0.1463,
       "step": 3800
     },
     {
       "epoch": 4.698795180722891,
+      "grad_norm": 3.079829692840576,
       "learning_rate": 1.3734939759036146e-05,
+      "loss": 0.1434,
       "step": 3900
     },
     {
       "epoch": 4.8192771084337345,
+      "grad_norm": 3.5164265632629395,
       "learning_rate": 1.357429718875502e-05,
+      "loss": 0.1352,
       "step": 4000
     },
     {
       "epoch": 4.9397590361445785,
+      "grad_norm": 4.049747467041016,
       "learning_rate": 1.3413654618473897e-05,
+      "loss": 0.1427,
       "step": 4100
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.4207353827606992,
+      "eval_f1": 0.6415022761760243,
+      "eval_loss": 0.2513498365879059,
+      "eval_roc_auc": 0.7761577437017827,
+      "eval_runtime": 36.1323,
+      "eval_samples_per_second": 45.915,
+      "eval_steps_per_second": 5.757,
       "step": 4150
     },
     {
       "epoch": 5.0602409638554215,
+      "grad_norm": 3.9669837951660156,
       "learning_rate": 1.3253012048192772e-05,
+      "loss": 0.1295,
       "step": 4200
     },
     {
       "epoch": 5.180722891566265,
+      "grad_norm": 2.201209783554077,
       "learning_rate": 1.309236947791165e-05,
+      "loss": 0.1154,
       "step": 4300
     },
     {
       "epoch": 5.301204819277109,
+      "grad_norm": 3.613372802734375,
       "learning_rate": 1.2931726907630524e-05,
+      "loss": 0.1133,
       "step": 4400
     },
     {
       "epoch": 5.421686746987952,
+      "grad_norm": 4.806926727294922,
       "learning_rate": 1.2771084337349398e-05,
+      "loss": 0.1173,
       "step": 4500
     },
     {
       "epoch": 5.542168674698795,
+      "grad_norm": 3.5737357139587402,
       "learning_rate": 1.2610441767068273e-05,
+      "loss": 0.1202,
       "step": 4600
     },
     {
       "epoch": 5.662650602409639,
+      "grad_norm": 5.031768798828125,
       "learning_rate": 1.244979919678715e-05,
+      "loss": 0.1147,
       "step": 4700
     },
     {
       "epoch": 5.783132530120482,
+      "grad_norm": 2.068950891494751,
       "learning_rate": 1.2289156626506024e-05,
+      "loss": 0.1168,
       "step": 4800
     },
     {
       "epoch": 5.903614457831325,
+      "grad_norm": 2.5072097778320312,
       "learning_rate": 1.2128514056224901e-05,
+      "loss": 0.1226,
       "step": 4900
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.41350210970464135,
+      "eval_f1": 0.6666666666666665,
+      "eval_loss": 0.2606567144393921,
+      "eval_roc_auc": 0.8057414996823179,
+      "eval_runtime": 36.1583,
+      "eval_samples_per_second": 45.882,
+      "eval_steps_per_second": 5.752,
       "step": 4980
     },
     {
       "epoch": 6.024096385542169,
+      "grad_norm": 2.0976059436798096,
       "learning_rate": 1.1967871485943776e-05,
+      "loss": 0.1077,
       "step": 5000
     },
     {
       "epoch": 6.144578313253012,
+      "grad_norm": 1.4871183633804321,
       "learning_rate": 1.1807228915662651e-05,
+      "loss": 0.0934,
       "step": 5100
     },
     {
       "epoch": 6.265060240963855,
+      "grad_norm": 1.9144952297210693,
       "learning_rate": 1.1646586345381528e-05,
+      "loss": 0.0938,
       "step": 5200
     },
     {
       "epoch": 6.385542168674699,
+      "grad_norm": 2.3612289428710938,
       "learning_rate": 1.1485943775100403e-05,
+      "loss": 0.0955,
       "step": 5300
     },
     {
       "epoch": 6.506024096385542,
+      "grad_norm": 5.222254276275635,
       "learning_rate": 1.132530120481928e-05,
+      "loss": 0.097,
       "step": 5400
     },
     {
       "epoch": 6.626506024096385,
+      "grad_norm": 5.138168811798096,
       "learning_rate": 1.1164658634538153e-05,
+      "loss": 0.0993,
       "step": 5500
     },
     {
       "epoch": 6.746987951807229,
+      "grad_norm": 5.146157264709473,
       "learning_rate": 1.1004016064257028e-05,
+      "loss": 0.0954,
       "step": 5600
     },
     {
       "epoch": 6.867469879518072,
+      "grad_norm": 4.897678375244141,
       "learning_rate": 1.0843373493975904e-05,
+      "loss": 0.0985,
       "step": 5700
     },
     {
       "epoch": 6.9879518072289155,
+      "grad_norm": 3.3976993560791016,
       "learning_rate": 1.068273092369478e-05,
+      "loss": 0.0857,
       "step": 5800
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.4092827004219409,
+      "eval_f1": 0.6649736985307456,
+      "eval_loss": 0.2713634967803955,
+      "eval_roc_auc": 0.7982755374895809,
+      "eval_runtime": 36.3274,
+      "eval_samples_per_second": 45.668,
+      "eval_steps_per_second": 5.726,
       "step": 5810
     },
     {
       "epoch": 7.108433734939759,
+      "grad_norm": 6.454195499420166,
       "learning_rate": 1.0522088353413654e-05,
+      "loss": 0.0817,
       "step": 5900
     },
     {
       "epoch": 7.228915662650603,
+      "grad_norm": 1.3181122541427612,
       "learning_rate": 1.0361445783132531e-05,
+      "loss": 0.0816,
       "step": 6000
     },
     {
       "epoch": 7.349397590361446,
+      "grad_norm": 4.141767501831055,
       "learning_rate": 1.0200803212851406e-05,
+      "loss": 0.0794,
       "step": 6100
     },
     {
       "epoch": 7.469879518072289,
+      "grad_norm": 1.5225648880004883,
       "learning_rate": 1.0040160642570283e-05,
+      "loss": 0.0748,
       "step": 6200
     },
     {
       "epoch": 7.590361445783133,
+      "grad_norm": 4.940995693206787,
       "learning_rate": 9.879518072289156e-06,
+      "loss": 0.0733,
       "step": 6300
     },
     {
       "epoch": 7.710843373493976,
+      "grad_norm": 3.411694288253784,
       "learning_rate": 9.718875502008033e-06,
+      "loss": 0.0779,
       "step": 6400
     },
     {
       "epoch": 7.831325301204819,
+      "grad_norm": 4.794209957122803,
       "learning_rate": 9.558232931726908e-06,
+      "loss": 0.0778,
       "step": 6500
     },
     {
       "epoch": 7.951807228915663,
+      "grad_norm": 2.7523696422576904,
       "learning_rate": 9.397590361445785e-06,
+      "loss": 0.0714,
       "step": 6600
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.4050632911392405,
+      "eval_f1": 0.6728395061728395,
+      "eval_loss": 0.2908540666103363,
+      "eval_roc_auc": 0.8154374909432742,
+      "eval_runtime": 36.2563,
+      "eval_samples_per_second": 45.758,
+      "eval_steps_per_second": 5.737,
       "step": 6640
     },
     {
       "epoch": 8.072289156626505,
+      "grad_norm": 2.963338851928711,
       "learning_rate": 9.23694779116466e-06,
+      "loss": 0.066,
       "step": 6700
     },
     {
       "epoch": 8.19277108433735,
+      "grad_norm": 1.1161987781524658,
       "learning_rate": 9.076305220883535e-06,
+      "loss": 0.0665,
       "step": 6800
     },
     {
       "epoch": 8.313253012048193,
+      "grad_norm": 1.9074004888534546,
       "learning_rate": 8.91566265060241e-06,
+      "loss": 0.0603,
       "step": 6900
     },
     {
       "epoch": 8.433734939759036,
+      "grad_norm": 4.402090549468994,
       "learning_rate": 8.755020080321286e-06,
+      "loss": 0.0558,
       "step": 7000
     },
     {
       "epoch": 8.55421686746988,
+      "grad_norm": 8.068613052368164,
       "learning_rate": 8.594377510040161e-06,
+      "loss": 0.0596,
       "step": 7100
     },
     {
       "epoch": 8.674698795180722,
+      "grad_norm": 0.7083752751350403,
       "learning_rate": 8.433734939759038e-06,
+      "loss": 0.0615,
       "step": 7200
     },
     {
       "epoch": 8.795180722891565,
+      "grad_norm": 2.8427162170410156,
       "learning_rate": 8.273092369477911e-06,
+      "loss": 0.056,
       "step": 7300
     },
     {
       "epoch": 8.91566265060241,
+      "grad_norm": 4.300654888153076,
       "learning_rate": 8.112449799196788e-06,
+      "loss": 0.073,
       "step": 7400
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.41832429174201324,
+      "eval_f1": 0.6730903994393833,
+      "eval_loss": 0.29414018988609314,
+      "eval_roc_auc": 0.810645259972926,
+      "eval_runtime": 36.2468,
+      "eval_samples_per_second": 45.77,
+      "eval_steps_per_second": 5.738,
       "step": 7470
     },
     {
       "epoch": 9.036144578313253,
+      "grad_norm": 3.129971981048584,
       "learning_rate": 7.951807228915663e-06,
+      "loss": 0.0563,
       "step": 7500
     },
     {
       "epoch": 9.156626506024097,
+      "grad_norm": 2.5316765308380127,
       "learning_rate": 7.79116465863454e-06,
+      "loss": 0.048,
       "step": 7600
     },
     {
       "epoch": 9.27710843373494,
+      "grad_norm": 4.083515167236328,
       "learning_rate": 7.630522088353415e-06,
+      "loss": 0.0502,
       "step": 7700
     },
     {
       "epoch": 9.397590361445783,
+      "grad_norm": 1.0832017660140991,
       "learning_rate": 7.469879518072289e-06,
+      "loss": 0.0521,
       "step": 7800
     },
     {
       "epoch": 9.518072289156626,
+      "grad_norm": 4.1632304191589355,
       "learning_rate": 7.309236947791165e-06,
+      "loss": 0.0508,
       "step": 7900
     },
     {
       "epoch": 9.638554216867469,
+      "grad_norm": 2.0603678226470947,
       "learning_rate": 7.148594377510041e-06,
+      "loss": 0.053,
       "step": 8000
     },
     {
       "epoch": 9.759036144578314,
+      "grad_norm": 2.3865954875946045,
       "learning_rate": 6.987951807228917e-06,
+      "loss": 0.0471,
       "step": 8100
     },
     {
       "epoch": 9.879518072289157,
+      "grad_norm": 3.4538087844848633,
       "learning_rate": 6.8273092369477925e-06,
+      "loss": 0.0459,
       "step": 8200
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.0237865447998047,
       "learning_rate": 6.666666666666667e-06,
+      "loss": 0.052,
       "step": 8300
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.4141048824593128,
+      "eval_f1": 0.6719829877724616,
+      "eval_loss": 0.30549874901771545,
+      "eval_roc_auc": 0.807412395917321,
+      "eval_runtime": 36.14,
+      "eval_samples_per_second": 45.905,
+      "eval_steps_per_second": 5.755,
       "step": 8300
     },
     {
       "epoch": 10.120481927710843,
+      "grad_norm": 3.1426589488983154,
       "learning_rate": 6.5060240963855425e-06,
+      "loss": 0.0382,
       "step": 8400
     },
     {
       "epoch": 10.240963855421686,
+      "grad_norm": 5.971590995788574,
       "learning_rate": 6.345381526104418e-06,
+      "loss": 0.0403,
       "step": 8500
     },
     {
       "epoch": 10.36144578313253,
+      "grad_norm": 2.7165796756744385,
       "learning_rate": 6.184738955823294e-06,
+      "loss": 0.0417,
       "step": 8600
     },
     {
       "epoch": 10.481927710843374,
+      "grad_norm": 6.249508857727051,
       "learning_rate": 6.02409638554217e-06,
+      "loss": 0.0409,
       "step": 8700
     },
     {
       "epoch": 10.602409638554217,
+      "grad_norm": 1.5167735815048218,
       "learning_rate": 5.863453815261044e-06,
+      "loss": 0.0413,
       "step": 8800
     },
     {
       "epoch": 10.72289156626506,
+      "grad_norm": 1.3362675905227661,
       "learning_rate": 5.70281124497992e-06,
+      "loss": 0.0381,
       "step": 8900
     },
     {
       "epoch": 10.843373493975903,
+      "grad_norm": 3.719500780105591,
       "learning_rate": 5.542168674698796e-06,
+      "loss": 0.0412,
       "step": 9000
     },
     {
       "epoch": 10.963855421686747,
+      "grad_norm": 4.197484493255615,
       "learning_rate": 5.381526104417672e-06,
+      "loss": 0.0429,
       "step": 9100
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.4165159734779988,
+      "eval_f1": 0.6682226211849193,
+      "eval_loss": 0.31563234329223633,
+      "eval_roc_auc": 0.8023591454661876,
+      "eval_runtime": 36.1507,
+      "eval_samples_per_second": 45.891,
+      "eval_steps_per_second": 5.754,
       "step": 9130
     },
     {
       "epoch": 11.08433734939759,
+      "grad_norm": 1.9439764022827148,
       "learning_rate": 5.220883534136547e-06,
+      "loss": 0.0345,
       "step": 9200
     },
     {
       "epoch": 11.204819277108435,
+      "grad_norm": 5.573112487792969,
       "learning_rate": 5.060240963855422e-06,
+      "loss": 0.0334,
       "step": 9300
     },
     {
       "epoch": 11.325301204819278,
+      "grad_norm": 3.091160535812378,
       "learning_rate": 4.899598393574298e-06,
+      "loss": 0.0331,
       "step": 9400
     },
     {
       "epoch": 11.44578313253012,
+      "grad_norm": 4.914794445037842,
       "learning_rate": 4.7389558232931736e-06,
+      "loss": 0.0345,
       "step": 9500
     },
     {
       "epoch": 11.566265060240964,
+      "grad_norm": 1.9498165845870972,
       "learning_rate": 4.578313253012049e-06,
+      "loss": 0.0345,
       "step": 9600
     },
     {
       "epoch": 11.686746987951807,
+      "grad_norm": 2.1993534564971924,
       "learning_rate": 4.4176706827309244e-06,
+      "loss": 0.0332,
       "step": 9700
     },
     {
       "epoch": 11.80722891566265,
+      "grad_norm": 0.7553381323814392,
       "learning_rate": 4.2570281124497995e-06,
+      "loss": 0.0323,
       "step": 9800
     },
     {
       "epoch": 11.927710843373493,
+      "grad_norm": 1.3014346361160278,
       "learning_rate": 4.096385542168675e-06,
+      "loss": 0.0323,
       "step": 9900
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.41350210970464135,
+      "eval_f1": 0.6725321133204293,
+      "eval_loss": 0.3264513611793518,
+      "eval_roc_auc": 0.8093228231966124,
+      "eval_runtime": 36.2329,
+      "eval_samples_per_second": 45.787,
+      "eval_steps_per_second": 5.741,
       "step": 9960
     },
     {
       "epoch": 12.048192771084338,
+      "grad_norm": 2.3635246753692627,
       "learning_rate": 3.93574297188755e-06,
+      "loss": 0.0331,
       "step": 10000
     },
     {
       "epoch": 12.168674698795181,
+      "grad_norm": 3.8707635402679443,
       "learning_rate": 3.7751004016064258e-06,
+      "loss": 0.0277,
       "step": 10100
     },
     {
       "epoch": 12.289156626506024,
+      "grad_norm": 3.9427218437194824,
       "learning_rate": 3.6144578313253016e-06,
+      "loss": 0.0296,
       "step": 10200
     },
     {
       "epoch": 12.409638554216867,
+      "grad_norm": 0.7694936990737915,
       "learning_rate": 3.453815261044177e-06,
+      "loss": 0.0268,
       "step": 10300
     },
     {
       "epoch": 12.53012048192771,
+      "grad_norm": 1.952202558517456,
       "learning_rate": 3.2931726907630525e-06,
+      "loss": 0.0276,
       "step": 10400
     },
     {
       "epoch": 12.650602409638553,
+      "grad_norm": 1.1884231567382812,
       "learning_rate": 3.132530120481928e-06,
+      "loss": 0.0262,
       "step": 10500
     },
     {
       "epoch": 12.771084337349398,
+      "grad_norm": 0.3486195206642151,
       "learning_rate": 2.9718875502008034e-06,
+      "loss": 0.03,
       "step": 10600
     },
     {
       "epoch": 12.891566265060241,
+      "grad_norm": 0.7074311971664429,
       "learning_rate": 2.811244979919679e-06,
+      "loss": 0.0286,
       "step": 10700
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.4110910186859554,
+      "eval_f1": 0.6732949590092447,
+      "eval_loss": 0.3310515284538269,
+      "eval_roc_auc": 0.8117622251864293,
+      "eval_runtime": 36.1171,
+      "eval_samples_per_second": 45.934,
+      "eval_steps_per_second": 5.759,
       "step": 10790
+    },
+    {
+      "epoch": 13.012048192771084,
+      "grad_norm": 7.378662586212158,
+      "learning_rate": 2.6506024096385547e-06,
+      "loss": 0.0271,
+      "step": 10800
+    },
+    {
+      "epoch": 13.132530120481928,
+      "grad_norm": 2.406675100326538,
+      "learning_rate": 2.4899598393574297e-06,
+      "loss": 0.0251,
+      "step": 10900
+    },
+    {
+      "epoch": 13.25301204819277,
+      "grad_norm": 3.8638405799865723,
+      "learning_rate": 2.3293172690763055e-06,
+      "loss": 0.0258,
+      "step": 11000
+    },
+    {
+      "epoch": 13.373493975903614,
+      "grad_norm": 2.06321120262146,
+      "learning_rate": 2.168674698795181e-06,
+      "loss": 0.0246,
+      "step": 11100
+    },
+    {
+      "epoch": 13.493975903614459,
+      "grad_norm": 1.5517412424087524,
+      "learning_rate": 2.0080321285140564e-06,
+      "loss": 0.0249,
+      "step": 11200
+    },
+    {
+      "epoch": 13.614457831325302,
+      "grad_norm": 0.4058358669281006,
+      "learning_rate": 1.8473895582329318e-06,
+      "loss": 0.0234,
+      "step": 11300
+    },
+    {
+      "epoch": 13.734939759036145,
+      "grad_norm": 3.0318214893341064,
+      "learning_rate": 1.6867469879518073e-06,
+      "loss": 0.0258,
+      "step": 11400
+    },
+    {
+      "epoch": 13.855421686746988,
+      "grad_norm": 0.8424203991889954,
+      "learning_rate": 1.526104417670683e-06,
+      "loss": 0.0269,
+      "step": 11500
+    },
+    {
+      "epoch": 13.975903614457831,
+      "grad_norm": 3.9194679260253906,
+      "learning_rate": 1.3654618473895584e-06,
+      "loss": 0.0234,
+      "step": 11600
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.40687160940325495,
+      "eval_f1": 0.6735155841894479,
+      "eval_loss": 0.33624783158302307,
+      "eval_roc_auc": 0.8122911998969546,
+      "eval_runtime": 36.1849,
+      "eval_samples_per_second": 45.848,
+      "eval_steps_per_second": 5.748,
+      "step": 11620
+    },
+    {
+      "epoch": 14.096385542168674,
+      "grad_norm": 1.4352937936782837,
+      "learning_rate": 1.2048192771084338e-06,
+      "loss": 0.0209,
+      "step": 11700
+    },
+    {
+      "epoch": 14.216867469879517,
+      "grad_norm": 0.7450918555259705,
+      "learning_rate": 1.0441767068273092e-06,
+      "loss": 0.0218,
+      "step": 11800
+    },
+    {
+      "epoch": 14.337349397590362,
+      "grad_norm": 1.0368732213974,
+      "learning_rate": 8.835341365461848e-07,
+      "loss": 0.0235,
+      "step": 11900
+    },
+    {
+      "epoch": 14.457831325301205,
+      "grad_norm": 6.217952728271484,
+      "learning_rate": 7.228915662650602e-07,
+      "loss": 0.0228,
+      "step": 12000
+    },
+    {
+      "epoch": 14.578313253012048,
+      "grad_norm": 3.589872360229492,
+      "learning_rate": 5.622489959839358e-07,
+      "loss": 0.0222,
+      "step": 12100
+    },
+    {
+      "epoch": 14.698795180722891,
+      "grad_norm": 2.410654306411743,
+      "learning_rate": 4.0160642570281125e-07,
+      "loss": 0.0203,
+      "step": 12200
+    },
+    {
+      "epoch": 14.819277108433734,
+      "grad_norm": 0.5593228340148926,
+      "learning_rate": 2.409638554216868e-07,
+      "loss": 0.0246,
+      "step": 12300
+    },
+    {
+      "epoch": 14.939759036144578,
+      "grad_norm": 1.7539204359054565,
+      "learning_rate": 8.032128514056224e-08,
+      "loss": 0.0237,
+      "step": 12400
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4153104279686558,
+      "eval_f1": 0.6742756804214223,
+      "eval_loss": 0.3354536294937134,
+      "eval_roc_auc": 0.810820573413045,
+      "eval_runtime": 36.2022,
+      "eval_samples_per_second": 45.826,
+      "eval_steps_per_second": 5.746,
+      "step": 12450
     }
   ],
   "logging_steps": 100,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.857073408472736e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90c00f8b7311babb09b5cfce1bf4c2db61f426d28c044e987c559cbb8c1af657
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cfc045024ac566aada5a538769e67be335647460017ad6775bae4db97d36dc8
 size 5304

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff