arielcerdap commited on Mar 13

Commit

ae73939

verified ·

1 Parent(s): 1c776fb

Upload disfluency detection model with metadata

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +45 -0
checkpoint-4400/config.json +93 -0
checkpoint-4400/model.safetensors +3 -0
checkpoint-4400/optimizer.pt +3 -0
checkpoint-4400/rng_state.pth +3 -0
checkpoint-4400/scaler.pt +3 -0
checkpoint-4400/scheduler.pt +3 -0
checkpoint-4400/tokenizer.json +0 -0
checkpoint-4400/tokenizer_config.json +16 -0
checkpoint-4400/trainer_state.json +1282 -0
checkpoint-4400/training_args.bin +3 -0
checkpoint-6000/config.json +93 -0
checkpoint-6000/model.safetensors +3 -0
checkpoint-6000/optimizer.pt +3 -0
checkpoint-6000/rng_state.pth +3 -0
checkpoint-6000/scaler.pt +3 -0
checkpoint-6000/scheduler.pt +3 -0
checkpoint-6000/tokenizer.json +0 -0
checkpoint-6000/tokenizer_config.json +16 -0
checkpoint-6000/trainer_state.json +1730 -0
checkpoint-6000/training_args.bin +3 -0
checkpoint-6200/config.json +93 -0
checkpoint-6200/model.safetensors +3 -0
checkpoint-6200/optimizer.pt +3 -0
checkpoint-6200/rng_state.pth +3 -0
checkpoint-6200/scaler.pt +3 -0
checkpoint-6200/scheduler.pt +3 -0
checkpoint-6200/tokenizer.json +0 -0
checkpoint-6200/tokenizer_config.json +16 -0
checkpoint-6200/trainer_state.json +1786 -0
checkpoint-6200/training_args.bin +3 -0
checkpoint-6400/config.json +93 -0
checkpoint-6400/model.safetensors +3 -0
checkpoint-6400/optimizer.pt +3 -0
checkpoint-6400/rng_state.pth +3 -0
checkpoint-6400/scaler.pt +3 -0
checkpoint-6400/scheduler.pt +3 -0
checkpoint-6400/tokenizer.json +0 -0
checkpoint-6400/tokenizer_config.json +16 -0
checkpoint-6400/trainer_state.json +1842 -0
checkpoint-6400/training_args.bin +3 -0
checkpoint-6435/config.json +93 -0
checkpoint-6435/model.safetensors +3 -0
checkpoint-6435/optimizer.pt +3 -0
checkpoint-6435/rng_state.pth +3 -0
checkpoint-6435/scaler.pt +3 -0
checkpoint-6435/scheduler.pt +3 -0
checkpoint-6435/tokenizer.json +0 -0
checkpoint-6435/tokenizer_config.json +16 -0
checkpoint-6435/trainer_state.json +1842 -0

README.md ADDED Viewed

	@@ -0,0 +1,45 @@

+---
+language: en
+tags:
+- disfluency-detection
+- token-classification
+- modernbert
+- speech-pathology
+datasets:
+- disfluency-dataset
+metrics:
+- accuracy
+- f1
+model-index:
+- name: ModernBERT Multiclass Disfluency Detection
+  results:
+  - task:
+      name: Token Classification
+      type: token-classification
+    dataset:
+      name: Disfluency Dataset
+      type: custom
+      config: default
+      split: test
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.9405
+    - name: F1
+      type: f1
+      value: 0.7759
+---
+# ModernBERT Multiclass Disfluency Detection
+This model is fine-tuned from [answerdotai/ModernBERT-base](https://huggingface.co/answerdotai/ModernBERT-base) for multi-class disfluency detection in spoken language.
+## Training Hyperparameters
+The following hyperparameters were used during training:
+- Learning rate: 5e-05
+- Batch size: 16
+- Number of epochs: 15
+- Optimizer: OptimizerNames.ADAMW_8BIT
+- LR scheduler type: SchedulerType.COSINE
+- Warmup ratio: 0.15

checkpoint-4400/config.json ADDED Viewed

	@@ -0,0 +1,93 @@

+{
+  "architectures": [
+    "ModernBertForTokenClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.4,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "FP",
+    "2": "RP",
+    "3": "RV",
+    "4": "PW"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "FP": 1,
+    "O": 0,
+    "PW": 4,
+    "RP": 2,
+    "RV": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "local_attention": 128,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "rope_parameters": {
+    "full_attention": {
+      "rope_theta": 160000.0,
+      "rope_type": "default"
+    },
+    "sliding_attention": {
+      "rope_theta": 10000.0,
+      "rope_type": "default"
+    }
+  },
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "use_cache": false,
+  "vocab_size": 50368
+}

checkpoint-4400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5975c39b0a085f3f9cfea328878f94be3cc533bf583ff091648578b20b058c3c
+size 598449012

checkpoint-4400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e8aa41515565a187e65b7e3e70e1d3fa9ff8b6dc242c84e1a141e218442b0b9
+size 535150859

checkpoint-4400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a84f37d3cb2b4617be003e1c231062c0a2df44f1660c6f1d9f474e2b9dd54089
+size 14645

checkpoint-4400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa01c0faab1a39c11ceba075e1e73b81a5689cfd1ac0d27ee7fece150d320be6
+size 1383

checkpoint-4400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d70f1d0eecced3c1ae8241c861760931c9e1d7ac9d9ae80de18fca9fd9a61fe
+size 1465

checkpoint-4400/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4400/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]"
+}

checkpoint-4400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1282 @@

+{
+  "best_global_step": 4400,
+  "best_metric": 0.7415891195418755,
+  "best_model_checkpoint": "/content/drive/MyDrive/disfluency_model/checkpoint-4400",
+  "epoch": 10.256410256410255,
+  "eval_steps": 200,
+  "global_step": 4400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002331002331002331,
+      "grad_norm": 9.829856872558594,
+      "learning_rate": 0.0,
+      "loss": 0.5272760987281799,
+      "step": 1
+    },
+    {
+      "epoch": 0.11655011655011654,
+      "grad_norm": 4.721482276916504,
+      "learning_rate": 2.5362318840579714e-06,
+      "loss": 0.4355599928875359,
+      "step": 50
+    },
+    {
+      "epoch": 0.2331002331002331,
+      "grad_norm": 4.99301290512085,
+      "learning_rate": 5.124223602484472e-06,
+      "loss": 0.3406296920776367,
+      "step": 100
+    },
+    {
+      "epoch": 0.34965034965034963,
+      "grad_norm": 6.354604721069336,
+      "learning_rate": 7.712215320910973e-06,
+      "loss": 0.28903684616088865,
+      "step": 150
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "grad_norm": 1.833147644996643,
+      "learning_rate": 1.0300207039337475e-05,
+      "loss": 0.2038218879699707,
+      "step": 200
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "eval_FP_f1": 0.7824175824175823,
+      "eval_FP_precision": 0.644927536231884,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.23580786026200873,
+      "eval_PW_precision": 0.7941176470588235,
+      "eval_PW_recall": 0.13846153846153847,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.2018072289156626,
+      "eval_RP_precision": 0.1350806451612903,
+      "eval_RP_recall": 0.39880952380952384,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1115065243179122,
+      "eval_RV_precision": 0.06629055007052186,
+      "eval_RV_recall": 0.35074626865671643,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6950354609929078,
+      "eval_f1": 0.2911912368781378,
+      "eval_loss": 0.07750222831964493,
+      "eval_precision": 0.21056105610561057,
+      "eval_recall": 0.4718934911242604,
+      "eval_runtime": 1.7776,
+      "eval_samples_per_second": 191.831,
+      "eval_steps_per_second": 3.375,
+      "step": 200
+    },
+    {
+      "epoch": 0.5827505827505828,
+      "grad_norm": 2.7244417667388916,
+      "learning_rate": 1.2888198757763975e-05,
+      "loss": 0.1314036178588867,
+      "step": 250
+    },
+    {
+      "epoch": 0.6993006993006993,
+      "grad_norm": 1.8847157955169678,
+      "learning_rate": 1.5476190476190476e-05,
+      "loss": 0.0891645622253418,
+      "step": 300
+    },
+    {
+      "epoch": 0.8158508158508159,
+      "grad_norm": 0.6841979026794434,
+      "learning_rate": 1.8064182194616976e-05,
+      "loss": 0.06860542297363281,
+      "step": 350
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "grad_norm": 0.8485817909240723,
+      "learning_rate": 2.065217391304348e-05,
+      "loss": 0.056485376358032226,
+      "step": 400
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "eval_FP_f1": 0.9888268156424581,
+      "eval_FP_precision": 0.9888268156424581,
+      "eval_FP_recall": 0.9888268156424581,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.7810650887573964,
+      "eval_PW_precision": 0.9230769230769231,
+      "eval_PW_recall": 0.676923076923077,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.34449760765550236,
+      "eval_RP_precision": 0.288,
+      "eval_RP_recall": 0.42857142857142855,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.09023415191319246,
+      "eval_RV_precision": 0.04885590599876314,
+      "eval_RV_recall": 0.5895522388059702,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6064904362776703,
+      "eval_f1": 0.3211169284467714,
+      "eval_loss": 0.06627956032752991,
+      "eval_precision": 0.21014161717679306,
+      "eval_recall": 0.6804733727810651,
+      "eval_runtime": 1.7555,
+      "eval_samples_per_second": 194.242,
+      "eval_steps_per_second": 3.418,
+      "step": 400
+    },
+    {
+      "epoch": 1.048951048951049,
+      "grad_norm": 0.9849236011505127,
+      "learning_rate": 2.3240165631469983e-05,
+      "loss": 0.051623358726501464,
+      "step": 450
+    },
+    {
+      "epoch": 1.1655011655011656,
+      "grad_norm": 0.8257520198822021,
+      "learning_rate": 2.582815734989648e-05,
+      "loss": 0.054394068717956545,
+      "step": 500
+    },
+    {
+      "epoch": 1.282051282051282,
+      "grad_norm": 1.269953727722168,
+      "learning_rate": 2.8416149068322983e-05,
+      "loss": 0.038275165557861326,
+      "step": 550
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "grad_norm": 0.7971916794776917,
+      "learning_rate": 3.100414078674948e-05,
+      "loss": 0.04537781715393066,
+      "step": 600
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8435754189944136,
+      "eval_PW_precision": 0.9263803680981595,
+      "eval_PW_recall": 0.7743589743589744,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5123966942148761,
+      "eval_RP_precision": 0.3924050632911392,
+      "eval_RP_recall": 0.7380952380952381,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.10061919504643962,
+      "eval_RV_precision": 0.05613126079447323,
+      "eval_RV_recall": 0.48507462686567165,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7038469804427251,
+      "eval_f1": 0.41573033707865165,
+      "eval_loss": 0.04902895167469978,
+      "eval_precision": 0.2852422907488987,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7583,
+      "eval_samples_per_second": 193.935,
+      "eval_steps_per_second": 3.412,
+      "step": 600
+    },
+    {
+      "epoch": 1.5151515151515151,
+      "grad_norm": 0.5072907209396362,
+      "learning_rate": 3.359213250517598e-05,
+      "loss": 0.04208078861236572,
+      "step": 650
+    },
+    {
+      "epoch": 1.6317016317016317,
+      "grad_norm": 0.29589056968688965,
+      "learning_rate": 3.618012422360248e-05,
+      "loss": 0.036929750442504884,
+      "step": 700
+    },
+    {
+      "epoch": 1.7482517482517483,
+      "grad_norm": 0.5353514552116394,
+      "learning_rate": 3.876811594202899e-05,
+      "loss": 0.039374511241912845,
+      "step": 750
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "grad_norm": 0.853635847568512,
+      "learning_rate": 4.135610766045549e-05,
+      "loss": 0.035586235523223875,
+      "step": 800
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8698060941828255,
+      "eval_PW_precision": 0.9457831325301205,
+      "eval_PW_recall": 0.8051282051282052,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.4963503649635036,
+      "eval_RP_precision": 0.41975308641975306,
+      "eval_RP_recall": 0.6071428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.11028315946348734,
+      "eval_RV_precision": 0.06890130353817504,
+      "eval_RV_recall": 0.27611940298507465,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8289275736084246,
+      "eval_f1": 0.5271920088790233,
+      "eval_loss": 0.05218891426920891,
+      "eval_precision": 0.4218472468916519,
+      "eval_recall": 0.7026627218934911,
+      "eval_runtime": 1.7474,
+      "eval_samples_per_second": 195.151,
+      "eval_steps_per_second": 3.434,
+      "step": 800
+    },
+    {
+      "epoch": 1.9813519813519813,
+      "grad_norm": 0.3492014408111572,
+      "learning_rate": 4.3944099378881993e-05,
+      "loss": 0.037635867595672605,
+      "step": 850
+    },
+    {
+      "epoch": 2.097902097902098,
+      "grad_norm": 0.52850741147995,
+      "learning_rate": 4.653209109730849e-05,
+      "loss": 0.02877570629119873,
+      "step": 900
+    },
+    {
+      "epoch": 2.2144522144522143,
+      "grad_norm": 0.20403911173343658,
+      "learning_rate": 4.9120082815734993e-05,
+      "loss": 0.02313091278076172,
+      "step": 950
+    },
+    {
+      "epoch": 2.331002331002331,
+      "grad_norm": 0.4374295175075531,
+      "learning_rate": 4.99955083202285e-05,
+      "loss": 0.026792542934417726,
+      "step": 1000
+    },
+    {
+      "epoch": 2.331002331002331,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8757062146892656,
+      "eval_PW_precision": 0.9748427672955975,
+      "eval_PW_recall": 0.7948717948717948,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5376884422110553,
+      "eval_RP_precision": 0.4652173913043478,
+      "eval_RP_recall": 0.6369047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13902439024390245,
+      "eval_RV_precision": 0.08309037900874636,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8128089404685149,
+      "eval_f1": 0.5150259067357513,
+      "eval_loss": 0.04896986111998558,
+      "eval_precision": 0.3963317384370016,
+      "eval_recall": 0.735207100591716,
+      "eval_runtime": 1.755,
+      "eval_samples_per_second": 194.299,
+      "eval_steps_per_second": 3.419,
+      "step": 1000
+    },
+    {
+      "epoch": 2.4475524475524475,
+      "grad_norm": 0.22397278249263763,
+      "learning_rate": 4.997159022301654e-05,
+      "loss": 0.024302377700805664,
+      "step": 1050
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 0.4257676303386688,
+      "learning_rate": 4.992707340500554e-05,
+      "loss": 0.02201436996459961,
+      "step": 1100
+    },
+    {
+      "epoch": 2.6806526806526807,
+      "grad_norm": 0.23829305171966553,
+      "learning_rate": 4.986199458750547e-05,
+      "loss": 0.026013293266296388,
+      "step": 1150
+    },
+    {
+      "epoch": 2.797202797202797,
+      "grad_norm": 0.43061190843582153,
+      "learning_rate": 4.977640745313644e-05,
+      "loss": 0.021799113750457764,
+      "step": 1200
+    },
+    {
+      "epoch": 2.797202797202797,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9005524861878453,
+      "eval_PW_precision": 0.9760479041916168,
+      "eval_PW_recall": 0.8358974358974359,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5901639344262296,
+      "eval_RP_precision": 0.4864864864864865,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1551020408163265,
+      "eval_RV_precision": 0.09484193011647254,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8330109606705351,
+      "eval_f1": 0.5576208178438662,
+      "eval_loss": 0.04321876913309097,
+      "eval_precision": 0.43496271748135873,
+      "eval_recall": 0.7766272189349113,
+      "eval_runtime": 1.7666,
+      "eval_samples_per_second": 193.025,
+      "eval_steps_per_second": 3.396,
+      "step": 1200
+    },
+    {
+      "epoch": 2.913752913752914,
+      "grad_norm": 0.42580506205558777,
+      "learning_rate": 4.9670382601546674e-05,
+      "loss": 0.022718839645385742,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0303030303030303,
+      "grad_norm": 0.2979868948459625,
+      "learning_rate": 4.954400749117577e-05,
+      "loss": 0.02102189540863037,
+      "step": 1300
+    },
+    {
+      "epoch": 3.1468531468531467,
+      "grad_norm": 0.246241495013237,
+      "learning_rate": 4.93973863671115e-05,
+      "loss": 0.014143779277801513,
+      "step": 1350
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "grad_norm": 0.21763332188129425,
+      "learning_rate": 4.923064017509945e-05,
+      "loss": 0.015854754447937013,
+      "step": 1400
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8963730569948186,
+      "eval_PW_precision": 0.9057591623036649,
+      "eval_PW_recall": 0.8871794871794871,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.639269406392694,
+      "eval_RP_precision": 0.5185185185185185,
+      "eval_RP_recall": 0.8333333333333334,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13923013923013924,
+      "eval_RV_precision": 0.078196872125115,
+      "eval_RV_recall": 0.6343283582089553,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7448957661723619,
+      "eval_f1": 0.4800332778702163,
+      "eval_loss": 0.036764442920684814,
+      "eval_precision": 0.33391203703703703,
+      "eval_recall": 0.8535502958579881,
+      "eval_runtime": 1.7649,
+      "eval_samples_per_second": 193.209,
+      "eval_steps_per_second": 3.4,
+      "step": 1400
+    },
+    {
+      "epoch": 3.37995337995338,
+      "grad_norm": 0.28029730916023254,
+      "learning_rate": 4.904390646177652e-05,
+      "loss": 0.012800486087799072,
+      "step": 1450
+    },
+    {
+      "epoch": 3.4965034965034967,
+      "grad_norm": 0.45200076699256897,
+      "learning_rate": 4.8837339261210644e-05,
+      "loss": 0.014847630262374878,
+      "step": 1500
+    },
+    {
+      "epoch": 3.613053613053613,
+      "grad_norm": 0.468578577041626,
+      "learning_rate": 4.861110896784017e-05,
+      "loss": 0.013855412006378173,
+      "step": 1550
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "grad_norm": 0.2053418904542923,
+      "learning_rate": 4.836540219591784e-05,
+      "loss": 0.015822688341140746,
+      "step": 1600
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8815426997245178,
+      "eval_PW_precision": 0.9523809523809523,
+      "eval_PW_recall": 0.8205128205128205,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6395939086294417,
+      "eval_RP_precision": 0.5575221238938053,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15873015873015875,
+      "eval_RV_precision": 0.09838998211091235,
+      "eval_RV_recall": 0.41044776119402987,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8497743391360413,
+      "eval_f1": 0.5749032614704257,
+      "eval_loss": 0.04276173189282417,
+      "eval_precision": 0.4589585172109444,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.7648,
+      "eval_samples_per_second": 193.225,
+      "eval_steps_per_second": 3.4,
+      "step": 1600
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.16666975617408752,
+      "learning_rate": 4.8100421625575284e-05,
+      "loss": 0.015907624959945677,
+      "step": 1650
+    },
+    {
+      "epoch": 3.9627039627039626,
+      "grad_norm": 0.4703992009162903,
+      "learning_rate": 4.7816385835634944e-05,
+      "loss": 0.0139349365234375,
+      "step": 1700
+    },
+    {
+      "epoch": 4.0792540792540795,
+      "grad_norm": 0.5405648946762085,
+      "learning_rate": 4.751352912330744e-05,
+      "loss": 0.012668570280075073,
+      "step": 1750
+    },
+    {
+      "epoch": 4.195804195804196,
+      "grad_norm": 0.28995925188064575,
+      "learning_rate": 4.719210131092302e-05,
+      "loss": 0.013018554449081421,
+      "step": 1800
+    },
+    {
+      "epoch": 4.195804195804196,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9110512129380054,
+      "eval_PW_precision": 0.9602272727272727,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6192893401015228,
+      "eval_RP_precision": 0.5398230088495575,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15172413793103448,
+      "eval_RV_precision": 0.08576998050682261,
+      "eval_RV_recall": 0.6567164179104478,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7635933806146572,
+      "eval_f1": 0.48861646234676004,
+      "eval_loss": 0.03999365121126175,
+      "eval_precision": 0.34701492537313433,
+      "eval_recall": 0.8254437869822485,
+      "eval_runtime": 1.7678,
+      "eval_samples_per_second": 192.895,
+      "eval_steps_per_second": 3.394,
+      "step": 1800
+    },
+    {
+      "epoch": 4.312354312354312,
+      "grad_norm": 0.1972808986902237,
+      "learning_rate": 4.6852367539856546e-05,
+      "loss": 0.007865548133850098,
+      "step": 1850
+    },
+    {
+      "epoch": 4.428904428904429,
+      "grad_norm": 0.08727411925792694,
+      "learning_rate": 4.649460805181604e-05,
+      "loss": 0.007297297716140747,
+      "step": 1900
+    },
+    {
+      "epoch": 4.545454545454545,
+      "grad_norm": 0.2259584218263626,
+      "learning_rate": 4.611911795767516e-05,
+      "loss": 0.008797573447227479,
+      "step": 1950
+    },
+    {
+      "epoch": 4.662004662004662,
+      "grad_norm": 0.2499346286058426,
+      "learning_rate": 4.572620699404031e-05,
+      "loss": 0.009554592967033386,
+      "step": 2000
+    },
+    {
+      "epoch": 4.662004662004662,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.906166219839142,
+      "eval_PW_precision": 0.949438202247191,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6819338422391857,
+      "eval_RP_precision": 0.5955555555555555,
+      "eval_RP_recall": 0.7976190476190477,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.18010471204188477,
+      "eval_RV_precision": 0.10475030450669914,
+      "eval_RV_recall": 0.6417910447761194,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8108747044917257,
+      "eval_f1": 0.5461538461538462,
+      "eval_loss": 0.03176203742623329,
+      "eval_precision": 0.4045584045584046,
+      "eval_recall": 0.8402366863905325,
+      "eval_runtime": 1.7462,
+      "eval_samples_per_second": 195.286,
+      "eval_steps_per_second": 3.436,
+      "step": 2000
+    },
+    {
+      "epoch": 4.778554778554779,
+      "grad_norm": 0.18241898715496063,
+      "learning_rate": 4.531619926775317e-05,
+      "loss": 0.010103501081466675,
+      "step": 2050
+    },
+    {
+      "epoch": 4.895104895104895,
+      "grad_norm": 0.5646976232528687,
+      "learning_rate": 4.48894329885394e-05,
+      "loss": 0.010654613971710206,
+      "step": 2100
+    },
+    {
+      "epoch": 5.011655011655011,
+      "grad_norm": 0.17059487104415894,
+      "learning_rate": 4.4446260190024183e-05,
+      "loss": 0.008428264856338501,
+      "step": 2150
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 0.10937484353780746,
+      "learning_rate": 4.3987046439344426e-05,
+      "loss": 0.0056066220998764035,
+      "step": 2200
+    },
+    {
+      "epoch": 5.128205128205128,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.88,
+      "eval_PW_precision": 0.9935483870967742,
+      "eval_PW_recall": 0.7897435897435897,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6699029126213593,
+      "eval_RP_precision": 0.5655737704918032,
+      "eval_RP_recall": 0.8214285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17673048600883653,
+      "eval_RV_precision": 0.11009174311926606,
+      "eval_RV_recall": 0.44776119402985076,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8549323017408124,
+      "eval_f1": 0.5892162312395776,
+      "eval_loss": 0.044926226139068604,
+      "eval_precision": 0.4719501335707925,
+      "eval_recall": 0.7840236686390533,
+      "eval_runtime": 1.7668,
+      "eval_samples_per_second": 193.006,
+      "eval_steps_per_second": 3.396,
+      "step": 2200
+    },
+    {
+      "epoch": 5.244755244755245,
+      "grad_norm": 0.25396180152893066,
+      "learning_rate": 4.351217053559754e-05,
+      "loss": 0.006568117141723633,
+      "step": 2250
+    },
+    {
+      "epoch": 5.361305361305361,
+      "grad_norm": 0.15003487467765808,
+      "learning_rate": 4.3022024197375266e-05,
+      "loss": 0.0060064631700515745,
+      "step": 2300
+    },
+    {
+      "epoch": 5.477855477855478,
+      "grad_norm": 0.27384480834007263,
+      "learning_rate": 4.2517011739640374e-05,
+      "loss": 0.005202606916427612,
+      "step": 2350
+    },
+    {
+      "epoch": 5.594405594405594,
+      "grad_norm": 0.2527216672897339,
+      "learning_rate": 4.199754974021286e-05,
+      "loss": 0.008023700714111327,
+      "step": 2400
+    },
+    {
+      "epoch": 5.594405594405594,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9037433155080213,
+      "eval_PW_precision": 0.9441340782122905,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.699421965317919,
+      "eval_RP_precision": 0.6797752808988764,
+      "eval_RP_recall": 0.7202380952380952,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17636363636363636,
+      "eval_RV_precision": 0.10041407867494824,
+      "eval_RV_recall": 0.7238805970149254,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7906726842897056,
+      "eval_f1": 0.5195043597980725,
+      "eval_loss": 0.03475594520568848,
+      "eval_precision": 0.37658017298735863,
+      "eval_recall": 0.8372781065088757,
+      "eval_runtime": 1.7484,
+      "eval_samples_per_second": 195.03,
+      "eval_steps_per_second": 3.432,
+      "step": 2400
+    },
+    {
+      "epoch": 5.7109557109557105,
+      "grad_norm": 0.10864783078432083,
+      "learning_rate": 4.146406669614064e-05,
+      "loss": 0.006877620220184327,
+      "step": 2450
+    },
+    {
+      "epoch": 5.827505827505828,
+      "grad_norm": 0.1385946273803711,
+      "learning_rate": 4.0917002670238205e-05,
+      "loss": 0.005679036974906921,
+      "step": 2500
+    },
+    {
+      "epoch": 5.944055944055944,
+      "grad_norm": 0.39363569021224976,
+      "learning_rate": 4.035680892808487e-05,
+      "loss": 0.005111011862754822,
+      "step": 2550
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "grad_norm": 0.13166821002960205,
+      "learning_rate": 3.978394756578204e-05,
+      "loss": 0.005011002421379089,
+      "step": 2600
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.912568306010929,
+      "eval_PW_precision": 0.9766081871345029,
+      "eval_PW_recall": 0.8564102564102564,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6852791878172589,
+      "eval_RP_precision": 0.5973451327433629,
+      "eval_RP_recall": 0.8035714285714286,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17982456140350878,
+      "eval_RV_precision": 0.12732919254658384,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8970556630131098,
+      "eval_f1": 0.6628571428571428,
+      "eval_loss": 0.04650285467505455,
+      "eval_precision": 0.5806451612903226,
+      "eval_recall": 0.772189349112426,
+      "eval_runtime": 1.7907,
+      "eval_samples_per_second": 190.43,
+      "eval_steps_per_second": 3.351,
+      "step": 2600
+    },
+    {
+      "epoch": 6.177156177156177,
+      "grad_norm": 0.09747270494699478,
+      "learning_rate": 3.91988911287765e-05,
+      "loss": 0.003968673944473267,
+      "step": 2650
+    },
+    {
+      "epoch": 6.293706293706293,
+      "grad_norm": 0.2859274446964264,
+      "learning_rate": 3.860212222206416e-05,
+      "loss": 0.003097459375858307,
+      "step": 2700
+    },
+    {
+      "epoch": 6.410256410256411,
+      "grad_norm": 0.1547211855649948,
+      "learning_rate": 3.799413311209587e-05,
+      "loss": 0.003905009925365448,
+      "step": 2750
+    },
+    {
+      "epoch": 6.526806526806527,
+      "grad_norm": 0.3189227283000946,
+      "learning_rate": 3.737542532071357e-05,
+      "loss": 0.003843022286891937,
+      "step": 2800
+    },
+    {
+      "epoch": 6.526806526806527,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9120879120879121,
+      "eval_PW_precision": 0.9822485207100592,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6814404432132963,
+      "eval_RP_precision": 0.6373056994818653,
+      "eval_RP_recall": 0.7321428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.195906432748538,
+      "eval_RV_precision": 0.12181818181818181,
+      "eval_RV_recall": 0.5,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8613797549967763,
+      "eval_f1": 0.6052036199095022,
+      "eval_loss": 0.047517433762550354,
+      "eval_precision": 0.4899267399267399,
+      "eval_recall": 0.7914201183431953,
+      "eval_runtime": 1.7457,
+      "eval_samples_per_second": 195.333,
+      "eval_steps_per_second": 3.437,
+      "step": 2800
+    },
+    {
+      "epoch": 6.643356643356643,
+      "grad_norm": 0.28142914175987244,
+      "learning_rate": 3.674650921145187e-05,
+      "loss": 0.0046959114074707035,
+      "step": 2850
+    },
+    {
+      "epoch": 6.75990675990676,
+      "grad_norm": 0.4578351080417633,
+      "learning_rate": 3.6107903568546175e-05,
+      "loss": 0.0066505372524261475,
+      "step": 2900
+    },
+    {
+      "epoch": 6.876456876456876,
+      "grad_norm": 0.06301693618297577,
+      "learning_rate": 3.546013516899472e-05,
+      "loss": 0.005263023376464844,
+      "step": 2950
+    },
+    {
+      "epoch": 6.993006993006993,
+      "grad_norm": 0.5769485831260681,
+      "learning_rate": 3.480373834802748e-05,
+      "loss": 0.0045099428296089174,
+      "step": 3000
+    },
+    {
+      "epoch": 6.993006993006993,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8925619834710744,
+      "eval_PW_precision": 0.9642857142857143,
+      "eval_PW_recall": 0.8307692307692308,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.745308310991957,
+      "eval_RP_precision": 0.6780487804878049,
+      "eval_RP_recall": 0.8273809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2644320297951583,
+      "eval_RV_precision": 0.1761786600496278,
+      "eval_RV_recall": 0.5298507462686567,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8985600687728348,
+      "eval_f1": 0.6752450980392156,
+      "eval_loss": 0.04083069786429405,
+      "eval_precision": 0.5763598326359832,
+      "eval_recall": 0.8150887573964497,
+      "eval_runtime": 1.7656,
+      "eval_samples_per_second": 193.139,
+      "eval_steps_per_second": 3.398,
+      "step": 3000
+    },
+    {
+      "epoch": 7.10955710955711,
+      "grad_norm": 0.4822663366794586,
+      "learning_rate": 3.413925455834041e-05,
+      "loss": 0.0027274960279464722,
+      "step": 3050
+    },
+    {
+      "epoch": 7.226107226107226,
+      "grad_norm": 0.12082718312740326,
+      "learning_rate": 3.346723192345858e-05,
+      "loss": 0.0027995941042900084,
+      "step": 3100
+    },
+    {
+      "epoch": 7.3426573426573425,
+      "grad_norm": 0.051056090742349625,
+      "learning_rate": 3.278822478559657e-05,
+      "loss": 0.002488945722579956,
+      "step": 3150
+    },
+    {
+      "epoch": 7.459207459207459,
+      "grad_norm": 0.3237623870372772,
+      "learning_rate": 3.2102793248389316e-05,
+      "loss": 0.002043289989233017,
+      "step": 3200
+    },
+    {
+      "epoch": 7.459207459207459,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9124668435013262,
+      "eval_PW_precision": 0.945054945054945,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7119565217391305,
+      "eval_RP_precision": 0.655,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2311111111111111,
+      "eval_RV_precision": 0.16455696202531644,
+      "eval_RV_recall": 0.3880597014925373,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9065119277885235,
+      "eval_f1": 0.6872586872586873,
+      "eval_loss": 0.04947880655527115,
+      "eval_precision": 0.6082004555808656,
+      "eval_recall": 0.7899408284023669,
+      "eval_runtime": 1.7267,
+      "eval_samples_per_second": 197.485,
+      "eval_steps_per_second": 3.475,
+      "step": 3200
+    },
+    {
+      "epoch": 7.575757575757576,
+      "grad_norm": 0.2536736726760864,
+      "learning_rate": 3.141150271487024e-05,
+      "loss": 0.0021054935455322265,
+      "step": 3250
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 0.19249416887760162,
+      "learning_rate": 3.071492342107814e-05,
+      "loss": 0.0030115434527397157,
+      "step": 3300
+    },
+    {
+      "epoch": 7.808857808857809,
+      "grad_norm": 0.40715843439102173,
+      "learning_rate": 3.0013629965677292e-05,
+      "loss": 0.0025595900416374206,
+      "step": 3350
+    },
+    {
+      "epoch": 7.925407925407925,
+      "grad_norm": 0.05540835112333298,
+      "learning_rate": 2.930820083597896e-05,
+      "loss": 0.0023874352872371675,
+      "step": 3400
+    },
+    {
+      "epoch": 7.925407925407925,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9243243243243243,
+      "eval_PW_precision": 0.9771428571428571,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7436619718309859,
+      "eval_RP_precision": 0.7058823529411765,
+      "eval_RP_recall": 0.7857142857142857,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.23783783783783785,
+      "eval_RV_precision": 0.1864406779661017,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9228454760369654,
+      "eval_f1": 0.7235213204951857,
+      "eval_loss": 0.05276188254356384,
+      "eval_precision": 0.6760925449871465,
+      "eval_recall": 0.7781065088757396,
+      "eval_runtime": 1.7026,
+      "eval_samples_per_second": 200.284,
+      "eval_steps_per_second": 3.524,
+      "step": 3400
+    },
+    {
+      "epoch": 8.041958041958042,
+      "grad_norm": 0.05420549958944321,
+      "learning_rate": 2.8599217930755163e-05,
+      "loss": 0.0017227402329444885,
+      "step": 3450
+    },
+    {
+      "epoch": 8.158508158508159,
+      "grad_norm": 0.03208259865641594,
+      "learning_rate": 2.7887266080238394e-05,
+      "loss": 0.0014327512681484222,
+      "step": 3500
+    },
+    {
+      "epoch": 8.275058275058274,
+      "grad_norm": 0.11691170930862427,
+      "learning_rate": 2.717293256370324e-05,
+      "loss": 0.0008813569694757461,
+      "step": 3550
+    },
+    {
+      "epoch": 8.391608391608392,
+      "grad_norm": 0.04499991610646248,
+      "learning_rate": 2.6456806625027753e-05,
+      "loss": 0.001173463687300682,
+      "step": 3600
+    },
+    {
+      "epoch": 8.391608391608392,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6649350649350648,
+      "eval_RP_precision": 0.5898617511520737,
+      "eval_RP_recall": 0.7619047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2242152466367713,
+      "eval_RV_precision": 0.16025641025641027,
+      "eval_RV_recall": 0.373134328358209,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9011390500752203,
+      "eval_f1": 0.6769033909149073,
+      "eval_loss": 0.051750849932432175,
+      "eval_precision": 0.5963923337091319,
+      "eval_recall": 0.7825443786982249,
+      "eval_runtime": 1.7154,
+      "eval_samples_per_second": 198.783,
+      "eval_steps_per_second": 3.498,
+      "step": 3600
+    },
+    {
+      "epoch": 8.508158508158509,
+      "grad_norm": 0.1041538193821907,
+      "learning_rate": 2.5739478986634334e-05,
+      "loss": 0.0012617163360118867,
+      "step": 3650
+    },
+    {
+      "epoch": 8.624708624708624,
+      "grad_norm": 0.07832089811563492,
+      "learning_rate": 2.502154136221095e-05,
+      "loss": 0.0016725870966911316,
+      "step": 3700
+    },
+    {
+      "epoch": 8.741258741258742,
+      "grad_norm": 0.2803429961204529,
+      "learning_rate": 2.4303585968614594e-05,
+      "loss": 0.001303904354572296,
+      "step": 3750
+    },
+    {
+      "epoch": 8.857808857808857,
+      "grad_norm": 0.10039077699184418,
+      "learning_rate": 2.358620503735985e-05,
+      "loss": 0.0016713647544384003,
+      "step": 3800
+    },
+    {
+      "epoch": 8.857808857808857,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.907103825136612,
+      "eval_PW_precision": 0.9707602339181286,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6055555555555555,
+      "eval_RP_precision": 0.5677083333333334,
+      "eval_RP_recall": 0.6488095238095238,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1531914893617021,
+      "eval_RV_precision": 0.10714285714285714,
+      "eval_RV_recall": 0.26865671641791045,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8871695680206318,
+      "eval_f1": 0.6302250803858521,
+      "eval_loss": 0.06584469228982925,
+      "eval_precision": 0.5574516496018203,
+      "eval_recall": 0.7248520710059172,
+      "eval_runtime": 1.7127,
+      "eval_samples_per_second": 199.099,
+      "eval_steps_per_second": 3.503,
+      "step": 3800
+    },
+    {
+      "epoch": 8.974358974358974,
+      "grad_norm": 0.0319208949804306,
+      "learning_rate": 2.286999032609519e-05,
+      "loss": 0.0011156044900417327,
+      "step": 3850
+    },
+    {
+      "epoch": 9.090909090909092,
+      "grad_norm": 0.06702426820993423,
+      "learning_rate": 2.215553263047031e-05,
+      "loss": 0.001486612856388092,
+      "step": 3900
+    },
+    {
+      "epoch": 9.207459207459207,
+      "grad_norm": 0.025190044194459915,
+      "learning_rate": 2.1443421296796902e-05,
+      "loss": 0.0008709771931171417,
+      "step": 3950
+    },
+    {
+      "epoch": 9.324009324009324,
+      "grad_norm": 0.12909601628780365,
+      "learning_rate": 2.0734243735904992e-05,
+      "loss": 0.0007652242481708527,
+      "step": 4000
+    },
+    {
+      "epoch": 9.324009324009324,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9193548387096773,
+      "eval_PW_precision": 0.9661016949152542,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6684350132625995,
+      "eval_RP_precision": 0.6028708133971292,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22113022113022113,
+      "eval_RV_precision": 0.16483516483516483,
+      "eval_RV_recall": 0.3358208955223881,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9084461637653127,
+      "eval_f1": 0.6877887788778877,
+      "eval_loss": 0.06094101816415787,
+      "eval_precision": 0.6209773539928486,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7364,
+      "eval_samples_per_second": 196.38,
+      "eval_steps_per_second": 3.455,
+      "step": 4000
+    },
+    {
+      "epoch": 9.44055944055944,
+      "grad_norm": 0.038413889706134796,
+      "learning_rate": 2.002858493859587e-05,
+      "loss": 0.0005362145602703094,
+      "step": 4050
+    },
+    {
+      "epoch": 9.557109557109557,
+      "grad_norm": 0.15115134418010712,
+      "learning_rate": 1.9327026993091186e-05,
+      "loss": 0.0006626041233539581,
+      "step": 4100
+    },
+    {
+      "epoch": 9.673659673659674,
+      "grad_norm": 0.10298547893762589,
+      "learning_rate": 1.8630148604876468e-05,
+      "loss": 0.0007023769617080689,
+      "step": 4150
+    },
+    {
+      "epoch": 9.79020979020979,
+      "grad_norm": 0.11396172642707825,
+      "learning_rate": 1.793852461933484e-05,
+      "loss": 0.0011355096101760863,
+      "step": 4200
+    },
+    {
+      "epoch": 9.79020979020979,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9135135135135135,
+      "eval_PW_precision": 0.9657142857142857,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7024128686327078,
+      "eval_RP_precision": 0.6390243902439025,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22714681440443213,
+      "eval_RV_precision": 0.18061674008810572,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9194068343004513,
+      "eval_f1": 0.710868079289132,
+      "eval_loss": 0.05905779078602791,
+      "eval_precision": 0.6607369758576874,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.714,
+      "eval_samples_per_second": 198.951,
+      "eval_steps_per_second": 3.501,
+      "step": 4200
+    },
+    {
+      "epoch": 9.906759906759907,
+      "grad_norm": 0.06096949800848961,
+      "learning_rate": 1.7252725547565096e-05,
+      "loss": 0.0008608976751565933,
+      "step": 4250
+    },
+    {
+      "epoch": 10.023310023310023,
+      "grad_norm": 0.016558649018406868,
+      "learning_rate": 1.6573317095774848e-05,
+      "loss": 0.0005947026610374451,
+      "step": 4300
+    },
+    {
+      "epoch": 10.13986013986014,
+      "grad_norm": 0.05043337866663933,
+      "learning_rate": 1.590085969863735e-05,
+      "loss": 0.00048787113279104234,
+      "step": 4350
+    },
+    {
+      "epoch": 10.256410256410255,
+      "grad_norm": 0.045682214200496674,
+      "learning_rate": 1.5235908056996611e-05,
+      "loss": 0.0004080647230148315,
+      "step": 4400
+    },
+    {
+      "epoch": 10.256410256410255,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9168900804289545,
+      "eval_PW_precision": 0.9606741573033708,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7341040462427747,
+      "eval_RP_precision": 0.7134831460674157,
+      "eval_RP_recall": 0.7559523809523809,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.25705329153605017,
+      "eval_RV_precision": 0.22162162162162163,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9325166559209113,
+      "eval_f1": 0.7415891195418755,
+      "eval_loss": 0.06343553215265274,
+      "eval_precision": 0.7184466019417476,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.72,
+      "eval_steps_per_second": 3.461,
+      "step": 4400
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 6435,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 15,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3964293921664e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:367294190e35f865e87bd36d38622df04ac30f8b61585d007bf7a90b90586c7e
+size 5201

checkpoint-6000/config.json ADDED Viewed

	@@ -0,0 +1,93 @@

+{
+  "architectures": [
+    "ModernBertForTokenClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.4,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "FP",
+    "2": "RP",
+    "3": "RV",
+    "4": "PW"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "FP": 1,
+    "O": 0,
+    "PW": 4,
+    "RP": 2,
+    "RV": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "local_attention": 128,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "rope_parameters": {
+    "full_attention": {
+      "rope_theta": 160000.0,
+      "rope_type": "default"
+    },
+    "sliding_attention": {
+      "rope_theta": 10000.0,
+      "rope_type": "default"
+    }
+  },
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "use_cache": false,
+  "vocab_size": 50368
+}

checkpoint-6000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0c85e0e14bc17c2e8235cb3a92ddd0a2c27d80df43b333e812ed53e173a17bc
+size 598449012

checkpoint-6000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2fe4988154328426568357fc7d3dbc851591607dcca4a8b83f14312fbdc8dc3
+size 535150859

checkpoint-6000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4562621e1044cb57eda2c102e6e26a5cf16d8e907eb120c3750a21f9ed26901a
+size 14645

checkpoint-6000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bb2b51b22f222dc6df63edb791d76de5de25b8bb724e885f8753e34cfb8ae10
+size 1383

checkpoint-6000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aa681794cd553d0f56c687a474bf57125dd2323812c9e95ccbde1860723af35
+size 1465

checkpoint-6000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-6000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]"
+}

checkpoint-6000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1730 @@

+{
+  "best_global_step": 4400,
+  "best_metric": 0.7415891195418755,
+  "best_model_checkpoint": "/content/drive/MyDrive/disfluency_model/checkpoint-4400",
+  "epoch": 13.986013986013987,
+  "eval_steps": 200,
+  "global_step": 6000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002331002331002331,
+      "grad_norm": 9.829856872558594,
+      "learning_rate": 0.0,
+      "loss": 0.5272760987281799,
+      "step": 1
+    },
+    {
+      "epoch": 0.11655011655011654,
+      "grad_norm": 4.721482276916504,
+      "learning_rate": 2.5362318840579714e-06,
+      "loss": 0.4355599928875359,
+      "step": 50
+    },
+    {
+      "epoch": 0.2331002331002331,
+      "grad_norm": 4.99301290512085,
+      "learning_rate": 5.124223602484472e-06,
+      "loss": 0.3406296920776367,
+      "step": 100
+    },
+    {
+      "epoch": 0.34965034965034963,
+      "grad_norm": 6.354604721069336,
+      "learning_rate": 7.712215320910973e-06,
+      "loss": 0.28903684616088865,
+      "step": 150
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "grad_norm": 1.833147644996643,
+      "learning_rate": 1.0300207039337475e-05,
+      "loss": 0.2038218879699707,
+      "step": 200
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "eval_FP_f1": 0.7824175824175823,
+      "eval_FP_precision": 0.644927536231884,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.23580786026200873,
+      "eval_PW_precision": 0.7941176470588235,
+      "eval_PW_recall": 0.13846153846153847,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.2018072289156626,
+      "eval_RP_precision": 0.1350806451612903,
+      "eval_RP_recall": 0.39880952380952384,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1115065243179122,
+      "eval_RV_precision": 0.06629055007052186,
+      "eval_RV_recall": 0.35074626865671643,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6950354609929078,
+      "eval_f1": 0.2911912368781378,
+      "eval_loss": 0.07750222831964493,
+      "eval_precision": 0.21056105610561057,
+      "eval_recall": 0.4718934911242604,
+      "eval_runtime": 1.7776,
+      "eval_samples_per_second": 191.831,
+      "eval_steps_per_second": 3.375,
+      "step": 200
+    },
+    {
+      "epoch": 0.5827505827505828,
+      "grad_norm": 2.7244417667388916,
+      "learning_rate": 1.2888198757763975e-05,
+      "loss": 0.1314036178588867,
+      "step": 250
+    },
+    {
+      "epoch": 0.6993006993006993,
+      "grad_norm": 1.8847157955169678,
+      "learning_rate": 1.5476190476190476e-05,
+      "loss": 0.0891645622253418,
+      "step": 300
+    },
+    {
+      "epoch": 0.8158508158508159,
+      "grad_norm": 0.6841979026794434,
+      "learning_rate": 1.8064182194616976e-05,
+      "loss": 0.06860542297363281,
+      "step": 350
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "grad_norm": 0.8485817909240723,
+      "learning_rate": 2.065217391304348e-05,
+      "loss": 0.056485376358032226,
+      "step": 400
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "eval_FP_f1": 0.9888268156424581,
+      "eval_FP_precision": 0.9888268156424581,
+      "eval_FP_recall": 0.9888268156424581,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.7810650887573964,
+      "eval_PW_precision": 0.9230769230769231,
+      "eval_PW_recall": 0.676923076923077,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.34449760765550236,
+      "eval_RP_precision": 0.288,
+      "eval_RP_recall": 0.42857142857142855,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.09023415191319246,
+      "eval_RV_precision": 0.04885590599876314,
+      "eval_RV_recall": 0.5895522388059702,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6064904362776703,
+      "eval_f1": 0.3211169284467714,
+      "eval_loss": 0.06627956032752991,
+      "eval_precision": 0.21014161717679306,
+      "eval_recall": 0.6804733727810651,
+      "eval_runtime": 1.7555,
+      "eval_samples_per_second": 194.242,
+      "eval_steps_per_second": 3.418,
+      "step": 400
+    },
+    {
+      "epoch": 1.048951048951049,
+      "grad_norm": 0.9849236011505127,
+      "learning_rate": 2.3240165631469983e-05,
+      "loss": 0.051623358726501464,
+      "step": 450
+    },
+    {
+      "epoch": 1.1655011655011656,
+      "grad_norm": 0.8257520198822021,
+      "learning_rate": 2.582815734989648e-05,
+      "loss": 0.054394068717956545,
+      "step": 500
+    },
+    {
+      "epoch": 1.282051282051282,
+      "grad_norm": 1.269953727722168,
+      "learning_rate": 2.8416149068322983e-05,
+      "loss": 0.038275165557861326,
+      "step": 550
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "grad_norm": 0.7971916794776917,
+      "learning_rate": 3.100414078674948e-05,
+      "loss": 0.04537781715393066,
+      "step": 600
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8435754189944136,
+      "eval_PW_precision": 0.9263803680981595,
+      "eval_PW_recall": 0.7743589743589744,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5123966942148761,
+      "eval_RP_precision": 0.3924050632911392,
+      "eval_RP_recall": 0.7380952380952381,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.10061919504643962,
+      "eval_RV_precision": 0.05613126079447323,
+      "eval_RV_recall": 0.48507462686567165,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7038469804427251,
+      "eval_f1": 0.41573033707865165,
+      "eval_loss": 0.04902895167469978,
+      "eval_precision": 0.2852422907488987,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7583,
+      "eval_samples_per_second": 193.935,
+      "eval_steps_per_second": 3.412,
+      "step": 600
+    },
+    {
+      "epoch": 1.5151515151515151,
+      "grad_norm": 0.5072907209396362,
+      "learning_rate": 3.359213250517598e-05,
+      "loss": 0.04208078861236572,
+      "step": 650
+    },
+    {
+      "epoch": 1.6317016317016317,
+      "grad_norm": 0.29589056968688965,
+      "learning_rate": 3.618012422360248e-05,
+      "loss": 0.036929750442504884,
+      "step": 700
+    },
+    {
+      "epoch": 1.7482517482517483,
+      "grad_norm": 0.5353514552116394,
+      "learning_rate": 3.876811594202899e-05,
+      "loss": 0.039374511241912845,
+      "step": 750
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "grad_norm": 0.853635847568512,
+      "learning_rate": 4.135610766045549e-05,
+      "loss": 0.035586235523223875,
+      "step": 800
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8698060941828255,
+      "eval_PW_precision": 0.9457831325301205,
+      "eval_PW_recall": 0.8051282051282052,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.4963503649635036,
+      "eval_RP_precision": 0.41975308641975306,
+      "eval_RP_recall": 0.6071428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.11028315946348734,
+      "eval_RV_precision": 0.06890130353817504,
+      "eval_RV_recall": 0.27611940298507465,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8289275736084246,
+      "eval_f1": 0.5271920088790233,
+      "eval_loss": 0.05218891426920891,
+      "eval_precision": 0.4218472468916519,
+      "eval_recall": 0.7026627218934911,
+      "eval_runtime": 1.7474,
+      "eval_samples_per_second": 195.151,
+      "eval_steps_per_second": 3.434,
+      "step": 800
+    },
+    {
+      "epoch": 1.9813519813519813,
+      "grad_norm": 0.3492014408111572,
+      "learning_rate": 4.3944099378881993e-05,
+      "loss": 0.037635867595672605,
+      "step": 850
+    },
+    {
+      "epoch": 2.097902097902098,
+      "grad_norm": 0.52850741147995,
+      "learning_rate": 4.653209109730849e-05,
+      "loss": 0.02877570629119873,
+      "step": 900
+    },
+    {
+      "epoch": 2.2144522144522143,
+      "grad_norm": 0.20403911173343658,
+      "learning_rate": 4.9120082815734993e-05,
+      "loss": 0.02313091278076172,
+      "step": 950
+    },
+    {
+      "epoch": 2.331002331002331,
+      "grad_norm": 0.4374295175075531,
+      "learning_rate": 4.99955083202285e-05,
+      "loss": 0.026792542934417726,
+      "step": 1000
+    },
+    {
+      "epoch": 2.331002331002331,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8757062146892656,
+      "eval_PW_precision": 0.9748427672955975,
+      "eval_PW_recall": 0.7948717948717948,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5376884422110553,
+      "eval_RP_precision": 0.4652173913043478,
+      "eval_RP_recall": 0.6369047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13902439024390245,
+      "eval_RV_precision": 0.08309037900874636,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8128089404685149,
+      "eval_f1": 0.5150259067357513,
+      "eval_loss": 0.04896986111998558,
+      "eval_precision": 0.3963317384370016,
+      "eval_recall": 0.735207100591716,
+      "eval_runtime": 1.755,
+      "eval_samples_per_second": 194.299,
+      "eval_steps_per_second": 3.419,
+      "step": 1000
+    },
+    {
+      "epoch": 2.4475524475524475,
+      "grad_norm": 0.22397278249263763,
+      "learning_rate": 4.997159022301654e-05,
+      "loss": 0.024302377700805664,
+      "step": 1050
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 0.4257676303386688,
+      "learning_rate": 4.992707340500554e-05,
+      "loss": 0.02201436996459961,
+      "step": 1100
+    },
+    {
+      "epoch": 2.6806526806526807,
+      "grad_norm": 0.23829305171966553,
+      "learning_rate": 4.986199458750547e-05,
+      "loss": 0.026013293266296388,
+      "step": 1150
+    },
+    {
+      "epoch": 2.797202797202797,
+      "grad_norm": 0.43061190843582153,
+      "learning_rate": 4.977640745313644e-05,
+      "loss": 0.021799113750457764,
+      "step": 1200
+    },
+    {
+      "epoch": 2.797202797202797,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9005524861878453,
+      "eval_PW_precision": 0.9760479041916168,
+      "eval_PW_recall": 0.8358974358974359,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5901639344262296,
+      "eval_RP_precision": 0.4864864864864865,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1551020408163265,
+      "eval_RV_precision": 0.09484193011647254,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8330109606705351,
+      "eval_f1": 0.5576208178438662,
+      "eval_loss": 0.04321876913309097,
+      "eval_precision": 0.43496271748135873,
+      "eval_recall": 0.7766272189349113,
+      "eval_runtime": 1.7666,
+      "eval_samples_per_second": 193.025,
+      "eval_steps_per_second": 3.396,
+      "step": 1200
+    },
+    {
+      "epoch": 2.913752913752914,
+      "grad_norm": 0.42580506205558777,
+      "learning_rate": 4.9670382601546674e-05,
+      "loss": 0.022718839645385742,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0303030303030303,
+      "grad_norm": 0.2979868948459625,
+      "learning_rate": 4.954400749117577e-05,
+      "loss": 0.02102189540863037,
+      "step": 1300
+    },
+    {
+      "epoch": 3.1468531468531467,
+      "grad_norm": 0.246241495013237,
+      "learning_rate": 4.93973863671115e-05,
+      "loss": 0.014143779277801513,
+      "step": 1350
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "grad_norm": 0.21763332188129425,
+      "learning_rate": 4.923064017509945e-05,
+      "loss": 0.015854754447937013,
+      "step": 1400
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8963730569948186,
+      "eval_PW_precision": 0.9057591623036649,
+      "eval_PW_recall": 0.8871794871794871,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.639269406392694,
+      "eval_RP_precision": 0.5185185185185185,
+      "eval_RP_recall": 0.8333333333333334,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13923013923013924,
+      "eval_RV_precision": 0.078196872125115,
+      "eval_RV_recall": 0.6343283582089553,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7448957661723619,
+      "eval_f1": 0.4800332778702163,
+      "eval_loss": 0.036764442920684814,
+      "eval_precision": 0.33391203703703703,
+      "eval_recall": 0.8535502958579881,
+      "eval_runtime": 1.7649,
+      "eval_samples_per_second": 193.209,
+      "eval_steps_per_second": 3.4,
+      "step": 1400
+    },
+    {
+      "epoch": 3.37995337995338,
+      "grad_norm": 0.28029730916023254,
+      "learning_rate": 4.904390646177652e-05,
+      "loss": 0.012800486087799072,
+      "step": 1450
+    },
+    {
+      "epoch": 3.4965034965034967,
+      "grad_norm": 0.45200076699256897,
+      "learning_rate": 4.8837339261210644e-05,
+      "loss": 0.014847630262374878,
+      "step": 1500
+    },
+    {
+      "epoch": 3.613053613053613,
+      "grad_norm": 0.468578577041626,
+      "learning_rate": 4.861110896784017e-05,
+      "loss": 0.013855412006378173,
+      "step": 1550
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "grad_norm": 0.2053418904542923,
+      "learning_rate": 4.836540219591784e-05,
+      "loss": 0.015822688341140746,
+      "step": 1600
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8815426997245178,
+      "eval_PW_precision": 0.9523809523809523,
+      "eval_PW_recall": 0.8205128205128205,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6395939086294417,
+      "eval_RP_precision": 0.5575221238938053,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15873015873015875,
+      "eval_RV_precision": 0.09838998211091235,
+      "eval_RV_recall": 0.41044776119402987,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8497743391360413,
+      "eval_f1": 0.5749032614704257,
+      "eval_loss": 0.04276173189282417,
+      "eval_precision": 0.4589585172109444,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.7648,
+      "eval_samples_per_second": 193.225,
+      "eval_steps_per_second": 3.4,
+      "step": 1600
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.16666975617408752,
+      "learning_rate": 4.8100421625575284e-05,
+      "loss": 0.015907624959945677,
+      "step": 1650
+    },
+    {
+      "epoch": 3.9627039627039626,
+      "grad_norm": 0.4703992009162903,
+      "learning_rate": 4.7816385835634944e-05,
+      "loss": 0.0139349365234375,
+      "step": 1700
+    },
+    {
+      "epoch": 4.0792540792540795,
+      "grad_norm": 0.5405648946762085,
+      "learning_rate": 4.751352912330744e-05,
+      "loss": 0.012668570280075073,
+      "step": 1750
+    },
+    {
+      "epoch": 4.195804195804196,
+      "grad_norm": 0.28995925188064575,
+      "learning_rate": 4.719210131092302e-05,
+      "loss": 0.013018554449081421,
+      "step": 1800
+    },
+    {
+      "epoch": 4.195804195804196,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9110512129380054,
+      "eval_PW_precision": 0.9602272727272727,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6192893401015228,
+      "eval_RP_precision": 0.5398230088495575,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15172413793103448,
+      "eval_RV_precision": 0.08576998050682261,
+      "eval_RV_recall": 0.6567164179104478,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7635933806146572,
+      "eval_f1": 0.48861646234676004,
+      "eval_loss": 0.03999365121126175,
+      "eval_precision": 0.34701492537313433,
+      "eval_recall": 0.8254437869822485,
+      "eval_runtime": 1.7678,
+      "eval_samples_per_second": 192.895,
+      "eval_steps_per_second": 3.394,
+      "step": 1800
+    },
+    {
+      "epoch": 4.312354312354312,
+      "grad_norm": 0.1972808986902237,
+      "learning_rate": 4.6852367539856546e-05,
+      "loss": 0.007865548133850098,
+      "step": 1850
+    },
+    {
+      "epoch": 4.428904428904429,
+      "grad_norm": 0.08727411925792694,
+      "learning_rate": 4.649460805181604e-05,
+      "loss": 0.007297297716140747,
+      "step": 1900
+    },
+    {
+      "epoch": 4.545454545454545,
+      "grad_norm": 0.2259584218263626,
+      "learning_rate": 4.611911795767516e-05,
+      "loss": 0.008797573447227479,
+      "step": 1950
+    },
+    {
+      "epoch": 4.662004662004662,
+      "grad_norm": 0.2499346286058426,
+      "learning_rate": 4.572620699404031e-05,
+      "loss": 0.009554592967033386,
+      "step": 2000
+    },
+    {
+      "epoch": 4.662004662004662,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.906166219839142,
+      "eval_PW_precision": 0.949438202247191,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6819338422391857,
+      "eval_RP_precision": 0.5955555555555555,
+      "eval_RP_recall": 0.7976190476190477,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.18010471204188477,
+      "eval_RV_precision": 0.10475030450669914,
+      "eval_RV_recall": 0.6417910447761194,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8108747044917257,
+      "eval_f1": 0.5461538461538462,
+      "eval_loss": 0.03176203742623329,
+      "eval_precision": 0.4045584045584046,
+      "eval_recall": 0.8402366863905325,
+      "eval_runtime": 1.7462,
+      "eval_samples_per_second": 195.286,
+      "eval_steps_per_second": 3.436,
+      "step": 2000
+    },
+    {
+      "epoch": 4.778554778554779,
+      "grad_norm": 0.18241898715496063,
+      "learning_rate": 4.531619926775317e-05,
+      "loss": 0.010103501081466675,
+      "step": 2050
+    },
+    {
+      "epoch": 4.895104895104895,
+      "grad_norm": 0.5646976232528687,
+      "learning_rate": 4.48894329885394e-05,
+      "loss": 0.010654613971710206,
+      "step": 2100
+    },
+    {
+      "epoch": 5.011655011655011,
+      "grad_norm": 0.17059487104415894,
+      "learning_rate": 4.4446260190024183e-05,
+      "loss": 0.008428264856338501,
+      "step": 2150
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 0.10937484353780746,
+      "learning_rate": 4.3987046439344426e-05,
+      "loss": 0.0056066220998764035,
+      "step": 2200
+    },
+    {
+      "epoch": 5.128205128205128,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.88,
+      "eval_PW_precision": 0.9935483870967742,
+      "eval_PW_recall": 0.7897435897435897,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6699029126213593,
+      "eval_RP_precision": 0.5655737704918032,
+      "eval_RP_recall": 0.8214285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17673048600883653,
+      "eval_RV_precision": 0.11009174311926606,
+      "eval_RV_recall": 0.44776119402985076,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8549323017408124,
+      "eval_f1": 0.5892162312395776,
+      "eval_loss": 0.044926226139068604,
+      "eval_precision": 0.4719501335707925,
+      "eval_recall": 0.7840236686390533,
+      "eval_runtime": 1.7668,
+      "eval_samples_per_second": 193.006,
+      "eval_steps_per_second": 3.396,
+      "step": 2200
+    },
+    {
+      "epoch": 5.244755244755245,
+      "grad_norm": 0.25396180152893066,
+      "learning_rate": 4.351217053559754e-05,
+      "loss": 0.006568117141723633,
+      "step": 2250
+    },
+    {
+      "epoch": 5.361305361305361,
+      "grad_norm": 0.15003487467765808,
+      "learning_rate": 4.3022024197375266e-05,
+      "loss": 0.0060064631700515745,
+      "step": 2300
+    },
+    {
+      "epoch": 5.477855477855478,
+      "grad_norm": 0.27384480834007263,
+      "learning_rate": 4.2517011739640374e-05,
+      "loss": 0.005202606916427612,
+      "step": 2350
+    },
+    {
+      "epoch": 5.594405594405594,
+      "grad_norm": 0.2527216672897339,
+      "learning_rate": 4.199754974021286e-05,
+      "loss": 0.008023700714111327,
+      "step": 2400
+    },
+    {
+      "epoch": 5.594405594405594,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9037433155080213,
+      "eval_PW_precision": 0.9441340782122905,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.699421965317919,
+      "eval_RP_precision": 0.6797752808988764,
+      "eval_RP_recall": 0.7202380952380952,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17636363636363636,
+      "eval_RV_precision": 0.10041407867494824,
+      "eval_RV_recall": 0.7238805970149254,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7906726842897056,
+      "eval_f1": 0.5195043597980725,
+      "eval_loss": 0.03475594520568848,
+      "eval_precision": 0.37658017298735863,
+      "eval_recall": 0.8372781065088757,
+      "eval_runtime": 1.7484,
+      "eval_samples_per_second": 195.03,
+      "eval_steps_per_second": 3.432,
+      "step": 2400
+    },
+    {
+      "epoch": 5.7109557109557105,
+      "grad_norm": 0.10864783078432083,
+      "learning_rate": 4.146406669614064e-05,
+      "loss": 0.006877620220184327,
+      "step": 2450
+    },
+    {
+      "epoch": 5.827505827505828,
+      "grad_norm": 0.1385946273803711,
+      "learning_rate": 4.0917002670238205e-05,
+      "loss": 0.005679036974906921,
+      "step": 2500
+    },
+    {
+      "epoch": 5.944055944055944,
+      "grad_norm": 0.39363569021224976,
+      "learning_rate": 4.035680892808487e-05,
+      "loss": 0.005111011862754822,
+      "step": 2550
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "grad_norm": 0.13166821002960205,
+      "learning_rate": 3.978394756578204e-05,
+      "loss": 0.005011002421379089,
+      "step": 2600
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.912568306010929,
+      "eval_PW_precision": 0.9766081871345029,
+      "eval_PW_recall": 0.8564102564102564,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6852791878172589,
+      "eval_RP_precision": 0.5973451327433629,
+      "eval_RP_recall": 0.8035714285714286,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17982456140350878,
+      "eval_RV_precision": 0.12732919254658384,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8970556630131098,
+      "eval_f1": 0.6628571428571428,
+      "eval_loss": 0.04650285467505455,
+      "eval_precision": 0.5806451612903226,
+      "eval_recall": 0.772189349112426,
+      "eval_runtime": 1.7907,
+      "eval_samples_per_second": 190.43,
+      "eval_steps_per_second": 3.351,
+      "step": 2600
+    },
+    {
+      "epoch": 6.177156177156177,
+      "grad_norm": 0.09747270494699478,
+      "learning_rate": 3.91988911287765e-05,
+      "loss": 0.003968673944473267,
+      "step": 2650
+    },
+    {
+      "epoch": 6.293706293706293,
+      "grad_norm": 0.2859274446964264,
+      "learning_rate": 3.860212222206416e-05,
+      "loss": 0.003097459375858307,
+      "step": 2700
+    },
+    {
+      "epoch": 6.410256410256411,
+      "grad_norm": 0.1547211855649948,
+      "learning_rate": 3.799413311209587e-05,
+      "loss": 0.003905009925365448,
+      "step": 2750
+    },
+    {
+      "epoch": 6.526806526806527,
+      "grad_norm": 0.3189227283000946,
+      "learning_rate": 3.737542532071357e-05,
+      "loss": 0.003843022286891937,
+      "step": 2800
+    },
+    {
+      "epoch": 6.526806526806527,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9120879120879121,
+      "eval_PW_precision": 0.9822485207100592,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6814404432132963,
+      "eval_RP_precision": 0.6373056994818653,
+      "eval_RP_recall": 0.7321428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.195906432748538,
+      "eval_RV_precision": 0.12181818181818181,
+      "eval_RV_recall": 0.5,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8613797549967763,
+      "eval_f1": 0.6052036199095022,
+      "eval_loss": 0.047517433762550354,
+      "eval_precision": 0.4899267399267399,
+      "eval_recall": 0.7914201183431953,
+      "eval_runtime": 1.7457,
+      "eval_samples_per_second": 195.333,
+      "eval_steps_per_second": 3.437,
+      "step": 2800
+    },
+    {
+      "epoch": 6.643356643356643,
+      "grad_norm": 0.28142914175987244,
+      "learning_rate": 3.674650921145187e-05,
+      "loss": 0.0046959114074707035,
+      "step": 2850
+    },
+    {
+      "epoch": 6.75990675990676,
+      "grad_norm": 0.4578351080417633,
+      "learning_rate": 3.6107903568546175e-05,
+      "loss": 0.0066505372524261475,
+      "step": 2900
+    },
+    {
+      "epoch": 6.876456876456876,
+      "grad_norm": 0.06301693618297577,
+      "learning_rate": 3.546013516899472e-05,
+      "loss": 0.005263023376464844,
+      "step": 2950
+    },
+    {
+      "epoch": 6.993006993006993,
+      "grad_norm": 0.5769485831260681,
+      "learning_rate": 3.480373834802748e-05,
+      "loss": 0.0045099428296089174,
+      "step": 3000
+    },
+    {
+      "epoch": 6.993006993006993,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8925619834710744,
+      "eval_PW_precision": 0.9642857142857143,
+      "eval_PW_recall": 0.8307692307692308,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.745308310991957,
+      "eval_RP_precision": 0.6780487804878049,
+      "eval_RP_recall": 0.8273809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2644320297951583,
+      "eval_RV_precision": 0.1761786600496278,
+      "eval_RV_recall": 0.5298507462686567,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8985600687728348,
+      "eval_f1": 0.6752450980392156,
+      "eval_loss": 0.04083069786429405,
+      "eval_precision": 0.5763598326359832,
+      "eval_recall": 0.8150887573964497,
+      "eval_runtime": 1.7656,
+      "eval_samples_per_second": 193.139,
+      "eval_steps_per_second": 3.398,
+      "step": 3000
+    },
+    {
+      "epoch": 7.10955710955711,
+      "grad_norm": 0.4822663366794586,
+      "learning_rate": 3.413925455834041e-05,
+      "loss": 0.0027274960279464722,
+      "step": 3050
+    },
+    {
+      "epoch": 7.226107226107226,
+      "grad_norm": 0.12082718312740326,
+      "learning_rate": 3.346723192345858e-05,
+      "loss": 0.0027995941042900084,
+      "step": 3100
+    },
+    {
+      "epoch": 7.3426573426573425,
+      "grad_norm": 0.051056090742349625,
+      "learning_rate": 3.278822478559657e-05,
+      "loss": 0.002488945722579956,
+      "step": 3150
+    },
+    {
+      "epoch": 7.459207459207459,
+      "grad_norm": 0.3237623870372772,
+      "learning_rate": 3.2102793248389316e-05,
+      "loss": 0.002043289989233017,
+      "step": 3200
+    },
+    {
+      "epoch": 7.459207459207459,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9124668435013262,
+      "eval_PW_precision": 0.945054945054945,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7119565217391305,
+      "eval_RP_precision": 0.655,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2311111111111111,
+      "eval_RV_precision": 0.16455696202531644,
+      "eval_RV_recall": 0.3880597014925373,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9065119277885235,
+      "eval_f1": 0.6872586872586873,
+      "eval_loss": 0.04947880655527115,
+      "eval_precision": 0.6082004555808656,
+      "eval_recall": 0.7899408284023669,
+      "eval_runtime": 1.7267,
+      "eval_samples_per_second": 197.485,
+      "eval_steps_per_second": 3.475,
+      "step": 3200
+    },
+    {
+      "epoch": 7.575757575757576,
+      "grad_norm": 0.2536736726760864,
+      "learning_rate": 3.141150271487024e-05,
+      "loss": 0.0021054935455322265,
+      "step": 3250
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 0.19249416887760162,
+      "learning_rate": 3.071492342107814e-05,
+      "loss": 0.0030115434527397157,
+      "step": 3300
+    },
+    {
+      "epoch": 7.808857808857809,
+      "grad_norm": 0.40715843439102173,
+      "learning_rate": 3.0013629965677292e-05,
+      "loss": 0.0025595900416374206,
+      "step": 3350
+    },
+    {
+      "epoch": 7.925407925407925,
+      "grad_norm": 0.05540835112333298,
+      "learning_rate": 2.930820083597896e-05,
+      "loss": 0.0023874352872371675,
+      "step": 3400
+    },
+    {
+      "epoch": 7.925407925407925,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9243243243243243,
+      "eval_PW_precision": 0.9771428571428571,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7436619718309859,
+      "eval_RP_precision": 0.7058823529411765,
+      "eval_RP_recall": 0.7857142857142857,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.23783783783783785,
+      "eval_RV_precision": 0.1864406779661017,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9228454760369654,
+      "eval_f1": 0.7235213204951857,
+      "eval_loss": 0.05276188254356384,
+      "eval_precision": 0.6760925449871465,
+      "eval_recall": 0.7781065088757396,
+      "eval_runtime": 1.7026,
+      "eval_samples_per_second": 200.284,
+      "eval_steps_per_second": 3.524,
+      "step": 3400
+    },
+    {
+      "epoch": 8.041958041958042,
+      "grad_norm": 0.05420549958944321,
+      "learning_rate": 2.8599217930755163e-05,
+      "loss": 0.0017227402329444885,
+      "step": 3450
+    },
+    {
+      "epoch": 8.158508158508159,
+      "grad_norm": 0.03208259865641594,
+      "learning_rate": 2.7887266080238394e-05,
+      "loss": 0.0014327512681484222,
+      "step": 3500
+    },
+    {
+      "epoch": 8.275058275058274,
+      "grad_norm": 0.11691170930862427,
+      "learning_rate": 2.717293256370324e-05,
+      "loss": 0.0008813569694757461,
+      "step": 3550
+    },
+    {
+      "epoch": 8.391608391608392,
+      "grad_norm": 0.04499991610646248,
+      "learning_rate": 2.6456806625027753e-05,
+      "loss": 0.001173463687300682,
+      "step": 3600
+    },
+    {
+      "epoch": 8.391608391608392,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6649350649350648,
+      "eval_RP_precision": 0.5898617511520737,
+      "eval_RP_recall": 0.7619047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2242152466367713,
+      "eval_RV_precision": 0.16025641025641027,
+      "eval_RV_recall": 0.373134328358209,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9011390500752203,
+      "eval_f1": 0.6769033909149073,
+      "eval_loss": 0.051750849932432175,
+      "eval_precision": 0.5963923337091319,
+      "eval_recall": 0.7825443786982249,
+      "eval_runtime": 1.7154,
+      "eval_samples_per_second": 198.783,
+      "eval_steps_per_second": 3.498,
+      "step": 3600
+    },
+    {
+      "epoch": 8.508158508158509,
+      "grad_norm": 0.1041538193821907,
+      "learning_rate": 2.5739478986634334e-05,
+      "loss": 0.0012617163360118867,
+      "step": 3650
+    },
+    {
+      "epoch": 8.624708624708624,
+      "grad_norm": 0.07832089811563492,
+      "learning_rate": 2.502154136221095e-05,
+      "loss": 0.0016725870966911316,
+      "step": 3700
+    },
+    {
+      "epoch": 8.741258741258742,
+      "grad_norm": 0.2803429961204529,
+      "learning_rate": 2.4303585968614594e-05,
+      "loss": 0.001303904354572296,
+      "step": 3750
+    },
+    {
+      "epoch": 8.857808857808857,
+      "grad_norm": 0.10039077699184418,
+      "learning_rate": 2.358620503735985e-05,
+      "loss": 0.0016713647544384003,
+      "step": 3800
+    },
+    {
+      "epoch": 8.857808857808857,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.907103825136612,
+      "eval_PW_precision": 0.9707602339181286,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6055555555555555,
+      "eval_RP_precision": 0.5677083333333334,
+      "eval_RP_recall": 0.6488095238095238,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1531914893617021,
+      "eval_RV_precision": 0.10714285714285714,
+      "eval_RV_recall": 0.26865671641791045,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8871695680206318,
+      "eval_f1": 0.6302250803858521,
+      "eval_loss": 0.06584469228982925,
+      "eval_precision": 0.5574516496018203,
+      "eval_recall": 0.7248520710059172,
+      "eval_runtime": 1.7127,
+      "eval_samples_per_second": 199.099,
+      "eval_steps_per_second": 3.503,
+      "step": 3800
+    },
+    {
+      "epoch": 8.974358974358974,
+      "grad_norm": 0.0319208949804306,
+      "learning_rate": 2.286999032609519e-05,
+      "loss": 0.0011156044900417327,
+      "step": 3850
+    },
+    {
+      "epoch": 9.090909090909092,
+      "grad_norm": 0.06702426820993423,
+      "learning_rate": 2.215553263047031e-05,
+      "loss": 0.001486612856388092,
+      "step": 3900
+    },
+    {
+      "epoch": 9.207459207459207,
+      "grad_norm": 0.025190044194459915,
+      "learning_rate": 2.1443421296796902e-05,
+      "loss": 0.0008709771931171417,
+      "step": 3950
+    },
+    {
+      "epoch": 9.324009324009324,
+      "grad_norm": 0.12909601628780365,
+      "learning_rate": 2.0734243735904992e-05,
+      "loss": 0.0007652242481708527,
+      "step": 4000
+    },
+    {
+      "epoch": 9.324009324009324,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9193548387096773,
+      "eval_PW_precision": 0.9661016949152542,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6684350132625995,
+      "eval_RP_precision": 0.6028708133971292,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22113022113022113,
+      "eval_RV_precision": 0.16483516483516483,
+      "eval_RV_recall": 0.3358208955223881,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9084461637653127,
+      "eval_f1": 0.6877887788778877,
+      "eval_loss": 0.06094101816415787,
+      "eval_precision": 0.6209773539928486,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7364,
+      "eval_samples_per_second": 196.38,
+      "eval_steps_per_second": 3.455,
+      "step": 4000
+    },
+    {
+      "epoch": 9.44055944055944,
+      "grad_norm": 0.038413889706134796,
+      "learning_rate": 2.002858493859587e-05,
+      "loss": 0.0005362145602703094,
+      "step": 4050
+    },
+    {
+      "epoch": 9.557109557109557,
+      "grad_norm": 0.15115134418010712,
+      "learning_rate": 1.9327026993091186e-05,
+      "loss": 0.0006626041233539581,
+      "step": 4100
+    },
+    {
+      "epoch": 9.673659673659674,
+      "grad_norm": 0.10298547893762589,
+      "learning_rate": 1.8630148604876468e-05,
+      "loss": 0.0007023769617080689,
+      "step": 4150
+    },
+    {
+      "epoch": 9.79020979020979,
+      "grad_norm": 0.11396172642707825,
+      "learning_rate": 1.793852461933484e-05,
+      "loss": 0.0011355096101760863,
+      "step": 4200
+    },
+    {
+      "epoch": 9.79020979020979,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9135135135135135,
+      "eval_PW_precision": 0.9657142857142857,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7024128686327078,
+      "eval_RP_precision": 0.6390243902439025,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22714681440443213,
+      "eval_RV_precision": 0.18061674008810572,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9194068343004513,
+      "eval_f1": 0.710868079289132,
+      "eval_loss": 0.05905779078602791,
+      "eval_precision": 0.6607369758576874,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.714,
+      "eval_samples_per_second": 198.951,
+      "eval_steps_per_second": 3.501,
+      "step": 4200
+    },
+    {
+      "epoch": 9.906759906759907,
+      "grad_norm": 0.06096949800848961,
+      "learning_rate": 1.7252725547565096e-05,
+      "loss": 0.0008608976751565933,
+      "step": 4250
+    },
+    {
+      "epoch": 10.023310023310023,
+      "grad_norm": 0.016558649018406868,
+      "learning_rate": 1.6573317095774848e-05,
+      "loss": 0.0005947026610374451,
+      "step": 4300
+    },
+    {
+      "epoch": 10.13986013986014,
+      "grad_norm": 0.05043337866663933,
+      "learning_rate": 1.590085969863735e-05,
+      "loss": 0.00048787113279104234,
+      "step": 4350
+    },
+    {
+      "epoch": 10.256410256410255,
+      "grad_norm": 0.045682214200496674,
+      "learning_rate": 1.5235908056996611e-05,
+      "loss": 0.0004080647230148315,
+      "step": 4400
+    },
+    {
+      "epoch": 10.256410256410255,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9168900804289545,
+      "eval_PW_precision": 0.9606741573033708,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7341040462427747,
+      "eval_RP_precision": 0.7134831460674157,
+      "eval_RP_recall": 0.7559523809523809,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.25705329153605017,
+      "eval_RV_precision": 0.22162162162162163,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9325166559209113,
+      "eval_f1": 0.7415891195418755,
+      "eval_loss": 0.06343553215265274,
+      "eval_precision": 0.7184466019417476,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.72,
+      "eval_steps_per_second": 3.461,
+      "step": 4400
+    },
+    {
+      "epoch": 10.372960372960373,
+      "grad_norm": 0.1844942271709442,
+      "learning_rate": 1.457901068030231e-05,
+      "loss": 0.00031626921147108076,
+      "step": 4450
+    },
+    {
+      "epoch": 10.48951048951049,
+      "grad_norm": 0.010490261018276215,
+      "learning_rate": 1.3930709434151923e-05,
+      "loss": 0.0003082297742366791,
+      "step": 4500
+    },
+    {
+      "epoch": 10.606060606060606,
+      "grad_norm": 0.05099688470363617,
+      "learning_rate": 1.3291539093313244e-05,
+      "loss": 0.0002880014106631279,
+      "step": 4550
+    },
+    {
+      "epoch": 10.722610722610723,
+      "grad_norm": 0.0041709644719958305,
+      "learning_rate": 1.2662026900596085e-05,
+      "loss": 0.000455758236348629,
+      "step": 4600
+    },
+    {
+      "epoch": 10.722610722610723,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7288135593220338,
+      "eval_RP_precision": 0.6935483870967742,
+      "eval_RP_recall": 0.7678571428571429,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2543352601156069,
+      "eval_RV_precision": 0.20754716981132076,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.927143778207608,
+      "eval_f1": 0.7318435754189943,
+      "eval_loss": 0.06572374701499939,
+      "eval_precision": 0.6931216931216931,
+      "eval_recall": 0.7751479289940828,
+      "eval_runtime": 1.7352,
+      "eval_samples_per_second": 196.525,
+      "eval_steps_per_second": 3.458,
+      "step": 4600
+    },
+    {
+      "epoch": 10.83916083916084,
+      "grad_norm": 0.07737918198108673,
+      "learning_rate": 1.2042692131936844e-05,
+      "loss": 0.0002386464923620224,
+      "step": 4650
+    },
+    {
+      "epoch": 10.955710955710956,
+      "grad_norm": 0.04120206460356712,
+      "learning_rate": 1.1434045668055083e-05,
+      "loss": 0.0005643576383590698,
+      "step": 4700
+    },
+    {
+      "epoch": 11.072261072261073,
+      "grad_norm": 0.004210051614791155,
+      "learning_rate": 1.0836589573034903e-05,
+      "loss": 0.0002576286718249321,
+      "step": 4750
+    },
+    {
+      "epoch": 11.188811188811188,
+      "grad_norm": 0.00333597045391798,
+      "learning_rate": 1.025081668017934e-05,
+      "loss": 0.00015084304846823215,
+      "step": 4800
+    },
+    {
+      "epoch": 11.188811188811188,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7072463768115942,
+      "eval_RP_precision": 0.6892655367231638,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.28070175438596495,
+      "eval_RV_precision": 0.23076923076923078,
+      "eval_RV_recall": 0.3582089552238806,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9288630990758651,
+      "eval_f1": 0.7338028169014085,
+      "eval_loss": 0.06656772643327713,
+      "eval_precision": 0.7002688172043011,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7356,
+      "eval_samples_per_second": 196.476,
+      "eval_steps_per_second": 3.457,
+      "step": 4800
+    },
+    {
+      "epoch": 11.305361305361306,
+      "grad_norm": 0.0031558393966406584,
+      "learning_rate": 9.67721018547886e-06,
+      "loss": 0.00015445927157998085,
+      "step": 4850
+    },
+    {
+      "epoch": 11.421911421911421,
+      "grad_norm": 0.011729123070836067,
+      "learning_rate": 9.116243249029687e-06,
+      "loss": 8.488255552947521e-05,
+      "step": 4900
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 0.0008316569146700203,
+      "learning_rate": 8.568378604730571e-06,
+      "loss": 0.0002171110361814499,
+      "step": 4950
+    },
+    {
+      "epoch": 11.655011655011656,
+      "grad_norm": 0.004247364588081837,
+      "learning_rate": 8.034068178579898e-06,
+      "loss": 0.00011632214300334453,
+      "step": 5000
+    },
+    {
+      "epoch": 11.655011655011656,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6840579710144926,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27627627627627627,
+      "eval_RV_precision": 0.23115577889447236,
+      "eval_RV_recall": 0.34328358208955223,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9284332688588007,
+      "eval_f1": 0.7299787384833452,
+      "eval_loss": 0.06678026169538498,
+      "eval_precision": 0.7006802721088435,
+      "eval_recall": 0.7618343195266272,
+      "eval_runtime": 1.7233,
+      "eval_samples_per_second": 197.88,
+      "eval_steps_per_second": 3.482,
+      "step": 5000
+    },
+    {
+      "epoch": 11.771561771561771,
+      "grad_norm": 0.05394391715526581,
+      "learning_rate": 7.513752715888273e-06,
+      "loss": 0.00016983246430754662,
+      "step": 5050
+    },
+    {
+      "epoch": 11.888111888111888,
+      "grad_norm": 0.03845563158392906,
+      "learning_rate": 7.0078614177136485e-06,
+      "loss": 0.00011192708276212215,
+      "step": 5100
+    },
+    {
+      "epoch": 12.004662004662004,
+      "grad_norm": 0.02336147241294384,
+      "learning_rate": 6.516811586819422e-06,
+      "loss": 0.0002335100807249546,
+      "step": 5150
+    },
+    {
+      "epoch": 12.121212121212121,
+      "grad_norm": 0.0003370556514710188,
+      "learning_rate": 6.0410082834470275e-06,
+      "loss": 4.8335092142224315e-05,
+      "step": 5200
+    },
+    {
+      "epoch": 12.121212121212121,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6783625730994152,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.6904761904761905,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.26791277258566976,
+      "eval_RV_precision": 0.22994652406417113,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9290780141843972,
+      "eval_f1": 0.7306590257879657,
+      "eval_loss": 0.07106506824493408,
+      "eval_precision": 0.7083333333333334,
+      "eval_recall": 0.7544378698224852,
+      "eval_runtime": 1.7221,
+      "eval_samples_per_second": 198.014,
+      "eval_steps_per_second": 3.484,
+      "step": 5200
+    },
+    {
+      "epoch": 12.237762237762238,
+      "grad_norm": 0.0017453994369134307,
+      "learning_rate": 5.580843991187368e-06,
+      "loss": 3.7836318369954824e-05,
+      "step": 5250
+    },
+    {
+      "epoch": 12.354312354312354,
+      "grad_norm": 0.0016113807214424014,
+      "learning_rate": 5.1366982932265304e-06,
+      "loss": 0.0001231016404926777,
+      "step": 5300
+    },
+    {
+      "epoch": 12.470862470862471,
+      "grad_norm": 0.0002258192835142836,
+      "learning_rate": 4.7089375592327624e-06,
+      "loss": 0.00012529355473816394,
+      "step": 5350
+    },
+    {
+      "epoch": 12.587412587412587,
+      "grad_norm": 0.0007686126627959311,
+      "learning_rate": 4.2979146431432915e-06,
+      "loss": 5.470495671033859e-05,
+      "step": 5400
+    },
+    {
+      "epoch": 12.587412587412587,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6976744186046512,
+      "eval_RP_precision": 0.6818181818181818,
+      "eval_RP_recall": 0.7142857142857143,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.270096463022508,
+      "eval_RV_precision": 0.23728813559322035,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9320868257038469,
+      "eval_f1": 0.7397260273972603,
+      "eval_loss": 0.07235979288816452,
+      "eval_precision": 0.7215189873417721,
+      "eval_recall": 0.7588757396449705,
+      "eval_runtime": 1.7207,
+      "eval_samples_per_second": 198.181,
+      "eval_steps_per_second": 3.487,
+      "step": 5400
+    },
+    {
+      "epoch": 12.703962703962704,
+      "grad_norm": 0.053321756422519684,
+      "learning_rate": 3.90396859209986e-06,
+      "loss": 7.323837839066982e-05,
+      "step": 5450
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.0006734261405654252,
+      "learning_rate": 3.52742436677351e-06,
+      "loss": 7.577850017696619e-05,
+      "step": 5500
+    },
+    {
+      "epoch": 12.937062937062937,
+      "grad_norm": 0.006321749184280634,
+      "learning_rate": 3.168592573308926e-06,
+      "loss": 6.354918237775564e-05,
+      "step": 5550
+    },
+    {
+      "epoch": 13.053613053613054,
+      "grad_norm": 0.01146603748202324,
+      "learning_rate": 2.8277692071097374e-06,
+      "loss": 7.275127340108157e-05,
+      "step": 5600
+    },
+    {
+      "epoch": 13.053613053613054,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6860465116279069,
+      "eval_RP_precision": 0.6704545454545454,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2633228840125392,
+      "eval_RV_precision": 0.22702702702702704,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9295078444014614,
+      "eval_f1": 0.7326164874551971,
+      "eval_loss": 0.07243338972330093,
+      "eval_precision": 0.7107093184979137,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.724,
+      "eval_steps_per_second": 3.461,
+      "step": 5600
+    },
+    {
+      "epoch": 13.17016317016317,
+      "grad_norm": 0.0032678074203431606,
+      "learning_rate": 2.5052354086759906e-06,
+      "loss": 4.818648099899292e-05,
+      "step": 5650
+    },
+    {
+      "epoch": 13.286713286713287,
+      "grad_norm": 5.290813714964315e-05,
+      "learning_rate": 2.201257231695203e-06,
+      "loss": 3.962628543376923e-05,
+      "step": 5700
+    },
+    {
+      "epoch": 13.403263403263404,
+      "grad_norm": 0.003765746718272567,
+      "learning_rate": 1.9160854235783676e-06,
+      "loss": 7.49044306576252e-05,
+      "step": 5750
+    },
+    {
+      "epoch": 13.51981351981352,
+      "grad_norm": 0.004614013712853193,
+      "learning_rate": 1.6499552186218404e-06,
+      "loss": 0.00010283836163580418,
+      "step": 5800
+    },
+    {
+      "epoch": 13.51981351981352,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2636655948553055,
+      "eval_RV_precision": 0.23163841807909605,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9307973350526542,
+      "eval_f1": 0.7344877344877345,
+      "eval_loss": 0.0731448158621788,
+      "eval_precision": 0.7169014084507043,
+      "eval_recall": 0.7529585798816568,
+      "eval_runtime": 1.7378,
+      "eval_samples_per_second": 196.225,
+      "eval_steps_per_second": 3.453,
+      "step": 5800
+    },
+    {
+      "epoch": 13.636363636363637,
+      "grad_norm": 0.008611422032117844,
+      "learning_rate": 1.4030861439658371e-06,
+      "loss": 5.049420055001974e-05,
+      "step": 5850
+    },
+    {
+      "epoch": 13.752913752913752,
+      "grad_norm": 0.0007724300376139581,
+      "learning_rate": 1.1756818385094903e-06,
+      "loss": 4.655594471842051e-05,
+      "step": 5900
+    },
+    {
+      "epoch": 13.86946386946387,
+      "grad_norm": 0.0035631547216326,
+      "learning_rate": 9.679298849319506e-07,
+      "loss": 9.550724178552627e-05,
+      "step": 5950
+    },
+    {
+      "epoch": 13.986013986013987,
+      "grad_norm": 0.0005321915959939361,
+      "learning_rate": 7.800016549580014e-07,
+      "loss": 3.305248450487852e-05,
+      "step": 6000
+    },
+    {
+      "epoch": 13.986013986013987,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27564102564102566,
+      "eval_RV_precision": 0.24157303370786518,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9314420803782506,
+      "eval_f1": 0.7368421052631579,
+      "eval_loss": 0.07319783419370651,
+      "eval_precision": 0.7187060478199718,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7266,
+      "eval_samples_per_second": 197.499,
+      "eval_steps_per_second": 3.475,
+      "step": 6000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 6435,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 15,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 8
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.26802089985408e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-6000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:367294190e35f865e87bd36d38622df04ac30f8b61585d007bf7a90b90586c7e
+size 5201

checkpoint-6200/config.json ADDED Viewed

	@@ -0,0 +1,93 @@

+{
+  "architectures": [
+    "ModernBertForTokenClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.4,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "FP",
+    "2": "RP",
+    "3": "RV",
+    "4": "PW"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "FP": 1,
+    "O": 0,
+    "PW": 4,
+    "RP": 2,
+    "RV": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "local_attention": 128,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "rope_parameters": {
+    "full_attention": {
+      "rope_theta": 160000.0,
+      "rope_type": "default"
+    },
+    "sliding_attention": {
+      "rope_theta": 10000.0,
+      "rope_type": "default"
+    }
+  },
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "use_cache": false,
+  "vocab_size": 50368
+}

checkpoint-6200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93efaa327635736d37c03c1aa802e1957051acf3b9018df92bb0a4542d947c84
+size 598449012

checkpoint-6200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:188c971eb3d7e62c434539a78fa6e9f25de84c803c2910babb323d859beb9458
+size 535150859

checkpoint-6200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7250e85d15e39503e4b6f3e9797d6687b7b0643707b4a88c5ec454a25b223478
+size 14645

checkpoint-6200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48ba1e7bda9057345f62a02d2ab5a8bb8df6d49bb29758201aeb8ff6107d4f41
+size 1383

checkpoint-6200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51fcc41d5f9ac74f6a172c22f0f8838c44fe03195de383ca4dce01bad3113f74
+size 1465

checkpoint-6200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-6200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]"
+}

checkpoint-6200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1786 @@

+{
+  "best_global_step": 4400,
+  "best_metric": 0.7415891195418755,
+  "best_model_checkpoint": "/content/drive/MyDrive/disfluency_model/checkpoint-4400",
+  "epoch": 14.452214452214452,
+  "eval_steps": 200,
+  "global_step": 6200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002331002331002331,
+      "grad_norm": 9.829856872558594,
+      "learning_rate": 0.0,
+      "loss": 0.5272760987281799,
+      "step": 1
+    },
+    {
+      "epoch": 0.11655011655011654,
+      "grad_norm": 4.721482276916504,
+      "learning_rate": 2.5362318840579714e-06,
+      "loss": 0.4355599928875359,
+      "step": 50
+    },
+    {
+      "epoch": 0.2331002331002331,
+      "grad_norm": 4.99301290512085,
+      "learning_rate": 5.124223602484472e-06,
+      "loss": 0.3406296920776367,
+      "step": 100
+    },
+    {
+      "epoch": 0.34965034965034963,
+      "grad_norm": 6.354604721069336,
+      "learning_rate": 7.712215320910973e-06,
+      "loss": 0.28903684616088865,
+      "step": 150
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "grad_norm": 1.833147644996643,
+      "learning_rate": 1.0300207039337475e-05,
+      "loss": 0.2038218879699707,
+      "step": 200
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "eval_FP_f1": 0.7824175824175823,
+      "eval_FP_precision": 0.644927536231884,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.23580786026200873,
+      "eval_PW_precision": 0.7941176470588235,
+      "eval_PW_recall": 0.13846153846153847,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.2018072289156626,
+      "eval_RP_precision": 0.1350806451612903,
+      "eval_RP_recall": 0.39880952380952384,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1115065243179122,
+      "eval_RV_precision": 0.06629055007052186,
+      "eval_RV_recall": 0.35074626865671643,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6950354609929078,
+      "eval_f1": 0.2911912368781378,
+      "eval_loss": 0.07750222831964493,
+      "eval_precision": 0.21056105610561057,
+      "eval_recall": 0.4718934911242604,
+      "eval_runtime": 1.7776,
+      "eval_samples_per_second": 191.831,
+      "eval_steps_per_second": 3.375,
+      "step": 200
+    },
+    {
+      "epoch": 0.5827505827505828,
+      "grad_norm": 2.7244417667388916,
+      "learning_rate": 1.2888198757763975e-05,
+      "loss": 0.1314036178588867,
+      "step": 250
+    },
+    {
+      "epoch": 0.6993006993006993,
+      "grad_norm": 1.8847157955169678,
+      "learning_rate": 1.5476190476190476e-05,
+      "loss": 0.0891645622253418,
+      "step": 300
+    },
+    {
+      "epoch": 0.8158508158508159,
+      "grad_norm": 0.6841979026794434,
+      "learning_rate": 1.8064182194616976e-05,
+      "loss": 0.06860542297363281,
+      "step": 350
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "grad_norm": 0.8485817909240723,
+      "learning_rate": 2.065217391304348e-05,
+      "loss": 0.056485376358032226,
+      "step": 400
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "eval_FP_f1": 0.9888268156424581,
+      "eval_FP_precision": 0.9888268156424581,
+      "eval_FP_recall": 0.9888268156424581,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.7810650887573964,
+      "eval_PW_precision": 0.9230769230769231,
+      "eval_PW_recall": 0.676923076923077,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.34449760765550236,
+      "eval_RP_precision": 0.288,
+      "eval_RP_recall": 0.42857142857142855,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.09023415191319246,
+      "eval_RV_precision": 0.04885590599876314,
+      "eval_RV_recall": 0.5895522388059702,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6064904362776703,
+      "eval_f1": 0.3211169284467714,
+      "eval_loss": 0.06627956032752991,
+      "eval_precision": 0.21014161717679306,
+      "eval_recall": 0.6804733727810651,
+      "eval_runtime": 1.7555,
+      "eval_samples_per_second": 194.242,
+      "eval_steps_per_second": 3.418,
+      "step": 400
+    },
+    {
+      "epoch": 1.048951048951049,
+      "grad_norm": 0.9849236011505127,
+      "learning_rate": 2.3240165631469983e-05,
+      "loss": 0.051623358726501464,
+      "step": 450
+    },
+    {
+      "epoch": 1.1655011655011656,
+      "grad_norm": 0.8257520198822021,
+      "learning_rate": 2.582815734989648e-05,
+      "loss": 0.054394068717956545,
+      "step": 500
+    },
+    {
+      "epoch": 1.282051282051282,
+      "grad_norm": 1.269953727722168,
+      "learning_rate": 2.8416149068322983e-05,
+      "loss": 0.038275165557861326,
+      "step": 550
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "grad_norm": 0.7971916794776917,
+      "learning_rate": 3.100414078674948e-05,
+      "loss": 0.04537781715393066,
+      "step": 600
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8435754189944136,
+      "eval_PW_precision": 0.9263803680981595,
+      "eval_PW_recall": 0.7743589743589744,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5123966942148761,
+      "eval_RP_precision": 0.3924050632911392,
+      "eval_RP_recall": 0.7380952380952381,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.10061919504643962,
+      "eval_RV_precision": 0.05613126079447323,
+      "eval_RV_recall": 0.48507462686567165,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7038469804427251,
+      "eval_f1": 0.41573033707865165,
+      "eval_loss": 0.04902895167469978,
+      "eval_precision": 0.2852422907488987,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7583,
+      "eval_samples_per_second": 193.935,
+      "eval_steps_per_second": 3.412,
+      "step": 600
+    },
+    {
+      "epoch": 1.5151515151515151,
+      "grad_norm": 0.5072907209396362,
+      "learning_rate": 3.359213250517598e-05,
+      "loss": 0.04208078861236572,
+      "step": 650
+    },
+    {
+      "epoch": 1.6317016317016317,
+      "grad_norm": 0.29589056968688965,
+      "learning_rate": 3.618012422360248e-05,
+      "loss": 0.036929750442504884,
+      "step": 700
+    },
+    {
+      "epoch": 1.7482517482517483,
+      "grad_norm": 0.5353514552116394,
+      "learning_rate": 3.876811594202899e-05,
+      "loss": 0.039374511241912845,
+      "step": 750
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "grad_norm": 0.853635847568512,
+      "learning_rate": 4.135610766045549e-05,
+      "loss": 0.035586235523223875,
+      "step": 800
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8698060941828255,
+      "eval_PW_precision": 0.9457831325301205,
+      "eval_PW_recall": 0.8051282051282052,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.4963503649635036,
+      "eval_RP_precision": 0.41975308641975306,
+      "eval_RP_recall": 0.6071428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.11028315946348734,
+      "eval_RV_precision": 0.06890130353817504,
+      "eval_RV_recall": 0.27611940298507465,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8289275736084246,
+      "eval_f1": 0.5271920088790233,
+      "eval_loss": 0.05218891426920891,
+      "eval_precision": 0.4218472468916519,
+      "eval_recall": 0.7026627218934911,
+      "eval_runtime": 1.7474,
+      "eval_samples_per_second": 195.151,
+      "eval_steps_per_second": 3.434,
+      "step": 800
+    },
+    {
+      "epoch": 1.9813519813519813,
+      "grad_norm": 0.3492014408111572,
+      "learning_rate": 4.3944099378881993e-05,
+      "loss": 0.037635867595672605,
+      "step": 850
+    },
+    {
+      "epoch": 2.097902097902098,
+      "grad_norm": 0.52850741147995,
+      "learning_rate": 4.653209109730849e-05,
+      "loss": 0.02877570629119873,
+      "step": 900
+    },
+    {
+      "epoch": 2.2144522144522143,
+      "grad_norm": 0.20403911173343658,
+      "learning_rate": 4.9120082815734993e-05,
+      "loss": 0.02313091278076172,
+      "step": 950
+    },
+    {
+      "epoch": 2.331002331002331,
+      "grad_norm": 0.4374295175075531,
+      "learning_rate": 4.99955083202285e-05,
+      "loss": 0.026792542934417726,
+      "step": 1000
+    },
+    {
+      "epoch": 2.331002331002331,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8757062146892656,
+      "eval_PW_precision": 0.9748427672955975,
+      "eval_PW_recall": 0.7948717948717948,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5376884422110553,
+      "eval_RP_precision": 0.4652173913043478,
+      "eval_RP_recall": 0.6369047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13902439024390245,
+      "eval_RV_precision": 0.08309037900874636,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8128089404685149,
+      "eval_f1": 0.5150259067357513,
+      "eval_loss": 0.04896986111998558,
+      "eval_precision": 0.3963317384370016,
+      "eval_recall": 0.735207100591716,
+      "eval_runtime": 1.755,
+      "eval_samples_per_second": 194.299,
+      "eval_steps_per_second": 3.419,
+      "step": 1000
+    },
+    {
+      "epoch": 2.4475524475524475,
+      "grad_norm": 0.22397278249263763,
+      "learning_rate": 4.997159022301654e-05,
+      "loss": 0.024302377700805664,
+      "step": 1050
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 0.4257676303386688,
+      "learning_rate": 4.992707340500554e-05,
+      "loss": 0.02201436996459961,
+      "step": 1100
+    },
+    {
+      "epoch": 2.6806526806526807,
+      "grad_norm": 0.23829305171966553,
+      "learning_rate": 4.986199458750547e-05,
+      "loss": 0.026013293266296388,
+      "step": 1150
+    },
+    {
+      "epoch": 2.797202797202797,
+      "grad_norm": 0.43061190843582153,
+      "learning_rate": 4.977640745313644e-05,
+      "loss": 0.021799113750457764,
+      "step": 1200
+    },
+    {
+      "epoch": 2.797202797202797,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9005524861878453,
+      "eval_PW_precision": 0.9760479041916168,
+      "eval_PW_recall": 0.8358974358974359,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5901639344262296,
+      "eval_RP_precision": 0.4864864864864865,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1551020408163265,
+      "eval_RV_precision": 0.09484193011647254,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8330109606705351,
+      "eval_f1": 0.5576208178438662,
+      "eval_loss": 0.04321876913309097,
+      "eval_precision": 0.43496271748135873,
+      "eval_recall": 0.7766272189349113,
+      "eval_runtime": 1.7666,
+      "eval_samples_per_second": 193.025,
+      "eval_steps_per_second": 3.396,
+      "step": 1200
+    },
+    {
+      "epoch": 2.913752913752914,
+      "grad_norm": 0.42580506205558777,
+      "learning_rate": 4.9670382601546674e-05,
+      "loss": 0.022718839645385742,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0303030303030303,
+      "grad_norm": 0.2979868948459625,
+      "learning_rate": 4.954400749117577e-05,
+      "loss": 0.02102189540863037,
+      "step": 1300
+    },
+    {
+      "epoch": 3.1468531468531467,
+      "grad_norm": 0.246241495013237,
+      "learning_rate": 4.93973863671115e-05,
+      "loss": 0.014143779277801513,
+      "step": 1350
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "grad_norm": 0.21763332188129425,
+      "learning_rate": 4.923064017509945e-05,
+      "loss": 0.015854754447937013,
+      "step": 1400
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8963730569948186,
+      "eval_PW_precision": 0.9057591623036649,
+      "eval_PW_recall": 0.8871794871794871,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.639269406392694,
+      "eval_RP_precision": 0.5185185185185185,
+      "eval_RP_recall": 0.8333333333333334,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13923013923013924,
+      "eval_RV_precision": 0.078196872125115,
+      "eval_RV_recall": 0.6343283582089553,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7448957661723619,
+      "eval_f1": 0.4800332778702163,
+      "eval_loss": 0.036764442920684814,
+      "eval_precision": 0.33391203703703703,
+      "eval_recall": 0.8535502958579881,
+      "eval_runtime": 1.7649,
+      "eval_samples_per_second": 193.209,
+      "eval_steps_per_second": 3.4,
+      "step": 1400
+    },
+    {
+      "epoch": 3.37995337995338,
+      "grad_norm": 0.28029730916023254,
+      "learning_rate": 4.904390646177652e-05,
+      "loss": 0.012800486087799072,
+      "step": 1450
+    },
+    {
+      "epoch": 3.4965034965034967,
+      "grad_norm": 0.45200076699256897,
+      "learning_rate": 4.8837339261210644e-05,
+      "loss": 0.014847630262374878,
+      "step": 1500
+    },
+    {
+      "epoch": 3.613053613053613,
+      "grad_norm": 0.468578577041626,
+      "learning_rate": 4.861110896784017e-05,
+      "loss": 0.013855412006378173,
+      "step": 1550
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "grad_norm": 0.2053418904542923,
+      "learning_rate": 4.836540219591784e-05,
+      "loss": 0.015822688341140746,
+      "step": 1600
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8815426997245178,
+      "eval_PW_precision": 0.9523809523809523,
+      "eval_PW_recall": 0.8205128205128205,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6395939086294417,
+      "eval_RP_precision": 0.5575221238938053,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15873015873015875,
+      "eval_RV_precision": 0.09838998211091235,
+      "eval_RV_recall": 0.41044776119402987,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8497743391360413,
+      "eval_f1": 0.5749032614704257,
+      "eval_loss": 0.04276173189282417,
+      "eval_precision": 0.4589585172109444,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.7648,
+      "eval_samples_per_second": 193.225,
+      "eval_steps_per_second": 3.4,
+      "step": 1600
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.16666975617408752,
+      "learning_rate": 4.8100421625575284e-05,
+      "loss": 0.015907624959945677,
+      "step": 1650
+    },
+    {
+      "epoch": 3.9627039627039626,
+      "grad_norm": 0.4703992009162903,
+      "learning_rate": 4.7816385835634944e-05,
+      "loss": 0.0139349365234375,
+      "step": 1700
+    },
+    {
+      "epoch": 4.0792540792540795,
+      "grad_norm": 0.5405648946762085,
+      "learning_rate": 4.751352912330744e-05,
+      "loss": 0.012668570280075073,
+      "step": 1750
+    },
+    {
+      "epoch": 4.195804195804196,
+      "grad_norm": 0.28995925188064575,
+      "learning_rate": 4.719210131092302e-05,
+      "loss": 0.013018554449081421,
+      "step": 1800
+    },
+    {
+      "epoch": 4.195804195804196,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9110512129380054,
+      "eval_PW_precision": 0.9602272727272727,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6192893401015228,
+      "eval_RP_precision": 0.5398230088495575,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15172413793103448,
+      "eval_RV_precision": 0.08576998050682261,
+      "eval_RV_recall": 0.6567164179104478,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7635933806146572,
+      "eval_f1": 0.48861646234676004,
+      "eval_loss": 0.03999365121126175,
+      "eval_precision": 0.34701492537313433,
+      "eval_recall": 0.8254437869822485,
+      "eval_runtime": 1.7678,
+      "eval_samples_per_second": 192.895,
+      "eval_steps_per_second": 3.394,
+      "step": 1800
+    },
+    {
+      "epoch": 4.312354312354312,
+      "grad_norm": 0.1972808986902237,
+      "learning_rate": 4.6852367539856546e-05,
+      "loss": 0.007865548133850098,
+      "step": 1850
+    },
+    {
+      "epoch": 4.428904428904429,
+      "grad_norm": 0.08727411925792694,
+      "learning_rate": 4.649460805181604e-05,
+      "loss": 0.007297297716140747,
+      "step": 1900
+    },
+    {
+      "epoch": 4.545454545454545,
+      "grad_norm": 0.2259584218263626,
+      "learning_rate": 4.611911795767516e-05,
+      "loss": 0.008797573447227479,
+      "step": 1950
+    },
+    {
+      "epoch": 4.662004662004662,
+      "grad_norm": 0.2499346286058426,
+      "learning_rate": 4.572620699404031e-05,
+      "loss": 0.009554592967033386,
+      "step": 2000
+    },
+    {
+      "epoch": 4.662004662004662,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.906166219839142,
+      "eval_PW_precision": 0.949438202247191,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6819338422391857,
+      "eval_RP_precision": 0.5955555555555555,
+      "eval_RP_recall": 0.7976190476190477,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.18010471204188477,
+      "eval_RV_precision": 0.10475030450669914,
+      "eval_RV_recall": 0.6417910447761194,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8108747044917257,
+      "eval_f1": 0.5461538461538462,
+      "eval_loss": 0.03176203742623329,
+      "eval_precision": 0.4045584045584046,
+      "eval_recall": 0.8402366863905325,
+      "eval_runtime": 1.7462,
+      "eval_samples_per_second": 195.286,
+      "eval_steps_per_second": 3.436,
+      "step": 2000
+    },
+    {
+      "epoch": 4.778554778554779,
+      "grad_norm": 0.18241898715496063,
+      "learning_rate": 4.531619926775317e-05,
+      "loss": 0.010103501081466675,
+      "step": 2050
+    },
+    {
+      "epoch": 4.895104895104895,
+      "grad_norm": 0.5646976232528687,
+      "learning_rate": 4.48894329885394e-05,
+      "loss": 0.010654613971710206,
+      "step": 2100
+    },
+    {
+      "epoch": 5.011655011655011,
+      "grad_norm": 0.17059487104415894,
+      "learning_rate": 4.4446260190024183e-05,
+      "loss": 0.008428264856338501,
+      "step": 2150
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 0.10937484353780746,
+      "learning_rate": 4.3987046439344426e-05,
+      "loss": 0.0056066220998764035,
+      "step": 2200
+    },
+    {
+      "epoch": 5.128205128205128,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.88,
+      "eval_PW_precision": 0.9935483870967742,
+      "eval_PW_recall": 0.7897435897435897,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6699029126213593,
+      "eval_RP_precision": 0.5655737704918032,
+      "eval_RP_recall": 0.8214285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17673048600883653,
+      "eval_RV_precision": 0.11009174311926606,
+      "eval_RV_recall": 0.44776119402985076,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8549323017408124,
+      "eval_f1": 0.5892162312395776,
+      "eval_loss": 0.044926226139068604,
+      "eval_precision": 0.4719501335707925,
+      "eval_recall": 0.7840236686390533,
+      "eval_runtime": 1.7668,
+      "eval_samples_per_second": 193.006,
+      "eval_steps_per_second": 3.396,
+      "step": 2200
+    },
+    {
+      "epoch": 5.244755244755245,
+      "grad_norm": 0.25396180152893066,
+      "learning_rate": 4.351217053559754e-05,
+      "loss": 0.006568117141723633,
+      "step": 2250
+    },
+    {
+      "epoch": 5.361305361305361,
+      "grad_norm": 0.15003487467765808,
+      "learning_rate": 4.3022024197375266e-05,
+      "loss": 0.0060064631700515745,
+      "step": 2300
+    },
+    {
+      "epoch": 5.477855477855478,
+      "grad_norm": 0.27384480834007263,
+      "learning_rate": 4.2517011739640374e-05,
+      "loss": 0.005202606916427612,
+      "step": 2350
+    },
+    {
+      "epoch": 5.594405594405594,
+      "grad_norm": 0.2527216672897339,
+      "learning_rate": 4.199754974021286e-05,
+      "loss": 0.008023700714111327,
+      "step": 2400
+    },
+    {
+      "epoch": 5.594405594405594,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9037433155080213,
+      "eval_PW_precision": 0.9441340782122905,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.699421965317919,
+      "eval_RP_precision": 0.6797752808988764,
+      "eval_RP_recall": 0.7202380952380952,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17636363636363636,
+      "eval_RV_precision": 0.10041407867494824,
+      "eval_RV_recall": 0.7238805970149254,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7906726842897056,
+      "eval_f1": 0.5195043597980725,
+      "eval_loss": 0.03475594520568848,
+      "eval_precision": 0.37658017298735863,
+      "eval_recall": 0.8372781065088757,
+      "eval_runtime": 1.7484,
+      "eval_samples_per_second": 195.03,
+      "eval_steps_per_second": 3.432,
+      "step": 2400
+    },
+    {
+      "epoch": 5.7109557109557105,
+      "grad_norm": 0.10864783078432083,
+      "learning_rate": 4.146406669614064e-05,
+      "loss": 0.006877620220184327,
+      "step": 2450
+    },
+    {
+      "epoch": 5.827505827505828,
+      "grad_norm": 0.1385946273803711,
+      "learning_rate": 4.0917002670238205e-05,
+      "loss": 0.005679036974906921,
+      "step": 2500
+    },
+    {
+      "epoch": 5.944055944055944,
+      "grad_norm": 0.39363569021224976,
+      "learning_rate": 4.035680892808487e-05,
+      "loss": 0.005111011862754822,
+      "step": 2550
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "grad_norm": 0.13166821002960205,
+      "learning_rate": 3.978394756578204e-05,
+      "loss": 0.005011002421379089,
+      "step": 2600
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.912568306010929,
+      "eval_PW_precision": 0.9766081871345029,
+      "eval_PW_recall": 0.8564102564102564,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6852791878172589,
+      "eval_RP_precision": 0.5973451327433629,
+      "eval_RP_recall": 0.8035714285714286,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17982456140350878,
+      "eval_RV_precision": 0.12732919254658384,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8970556630131098,
+      "eval_f1": 0.6628571428571428,
+      "eval_loss": 0.04650285467505455,
+      "eval_precision": 0.5806451612903226,
+      "eval_recall": 0.772189349112426,
+      "eval_runtime": 1.7907,
+      "eval_samples_per_second": 190.43,
+      "eval_steps_per_second": 3.351,
+      "step": 2600
+    },
+    {
+      "epoch": 6.177156177156177,
+      "grad_norm": 0.09747270494699478,
+      "learning_rate": 3.91988911287765e-05,
+      "loss": 0.003968673944473267,
+      "step": 2650
+    },
+    {
+      "epoch": 6.293706293706293,
+      "grad_norm": 0.2859274446964264,
+      "learning_rate": 3.860212222206416e-05,
+      "loss": 0.003097459375858307,
+      "step": 2700
+    },
+    {
+      "epoch": 6.410256410256411,
+      "grad_norm": 0.1547211855649948,
+      "learning_rate": 3.799413311209587e-05,
+      "loss": 0.003905009925365448,
+      "step": 2750
+    },
+    {
+      "epoch": 6.526806526806527,
+      "grad_norm": 0.3189227283000946,
+      "learning_rate": 3.737542532071357e-05,
+      "loss": 0.003843022286891937,
+      "step": 2800
+    },
+    {
+      "epoch": 6.526806526806527,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9120879120879121,
+      "eval_PW_precision": 0.9822485207100592,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6814404432132963,
+      "eval_RP_precision": 0.6373056994818653,
+      "eval_RP_recall": 0.7321428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.195906432748538,
+      "eval_RV_precision": 0.12181818181818181,
+      "eval_RV_recall": 0.5,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8613797549967763,
+      "eval_f1": 0.6052036199095022,
+      "eval_loss": 0.047517433762550354,
+      "eval_precision": 0.4899267399267399,
+      "eval_recall": 0.7914201183431953,
+      "eval_runtime": 1.7457,
+      "eval_samples_per_second": 195.333,
+      "eval_steps_per_second": 3.437,
+      "step": 2800
+    },
+    {
+      "epoch": 6.643356643356643,
+      "grad_norm": 0.28142914175987244,
+      "learning_rate": 3.674650921145187e-05,
+      "loss": 0.0046959114074707035,
+      "step": 2850
+    },
+    {
+      "epoch": 6.75990675990676,
+      "grad_norm": 0.4578351080417633,
+      "learning_rate": 3.6107903568546175e-05,
+      "loss": 0.0066505372524261475,
+      "step": 2900
+    },
+    {
+      "epoch": 6.876456876456876,
+      "grad_norm": 0.06301693618297577,
+      "learning_rate": 3.546013516899472e-05,
+      "loss": 0.005263023376464844,
+      "step": 2950
+    },
+    {
+      "epoch": 6.993006993006993,
+      "grad_norm": 0.5769485831260681,
+      "learning_rate": 3.480373834802748e-05,
+      "loss": 0.0045099428296089174,
+      "step": 3000
+    },
+    {
+      "epoch": 6.993006993006993,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8925619834710744,
+      "eval_PW_precision": 0.9642857142857143,
+      "eval_PW_recall": 0.8307692307692308,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.745308310991957,
+      "eval_RP_precision": 0.6780487804878049,
+      "eval_RP_recall": 0.8273809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2644320297951583,
+      "eval_RV_precision": 0.1761786600496278,
+      "eval_RV_recall": 0.5298507462686567,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8985600687728348,
+      "eval_f1": 0.6752450980392156,
+      "eval_loss": 0.04083069786429405,
+      "eval_precision": 0.5763598326359832,
+      "eval_recall": 0.8150887573964497,
+      "eval_runtime": 1.7656,
+      "eval_samples_per_second": 193.139,
+      "eval_steps_per_second": 3.398,
+      "step": 3000
+    },
+    {
+      "epoch": 7.10955710955711,
+      "grad_norm": 0.4822663366794586,
+      "learning_rate": 3.413925455834041e-05,
+      "loss": 0.0027274960279464722,
+      "step": 3050
+    },
+    {
+      "epoch": 7.226107226107226,
+      "grad_norm": 0.12082718312740326,
+      "learning_rate": 3.346723192345858e-05,
+      "loss": 0.0027995941042900084,
+      "step": 3100
+    },
+    {
+      "epoch": 7.3426573426573425,
+      "grad_norm": 0.051056090742349625,
+      "learning_rate": 3.278822478559657e-05,
+      "loss": 0.002488945722579956,
+      "step": 3150
+    },
+    {
+      "epoch": 7.459207459207459,
+      "grad_norm": 0.3237623870372772,
+      "learning_rate": 3.2102793248389316e-05,
+      "loss": 0.002043289989233017,
+      "step": 3200
+    },
+    {
+      "epoch": 7.459207459207459,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9124668435013262,
+      "eval_PW_precision": 0.945054945054945,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7119565217391305,
+      "eval_RP_precision": 0.655,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2311111111111111,
+      "eval_RV_precision": 0.16455696202531644,
+      "eval_RV_recall": 0.3880597014925373,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9065119277885235,
+      "eval_f1": 0.6872586872586873,
+      "eval_loss": 0.04947880655527115,
+      "eval_precision": 0.6082004555808656,
+      "eval_recall": 0.7899408284023669,
+      "eval_runtime": 1.7267,
+      "eval_samples_per_second": 197.485,
+      "eval_steps_per_second": 3.475,
+      "step": 3200
+    },
+    {
+      "epoch": 7.575757575757576,
+      "grad_norm": 0.2536736726760864,
+      "learning_rate": 3.141150271487024e-05,
+      "loss": 0.0021054935455322265,
+      "step": 3250
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 0.19249416887760162,
+      "learning_rate": 3.071492342107814e-05,
+      "loss": 0.0030115434527397157,
+      "step": 3300
+    },
+    {
+      "epoch": 7.808857808857809,
+      "grad_norm": 0.40715843439102173,
+      "learning_rate": 3.0013629965677292e-05,
+      "loss": 0.0025595900416374206,
+      "step": 3350
+    },
+    {
+      "epoch": 7.925407925407925,
+      "grad_norm": 0.05540835112333298,
+      "learning_rate": 2.930820083597896e-05,
+      "loss": 0.0023874352872371675,
+      "step": 3400
+    },
+    {
+      "epoch": 7.925407925407925,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9243243243243243,
+      "eval_PW_precision": 0.9771428571428571,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7436619718309859,
+      "eval_RP_precision": 0.7058823529411765,
+      "eval_RP_recall": 0.7857142857142857,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.23783783783783785,
+      "eval_RV_precision": 0.1864406779661017,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9228454760369654,
+      "eval_f1": 0.7235213204951857,
+      "eval_loss": 0.05276188254356384,
+      "eval_precision": 0.6760925449871465,
+      "eval_recall": 0.7781065088757396,
+      "eval_runtime": 1.7026,
+      "eval_samples_per_second": 200.284,
+      "eval_steps_per_second": 3.524,
+      "step": 3400
+    },
+    {
+      "epoch": 8.041958041958042,
+      "grad_norm": 0.05420549958944321,
+      "learning_rate": 2.8599217930755163e-05,
+      "loss": 0.0017227402329444885,
+      "step": 3450
+    },
+    {
+      "epoch": 8.158508158508159,
+      "grad_norm": 0.03208259865641594,
+      "learning_rate": 2.7887266080238394e-05,
+      "loss": 0.0014327512681484222,
+      "step": 3500
+    },
+    {
+      "epoch": 8.275058275058274,
+      "grad_norm": 0.11691170930862427,
+      "learning_rate": 2.717293256370324e-05,
+      "loss": 0.0008813569694757461,
+      "step": 3550
+    },
+    {
+      "epoch": 8.391608391608392,
+      "grad_norm": 0.04499991610646248,
+      "learning_rate": 2.6456806625027753e-05,
+      "loss": 0.001173463687300682,
+      "step": 3600
+    },
+    {
+      "epoch": 8.391608391608392,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6649350649350648,
+      "eval_RP_precision": 0.5898617511520737,
+      "eval_RP_recall": 0.7619047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2242152466367713,
+      "eval_RV_precision": 0.16025641025641027,
+      "eval_RV_recall": 0.373134328358209,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9011390500752203,
+      "eval_f1": 0.6769033909149073,
+      "eval_loss": 0.051750849932432175,
+      "eval_precision": 0.5963923337091319,
+      "eval_recall": 0.7825443786982249,
+      "eval_runtime": 1.7154,
+      "eval_samples_per_second": 198.783,
+      "eval_steps_per_second": 3.498,
+      "step": 3600
+    },
+    {
+      "epoch": 8.508158508158509,
+      "grad_norm": 0.1041538193821907,
+      "learning_rate": 2.5739478986634334e-05,
+      "loss": 0.0012617163360118867,
+      "step": 3650
+    },
+    {
+      "epoch": 8.624708624708624,
+      "grad_norm": 0.07832089811563492,
+      "learning_rate": 2.502154136221095e-05,
+      "loss": 0.0016725870966911316,
+      "step": 3700
+    },
+    {
+      "epoch": 8.741258741258742,
+      "grad_norm": 0.2803429961204529,
+      "learning_rate": 2.4303585968614594e-05,
+      "loss": 0.001303904354572296,
+      "step": 3750
+    },
+    {
+      "epoch": 8.857808857808857,
+      "grad_norm": 0.10039077699184418,
+      "learning_rate": 2.358620503735985e-05,
+      "loss": 0.0016713647544384003,
+      "step": 3800
+    },
+    {
+      "epoch": 8.857808857808857,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.907103825136612,
+      "eval_PW_precision": 0.9707602339181286,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6055555555555555,
+      "eval_RP_precision": 0.5677083333333334,
+      "eval_RP_recall": 0.6488095238095238,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1531914893617021,
+      "eval_RV_precision": 0.10714285714285714,
+      "eval_RV_recall": 0.26865671641791045,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8871695680206318,
+      "eval_f1": 0.6302250803858521,
+      "eval_loss": 0.06584469228982925,
+      "eval_precision": 0.5574516496018203,
+      "eval_recall": 0.7248520710059172,
+      "eval_runtime": 1.7127,
+      "eval_samples_per_second": 199.099,
+      "eval_steps_per_second": 3.503,
+      "step": 3800
+    },
+    {
+      "epoch": 8.974358974358974,
+      "grad_norm": 0.0319208949804306,
+      "learning_rate": 2.286999032609519e-05,
+      "loss": 0.0011156044900417327,
+      "step": 3850
+    },
+    {
+      "epoch": 9.090909090909092,
+      "grad_norm": 0.06702426820993423,
+      "learning_rate": 2.215553263047031e-05,
+      "loss": 0.001486612856388092,
+      "step": 3900
+    },
+    {
+      "epoch": 9.207459207459207,
+      "grad_norm": 0.025190044194459915,
+      "learning_rate": 2.1443421296796902e-05,
+      "loss": 0.0008709771931171417,
+      "step": 3950
+    },
+    {
+      "epoch": 9.324009324009324,
+      "grad_norm": 0.12909601628780365,
+      "learning_rate": 2.0734243735904992e-05,
+      "loss": 0.0007652242481708527,
+      "step": 4000
+    },
+    {
+      "epoch": 9.324009324009324,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9193548387096773,
+      "eval_PW_precision": 0.9661016949152542,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6684350132625995,
+      "eval_RP_precision": 0.6028708133971292,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22113022113022113,
+      "eval_RV_precision": 0.16483516483516483,
+      "eval_RV_recall": 0.3358208955223881,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9084461637653127,
+      "eval_f1": 0.6877887788778877,
+      "eval_loss": 0.06094101816415787,
+      "eval_precision": 0.6209773539928486,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7364,
+      "eval_samples_per_second": 196.38,
+      "eval_steps_per_second": 3.455,
+      "step": 4000
+    },
+    {
+      "epoch": 9.44055944055944,
+      "grad_norm": 0.038413889706134796,
+      "learning_rate": 2.002858493859587e-05,
+      "loss": 0.0005362145602703094,
+      "step": 4050
+    },
+    {
+      "epoch": 9.557109557109557,
+      "grad_norm": 0.15115134418010712,
+      "learning_rate": 1.9327026993091186e-05,
+      "loss": 0.0006626041233539581,
+      "step": 4100
+    },
+    {
+      "epoch": 9.673659673659674,
+      "grad_norm": 0.10298547893762589,
+      "learning_rate": 1.8630148604876468e-05,
+      "loss": 0.0007023769617080689,
+      "step": 4150
+    },
+    {
+      "epoch": 9.79020979020979,
+      "grad_norm": 0.11396172642707825,
+      "learning_rate": 1.793852461933484e-05,
+      "loss": 0.0011355096101760863,
+      "step": 4200
+    },
+    {
+      "epoch": 9.79020979020979,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9135135135135135,
+      "eval_PW_precision": 0.9657142857142857,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7024128686327078,
+      "eval_RP_precision": 0.6390243902439025,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22714681440443213,
+      "eval_RV_precision": 0.18061674008810572,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9194068343004513,
+      "eval_f1": 0.710868079289132,
+      "eval_loss": 0.05905779078602791,
+      "eval_precision": 0.6607369758576874,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.714,
+      "eval_samples_per_second": 198.951,
+      "eval_steps_per_second": 3.501,
+      "step": 4200
+    },
+    {
+      "epoch": 9.906759906759907,
+      "grad_norm": 0.06096949800848961,
+      "learning_rate": 1.7252725547565096e-05,
+      "loss": 0.0008608976751565933,
+      "step": 4250
+    },
+    {
+      "epoch": 10.023310023310023,
+      "grad_norm": 0.016558649018406868,
+      "learning_rate": 1.6573317095774848e-05,
+      "loss": 0.0005947026610374451,
+      "step": 4300
+    },
+    {
+      "epoch": 10.13986013986014,
+      "grad_norm": 0.05043337866663933,
+      "learning_rate": 1.590085969863735e-05,
+      "loss": 0.00048787113279104234,
+      "step": 4350
+    },
+    {
+      "epoch": 10.256410256410255,
+      "grad_norm": 0.045682214200496674,
+      "learning_rate": 1.5235908056996611e-05,
+      "loss": 0.0004080647230148315,
+      "step": 4400
+    },
+    {
+      "epoch": 10.256410256410255,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9168900804289545,
+      "eval_PW_precision": 0.9606741573033708,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7341040462427747,
+      "eval_RP_precision": 0.7134831460674157,
+      "eval_RP_recall": 0.7559523809523809,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.25705329153605017,
+      "eval_RV_precision": 0.22162162162162163,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9325166559209113,
+      "eval_f1": 0.7415891195418755,
+      "eval_loss": 0.06343553215265274,
+      "eval_precision": 0.7184466019417476,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.72,
+      "eval_steps_per_second": 3.461,
+      "step": 4400
+    },
+    {
+      "epoch": 10.372960372960373,
+      "grad_norm": 0.1844942271709442,
+      "learning_rate": 1.457901068030231e-05,
+      "loss": 0.00031626921147108076,
+      "step": 4450
+    },
+    {
+      "epoch": 10.48951048951049,
+      "grad_norm": 0.010490261018276215,
+      "learning_rate": 1.3930709434151923e-05,
+      "loss": 0.0003082297742366791,
+      "step": 4500
+    },
+    {
+      "epoch": 10.606060606060606,
+      "grad_norm": 0.05099688470363617,
+      "learning_rate": 1.3291539093313244e-05,
+      "loss": 0.0002880014106631279,
+      "step": 4550
+    },
+    {
+      "epoch": 10.722610722610723,
+      "grad_norm": 0.0041709644719958305,
+      "learning_rate": 1.2662026900596085e-05,
+      "loss": 0.000455758236348629,
+      "step": 4600
+    },
+    {
+      "epoch": 10.722610722610723,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7288135593220338,
+      "eval_RP_precision": 0.6935483870967742,
+      "eval_RP_recall": 0.7678571428571429,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2543352601156069,
+      "eval_RV_precision": 0.20754716981132076,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.927143778207608,
+      "eval_f1": 0.7318435754189943,
+      "eval_loss": 0.06572374701499939,
+      "eval_precision": 0.6931216931216931,
+      "eval_recall": 0.7751479289940828,
+      "eval_runtime": 1.7352,
+      "eval_samples_per_second": 196.525,
+      "eval_steps_per_second": 3.458,
+      "step": 4600
+    },
+    {
+      "epoch": 10.83916083916084,
+      "grad_norm": 0.07737918198108673,
+      "learning_rate": 1.2042692131936844e-05,
+      "loss": 0.0002386464923620224,
+      "step": 4650
+    },
+    {
+      "epoch": 10.955710955710956,
+      "grad_norm": 0.04120206460356712,
+      "learning_rate": 1.1434045668055083e-05,
+      "loss": 0.0005643576383590698,
+      "step": 4700
+    },
+    {
+      "epoch": 11.072261072261073,
+      "grad_norm": 0.004210051614791155,
+      "learning_rate": 1.0836589573034903e-05,
+      "loss": 0.0002576286718249321,
+      "step": 4750
+    },
+    {
+      "epoch": 11.188811188811188,
+      "grad_norm": 0.00333597045391798,
+      "learning_rate": 1.025081668017934e-05,
+      "loss": 0.00015084304846823215,
+      "step": 4800
+    },
+    {
+      "epoch": 11.188811188811188,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7072463768115942,
+      "eval_RP_precision": 0.6892655367231638,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.28070175438596495,
+      "eval_RV_precision": 0.23076923076923078,
+      "eval_RV_recall": 0.3582089552238806,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9288630990758651,
+      "eval_f1": 0.7338028169014085,
+      "eval_loss": 0.06656772643327713,
+      "eval_precision": 0.7002688172043011,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7356,
+      "eval_samples_per_second": 196.476,
+      "eval_steps_per_second": 3.457,
+      "step": 4800
+    },
+    {
+      "epoch": 11.305361305361306,
+      "grad_norm": 0.0031558393966406584,
+      "learning_rate": 9.67721018547886e-06,
+      "loss": 0.00015445927157998085,
+      "step": 4850
+    },
+    {
+      "epoch": 11.421911421911421,
+      "grad_norm": 0.011729123070836067,
+      "learning_rate": 9.116243249029687e-06,
+      "loss": 8.488255552947521e-05,
+      "step": 4900
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 0.0008316569146700203,
+      "learning_rate": 8.568378604730571e-06,
+      "loss": 0.0002171110361814499,
+      "step": 4950
+    },
+    {
+      "epoch": 11.655011655011656,
+      "grad_norm": 0.004247364588081837,
+      "learning_rate": 8.034068178579898e-06,
+      "loss": 0.00011632214300334453,
+      "step": 5000
+    },
+    {
+      "epoch": 11.655011655011656,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6840579710144926,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27627627627627627,
+      "eval_RV_precision": 0.23115577889447236,
+      "eval_RV_recall": 0.34328358208955223,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9284332688588007,
+      "eval_f1": 0.7299787384833452,
+      "eval_loss": 0.06678026169538498,
+      "eval_precision": 0.7006802721088435,
+      "eval_recall": 0.7618343195266272,
+      "eval_runtime": 1.7233,
+      "eval_samples_per_second": 197.88,
+      "eval_steps_per_second": 3.482,
+      "step": 5000
+    },
+    {
+      "epoch": 11.771561771561771,
+      "grad_norm": 0.05394391715526581,
+      "learning_rate": 7.513752715888273e-06,
+      "loss": 0.00016983246430754662,
+      "step": 5050
+    },
+    {
+      "epoch": 11.888111888111888,
+      "grad_norm": 0.03845563158392906,
+      "learning_rate": 7.0078614177136485e-06,
+      "loss": 0.00011192708276212215,
+      "step": 5100
+    },
+    {
+      "epoch": 12.004662004662004,
+      "grad_norm": 0.02336147241294384,
+      "learning_rate": 6.516811586819422e-06,
+      "loss": 0.0002335100807249546,
+      "step": 5150
+    },
+    {
+      "epoch": 12.121212121212121,
+      "grad_norm": 0.0003370556514710188,
+      "learning_rate": 6.0410082834470275e-06,
+      "loss": 4.8335092142224315e-05,
+      "step": 5200
+    },
+    {
+      "epoch": 12.121212121212121,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6783625730994152,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.6904761904761905,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.26791277258566976,
+      "eval_RV_precision": 0.22994652406417113,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9290780141843972,
+      "eval_f1": 0.7306590257879657,
+      "eval_loss": 0.07106506824493408,
+      "eval_precision": 0.7083333333333334,
+      "eval_recall": 0.7544378698224852,
+      "eval_runtime": 1.7221,
+      "eval_samples_per_second": 198.014,
+      "eval_steps_per_second": 3.484,
+      "step": 5200
+    },
+    {
+      "epoch": 12.237762237762238,
+      "grad_norm": 0.0017453994369134307,
+      "learning_rate": 5.580843991187368e-06,
+      "loss": 3.7836318369954824e-05,
+      "step": 5250
+    },
+    {
+      "epoch": 12.354312354312354,
+      "grad_norm": 0.0016113807214424014,
+      "learning_rate": 5.1366982932265304e-06,
+      "loss": 0.0001231016404926777,
+      "step": 5300
+    },
+    {
+      "epoch": 12.470862470862471,
+      "grad_norm": 0.0002258192835142836,
+      "learning_rate": 4.7089375592327624e-06,
+      "loss": 0.00012529355473816394,
+      "step": 5350
+    },
+    {
+      "epoch": 12.587412587412587,
+      "grad_norm": 0.0007686126627959311,
+      "learning_rate": 4.2979146431432915e-06,
+      "loss": 5.470495671033859e-05,
+      "step": 5400
+    },
+    {
+      "epoch": 12.587412587412587,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6976744186046512,
+      "eval_RP_precision": 0.6818181818181818,
+      "eval_RP_recall": 0.7142857142857143,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.270096463022508,
+      "eval_RV_precision": 0.23728813559322035,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9320868257038469,
+      "eval_f1": 0.7397260273972603,
+      "eval_loss": 0.07235979288816452,
+      "eval_precision": 0.7215189873417721,
+      "eval_recall": 0.7588757396449705,
+      "eval_runtime": 1.7207,
+      "eval_samples_per_second": 198.181,
+      "eval_steps_per_second": 3.487,
+      "step": 5400
+    },
+    {
+      "epoch": 12.703962703962704,
+      "grad_norm": 0.053321756422519684,
+      "learning_rate": 3.90396859209986e-06,
+      "loss": 7.323837839066982e-05,
+      "step": 5450
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.0006734261405654252,
+      "learning_rate": 3.52742436677351e-06,
+      "loss": 7.577850017696619e-05,
+      "step": 5500
+    },
+    {
+      "epoch": 12.937062937062937,
+      "grad_norm": 0.006321749184280634,
+      "learning_rate": 3.168592573308926e-06,
+      "loss": 6.354918237775564e-05,
+      "step": 5550
+    },
+    {
+      "epoch": 13.053613053613054,
+      "grad_norm": 0.01146603748202324,
+      "learning_rate": 2.8277692071097374e-06,
+      "loss": 7.275127340108157e-05,
+      "step": 5600
+    },
+    {
+      "epoch": 13.053613053613054,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6860465116279069,
+      "eval_RP_precision": 0.6704545454545454,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2633228840125392,
+      "eval_RV_precision": 0.22702702702702704,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9295078444014614,
+      "eval_f1": 0.7326164874551971,
+      "eval_loss": 0.07243338972330093,
+      "eval_precision": 0.7107093184979137,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.724,
+      "eval_steps_per_second": 3.461,
+      "step": 5600
+    },
+    {
+      "epoch": 13.17016317016317,
+      "grad_norm": 0.0032678074203431606,
+      "learning_rate": 2.5052354086759906e-06,
+      "loss": 4.818648099899292e-05,
+      "step": 5650
+    },
+    {
+      "epoch": 13.286713286713287,
+      "grad_norm": 5.290813714964315e-05,
+      "learning_rate": 2.201257231695203e-06,
+      "loss": 3.962628543376923e-05,
+      "step": 5700
+    },
+    {
+      "epoch": 13.403263403263404,
+      "grad_norm": 0.003765746718272567,
+      "learning_rate": 1.9160854235783676e-06,
+      "loss": 7.49044306576252e-05,
+      "step": 5750
+    },
+    {
+      "epoch": 13.51981351981352,
+      "grad_norm": 0.004614013712853193,
+      "learning_rate": 1.6499552186218404e-06,
+      "loss": 0.00010283836163580418,
+      "step": 5800
+    },
+    {
+      "epoch": 13.51981351981352,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2636655948553055,
+      "eval_RV_precision": 0.23163841807909605,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9307973350526542,
+      "eval_f1": 0.7344877344877345,
+      "eval_loss": 0.0731448158621788,
+      "eval_precision": 0.7169014084507043,
+      "eval_recall": 0.7529585798816568,
+      "eval_runtime": 1.7378,
+      "eval_samples_per_second": 196.225,
+      "eval_steps_per_second": 3.453,
+      "step": 5800
+    },
+    {
+      "epoch": 13.636363636363637,
+      "grad_norm": 0.008611422032117844,
+      "learning_rate": 1.4030861439658371e-06,
+      "loss": 5.049420055001974e-05,
+      "step": 5850
+    },
+    {
+      "epoch": 13.752913752913752,
+      "grad_norm": 0.0007724300376139581,
+      "learning_rate": 1.1756818385094903e-06,
+      "loss": 4.655594471842051e-05,
+      "step": 5900
+    },
+    {
+      "epoch": 13.86946386946387,
+      "grad_norm": 0.0035631547216326,
+      "learning_rate": 9.679298849319506e-07,
+      "loss": 9.550724178552627e-05,
+      "step": 5950
+    },
+    {
+      "epoch": 13.986013986013987,
+      "grad_norm": 0.0005321915959939361,
+      "learning_rate": 7.800016549580014e-07,
+      "loss": 3.305248450487852e-05,
+      "step": 6000
+    },
+    {
+      "epoch": 13.986013986013987,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27564102564102566,
+      "eval_RV_precision": 0.24157303370786518,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9314420803782506,
+      "eval_f1": 0.7368421052631579,
+      "eval_loss": 0.07319783419370651,
+      "eval_precision": 0.7187060478199718,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7266,
+      "eval_samples_per_second": 197.499,
+      "eval_steps_per_second": 3.475,
+      "step": 6000
+    },
+    {
+      "epoch": 14.102564102564102,
+      "grad_norm": 7.208294846350327e-05,
+      "learning_rate": 6.120521679958968e-07,
+      "loss": 1.7309895483776926e-05,
+      "step": 6050
+    },
+    {
+      "epoch": 14.21911421911422,
+      "grad_norm": 0.08203601837158203,
+      "learning_rate": 4.6421996326397875e-07,
+      "loss": 6.703537423163652e-05,
+      "step": 6100
+    },
+    {
+      "epoch": 14.335664335664335,
+      "grad_norm": 0.021905163303017616,
+      "learning_rate": 3.3662698551159e-07,
+      "loss": 3.695807652547956e-05,
+      "step": 6150
+    },
+    {
+      "epoch": 14.452214452214452,
+      "grad_norm": 0.001607498386874795,
+      "learning_rate": 2.2937848442851906e-07,
+      "loss": 5.6628240272402764e-05,
+      "step": 6200
+    },
+    {
+      "epoch": 14.452214452214452,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2765273311897106,
+      "eval_RV_precision": 0.24293785310734464,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9316569954867827,
+      "eval_f1": 0.7373737373737376,
+      "eval_loss": 0.07330625504255295,
+      "eval_precision": 0.719718309859155,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7366,
+      "eval_samples_per_second": 196.361,
+      "eval_steps_per_second": 3.455,
+      "step": 6200
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 6435,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 15,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 9
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.37681010475264e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-6200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:367294190e35f865e87bd36d38622df04ac30f8b61585d007bf7a90b90586c7e
+size 5201

checkpoint-6400/config.json ADDED Viewed

	@@ -0,0 +1,93 @@

+{
+  "architectures": [
+    "ModernBertForTokenClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.4,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "FP",
+    "2": "RP",
+    "3": "RV",
+    "4": "PW"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "FP": 1,
+    "O": 0,
+    "PW": 4,
+    "RP": 2,
+    "RV": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "local_attention": 128,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "rope_parameters": {
+    "full_attention": {
+      "rope_theta": 160000.0,
+      "rope_type": "default"
+    },
+    "sliding_attention": {
+      "rope_theta": 10000.0,
+      "rope_type": "default"
+    }
+  },
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "use_cache": false,
+  "vocab_size": 50368
+}

checkpoint-6400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f2fde9b75c6112ccb5e5c68ee8d56c0dcc7df30128f90a8b7e9f3ee588e6ba2
+size 598449012

checkpoint-6400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43960b0757db83f0f8db3b78c6ade618e267186610981635a656e4f9375b25ee
+size 535150859

checkpoint-6400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4ed0cd3f2132d95b751f67d9c6b74ff206d2d986ba26a448a5ba97aa2843cac
+size 14645

checkpoint-6400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:160323810d9cc5219eae56fad63eae1474d1d5c6dc51915973857af1d1e8b2d6
+size 1383

checkpoint-6400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef920ac5ec990e0dfac5bef1494e7355166b70f0fdd577fc163bac480ccb3486
+size 1465

checkpoint-6400/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-6400/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]"
+}

checkpoint-6400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1842 @@

+{
+  "best_global_step": 4400,
+  "best_metric": 0.7415891195418755,
+  "best_model_checkpoint": "/content/drive/MyDrive/disfluency_model/checkpoint-4400",
+  "epoch": 14.918414918414918,
+  "eval_steps": 200,
+  "global_step": 6400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002331002331002331,
+      "grad_norm": 9.829856872558594,
+      "learning_rate": 0.0,
+      "loss": 0.5272760987281799,
+      "step": 1
+    },
+    {
+      "epoch": 0.11655011655011654,
+      "grad_norm": 4.721482276916504,
+      "learning_rate": 2.5362318840579714e-06,
+      "loss": 0.4355599928875359,
+      "step": 50
+    },
+    {
+      "epoch": 0.2331002331002331,
+      "grad_norm": 4.99301290512085,
+      "learning_rate": 5.124223602484472e-06,
+      "loss": 0.3406296920776367,
+      "step": 100
+    },
+    {
+      "epoch": 0.34965034965034963,
+      "grad_norm": 6.354604721069336,
+      "learning_rate": 7.712215320910973e-06,
+      "loss": 0.28903684616088865,
+      "step": 150
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "grad_norm": 1.833147644996643,
+      "learning_rate": 1.0300207039337475e-05,
+      "loss": 0.2038218879699707,
+      "step": 200
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "eval_FP_f1": 0.7824175824175823,
+      "eval_FP_precision": 0.644927536231884,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.23580786026200873,
+      "eval_PW_precision": 0.7941176470588235,
+      "eval_PW_recall": 0.13846153846153847,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.2018072289156626,
+      "eval_RP_precision": 0.1350806451612903,
+      "eval_RP_recall": 0.39880952380952384,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1115065243179122,
+      "eval_RV_precision": 0.06629055007052186,
+      "eval_RV_recall": 0.35074626865671643,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6950354609929078,
+      "eval_f1": 0.2911912368781378,
+      "eval_loss": 0.07750222831964493,
+      "eval_precision": 0.21056105610561057,
+      "eval_recall": 0.4718934911242604,
+      "eval_runtime": 1.7776,
+      "eval_samples_per_second": 191.831,
+      "eval_steps_per_second": 3.375,
+      "step": 200
+    },
+    {
+      "epoch": 0.5827505827505828,
+      "grad_norm": 2.7244417667388916,
+      "learning_rate": 1.2888198757763975e-05,
+      "loss": 0.1314036178588867,
+      "step": 250
+    },
+    {
+      "epoch": 0.6993006993006993,
+      "grad_norm": 1.8847157955169678,
+      "learning_rate": 1.5476190476190476e-05,
+      "loss": 0.0891645622253418,
+      "step": 300
+    },
+    {
+      "epoch": 0.8158508158508159,
+      "grad_norm": 0.6841979026794434,
+      "learning_rate": 1.8064182194616976e-05,
+      "loss": 0.06860542297363281,
+      "step": 350
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "grad_norm": 0.8485817909240723,
+      "learning_rate": 2.065217391304348e-05,
+      "loss": 0.056485376358032226,
+      "step": 400
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "eval_FP_f1": 0.9888268156424581,
+      "eval_FP_precision": 0.9888268156424581,
+      "eval_FP_recall": 0.9888268156424581,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.7810650887573964,
+      "eval_PW_precision": 0.9230769230769231,
+      "eval_PW_recall": 0.676923076923077,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.34449760765550236,
+      "eval_RP_precision": 0.288,
+      "eval_RP_recall": 0.42857142857142855,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.09023415191319246,
+      "eval_RV_precision": 0.04885590599876314,
+      "eval_RV_recall": 0.5895522388059702,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6064904362776703,
+      "eval_f1": 0.3211169284467714,
+      "eval_loss": 0.06627956032752991,
+      "eval_precision": 0.21014161717679306,
+      "eval_recall": 0.6804733727810651,
+      "eval_runtime": 1.7555,
+      "eval_samples_per_second": 194.242,
+      "eval_steps_per_second": 3.418,
+      "step": 400
+    },
+    {
+      "epoch": 1.048951048951049,
+      "grad_norm": 0.9849236011505127,
+      "learning_rate": 2.3240165631469983e-05,
+      "loss": 0.051623358726501464,
+      "step": 450
+    },
+    {
+      "epoch": 1.1655011655011656,
+      "grad_norm": 0.8257520198822021,
+      "learning_rate": 2.582815734989648e-05,
+      "loss": 0.054394068717956545,
+      "step": 500
+    },
+    {
+      "epoch": 1.282051282051282,
+      "grad_norm": 1.269953727722168,
+      "learning_rate": 2.8416149068322983e-05,
+      "loss": 0.038275165557861326,
+      "step": 550
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "grad_norm": 0.7971916794776917,
+      "learning_rate": 3.100414078674948e-05,
+      "loss": 0.04537781715393066,
+      "step": 600
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8435754189944136,
+      "eval_PW_precision": 0.9263803680981595,
+      "eval_PW_recall": 0.7743589743589744,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5123966942148761,
+      "eval_RP_precision": 0.3924050632911392,
+      "eval_RP_recall": 0.7380952380952381,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.10061919504643962,
+      "eval_RV_precision": 0.05613126079447323,
+      "eval_RV_recall": 0.48507462686567165,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7038469804427251,
+      "eval_f1": 0.41573033707865165,
+      "eval_loss": 0.04902895167469978,
+      "eval_precision": 0.2852422907488987,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7583,
+      "eval_samples_per_second": 193.935,
+      "eval_steps_per_second": 3.412,
+      "step": 600
+    },
+    {
+      "epoch": 1.5151515151515151,
+      "grad_norm": 0.5072907209396362,
+      "learning_rate": 3.359213250517598e-05,
+      "loss": 0.04208078861236572,
+      "step": 650
+    },
+    {
+      "epoch": 1.6317016317016317,
+      "grad_norm": 0.29589056968688965,
+      "learning_rate": 3.618012422360248e-05,
+      "loss": 0.036929750442504884,
+      "step": 700
+    },
+    {
+      "epoch": 1.7482517482517483,
+      "grad_norm": 0.5353514552116394,
+      "learning_rate": 3.876811594202899e-05,
+      "loss": 0.039374511241912845,
+      "step": 750
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "grad_norm": 0.853635847568512,
+      "learning_rate": 4.135610766045549e-05,
+      "loss": 0.035586235523223875,
+      "step": 800
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8698060941828255,
+      "eval_PW_precision": 0.9457831325301205,
+      "eval_PW_recall": 0.8051282051282052,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.4963503649635036,
+      "eval_RP_precision": 0.41975308641975306,
+      "eval_RP_recall": 0.6071428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.11028315946348734,
+      "eval_RV_precision": 0.06890130353817504,
+      "eval_RV_recall": 0.27611940298507465,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8289275736084246,
+      "eval_f1": 0.5271920088790233,
+      "eval_loss": 0.05218891426920891,
+      "eval_precision": 0.4218472468916519,
+      "eval_recall": 0.7026627218934911,
+      "eval_runtime": 1.7474,
+      "eval_samples_per_second": 195.151,
+      "eval_steps_per_second": 3.434,
+      "step": 800
+    },
+    {
+      "epoch": 1.9813519813519813,
+      "grad_norm": 0.3492014408111572,
+      "learning_rate": 4.3944099378881993e-05,
+      "loss": 0.037635867595672605,
+      "step": 850
+    },
+    {
+      "epoch": 2.097902097902098,
+      "grad_norm": 0.52850741147995,
+      "learning_rate": 4.653209109730849e-05,
+      "loss": 0.02877570629119873,
+      "step": 900
+    },
+    {
+      "epoch": 2.2144522144522143,
+      "grad_norm": 0.20403911173343658,
+      "learning_rate": 4.9120082815734993e-05,
+      "loss": 0.02313091278076172,
+      "step": 950
+    },
+    {
+      "epoch": 2.331002331002331,
+      "grad_norm": 0.4374295175075531,
+      "learning_rate": 4.99955083202285e-05,
+      "loss": 0.026792542934417726,
+      "step": 1000
+    },
+    {
+      "epoch": 2.331002331002331,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8757062146892656,
+      "eval_PW_precision": 0.9748427672955975,
+      "eval_PW_recall": 0.7948717948717948,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5376884422110553,
+      "eval_RP_precision": 0.4652173913043478,
+      "eval_RP_recall": 0.6369047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13902439024390245,
+      "eval_RV_precision": 0.08309037900874636,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8128089404685149,
+      "eval_f1": 0.5150259067357513,
+      "eval_loss": 0.04896986111998558,
+      "eval_precision": 0.3963317384370016,
+      "eval_recall": 0.735207100591716,
+      "eval_runtime": 1.755,
+      "eval_samples_per_second": 194.299,
+      "eval_steps_per_second": 3.419,
+      "step": 1000
+    },
+    {
+      "epoch": 2.4475524475524475,
+      "grad_norm": 0.22397278249263763,
+      "learning_rate": 4.997159022301654e-05,
+      "loss": 0.024302377700805664,
+      "step": 1050
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 0.4257676303386688,
+      "learning_rate": 4.992707340500554e-05,
+      "loss": 0.02201436996459961,
+      "step": 1100
+    },
+    {
+      "epoch": 2.6806526806526807,
+      "grad_norm": 0.23829305171966553,
+      "learning_rate": 4.986199458750547e-05,
+      "loss": 0.026013293266296388,
+      "step": 1150
+    },
+    {
+      "epoch": 2.797202797202797,
+      "grad_norm": 0.43061190843582153,
+      "learning_rate": 4.977640745313644e-05,
+      "loss": 0.021799113750457764,
+      "step": 1200
+    },
+    {
+      "epoch": 2.797202797202797,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9005524861878453,
+      "eval_PW_precision": 0.9760479041916168,
+      "eval_PW_recall": 0.8358974358974359,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5901639344262296,
+      "eval_RP_precision": 0.4864864864864865,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1551020408163265,
+      "eval_RV_precision": 0.09484193011647254,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8330109606705351,
+      "eval_f1": 0.5576208178438662,
+      "eval_loss": 0.04321876913309097,
+      "eval_precision": 0.43496271748135873,
+      "eval_recall": 0.7766272189349113,
+      "eval_runtime": 1.7666,
+      "eval_samples_per_second": 193.025,
+      "eval_steps_per_second": 3.396,
+      "step": 1200
+    },
+    {
+      "epoch": 2.913752913752914,
+      "grad_norm": 0.42580506205558777,
+      "learning_rate": 4.9670382601546674e-05,
+      "loss": 0.022718839645385742,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0303030303030303,
+      "grad_norm": 0.2979868948459625,
+      "learning_rate": 4.954400749117577e-05,
+      "loss": 0.02102189540863037,
+      "step": 1300
+    },
+    {
+      "epoch": 3.1468531468531467,
+      "grad_norm": 0.246241495013237,
+      "learning_rate": 4.93973863671115e-05,
+      "loss": 0.014143779277801513,
+      "step": 1350
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "grad_norm": 0.21763332188129425,
+      "learning_rate": 4.923064017509945e-05,
+      "loss": 0.015854754447937013,
+      "step": 1400
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8963730569948186,
+      "eval_PW_precision": 0.9057591623036649,
+      "eval_PW_recall": 0.8871794871794871,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.639269406392694,
+      "eval_RP_precision": 0.5185185185185185,
+      "eval_RP_recall": 0.8333333333333334,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13923013923013924,
+      "eval_RV_precision": 0.078196872125115,
+      "eval_RV_recall": 0.6343283582089553,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7448957661723619,
+      "eval_f1": 0.4800332778702163,
+      "eval_loss": 0.036764442920684814,
+      "eval_precision": 0.33391203703703703,
+      "eval_recall": 0.8535502958579881,
+      "eval_runtime": 1.7649,
+      "eval_samples_per_second": 193.209,
+      "eval_steps_per_second": 3.4,
+      "step": 1400
+    },
+    {
+      "epoch": 3.37995337995338,
+      "grad_norm": 0.28029730916023254,
+      "learning_rate": 4.904390646177652e-05,
+      "loss": 0.012800486087799072,
+      "step": 1450
+    },
+    {
+      "epoch": 3.4965034965034967,
+      "grad_norm": 0.45200076699256897,
+      "learning_rate": 4.8837339261210644e-05,
+      "loss": 0.014847630262374878,
+      "step": 1500
+    },
+    {
+      "epoch": 3.613053613053613,
+      "grad_norm": 0.468578577041626,
+      "learning_rate": 4.861110896784017e-05,
+      "loss": 0.013855412006378173,
+      "step": 1550
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "grad_norm": 0.2053418904542923,
+      "learning_rate": 4.836540219591784e-05,
+      "loss": 0.015822688341140746,
+      "step": 1600
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8815426997245178,
+      "eval_PW_precision": 0.9523809523809523,
+      "eval_PW_recall": 0.8205128205128205,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6395939086294417,
+      "eval_RP_precision": 0.5575221238938053,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15873015873015875,
+      "eval_RV_precision": 0.09838998211091235,
+      "eval_RV_recall": 0.41044776119402987,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8497743391360413,
+      "eval_f1": 0.5749032614704257,
+      "eval_loss": 0.04276173189282417,
+      "eval_precision": 0.4589585172109444,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.7648,
+      "eval_samples_per_second": 193.225,
+      "eval_steps_per_second": 3.4,
+      "step": 1600
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.16666975617408752,
+      "learning_rate": 4.8100421625575284e-05,
+      "loss": 0.015907624959945677,
+      "step": 1650
+    },
+    {
+      "epoch": 3.9627039627039626,
+      "grad_norm": 0.4703992009162903,
+      "learning_rate": 4.7816385835634944e-05,
+      "loss": 0.0139349365234375,
+      "step": 1700
+    },
+    {
+      "epoch": 4.0792540792540795,
+      "grad_norm": 0.5405648946762085,
+      "learning_rate": 4.751352912330744e-05,
+      "loss": 0.012668570280075073,
+      "step": 1750
+    },
+    {
+      "epoch": 4.195804195804196,
+      "grad_norm": 0.28995925188064575,
+      "learning_rate": 4.719210131092302e-05,
+      "loss": 0.013018554449081421,
+      "step": 1800
+    },
+    {
+      "epoch": 4.195804195804196,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9110512129380054,
+      "eval_PW_precision": 0.9602272727272727,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6192893401015228,
+      "eval_RP_precision": 0.5398230088495575,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15172413793103448,
+      "eval_RV_precision": 0.08576998050682261,
+      "eval_RV_recall": 0.6567164179104478,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7635933806146572,
+      "eval_f1": 0.48861646234676004,
+      "eval_loss": 0.03999365121126175,
+      "eval_precision": 0.34701492537313433,
+      "eval_recall": 0.8254437869822485,
+      "eval_runtime": 1.7678,
+      "eval_samples_per_second": 192.895,
+      "eval_steps_per_second": 3.394,
+      "step": 1800
+    },
+    {
+      "epoch": 4.312354312354312,
+      "grad_norm": 0.1972808986902237,
+      "learning_rate": 4.6852367539856546e-05,
+      "loss": 0.007865548133850098,
+      "step": 1850
+    },
+    {
+      "epoch": 4.428904428904429,
+      "grad_norm": 0.08727411925792694,
+      "learning_rate": 4.649460805181604e-05,
+      "loss": 0.007297297716140747,
+      "step": 1900
+    },
+    {
+      "epoch": 4.545454545454545,
+      "grad_norm": 0.2259584218263626,
+      "learning_rate": 4.611911795767516e-05,
+      "loss": 0.008797573447227479,
+      "step": 1950
+    },
+    {
+      "epoch": 4.662004662004662,
+      "grad_norm": 0.2499346286058426,
+      "learning_rate": 4.572620699404031e-05,
+      "loss": 0.009554592967033386,
+      "step": 2000
+    },
+    {
+      "epoch": 4.662004662004662,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.906166219839142,
+      "eval_PW_precision": 0.949438202247191,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6819338422391857,
+      "eval_RP_precision": 0.5955555555555555,
+      "eval_RP_recall": 0.7976190476190477,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.18010471204188477,
+      "eval_RV_precision": 0.10475030450669914,
+      "eval_RV_recall": 0.6417910447761194,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8108747044917257,
+      "eval_f1": 0.5461538461538462,
+      "eval_loss": 0.03176203742623329,
+      "eval_precision": 0.4045584045584046,
+      "eval_recall": 0.8402366863905325,
+      "eval_runtime": 1.7462,
+      "eval_samples_per_second": 195.286,
+      "eval_steps_per_second": 3.436,
+      "step": 2000
+    },
+    {
+      "epoch": 4.778554778554779,
+      "grad_norm": 0.18241898715496063,
+      "learning_rate": 4.531619926775317e-05,
+      "loss": 0.010103501081466675,
+      "step": 2050
+    },
+    {
+      "epoch": 4.895104895104895,
+      "grad_norm": 0.5646976232528687,
+      "learning_rate": 4.48894329885394e-05,
+      "loss": 0.010654613971710206,
+      "step": 2100
+    },
+    {
+      "epoch": 5.011655011655011,
+      "grad_norm": 0.17059487104415894,
+      "learning_rate": 4.4446260190024183e-05,
+      "loss": 0.008428264856338501,
+      "step": 2150
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 0.10937484353780746,
+      "learning_rate": 4.3987046439344426e-05,
+      "loss": 0.0056066220998764035,
+      "step": 2200
+    },
+    {
+      "epoch": 5.128205128205128,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.88,
+      "eval_PW_precision": 0.9935483870967742,
+      "eval_PW_recall": 0.7897435897435897,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6699029126213593,
+      "eval_RP_precision": 0.5655737704918032,
+      "eval_RP_recall": 0.8214285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17673048600883653,
+      "eval_RV_precision": 0.11009174311926606,
+      "eval_RV_recall": 0.44776119402985076,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8549323017408124,
+      "eval_f1": 0.5892162312395776,
+      "eval_loss": 0.044926226139068604,
+      "eval_precision": 0.4719501335707925,
+      "eval_recall": 0.7840236686390533,
+      "eval_runtime": 1.7668,
+      "eval_samples_per_second": 193.006,
+      "eval_steps_per_second": 3.396,
+      "step": 2200
+    },
+    {
+      "epoch": 5.244755244755245,
+      "grad_norm": 0.25396180152893066,
+      "learning_rate": 4.351217053559754e-05,
+      "loss": 0.006568117141723633,
+      "step": 2250
+    },
+    {
+      "epoch": 5.361305361305361,
+      "grad_norm": 0.15003487467765808,
+      "learning_rate": 4.3022024197375266e-05,
+      "loss": 0.0060064631700515745,
+      "step": 2300
+    },
+    {
+      "epoch": 5.477855477855478,
+      "grad_norm": 0.27384480834007263,
+      "learning_rate": 4.2517011739640374e-05,
+      "loss": 0.005202606916427612,
+      "step": 2350
+    },
+    {
+      "epoch": 5.594405594405594,
+      "grad_norm": 0.2527216672897339,
+      "learning_rate": 4.199754974021286e-05,
+      "loss": 0.008023700714111327,
+      "step": 2400
+    },
+    {
+      "epoch": 5.594405594405594,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9037433155080213,
+      "eval_PW_precision": 0.9441340782122905,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.699421965317919,
+      "eval_RP_precision": 0.6797752808988764,
+      "eval_RP_recall": 0.7202380952380952,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17636363636363636,
+      "eval_RV_precision": 0.10041407867494824,
+      "eval_RV_recall": 0.7238805970149254,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7906726842897056,
+      "eval_f1": 0.5195043597980725,
+      "eval_loss": 0.03475594520568848,
+      "eval_precision": 0.37658017298735863,
+      "eval_recall": 0.8372781065088757,
+      "eval_runtime": 1.7484,
+      "eval_samples_per_second": 195.03,
+      "eval_steps_per_second": 3.432,
+      "step": 2400
+    },
+    {
+      "epoch": 5.7109557109557105,
+      "grad_norm": 0.10864783078432083,
+      "learning_rate": 4.146406669614064e-05,
+      "loss": 0.006877620220184327,
+      "step": 2450
+    },
+    {
+      "epoch": 5.827505827505828,
+      "grad_norm": 0.1385946273803711,
+      "learning_rate": 4.0917002670238205e-05,
+      "loss": 0.005679036974906921,
+      "step": 2500
+    },
+    {
+      "epoch": 5.944055944055944,
+      "grad_norm": 0.39363569021224976,
+      "learning_rate": 4.035680892808487e-05,
+      "loss": 0.005111011862754822,
+      "step": 2550
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "grad_norm": 0.13166821002960205,
+      "learning_rate": 3.978394756578204e-05,
+      "loss": 0.005011002421379089,
+      "step": 2600
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.912568306010929,
+      "eval_PW_precision": 0.9766081871345029,
+      "eval_PW_recall": 0.8564102564102564,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6852791878172589,
+      "eval_RP_precision": 0.5973451327433629,
+      "eval_RP_recall": 0.8035714285714286,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17982456140350878,
+      "eval_RV_precision": 0.12732919254658384,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8970556630131098,
+      "eval_f1": 0.6628571428571428,
+      "eval_loss": 0.04650285467505455,
+      "eval_precision": 0.5806451612903226,
+      "eval_recall": 0.772189349112426,
+      "eval_runtime": 1.7907,
+      "eval_samples_per_second": 190.43,
+      "eval_steps_per_second": 3.351,
+      "step": 2600
+    },
+    {
+      "epoch": 6.177156177156177,
+      "grad_norm": 0.09747270494699478,
+      "learning_rate": 3.91988911287765e-05,
+      "loss": 0.003968673944473267,
+      "step": 2650
+    },
+    {
+      "epoch": 6.293706293706293,
+      "grad_norm": 0.2859274446964264,
+      "learning_rate": 3.860212222206416e-05,
+      "loss": 0.003097459375858307,
+      "step": 2700
+    },
+    {
+      "epoch": 6.410256410256411,
+      "grad_norm": 0.1547211855649948,
+      "learning_rate": 3.799413311209587e-05,
+      "loss": 0.003905009925365448,
+      "step": 2750
+    },
+    {
+      "epoch": 6.526806526806527,
+      "grad_norm": 0.3189227283000946,
+      "learning_rate": 3.737542532071357e-05,
+      "loss": 0.003843022286891937,
+      "step": 2800
+    },
+    {
+      "epoch": 6.526806526806527,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9120879120879121,
+      "eval_PW_precision": 0.9822485207100592,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6814404432132963,
+      "eval_RP_precision": 0.6373056994818653,
+      "eval_RP_recall": 0.7321428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.195906432748538,
+      "eval_RV_precision": 0.12181818181818181,
+      "eval_RV_recall": 0.5,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8613797549967763,
+      "eval_f1": 0.6052036199095022,
+      "eval_loss": 0.047517433762550354,
+      "eval_precision": 0.4899267399267399,
+      "eval_recall": 0.7914201183431953,
+      "eval_runtime": 1.7457,
+      "eval_samples_per_second": 195.333,
+      "eval_steps_per_second": 3.437,
+      "step": 2800
+    },
+    {
+      "epoch": 6.643356643356643,
+      "grad_norm": 0.28142914175987244,
+      "learning_rate": 3.674650921145187e-05,
+      "loss": 0.0046959114074707035,
+      "step": 2850
+    },
+    {
+      "epoch": 6.75990675990676,
+      "grad_norm": 0.4578351080417633,
+      "learning_rate": 3.6107903568546175e-05,
+      "loss": 0.0066505372524261475,
+      "step": 2900
+    },
+    {
+      "epoch": 6.876456876456876,
+      "grad_norm": 0.06301693618297577,
+      "learning_rate": 3.546013516899472e-05,
+      "loss": 0.005263023376464844,
+      "step": 2950
+    },
+    {
+      "epoch": 6.993006993006993,
+      "grad_norm": 0.5769485831260681,
+      "learning_rate": 3.480373834802748e-05,
+      "loss": 0.0045099428296089174,
+      "step": 3000
+    },
+    {
+      "epoch": 6.993006993006993,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8925619834710744,
+      "eval_PW_precision": 0.9642857142857143,
+      "eval_PW_recall": 0.8307692307692308,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.745308310991957,
+      "eval_RP_precision": 0.6780487804878049,
+      "eval_RP_recall": 0.8273809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2644320297951583,
+      "eval_RV_precision": 0.1761786600496278,
+      "eval_RV_recall": 0.5298507462686567,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8985600687728348,
+      "eval_f1": 0.6752450980392156,
+      "eval_loss": 0.04083069786429405,
+      "eval_precision": 0.5763598326359832,
+      "eval_recall": 0.8150887573964497,
+      "eval_runtime": 1.7656,
+      "eval_samples_per_second": 193.139,
+      "eval_steps_per_second": 3.398,
+      "step": 3000
+    },
+    {
+      "epoch": 7.10955710955711,
+      "grad_norm": 0.4822663366794586,
+      "learning_rate": 3.413925455834041e-05,
+      "loss": 0.0027274960279464722,
+      "step": 3050
+    },
+    {
+      "epoch": 7.226107226107226,
+      "grad_norm": 0.12082718312740326,
+      "learning_rate": 3.346723192345858e-05,
+      "loss": 0.0027995941042900084,
+      "step": 3100
+    },
+    {
+      "epoch": 7.3426573426573425,
+      "grad_norm": 0.051056090742349625,
+      "learning_rate": 3.278822478559657e-05,
+      "loss": 0.002488945722579956,
+      "step": 3150
+    },
+    {
+      "epoch": 7.459207459207459,
+      "grad_norm": 0.3237623870372772,
+      "learning_rate": 3.2102793248389316e-05,
+      "loss": 0.002043289989233017,
+      "step": 3200
+    },
+    {
+      "epoch": 7.459207459207459,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9124668435013262,
+      "eval_PW_precision": 0.945054945054945,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7119565217391305,
+      "eval_RP_precision": 0.655,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2311111111111111,
+      "eval_RV_precision": 0.16455696202531644,
+      "eval_RV_recall": 0.3880597014925373,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9065119277885235,
+      "eval_f1": 0.6872586872586873,
+      "eval_loss": 0.04947880655527115,
+      "eval_precision": 0.6082004555808656,
+      "eval_recall": 0.7899408284023669,
+      "eval_runtime": 1.7267,
+      "eval_samples_per_second": 197.485,
+      "eval_steps_per_second": 3.475,
+      "step": 3200
+    },
+    {
+      "epoch": 7.575757575757576,
+      "grad_norm": 0.2536736726760864,
+      "learning_rate": 3.141150271487024e-05,
+      "loss": 0.0021054935455322265,
+      "step": 3250
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 0.19249416887760162,
+      "learning_rate": 3.071492342107814e-05,
+      "loss": 0.0030115434527397157,
+      "step": 3300
+    },
+    {
+      "epoch": 7.808857808857809,
+      "grad_norm": 0.40715843439102173,
+      "learning_rate": 3.0013629965677292e-05,
+      "loss": 0.0025595900416374206,
+      "step": 3350
+    },
+    {
+      "epoch": 7.925407925407925,
+      "grad_norm": 0.05540835112333298,
+      "learning_rate": 2.930820083597896e-05,
+      "loss": 0.0023874352872371675,
+      "step": 3400
+    },
+    {
+      "epoch": 7.925407925407925,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9243243243243243,
+      "eval_PW_precision": 0.9771428571428571,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7436619718309859,
+      "eval_RP_precision": 0.7058823529411765,
+      "eval_RP_recall": 0.7857142857142857,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.23783783783783785,
+      "eval_RV_precision": 0.1864406779661017,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9228454760369654,
+      "eval_f1": 0.7235213204951857,
+      "eval_loss": 0.05276188254356384,
+      "eval_precision": 0.6760925449871465,
+      "eval_recall": 0.7781065088757396,
+      "eval_runtime": 1.7026,
+      "eval_samples_per_second": 200.284,
+      "eval_steps_per_second": 3.524,
+      "step": 3400
+    },
+    {
+      "epoch": 8.041958041958042,
+      "grad_norm": 0.05420549958944321,
+      "learning_rate": 2.8599217930755163e-05,
+      "loss": 0.0017227402329444885,
+      "step": 3450
+    },
+    {
+      "epoch": 8.158508158508159,
+      "grad_norm": 0.03208259865641594,
+      "learning_rate": 2.7887266080238394e-05,
+      "loss": 0.0014327512681484222,
+      "step": 3500
+    },
+    {
+      "epoch": 8.275058275058274,
+      "grad_norm": 0.11691170930862427,
+      "learning_rate": 2.717293256370324e-05,
+      "loss": 0.0008813569694757461,
+      "step": 3550
+    },
+    {
+      "epoch": 8.391608391608392,
+      "grad_norm": 0.04499991610646248,
+      "learning_rate": 2.6456806625027753e-05,
+      "loss": 0.001173463687300682,
+      "step": 3600
+    },
+    {
+      "epoch": 8.391608391608392,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6649350649350648,
+      "eval_RP_precision": 0.5898617511520737,
+      "eval_RP_recall": 0.7619047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2242152466367713,
+      "eval_RV_precision": 0.16025641025641027,
+      "eval_RV_recall": 0.373134328358209,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9011390500752203,
+      "eval_f1": 0.6769033909149073,
+      "eval_loss": 0.051750849932432175,
+      "eval_precision": 0.5963923337091319,
+      "eval_recall": 0.7825443786982249,
+      "eval_runtime": 1.7154,
+      "eval_samples_per_second": 198.783,
+      "eval_steps_per_second": 3.498,
+      "step": 3600
+    },
+    {
+      "epoch": 8.508158508158509,
+      "grad_norm": 0.1041538193821907,
+      "learning_rate": 2.5739478986634334e-05,
+      "loss": 0.0012617163360118867,
+      "step": 3650
+    },
+    {
+      "epoch": 8.624708624708624,
+      "grad_norm": 0.07832089811563492,
+      "learning_rate": 2.502154136221095e-05,
+      "loss": 0.0016725870966911316,
+      "step": 3700
+    },
+    {
+      "epoch": 8.741258741258742,
+      "grad_norm": 0.2803429961204529,
+      "learning_rate": 2.4303585968614594e-05,
+      "loss": 0.001303904354572296,
+      "step": 3750
+    },
+    {
+      "epoch": 8.857808857808857,
+      "grad_norm": 0.10039077699184418,
+      "learning_rate": 2.358620503735985e-05,
+      "loss": 0.0016713647544384003,
+      "step": 3800
+    },
+    {
+      "epoch": 8.857808857808857,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.907103825136612,
+      "eval_PW_precision": 0.9707602339181286,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6055555555555555,
+      "eval_RP_precision": 0.5677083333333334,
+      "eval_RP_recall": 0.6488095238095238,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1531914893617021,
+      "eval_RV_precision": 0.10714285714285714,
+      "eval_RV_recall": 0.26865671641791045,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8871695680206318,
+      "eval_f1": 0.6302250803858521,
+      "eval_loss": 0.06584469228982925,
+      "eval_precision": 0.5574516496018203,
+      "eval_recall": 0.7248520710059172,
+      "eval_runtime": 1.7127,
+      "eval_samples_per_second": 199.099,
+      "eval_steps_per_second": 3.503,
+      "step": 3800
+    },
+    {
+      "epoch": 8.974358974358974,
+      "grad_norm": 0.0319208949804306,
+      "learning_rate": 2.286999032609519e-05,
+      "loss": 0.0011156044900417327,
+      "step": 3850
+    },
+    {
+      "epoch": 9.090909090909092,
+      "grad_norm": 0.06702426820993423,
+      "learning_rate": 2.215553263047031e-05,
+      "loss": 0.001486612856388092,
+      "step": 3900
+    },
+    {
+      "epoch": 9.207459207459207,
+      "grad_norm": 0.025190044194459915,
+      "learning_rate": 2.1443421296796902e-05,
+      "loss": 0.0008709771931171417,
+      "step": 3950
+    },
+    {
+      "epoch": 9.324009324009324,
+      "grad_norm": 0.12909601628780365,
+      "learning_rate": 2.0734243735904992e-05,
+      "loss": 0.0007652242481708527,
+      "step": 4000
+    },
+    {
+      "epoch": 9.324009324009324,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9193548387096773,
+      "eval_PW_precision": 0.9661016949152542,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6684350132625995,
+      "eval_RP_precision": 0.6028708133971292,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22113022113022113,
+      "eval_RV_precision": 0.16483516483516483,
+      "eval_RV_recall": 0.3358208955223881,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9084461637653127,
+      "eval_f1": 0.6877887788778877,
+      "eval_loss": 0.06094101816415787,
+      "eval_precision": 0.6209773539928486,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7364,
+      "eval_samples_per_second": 196.38,
+      "eval_steps_per_second": 3.455,
+      "step": 4000
+    },
+    {
+      "epoch": 9.44055944055944,
+      "grad_norm": 0.038413889706134796,
+      "learning_rate": 2.002858493859587e-05,
+      "loss": 0.0005362145602703094,
+      "step": 4050
+    },
+    {
+      "epoch": 9.557109557109557,
+      "grad_norm": 0.15115134418010712,
+      "learning_rate": 1.9327026993091186e-05,
+      "loss": 0.0006626041233539581,
+      "step": 4100
+    },
+    {
+      "epoch": 9.673659673659674,
+      "grad_norm": 0.10298547893762589,
+      "learning_rate": 1.8630148604876468e-05,
+      "loss": 0.0007023769617080689,
+      "step": 4150
+    },
+    {
+      "epoch": 9.79020979020979,
+      "grad_norm": 0.11396172642707825,
+      "learning_rate": 1.793852461933484e-05,
+      "loss": 0.0011355096101760863,
+      "step": 4200
+    },
+    {
+      "epoch": 9.79020979020979,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9135135135135135,
+      "eval_PW_precision": 0.9657142857142857,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7024128686327078,
+      "eval_RP_precision": 0.6390243902439025,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22714681440443213,
+      "eval_RV_precision": 0.18061674008810572,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9194068343004513,
+      "eval_f1": 0.710868079289132,
+      "eval_loss": 0.05905779078602791,
+      "eval_precision": 0.6607369758576874,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.714,
+      "eval_samples_per_second": 198.951,
+      "eval_steps_per_second": 3.501,
+      "step": 4200
+    },
+    {
+      "epoch": 9.906759906759907,
+      "grad_norm": 0.06096949800848961,
+      "learning_rate": 1.7252725547565096e-05,
+      "loss": 0.0008608976751565933,
+      "step": 4250
+    },
+    {
+      "epoch": 10.023310023310023,
+      "grad_norm": 0.016558649018406868,
+      "learning_rate": 1.6573317095774848e-05,
+      "loss": 0.0005947026610374451,
+      "step": 4300
+    },
+    {
+      "epoch": 10.13986013986014,
+      "grad_norm": 0.05043337866663933,
+      "learning_rate": 1.590085969863735e-05,
+      "loss": 0.00048787113279104234,
+      "step": 4350
+    },
+    {
+      "epoch": 10.256410256410255,
+      "grad_norm": 0.045682214200496674,
+      "learning_rate": 1.5235908056996611e-05,
+      "loss": 0.0004080647230148315,
+      "step": 4400
+    },
+    {
+      "epoch": 10.256410256410255,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9168900804289545,
+      "eval_PW_precision": 0.9606741573033708,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7341040462427747,
+      "eval_RP_precision": 0.7134831460674157,
+      "eval_RP_recall": 0.7559523809523809,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.25705329153605017,
+      "eval_RV_precision": 0.22162162162162163,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9325166559209113,
+      "eval_f1": 0.7415891195418755,
+      "eval_loss": 0.06343553215265274,
+      "eval_precision": 0.7184466019417476,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.72,
+      "eval_steps_per_second": 3.461,
+      "step": 4400
+    },
+    {
+      "epoch": 10.372960372960373,
+      "grad_norm": 0.1844942271709442,
+      "learning_rate": 1.457901068030231e-05,
+      "loss": 0.00031626921147108076,
+      "step": 4450
+    },
+    {
+      "epoch": 10.48951048951049,
+      "grad_norm": 0.010490261018276215,
+      "learning_rate": 1.3930709434151923e-05,
+      "loss": 0.0003082297742366791,
+      "step": 4500
+    },
+    {
+      "epoch": 10.606060606060606,
+      "grad_norm": 0.05099688470363617,
+      "learning_rate": 1.3291539093313244e-05,
+      "loss": 0.0002880014106631279,
+      "step": 4550
+    },
+    {
+      "epoch": 10.722610722610723,
+      "grad_norm": 0.0041709644719958305,
+      "learning_rate": 1.2662026900596085e-05,
+      "loss": 0.000455758236348629,
+      "step": 4600
+    },
+    {
+      "epoch": 10.722610722610723,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7288135593220338,
+      "eval_RP_precision": 0.6935483870967742,
+      "eval_RP_recall": 0.7678571428571429,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2543352601156069,
+      "eval_RV_precision": 0.20754716981132076,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.927143778207608,
+      "eval_f1": 0.7318435754189943,
+      "eval_loss": 0.06572374701499939,
+      "eval_precision": 0.6931216931216931,
+      "eval_recall": 0.7751479289940828,
+      "eval_runtime": 1.7352,
+      "eval_samples_per_second": 196.525,
+      "eval_steps_per_second": 3.458,
+      "step": 4600
+    },
+    {
+      "epoch": 10.83916083916084,
+      "grad_norm": 0.07737918198108673,
+      "learning_rate": 1.2042692131936844e-05,
+      "loss": 0.0002386464923620224,
+      "step": 4650
+    },
+    {
+      "epoch": 10.955710955710956,
+      "grad_norm": 0.04120206460356712,
+      "learning_rate": 1.1434045668055083e-05,
+      "loss": 0.0005643576383590698,
+      "step": 4700
+    },
+    {
+      "epoch": 11.072261072261073,
+      "grad_norm": 0.004210051614791155,
+      "learning_rate": 1.0836589573034903e-05,
+      "loss": 0.0002576286718249321,
+      "step": 4750
+    },
+    {
+      "epoch": 11.188811188811188,
+      "grad_norm": 0.00333597045391798,
+      "learning_rate": 1.025081668017934e-05,
+      "loss": 0.00015084304846823215,
+      "step": 4800
+    },
+    {
+      "epoch": 11.188811188811188,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7072463768115942,
+      "eval_RP_precision": 0.6892655367231638,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.28070175438596495,
+      "eval_RV_precision": 0.23076923076923078,
+      "eval_RV_recall": 0.3582089552238806,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9288630990758651,
+      "eval_f1": 0.7338028169014085,
+      "eval_loss": 0.06656772643327713,
+      "eval_precision": 0.7002688172043011,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7356,
+      "eval_samples_per_second": 196.476,
+      "eval_steps_per_second": 3.457,
+      "step": 4800
+    },
+    {
+      "epoch": 11.305361305361306,
+      "grad_norm": 0.0031558393966406584,
+      "learning_rate": 9.67721018547886e-06,
+      "loss": 0.00015445927157998085,
+      "step": 4850
+    },
+    {
+      "epoch": 11.421911421911421,
+      "grad_norm": 0.011729123070836067,
+      "learning_rate": 9.116243249029687e-06,
+      "loss": 8.488255552947521e-05,
+      "step": 4900
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 0.0008316569146700203,
+      "learning_rate": 8.568378604730571e-06,
+      "loss": 0.0002171110361814499,
+      "step": 4950
+    },
+    {
+      "epoch": 11.655011655011656,
+      "grad_norm": 0.004247364588081837,
+      "learning_rate": 8.034068178579898e-06,
+      "loss": 0.00011632214300334453,
+      "step": 5000
+    },
+    {
+      "epoch": 11.655011655011656,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6840579710144926,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27627627627627627,
+      "eval_RV_precision": 0.23115577889447236,
+      "eval_RV_recall": 0.34328358208955223,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9284332688588007,
+      "eval_f1": 0.7299787384833452,
+      "eval_loss": 0.06678026169538498,
+      "eval_precision": 0.7006802721088435,
+      "eval_recall": 0.7618343195266272,
+      "eval_runtime": 1.7233,
+      "eval_samples_per_second": 197.88,
+      "eval_steps_per_second": 3.482,
+      "step": 5000
+    },
+    {
+      "epoch": 11.771561771561771,
+      "grad_norm": 0.05394391715526581,
+      "learning_rate": 7.513752715888273e-06,
+      "loss": 0.00016983246430754662,
+      "step": 5050
+    },
+    {
+      "epoch": 11.888111888111888,
+      "grad_norm": 0.03845563158392906,
+      "learning_rate": 7.0078614177136485e-06,
+      "loss": 0.00011192708276212215,
+      "step": 5100
+    },
+    {
+      "epoch": 12.004662004662004,
+      "grad_norm": 0.02336147241294384,
+      "learning_rate": 6.516811586819422e-06,
+      "loss": 0.0002335100807249546,
+      "step": 5150
+    },
+    {
+      "epoch": 12.121212121212121,
+      "grad_norm": 0.0003370556514710188,
+      "learning_rate": 6.0410082834470275e-06,
+      "loss": 4.8335092142224315e-05,
+      "step": 5200
+    },
+    {
+      "epoch": 12.121212121212121,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6783625730994152,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.6904761904761905,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.26791277258566976,
+      "eval_RV_precision": 0.22994652406417113,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9290780141843972,
+      "eval_f1": 0.7306590257879657,
+      "eval_loss": 0.07106506824493408,
+      "eval_precision": 0.7083333333333334,
+      "eval_recall": 0.7544378698224852,
+      "eval_runtime": 1.7221,
+      "eval_samples_per_second": 198.014,
+      "eval_steps_per_second": 3.484,
+      "step": 5200
+    },
+    {
+      "epoch": 12.237762237762238,
+      "grad_norm": 0.0017453994369134307,
+      "learning_rate": 5.580843991187368e-06,
+      "loss": 3.7836318369954824e-05,
+      "step": 5250
+    },
+    {
+      "epoch": 12.354312354312354,
+      "grad_norm": 0.0016113807214424014,
+      "learning_rate": 5.1366982932265304e-06,
+      "loss": 0.0001231016404926777,
+      "step": 5300
+    },
+    {
+      "epoch": 12.470862470862471,
+      "grad_norm": 0.0002258192835142836,
+      "learning_rate": 4.7089375592327624e-06,
+      "loss": 0.00012529355473816394,
+      "step": 5350
+    },
+    {
+      "epoch": 12.587412587412587,
+      "grad_norm": 0.0007686126627959311,
+      "learning_rate": 4.2979146431432915e-06,
+      "loss": 5.470495671033859e-05,
+      "step": 5400
+    },
+    {
+      "epoch": 12.587412587412587,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6976744186046512,
+      "eval_RP_precision": 0.6818181818181818,
+      "eval_RP_recall": 0.7142857142857143,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.270096463022508,
+      "eval_RV_precision": 0.23728813559322035,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9320868257038469,
+      "eval_f1": 0.7397260273972603,
+      "eval_loss": 0.07235979288816452,
+      "eval_precision": 0.7215189873417721,
+      "eval_recall": 0.7588757396449705,
+      "eval_runtime": 1.7207,
+      "eval_samples_per_second": 198.181,
+      "eval_steps_per_second": 3.487,
+      "step": 5400
+    },
+    {
+      "epoch": 12.703962703962704,
+      "grad_norm": 0.053321756422519684,
+      "learning_rate": 3.90396859209986e-06,
+      "loss": 7.323837839066982e-05,
+      "step": 5450
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.0006734261405654252,
+      "learning_rate": 3.52742436677351e-06,
+      "loss": 7.577850017696619e-05,
+      "step": 5500
+    },
+    {
+      "epoch": 12.937062937062937,
+      "grad_norm": 0.006321749184280634,
+      "learning_rate": 3.168592573308926e-06,
+      "loss": 6.354918237775564e-05,
+      "step": 5550
+    },
+    {
+      "epoch": 13.053613053613054,
+      "grad_norm": 0.01146603748202324,
+      "learning_rate": 2.8277692071097374e-06,
+      "loss": 7.275127340108157e-05,
+      "step": 5600
+    },
+    {
+      "epoch": 13.053613053613054,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6860465116279069,
+      "eval_RP_precision": 0.6704545454545454,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2633228840125392,
+      "eval_RV_precision": 0.22702702702702704,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9295078444014614,
+      "eval_f1": 0.7326164874551971,
+      "eval_loss": 0.07243338972330093,
+      "eval_precision": 0.7107093184979137,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.724,
+      "eval_steps_per_second": 3.461,
+      "step": 5600
+    },
+    {
+      "epoch": 13.17016317016317,
+      "grad_norm": 0.0032678074203431606,
+      "learning_rate": 2.5052354086759906e-06,
+      "loss": 4.818648099899292e-05,
+      "step": 5650
+    },
+    {
+      "epoch": 13.286713286713287,
+      "grad_norm": 5.290813714964315e-05,
+      "learning_rate": 2.201257231695203e-06,
+      "loss": 3.962628543376923e-05,
+      "step": 5700
+    },
+    {
+      "epoch": 13.403263403263404,
+      "grad_norm": 0.003765746718272567,
+      "learning_rate": 1.9160854235783676e-06,
+      "loss": 7.49044306576252e-05,
+      "step": 5750
+    },
+    {
+      "epoch": 13.51981351981352,
+      "grad_norm": 0.004614013712853193,
+      "learning_rate": 1.6499552186218404e-06,
+      "loss": 0.00010283836163580418,
+      "step": 5800
+    },
+    {
+      "epoch": 13.51981351981352,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2636655948553055,
+      "eval_RV_precision": 0.23163841807909605,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9307973350526542,
+      "eval_f1": 0.7344877344877345,
+      "eval_loss": 0.0731448158621788,
+      "eval_precision": 0.7169014084507043,
+      "eval_recall": 0.7529585798816568,
+      "eval_runtime": 1.7378,
+      "eval_samples_per_second": 196.225,
+      "eval_steps_per_second": 3.453,
+      "step": 5800
+    },
+    {
+      "epoch": 13.636363636363637,
+      "grad_norm": 0.008611422032117844,
+      "learning_rate": 1.4030861439658371e-06,
+      "loss": 5.049420055001974e-05,
+      "step": 5850
+    },
+    {
+      "epoch": 13.752913752913752,
+      "grad_norm": 0.0007724300376139581,
+      "learning_rate": 1.1756818385094903e-06,
+      "loss": 4.655594471842051e-05,
+      "step": 5900
+    },
+    {
+      "epoch": 13.86946386946387,
+      "grad_norm": 0.0035631547216326,
+      "learning_rate": 9.679298849319506e-07,
+      "loss": 9.550724178552627e-05,
+      "step": 5950
+    },
+    {
+      "epoch": 13.986013986013987,
+      "grad_norm": 0.0005321915959939361,
+      "learning_rate": 7.800016549580014e-07,
+      "loss": 3.305248450487852e-05,
+      "step": 6000
+    },
+    {
+      "epoch": 13.986013986013987,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27564102564102566,
+      "eval_RV_precision": 0.24157303370786518,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9314420803782506,
+      "eval_f1": 0.7368421052631579,
+      "eval_loss": 0.07319783419370651,
+      "eval_precision": 0.7187060478199718,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7266,
+      "eval_samples_per_second": 197.499,
+      "eval_steps_per_second": 3.475,
+      "step": 6000
+    },
+    {
+      "epoch": 14.102564102564102,
+      "grad_norm": 7.208294846350327e-05,
+      "learning_rate": 6.120521679958968e-07,
+      "loss": 1.7309895483776926e-05,
+      "step": 6050
+    },
+    {
+      "epoch": 14.21911421911422,
+      "grad_norm": 0.08203601837158203,
+      "learning_rate": 4.6421996326397875e-07,
+      "loss": 6.703537423163652e-05,
+      "step": 6100
+    },
+    {
+      "epoch": 14.335664335664335,
+      "grad_norm": 0.021905163303017616,
+      "learning_rate": 3.3662698551159e-07,
+      "loss": 3.695807652547956e-05,
+      "step": 6150
+    },
+    {
+      "epoch": 14.452214452214452,
+      "grad_norm": 0.001607498386874795,
+      "learning_rate": 2.2937848442851906e-07,
+      "loss": 5.6628240272402764e-05,
+      "step": 6200
+    },
+    {
+      "epoch": 14.452214452214452,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2765273311897106,
+      "eval_RV_precision": 0.24293785310734464,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9316569954867827,
+      "eval_f1": 0.7373737373737376,
+      "eval_loss": 0.07330625504255295,
+      "eval_precision": 0.719718309859155,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7366,
+      "eval_samples_per_second": 196.361,
+      "eval_steps_per_second": 3.455,
+      "step": 6200
+    },
+    {
+      "epoch": 14.56876456876457,
+      "grad_norm": 0.0034460832830518484,
+      "learning_rate": 1.4256292782600377e-07,
+      "loss": 4.395733587443829e-05,
+      "step": 6250
+    },
+    {
+      "epoch": 14.685314685314685,
+      "grad_norm": 0.009358527138829231,
+      "learning_rate": 7.625192866082264e-08,
+      "loss": 4.598582163453102e-05,
+      "step": 6300
+    },
+    {
+      "epoch": 14.801864801864802,
+      "grad_norm": 0.00038345414213836193,
+      "learning_rate": 3.050018596277293e-08,
+      "loss": 1.7856133636087178e-05,
+      "step": 6350
+    },
+    {
+      "epoch": 14.918414918414918,
+      "grad_norm": 0.0005302863428369164,
+      "learning_rate": 5.345439714191103e-09,
+      "loss": 5.2209962159395215e-05,
+      "step": 6400
+    },
+    {
+      "epoch": 14.918414918414918,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2765273311897106,
+      "eval_RV_precision": 0.24293785310734464,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9316569954867827,
+      "eval_f1": 0.7373737373737376,
+      "eval_loss": 0.07330433279275894,
+      "eval_precision": 0.719718309859155,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.733,
+      "eval_samples_per_second": 196.768,
+      "eval_steps_per_second": 3.462,
+      "step": 6400
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 6435,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 15,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 10
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.48585488335104e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-6400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:367294190e35f865e87bd36d38622df04ac30f8b61585d007bf7a90b90586c7e
+size 5201

checkpoint-6435/config.json ADDED Viewed

	@@ -0,0 +1,93 @@

+{
+  "architectures": [
+    "ModernBertForTokenClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.4,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "float32",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "FP",
+    "2": "RP",
+    "3": "RV",
+    "4": "PW"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "label2id": {
+    "FP": 1,
+    "O": 0,
+    "PW": 4,
+    "RP": 2,
+    "RV": 3
+  },
+  "layer_norm_eps": 1e-05,
+  "layer_types": [
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "local_attention": 128,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "rope_parameters": {
+    "full_attention": {
+      "rope_theta": 160000.0,
+      "rope_type": "default"
+    },
+    "sliding_attention": {
+      "rope_theta": 10000.0,
+      "rope_type": "default"
+    }
+  },
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.0.0",
+  "use_cache": false,
+  "vocab_size": 50368
+}

checkpoint-6435/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3118dccc93832450de9a877dc7c9386a548887d0a885a2a328d58b349b2aedc5
+size 598449012

checkpoint-6435/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7acc976ab9db76ace770d92cd905786b3c39222c8e19eeb96516a3d02b030fe4
+size 535150859

checkpoint-6435/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92a4137273aa4b72253b2aa48ca53593be18fb8ade3270da177cfe6177add4eb
+size 14645

checkpoint-6435/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b30d8367f737aedf21dcc68e2aecce32f185c1c298e5dec8bca8c0280a6c12e
+size 1383

checkpoint-6435/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fbe65256d94e0f9c3ef5ccea84e543fefc571ee9fa25665418b9051b5aa8094
+size 1465

checkpoint-6435/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-6435/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "backend": "tokenizers",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 8192,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": "[UNK]"
+}

checkpoint-6435/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1842 @@

+{
+  "best_global_step": 4400,
+  "best_metric": 0.7415891195418755,
+  "best_model_checkpoint": "/content/drive/MyDrive/disfluency_model/checkpoint-4400",
+  "epoch": 15.0,
+  "eval_steps": 200,
+  "global_step": 6435,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002331002331002331,
+      "grad_norm": 9.829856872558594,
+      "learning_rate": 0.0,
+      "loss": 0.5272760987281799,
+      "step": 1
+    },
+    {
+      "epoch": 0.11655011655011654,
+      "grad_norm": 4.721482276916504,
+      "learning_rate": 2.5362318840579714e-06,
+      "loss": 0.4355599928875359,
+      "step": 50
+    },
+    {
+      "epoch": 0.2331002331002331,
+      "grad_norm": 4.99301290512085,
+      "learning_rate": 5.124223602484472e-06,
+      "loss": 0.3406296920776367,
+      "step": 100
+    },
+    {
+      "epoch": 0.34965034965034963,
+      "grad_norm": 6.354604721069336,
+      "learning_rate": 7.712215320910973e-06,
+      "loss": 0.28903684616088865,
+      "step": 150
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "grad_norm": 1.833147644996643,
+      "learning_rate": 1.0300207039337475e-05,
+      "loss": 0.2038218879699707,
+      "step": 200
+    },
+    {
+      "epoch": 0.4662004662004662,
+      "eval_FP_f1": 0.7824175824175823,
+      "eval_FP_precision": 0.644927536231884,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.23580786026200873,
+      "eval_PW_precision": 0.7941176470588235,
+      "eval_PW_recall": 0.13846153846153847,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.2018072289156626,
+      "eval_RP_precision": 0.1350806451612903,
+      "eval_RP_recall": 0.39880952380952384,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1115065243179122,
+      "eval_RV_precision": 0.06629055007052186,
+      "eval_RV_recall": 0.35074626865671643,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6950354609929078,
+      "eval_f1": 0.2911912368781378,
+      "eval_loss": 0.07750222831964493,
+      "eval_precision": 0.21056105610561057,
+      "eval_recall": 0.4718934911242604,
+      "eval_runtime": 1.7776,
+      "eval_samples_per_second": 191.831,
+      "eval_steps_per_second": 3.375,
+      "step": 200
+    },
+    {
+      "epoch": 0.5827505827505828,
+      "grad_norm": 2.7244417667388916,
+      "learning_rate": 1.2888198757763975e-05,
+      "loss": 0.1314036178588867,
+      "step": 250
+    },
+    {
+      "epoch": 0.6993006993006993,
+      "grad_norm": 1.8847157955169678,
+      "learning_rate": 1.5476190476190476e-05,
+      "loss": 0.0891645622253418,
+      "step": 300
+    },
+    {
+      "epoch": 0.8158508158508159,
+      "grad_norm": 0.6841979026794434,
+      "learning_rate": 1.8064182194616976e-05,
+      "loss": 0.06860542297363281,
+      "step": 350
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "grad_norm": 0.8485817909240723,
+      "learning_rate": 2.065217391304348e-05,
+      "loss": 0.056485376358032226,
+      "step": 400
+    },
+    {
+      "epoch": 0.9324009324009324,
+      "eval_FP_f1": 0.9888268156424581,
+      "eval_FP_precision": 0.9888268156424581,
+      "eval_FP_recall": 0.9888268156424581,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.7810650887573964,
+      "eval_PW_precision": 0.9230769230769231,
+      "eval_PW_recall": 0.676923076923077,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.34449760765550236,
+      "eval_RP_precision": 0.288,
+      "eval_RP_recall": 0.42857142857142855,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.09023415191319246,
+      "eval_RV_precision": 0.04885590599876314,
+      "eval_RV_recall": 0.5895522388059702,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.6064904362776703,
+      "eval_f1": 0.3211169284467714,
+      "eval_loss": 0.06627956032752991,
+      "eval_precision": 0.21014161717679306,
+      "eval_recall": 0.6804733727810651,
+      "eval_runtime": 1.7555,
+      "eval_samples_per_second": 194.242,
+      "eval_steps_per_second": 3.418,
+      "step": 400
+    },
+    {
+      "epoch": 1.048951048951049,
+      "grad_norm": 0.9849236011505127,
+      "learning_rate": 2.3240165631469983e-05,
+      "loss": 0.051623358726501464,
+      "step": 450
+    },
+    {
+      "epoch": 1.1655011655011656,
+      "grad_norm": 0.8257520198822021,
+      "learning_rate": 2.582815734989648e-05,
+      "loss": 0.054394068717956545,
+      "step": 500
+    },
+    {
+      "epoch": 1.282051282051282,
+      "grad_norm": 1.269953727722168,
+      "learning_rate": 2.8416149068322983e-05,
+      "loss": 0.038275165557861326,
+      "step": 550
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "grad_norm": 0.7971916794776917,
+      "learning_rate": 3.100414078674948e-05,
+      "loss": 0.04537781715393066,
+      "step": 600
+    },
+    {
+      "epoch": 1.3986013986013985,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8435754189944136,
+      "eval_PW_precision": 0.9263803680981595,
+      "eval_PW_recall": 0.7743589743589744,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5123966942148761,
+      "eval_RP_precision": 0.3924050632911392,
+      "eval_RP_recall": 0.7380952380952381,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.10061919504643962,
+      "eval_RV_precision": 0.05613126079447323,
+      "eval_RV_recall": 0.48507462686567165,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7038469804427251,
+      "eval_f1": 0.41573033707865165,
+      "eval_loss": 0.04902895167469978,
+      "eval_precision": 0.2852422907488987,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7583,
+      "eval_samples_per_second": 193.935,
+      "eval_steps_per_second": 3.412,
+      "step": 600
+    },
+    {
+      "epoch": 1.5151515151515151,
+      "grad_norm": 0.5072907209396362,
+      "learning_rate": 3.359213250517598e-05,
+      "loss": 0.04208078861236572,
+      "step": 650
+    },
+    {
+      "epoch": 1.6317016317016317,
+      "grad_norm": 0.29589056968688965,
+      "learning_rate": 3.618012422360248e-05,
+      "loss": 0.036929750442504884,
+      "step": 700
+    },
+    {
+      "epoch": 1.7482517482517483,
+      "grad_norm": 0.5353514552116394,
+      "learning_rate": 3.876811594202899e-05,
+      "loss": 0.039374511241912845,
+      "step": 750
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "grad_norm": 0.853635847568512,
+      "learning_rate": 4.135610766045549e-05,
+      "loss": 0.035586235523223875,
+      "step": 800
+    },
+    {
+      "epoch": 1.8648018648018647,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8698060941828255,
+      "eval_PW_precision": 0.9457831325301205,
+      "eval_PW_recall": 0.8051282051282052,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.4963503649635036,
+      "eval_RP_precision": 0.41975308641975306,
+      "eval_RP_recall": 0.6071428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.11028315946348734,
+      "eval_RV_precision": 0.06890130353817504,
+      "eval_RV_recall": 0.27611940298507465,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8289275736084246,
+      "eval_f1": 0.5271920088790233,
+      "eval_loss": 0.05218891426920891,
+      "eval_precision": 0.4218472468916519,
+      "eval_recall": 0.7026627218934911,
+      "eval_runtime": 1.7474,
+      "eval_samples_per_second": 195.151,
+      "eval_steps_per_second": 3.434,
+      "step": 800
+    },
+    {
+      "epoch": 1.9813519813519813,
+      "grad_norm": 0.3492014408111572,
+      "learning_rate": 4.3944099378881993e-05,
+      "loss": 0.037635867595672605,
+      "step": 850
+    },
+    {
+      "epoch": 2.097902097902098,
+      "grad_norm": 0.52850741147995,
+      "learning_rate": 4.653209109730849e-05,
+      "loss": 0.02877570629119873,
+      "step": 900
+    },
+    {
+      "epoch": 2.2144522144522143,
+      "grad_norm": 0.20403911173343658,
+      "learning_rate": 4.9120082815734993e-05,
+      "loss": 0.02313091278076172,
+      "step": 950
+    },
+    {
+      "epoch": 2.331002331002331,
+      "grad_norm": 0.4374295175075531,
+      "learning_rate": 4.99955083202285e-05,
+      "loss": 0.026792542934417726,
+      "step": 1000
+    },
+    {
+      "epoch": 2.331002331002331,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8757062146892656,
+      "eval_PW_precision": 0.9748427672955975,
+      "eval_PW_recall": 0.7948717948717948,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5376884422110553,
+      "eval_RP_precision": 0.4652173913043478,
+      "eval_RP_recall": 0.6369047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13902439024390245,
+      "eval_RV_precision": 0.08309037900874636,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8128089404685149,
+      "eval_f1": 0.5150259067357513,
+      "eval_loss": 0.04896986111998558,
+      "eval_precision": 0.3963317384370016,
+      "eval_recall": 0.735207100591716,
+      "eval_runtime": 1.755,
+      "eval_samples_per_second": 194.299,
+      "eval_steps_per_second": 3.419,
+      "step": 1000
+    },
+    {
+      "epoch": 2.4475524475524475,
+      "grad_norm": 0.22397278249263763,
+      "learning_rate": 4.997159022301654e-05,
+      "loss": 0.024302377700805664,
+      "step": 1050
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 0.4257676303386688,
+      "learning_rate": 4.992707340500554e-05,
+      "loss": 0.02201436996459961,
+      "step": 1100
+    },
+    {
+      "epoch": 2.6806526806526807,
+      "grad_norm": 0.23829305171966553,
+      "learning_rate": 4.986199458750547e-05,
+      "loss": 0.026013293266296388,
+      "step": 1150
+    },
+    {
+      "epoch": 2.797202797202797,
+      "grad_norm": 0.43061190843582153,
+      "learning_rate": 4.977640745313644e-05,
+      "loss": 0.021799113750457764,
+      "step": 1200
+    },
+    {
+      "epoch": 2.797202797202797,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9005524861878453,
+      "eval_PW_precision": 0.9760479041916168,
+      "eval_PW_recall": 0.8358974358974359,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.5901639344262296,
+      "eval_RP_precision": 0.4864864864864865,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1551020408163265,
+      "eval_RV_precision": 0.09484193011647254,
+      "eval_RV_recall": 0.4253731343283582,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8330109606705351,
+      "eval_f1": 0.5576208178438662,
+      "eval_loss": 0.04321876913309097,
+      "eval_precision": 0.43496271748135873,
+      "eval_recall": 0.7766272189349113,
+      "eval_runtime": 1.7666,
+      "eval_samples_per_second": 193.025,
+      "eval_steps_per_second": 3.396,
+      "step": 1200
+    },
+    {
+      "epoch": 2.913752913752914,
+      "grad_norm": 0.42580506205558777,
+      "learning_rate": 4.9670382601546674e-05,
+      "loss": 0.022718839645385742,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0303030303030303,
+      "grad_norm": 0.2979868948459625,
+      "learning_rate": 4.954400749117577e-05,
+      "loss": 0.02102189540863037,
+      "step": 1300
+    },
+    {
+      "epoch": 3.1468531468531467,
+      "grad_norm": 0.246241495013237,
+      "learning_rate": 4.93973863671115e-05,
+      "loss": 0.014143779277801513,
+      "step": 1350
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "grad_norm": 0.21763332188129425,
+      "learning_rate": 4.923064017509945e-05,
+      "loss": 0.015854754447937013,
+      "step": 1400
+    },
+    {
+      "epoch": 3.2634032634032635,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8963730569948186,
+      "eval_PW_precision": 0.9057591623036649,
+      "eval_PW_recall": 0.8871794871794871,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.639269406392694,
+      "eval_RP_precision": 0.5185185185185185,
+      "eval_RP_recall": 0.8333333333333334,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.13923013923013924,
+      "eval_RV_precision": 0.078196872125115,
+      "eval_RV_recall": 0.6343283582089553,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7448957661723619,
+      "eval_f1": 0.4800332778702163,
+      "eval_loss": 0.036764442920684814,
+      "eval_precision": 0.33391203703703703,
+      "eval_recall": 0.8535502958579881,
+      "eval_runtime": 1.7649,
+      "eval_samples_per_second": 193.209,
+      "eval_steps_per_second": 3.4,
+      "step": 1400
+    },
+    {
+      "epoch": 3.37995337995338,
+      "grad_norm": 0.28029730916023254,
+      "learning_rate": 4.904390646177652e-05,
+      "loss": 0.012800486087799072,
+      "step": 1450
+    },
+    {
+      "epoch": 3.4965034965034967,
+      "grad_norm": 0.45200076699256897,
+      "learning_rate": 4.8837339261210644e-05,
+      "loss": 0.014847630262374878,
+      "step": 1500
+    },
+    {
+      "epoch": 3.613053613053613,
+      "grad_norm": 0.468578577041626,
+      "learning_rate": 4.861110896784017e-05,
+      "loss": 0.013855412006378173,
+      "step": 1550
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "grad_norm": 0.2053418904542923,
+      "learning_rate": 4.836540219591784e-05,
+      "loss": 0.015822688341140746,
+      "step": 1600
+    },
+    {
+      "epoch": 3.7296037296037294,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8815426997245178,
+      "eval_PW_precision": 0.9523809523809523,
+      "eval_PW_recall": 0.8205128205128205,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6395939086294417,
+      "eval_RP_precision": 0.5575221238938053,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15873015873015875,
+      "eval_RV_precision": 0.09838998211091235,
+      "eval_RV_recall": 0.41044776119402987,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8497743391360413,
+      "eval_f1": 0.5749032614704257,
+      "eval_loss": 0.04276173189282417,
+      "eval_precision": 0.4589585172109444,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.7648,
+      "eval_samples_per_second": 193.225,
+      "eval_steps_per_second": 3.4,
+      "step": 1600
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.16666975617408752,
+      "learning_rate": 4.8100421625575284e-05,
+      "loss": 0.015907624959945677,
+      "step": 1650
+    },
+    {
+      "epoch": 3.9627039627039626,
+      "grad_norm": 0.4703992009162903,
+      "learning_rate": 4.7816385835634944e-05,
+      "loss": 0.0139349365234375,
+      "step": 1700
+    },
+    {
+      "epoch": 4.0792540792540795,
+      "grad_norm": 0.5405648946762085,
+      "learning_rate": 4.751352912330744e-05,
+      "loss": 0.012668570280075073,
+      "step": 1750
+    },
+    {
+      "epoch": 4.195804195804196,
+      "grad_norm": 0.28995925188064575,
+      "learning_rate": 4.719210131092302e-05,
+      "loss": 0.013018554449081421,
+      "step": 1800
+    },
+    {
+      "epoch": 4.195804195804196,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9110512129380054,
+      "eval_PW_precision": 0.9602272727272727,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6192893401015228,
+      "eval_RP_precision": 0.5398230088495575,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.15172413793103448,
+      "eval_RV_precision": 0.08576998050682261,
+      "eval_RV_recall": 0.6567164179104478,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7635933806146572,
+      "eval_f1": 0.48861646234676004,
+      "eval_loss": 0.03999365121126175,
+      "eval_precision": 0.34701492537313433,
+      "eval_recall": 0.8254437869822485,
+      "eval_runtime": 1.7678,
+      "eval_samples_per_second": 192.895,
+      "eval_steps_per_second": 3.394,
+      "step": 1800
+    },
+    {
+      "epoch": 4.312354312354312,
+      "grad_norm": 0.1972808986902237,
+      "learning_rate": 4.6852367539856546e-05,
+      "loss": 0.007865548133850098,
+      "step": 1850
+    },
+    {
+      "epoch": 4.428904428904429,
+      "grad_norm": 0.08727411925792694,
+      "learning_rate": 4.649460805181604e-05,
+      "loss": 0.007297297716140747,
+      "step": 1900
+    },
+    {
+      "epoch": 4.545454545454545,
+      "grad_norm": 0.2259584218263626,
+      "learning_rate": 4.611911795767516e-05,
+      "loss": 0.008797573447227479,
+      "step": 1950
+    },
+    {
+      "epoch": 4.662004662004662,
+      "grad_norm": 0.2499346286058426,
+      "learning_rate": 4.572620699404031e-05,
+      "loss": 0.009554592967033386,
+      "step": 2000
+    },
+    {
+      "epoch": 4.662004662004662,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.906166219839142,
+      "eval_PW_precision": 0.949438202247191,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6819338422391857,
+      "eval_RP_precision": 0.5955555555555555,
+      "eval_RP_recall": 0.7976190476190477,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.18010471204188477,
+      "eval_RV_precision": 0.10475030450669914,
+      "eval_RV_recall": 0.6417910447761194,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8108747044917257,
+      "eval_f1": 0.5461538461538462,
+      "eval_loss": 0.03176203742623329,
+      "eval_precision": 0.4045584045584046,
+      "eval_recall": 0.8402366863905325,
+      "eval_runtime": 1.7462,
+      "eval_samples_per_second": 195.286,
+      "eval_steps_per_second": 3.436,
+      "step": 2000
+    },
+    {
+      "epoch": 4.778554778554779,
+      "grad_norm": 0.18241898715496063,
+      "learning_rate": 4.531619926775317e-05,
+      "loss": 0.010103501081466675,
+      "step": 2050
+    },
+    {
+      "epoch": 4.895104895104895,
+      "grad_norm": 0.5646976232528687,
+      "learning_rate": 4.48894329885394e-05,
+      "loss": 0.010654613971710206,
+      "step": 2100
+    },
+    {
+      "epoch": 5.011655011655011,
+      "grad_norm": 0.17059487104415894,
+      "learning_rate": 4.4446260190024183e-05,
+      "loss": 0.008428264856338501,
+      "step": 2150
+    },
+    {
+      "epoch": 5.128205128205128,
+      "grad_norm": 0.10937484353780746,
+      "learning_rate": 4.3987046439344426e-05,
+      "loss": 0.0056066220998764035,
+      "step": 2200
+    },
+    {
+      "epoch": 5.128205128205128,
+      "eval_FP_f1": 0.994413407821229,
+      "eval_FP_precision": 0.994413407821229,
+      "eval_FP_recall": 0.994413407821229,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.88,
+      "eval_PW_precision": 0.9935483870967742,
+      "eval_PW_recall": 0.7897435897435897,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6699029126213593,
+      "eval_RP_precision": 0.5655737704918032,
+      "eval_RP_recall": 0.8214285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17673048600883653,
+      "eval_RV_precision": 0.11009174311926606,
+      "eval_RV_recall": 0.44776119402985076,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8549323017408124,
+      "eval_f1": 0.5892162312395776,
+      "eval_loss": 0.044926226139068604,
+      "eval_precision": 0.4719501335707925,
+      "eval_recall": 0.7840236686390533,
+      "eval_runtime": 1.7668,
+      "eval_samples_per_second": 193.006,
+      "eval_steps_per_second": 3.396,
+      "step": 2200
+    },
+    {
+      "epoch": 5.244755244755245,
+      "grad_norm": 0.25396180152893066,
+      "learning_rate": 4.351217053559754e-05,
+      "loss": 0.006568117141723633,
+      "step": 2250
+    },
+    {
+      "epoch": 5.361305361305361,
+      "grad_norm": 0.15003487467765808,
+      "learning_rate": 4.3022024197375266e-05,
+      "loss": 0.0060064631700515745,
+      "step": 2300
+    },
+    {
+      "epoch": 5.477855477855478,
+      "grad_norm": 0.27384480834007263,
+      "learning_rate": 4.2517011739640374e-05,
+      "loss": 0.005202606916427612,
+      "step": 2350
+    },
+    {
+      "epoch": 5.594405594405594,
+      "grad_norm": 0.2527216672897339,
+      "learning_rate": 4.199754974021286e-05,
+      "loss": 0.008023700714111327,
+      "step": 2400
+    },
+    {
+      "epoch": 5.594405594405594,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9037433155080213,
+      "eval_PW_precision": 0.9441340782122905,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.699421965317919,
+      "eval_RP_precision": 0.6797752808988764,
+      "eval_RP_recall": 0.7202380952380952,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17636363636363636,
+      "eval_RV_precision": 0.10041407867494824,
+      "eval_RV_recall": 0.7238805970149254,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.7906726842897056,
+      "eval_f1": 0.5195043597980725,
+      "eval_loss": 0.03475594520568848,
+      "eval_precision": 0.37658017298735863,
+      "eval_recall": 0.8372781065088757,
+      "eval_runtime": 1.7484,
+      "eval_samples_per_second": 195.03,
+      "eval_steps_per_second": 3.432,
+      "step": 2400
+    },
+    {
+      "epoch": 5.7109557109557105,
+      "grad_norm": 0.10864783078432083,
+      "learning_rate": 4.146406669614064e-05,
+      "loss": 0.006877620220184327,
+      "step": 2450
+    },
+    {
+      "epoch": 5.827505827505828,
+      "grad_norm": 0.1385946273803711,
+      "learning_rate": 4.0917002670238205e-05,
+      "loss": 0.005679036974906921,
+      "step": 2500
+    },
+    {
+      "epoch": 5.944055944055944,
+      "grad_norm": 0.39363569021224976,
+      "learning_rate": 4.035680892808487e-05,
+      "loss": 0.005111011862754822,
+      "step": 2550
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "grad_norm": 0.13166821002960205,
+      "learning_rate": 3.978394756578204e-05,
+      "loss": 0.005011002421379089,
+      "step": 2600
+    },
+    {
+      "epoch": 6.0606060606060606,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.912568306010929,
+      "eval_PW_precision": 0.9766081871345029,
+      "eval_PW_recall": 0.8564102564102564,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6852791878172589,
+      "eval_RP_precision": 0.5973451327433629,
+      "eval_RP_recall": 0.8035714285714286,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.17982456140350878,
+      "eval_RV_precision": 0.12732919254658384,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8970556630131098,
+      "eval_f1": 0.6628571428571428,
+      "eval_loss": 0.04650285467505455,
+      "eval_precision": 0.5806451612903226,
+      "eval_recall": 0.772189349112426,
+      "eval_runtime": 1.7907,
+      "eval_samples_per_second": 190.43,
+      "eval_steps_per_second": 3.351,
+      "step": 2600
+    },
+    {
+      "epoch": 6.177156177156177,
+      "grad_norm": 0.09747270494699478,
+      "learning_rate": 3.91988911287765e-05,
+      "loss": 0.003968673944473267,
+      "step": 2650
+    },
+    {
+      "epoch": 6.293706293706293,
+      "grad_norm": 0.2859274446964264,
+      "learning_rate": 3.860212222206416e-05,
+      "loss": 0.003097459375858307,
+      "step": 2700
+    },
+    {
+      "epoch": 6.410256410256411,
+      "grad_norm": 0.1547211855649948,
+      "learning_rate": 3.799413311209587e-05,
+      "loss": 0.003905009925365448,
+      "step": 2750
+    },
+    {
+      "epoch": 6.526806526806527,
+      "grad_norm": 0.3189227283000946,
+      "learning_rate": 3.737542532071357e-05,
+      "loss": 0.003843022286891937,
+      "step": 2800
+    },
+    {
+      "epoch": 6.526806526806527,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9120879120879121,
+      "eval_PW_precision": 0.9822485207100592,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6814404432132963,
+      "eval_RP_precision": 0.6373056994818653,
+      "eval_RP_recall": 0.7321428571428571,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.195906432748538,
+      "eval_RV_precision": 0.12181818181818181,
+      "eval_RV_recall": 0.5,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8613797549967763,
+      "eval_f1": 0.6052036199095022,
+      "eval_loss": 0.047517433762550354,
+      "eval_precision": 0.4899267399267399,
+      "eval_recall": 0.7914201183431953,
+      "eval_runtime": 1.7457,
+      "eval_samples_per_second": 195.333,
+      "eval_steps_per_second": 3.437,
+      "step": 2800
+    },
+    {
+      "epoch": 6.643356643356643,
+      "grad_norm": 0.28142914175987244,
+      "learning_rate": 3.674650921145187e-05,
+      "loss": 0.0046959114074707035,
+      "step": 2850
+    },
+    {
+      "epoch": 6.75990675990676,
+      "grad_norm": 0.4578351080417633,
+      "learning_rate": 3.6107903568546175e-05,
+      "loss": 0.0066505372524261475,
+      "step": 2900
+    },
+    {
+      "epoch": 6.876456876456876,
+      "grad_norm": 0.06301693618297577,
+      "learning_rate": 3.546013516899472e-05,
+      "loss": 0.005263023376464844,
+      "step": 2950
+    },
+    {
+      "epoch": 6.993006993006993,
+      "grad_norm": 0.5769485831260681,
+      "learning_rate": 3.480373834802748e-05,
+      "loss": 0.0045099428296089174,
+      "step": 3000
+    },
+    {
+      "epoch": 6.993006993006993,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.8925619834710744,
+      "eval_PW_precision": 0.9642857142857143,
+      "eval_PW_recall": 0.8307692307692308,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.745308310991957,
+      "eval_RP_precision": 0.6780487804878049,
+      "eval_RP_recall": 0.8273809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2644320297951583,
+      "eval_RV_precision": 0.1761786600496278,
+      "eval_RV_recall": 0.5298507462686567,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8985600687728348,
+      "eval_f1": 0.6752450980392156,
+      "eval_loss": 0.04083069786429405,
+      "eval_precision": 0.5763598326359832,
+      "eval_recall": 0.8150887573964497,
+      "eval_runtime": 1.7656,
+      "eval_samples_per_second": 193.139,
+      "eval_steps_per_second": 3.398,
+      "step": 3000
+    },
+    {
+      "epoch": 7.10955710955711,
+      "grad_norm": 0.4822663366794586,
+      "learning_rate": 3.413925455834041e-05,
+      "loss": 0.0027274960279464722,
+      "step": 3050
+    },
+    {
+      "epoch": 7.226107226107226,
+      "grad_norm": 0.12082718312740326,
+      "learning_rate": 3.346723192345858e-05,
+      "loss": 0.0027995941042900084,
+      "step": 3100
+    },
+    {
+      "epoch": 7.3426573426573425,
+      "grad_norm": 0.051056090742349625,
+      "learning_rate": 3.278822478559657e-05,
+      "loss": 0.002488945722579956,
+      "step": 3150
+    },
+    {
+      "epoch": 7.459207459207459,
+      "grad_norm": 0.3237623870372772,
+      "learning_rate": 3.2102793248389316e-05,
+      "loss": 0.002043289989233017,
+      "step": 3200
+    },
+    {
+      "epoch": 7.459207459207459,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9124668435013262,
+      "eval_PW_precision": 0.945054945054945,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7119565217391305,
+      "eval_RP_precision": 0.655,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2311111111111111,
+      "eval_RV_precision": 0.16455696202531644,
+      "eval_RV_recall": 0.3880597014925373,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9065119277885235,
+      "eval_f1": 0.6872586872586873,
+      "eval_loss": 0.04947880655527115,
+      "eval_precision": 0.6082004555808656,
+      "eval_recall": 0.7899408284023669,
+      "eval_runtime": 1.7267,
+      "eval_samples_per_second": 197.485,
+      "eval_steps_per_second": 3.475,
+      "step": 3200
+    },
+    {
+      "epoch": 7.575757575757576,
+      "grad_norm": 0.2536736726760864,
+      "learning_rate": 3.141150271487024e-05,
+      "loss": 0.0021054935455322265,
+      "step": 3250
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 0.19249416887760162,
+      "learning_rate": 3.071492342107814e-05,
+      "loss": 0.0030115434527397157,
+      "step": 3300
+    },
+    {
+      "epoch": 7.808857808857809,
+      "grad_norm": 0.40715843439102173,
+      "learning_rate": 3.0013629965677292e-05,
+      "loss": 0.0025595900416374206,
+      "step": 3350
+    },
+    {
+      "epoch": 7.925407925407925,
+      "grad_norm": 0.05540835112333298,
+      "learning_rate": 2.930820083597896e-05,
+      "loss": 0.0023874352872371675,
+      "step": 3400
+    },
+    {
+      "epoch": 7.925407925407925,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9243243243243243,
+      "eval_PW_precision": 0.9771428571428571,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7436619718309859,
+      "eval_RP_precision": 0.7058823529411765,
+      "eval_RP_recall": 0.7857142857142857,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.23783783783783785,
+      "eval_RV_precision": 0.1864406779661017,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9228454760369654,
+      "eval_f1": 0.7235213204951857,
+      "eval_loss": 0.05276188254356384,
+      "eval_precision": 0.6760925449871465,
+      "eval_recall": 0.7781065088757396,
+      "eval_runtime": 1.7026,
+      "eval_samples_per_second": 200.284,
+      "eval_steps_per_second": 3.524,
+      "step": 3400
+    },
+    {
+      "epoch": 8.041958041958042,
+      "grad_norm": 0.05420549958944321,
+      "learning_rate": 2.8599217930755163e-05,
+      "loss": 0.0017227402329444885,
+      "step": 3450
+    },
+    {
+      "epoch": 8.158508158508159,
+      "grad_norm": 0.03208259865641594,
+      "learning_rate": 2.7887266080238394e-05,
+      "loss": 0.0014327512681484222,
+      "step": 3500
+    },
+    {
+      "epoch": 8.275058275058274,
+      "grad_norm": 0.11691170930862427,
+      "learning_rate": 2.717293256370324e-05,
+      "loss": 0.0008813569694757461,
+      "step": 3550
+    },
+    {
+      "epoch": 8.391608391608392,
+      "grad_norm": 0.04499991610646248,
+      "learning_rate": 2.6456806625027753e-05,
+      "loss": 0.001173463687300682,
+      "step": 3600
+    },
+    {
+      "epoch": 8.391608391608392,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6649350649350648,
+      "eval_RP_precision": 0.5898617511520737,
+      "eval_RP_recall": 0.7619047619047619,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2242152466367713,
+      "eval_RV_precision": 0.16025641025641027,
+      "eval_RV_recall": 0.373134328358209,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9011390500752203,
+      "eval_f1": 0.6769033909149073,
+      "eval_loss": 0.051750849932432175,
+      "eval_precision": 0.5963923337091319,
+      "eval_recall": 0.7825443786982249,
+      "eval_runtime": 1.7154,
+      "eval_samples_per_second": 198.783,
+      "eval_steps_per_second": 3.498,
+      "step": 3600
+    },
+    {
+      "epoch": 8.508158508158509,
+      "grad_norm": 0.1041538193821907,
+      "learning_rate": 2.5739478986634334e-05,
+      "loss": 0.0012617163360118867,
+      "step": 3650
+    },
+    {
+      "epoch": 8.624708624708624,
+      "grad_norm": 0.07832089811563492,
+      "learning_rate": 2.502154136221095e-05,
+      "loss": 0.0016725870966911316,
+      "step": 3700
+    },
+    {
+      "epoch": 8.741258741258742,
+      "grad_norm": 0.2803429961204529,
+      "learning_rate": 2.4303585968614594e-05,
+      "loss": 0.001303904354572296,
+      "step": 3750
+    },
+    {
+      "epoch": 8.857808857808857,
+      "grad_norm": 0.10039077699184418,
+      "learning_rate": 2.358620503735985e-05,
+      "loss": 0.0016713647544384003,
+      "step": 3800
+    },
+    {
+      "epoch": 8.857808857808857,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.907103825136612,
+      "eval_PW_precision": 0.9707602339181286,
+      "eval_PW_recall": 0.8512820512820513,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6055555555555555,
+      "eval_RP_precision": 0.5677083333333334,
+      "eval_RP_recall": 0.6488095238095238,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.1531914893617021,
+      "eval_RV_precision": 0.10714285714285714,
+      "eval_RV_recall": 0.26865671641791045,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.8871695680206318,
+      "eval_f1": 0.6302250803858521,
+      "eval_loss": 0.06584469228982925,
+      "eval_precision": 0.5574516496018203,
+      "eval_recall": 0.7248520710059172,
+      "eval_runtime": 1.7127,
+      "eval_samples_per_second": 199.099,
+      "eval_steps_per_second": 3.503,
+      "step": 3800
+    },
+    {
+      "epoch": 8.974358974358974,
+      "grad_norm": 0.0319208949804306,
+      "learning_rate": 2.286999032609519e-05,
+      "loss": 0.0011156044900417327,
+      "step": 3850
+    },
+    {
+      "epoch": 9.090909090909092,
+      "grad_norm": 0.06702426820993423,
+      "learning_rate": 2.215553263047031e-05,
+      "loss": 0.001486612856388092,
+      "step": 3900
+    },
+    {
+      "epoch": 9.207459207459207,
+      "grad_norm": 0.025190044194459915,
+      "learning_rate": 2.1443421296796902e-05,
+      "loss": 0.0008709771931171417,
+      "step": 3950
+    },
+    {
+      "epoch": 9.324009324009324,
+      "grad_norm": 0.12909601628780365,
+      "learning_rate": 2.0734243735904992e-05,
+      "loss": 0.0007652242481708527,
+      "step": 4000
+    },
+    {
+      "epoch": 9.324009324009324,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9193548387096773,
+      "eval_PW_precision": 0.9661016949152542,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6684350132625995,
+      "eval_RP_precision": 0.6028708133971292,
+      "eval_RP_recall": 0.75,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22113022113022113,
+      "eval_RV_precision": 0.16483516483516483,
+      "eval_RV_recall": 0.3358208955223881,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9084461637653127,
+      "eval_f1": 0.6877887788778877,
+      "eval_loss": 0.06094101816415787,
+      "eval_precision": 0.6209773539928486,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7364,
+      "eval_samples_per_second": 196.38,
+      "eval_steps_per_second": 3.455,
+      "step": 4000
+    },
+    {
+      "epoch": 9.44055944055944,
+      "grad_norm": 0.038413889706134796,
+      "learning_rate": 2.002858493859587e-05,
+      "loss": 0.0005362145602703094,
+      "step": 4050
+    },
+    {
+      "epoch": 9.557109557109557,
+      "grad_norm": 0.15115134418010712,
+      "learning_rate": 1.9327026993091186e-05,
+      "loss": 0.0006626041233539581,
+      "step": 4100
+    },
+    {
+      "epoch": 9.673659673659674,
+      "grad_norm": 0.10298547893762589,
+      "learning_rate": 1.8630148604876468e-05,
+      "loss": 0.0007023769617080689,
+      "step": 4150
+    },
+    {
+      "epoch": 9.79020979020979,
+      "grad_norm": 0.11396172642707825,
+      "learning_rate": 1.793852461933484e-05,
+      "loss": 0.0011355096101760863,
+      "step": 4200
+    },
+    {
+      "epoch": 9.79020979020979,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9135135135135135,
+      "eval_PW_precision": 0.9657142857142857,
+      "eval_PW_recall": 0.8666666666666667,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7024128686327078,
+      "eval_RP_precision": 0.6390243902439025,
+      "eval_RP_recall": 0.7797619047619048,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.22714681440443213,
+      "eval_RV_precision": 0.18061674008810572,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9194068343004513,
+      "eval_f1": 0.710868079289132,
+      "eval_loss": 0.05905779078602791,
+      "eval_precision": 0.6607369758576874,
+      "eval_recall": 0.7692307692307693,
+      "eval_runtime": 1.714,
+      "eval_samples_per_second": 198.951,
+      "eval_steps_per_second": 3.501,
+      "step": 4200
+    },
+    {
+      "epoch": 9.906759906759907,
+      "grad_norm": 0.06096949800848961,
+      "learning_rate": 1.7252725547565096e-05,
+      "loss": 0.0008608976751565933,
+      "step": 4250
+    },
+    {
+      "epoch": 10.023310023310023,
+      "grad_norm": 0.016558649018406868,
+      "learning_rate": 1.6573317095774848e-05,
+      "loss": 0.0005947026610374451,
+      "step": 4300
+    },
+    {
+      "epoch": 10.13986013986014,
+      "grad_norm": 0.05043337866663933,
+      "learning_rate": 1.590085969863735e-05,
+      "loss": 0.00048787113279104234,
+      "step": 4350
+    },
+    {
+      "epoch": 10.256410256410255,
+      "grad_norm": 0.045682214200496674,
+      "learning_rate": 1.5235908056996611e-05,
+      "loss": 0.0004080647230148315,
+      "step": 4400
+    },
+    {
+      "epoch": 10.256410256410255,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9168900804289545,
+      "eval_PW_precision": 0.9606741573033708,
+      "eval_PW_recall": 0.8769230769230769,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7341040462427747,
+      "eval_RP_precision": 0.7134831460674157,
+      "eval_RP_recall": 0.7559523809523809,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.25705329153605017,
+      "eval_RV_precision": 0.22162162162162163,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9325166559209113,
+      "eval_f1": 0.7415891195418755,
+      "eval_loss": 0.06343553215265274,
+      "eval_precision": 0.7184466019417476,
+      "eval_recall": 0.7662721893491125,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.72,
+      "eval_steps_per_second": 3.461,
+      "step": 4400
+    },
+    {
+      "epoch": 10.372960372960373,
+      "grad_norm": 0.1844942271709442,
+      "learning_rate": 1.457901068030231e-05,
+      "loss": 0.00031626921147108076,
+      "step": 4450
+    },
+    {
+      "epoch": 10.48951048951049,
+      "grad_norm": 0.010490261018276215,
+      "learning_rate": 1.3930709434151923e-05,
+      "loss": 0.0003082297742366791,
+      "step": 4500
+    },
+    {
+      "epoch": 10.606060606060606,
+      "grad_norm": 0.05099688470363617,
+      "learning_rate": 1.3291539093313244e-05,
+      "loss": 0.0002880014106631279,
+      "step": 4550
+    },
+    {
+      "epoch": 10.722610722610723,
+      "grad_norm": 0.0041709644719958305,
+      "learning_rate": 1.2662026900596085e-05,
+      "loss": 0.000455758236348629,
+      "step": 4600
+    },
+    {
+      "epoch": 10.722610722610723,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7288135593220338,
+      "eval_RP_precision": 0.6935483870967742,
+      "eval_RP_recall": 0.7678571428571429,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2543352601156069,
+      "eval_RV_precision": 0.20754716981132076,
+      "eval_RV_recall": 0.3283582089552239,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.927143778207608,
+      "eval_f1": 0.7318435754189943,
+      "eval_loss": 0.06572374701499939,
+      "eval_precision": 0.6931216931216931,
+      "eval_recall": 0.7751479289940828,
+      "eval_runtime": 1.7352,
+      "eval_samples_per_second": 196.525,
+      "eval_steps_per_second": 3.458,
+      "step": 4600
+    },
+    {
+      "epoch": 10.83916083916084,
+      "grad_norm": 0.07737918198108673,
+      "learning_rate": 1.2042692131936844e-05,
+      "loss": 0.0002386464923620224,
+      "step": 4650
+    },
+    {
+      "epoch": 10.955710955710956,
+      "grad_norm": 0.04120206460356712,
+      "learning_rate": 1.1434045668055083e-05,
+      "loss": 0.0005643576383590698,
+      "step": 4700
+    },
+    {
+      "epoch": 11.072261072261073,
+      "grad_norm": 0.004210051614791155,
+      "learning_rate": 1.0836589573034903e-05,
+      "loss": 0.0002576286718249321,
+      "step": 4750
+    },
+    {
+      "epoch": 11.188811188811188,
+      "grad_norm": 0.00333597045391798,
+      "learning_rate": 1.025081668017934e-05,
+      "loss": 0.00015084304846823215,
+      "step": 4800
+    },
+    {
+      "epoch": 11.188811188811188,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.7072463768115942,
+      "eval_RP_precision": 0.6892655367231638,
+      "eval_RP_recall": 0.7261904761904762,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.28070175438596495,
+      "eval_RV_precision": 0.23076923076923078,
+      "eval_RV_recall": 0.3582089552238806,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9288630990758651,
+      "eval_f1": 0.7338028169014085,
+      "eval_loss": 0.06656772643327713,
+      "eval_precision": 0.7002688172043011,
+      "eval_recall": 0.7707100591715976,
+      "eval_runtime": 1.7356,
+      "eval_samples_per_second": 196.476,
+      "eval_steps_per_second": 3.457,
+      "step": 4800
+    },
+    {
+      "epoch": 11.305361305361306,
+      "grad_norm": 0.0031558393966406584,
+      "learning_rate": 9.67721018547886e-06,
+      "loss": 0.00015445927157998085,
+      "step": 4850
+    },
+    {
+      "epoch": 11.421911421911421,
+      "grad_norm": 0.011729123070836067,
+      "learning_rate": 9.116243249029687e-06,
+      "loss": 8.488255552947521e-05,
+      "step": 4900
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 0.0008316569146700203,
+      "learning_rate": 8.568378604730571e-06,
+      "loss": 0.0002171110361814499,
+      "step": 4950
+    },
+    {
+      "epoch": 11.655011655011656,
+      "grad_norm": 0.004247364588081837,
+      "learning_rate": 8.034068178579898e-06,
+      "loss": 0.00011632214300334453,
+      "step": 5000
+    },
+    {
+      "epoch": 11.655011655011656,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6840579710144926,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27627627627627627,
+      "eval_RV_precision": 0.23115577889447236,
+      "eval_RV_recall": 0.34328358208955223,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9284332688588007,
+      "eval_f1": 0.7299787384833452,
+      "eval_loss": 0.06678026169538498,
+      "eval_precision": 0.7006802721088435,
+      "eval_recall": 0.7618343195266272,
+      "eval_runtime": 1.7233,
+      "eval_samples_per_second": 197.88,
+      "eval_steps_per_second": 3.482,
+      "step": 5000
+    },
+    {
+      "epoch": 11.771561771561771,
+      "grad_norm": 0.05394391715526581,
+      "learning_rate": 7.513752715888273e-06,
+      "loss": 0.00016983246430754662,
+      "step": 5050
+    },
+    {
+      "epoch": 11.888111888111888,
+      "grad_norm": 0.03845563158392906,
+      "learning_rate": 7.0078614177136485e-06,
+      "loss": 0.00011192708276212215,
+      "step": 5100
+    },
+    {
+      "epoch": 12.004662004662004,
+      "grad_norm": 0.02336147241294384,
+      "learning_rate": 6.516811586819422e-06,
+      "loss": 0.0002335100807249546,
+      "step": 5150
+    },
+    {
+      "epoch": 12.121212121212121,
+      "grad_norm": 0.0003370556514710188,
+      "learning_rate": 6.0410082834470275e-06,
+      "loss": 4.8335092142224315e-05,
+      "step": 5200
+    },
+    {
+      "epoch": 12.121212121212121,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6783625730994152,
+      "eval_RP_precision": 0.6666666666666666,
+      "eval_RP_recall": 0.6904761904761905,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.26791277258566976,
+      "eval_RV_precision": 0.22994652406417113,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9290780141843972,
+      "eval_f1": 0.7306590257879657,
+      "eval_loss": 0.07106506824493408,
+      "eval_precision": 0.7083333333333334,
+      "eval_recall": 0.7544378698224852,
+      "eval_runtime": 1.7221,
+      "eval_samples_per_second": 198.014,
+      "eval_steps_per_second": 3.484,
+      "step": 5200
+    },
+    {
+      "epoch": 12.237762237762238,
+      "grad_norm": 0.0017453994369134307,
+      "learning_rate": 5.580843991187368e-06,
+      "loss": 3.7836318369954824e-05,
+      "step": 5250
+    },
+    {
+      "epoch": 12.354312354312354,
+      "grad_norm": 0.0016113807214424014,
+      "learning_rate": 5.1366982932265304e-06,
+      "loss": 0.0001231016404926777,
+      "step": 5300
+    },
+    {
+      "epoch": 12.470862470862471,
+      "grad_norm": 0.0002258192835142836,
+      "learning_rate": 4.7089375592327624e-06,
+      "loss": 0.00012529355473816394,
+      "step": 5350
+    },
+    {
+      "epoch": 12.587412587412587,
+      "grad_norm": 0.0007686126627959311,
+      "learning_rate": 4.2979146431432915e-06,
+      "loss": 5.470495671033859e-05,
+      "step": 5400
+    },
+    {
+      "epoch": 12.587412587412587,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6976744186046512,
+      "eval_RP_precision": 0.6818181818181818,
+      "eval_RP_recall": 0.7142857142857143,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.270096463022508,
+      "eval_RV_precision": 0.23728813559322035,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9320868257038469,
+      "eval_f1": 0.7397260273972603,
+      "eval_loss": 0.07235979288816452,
+      "eval_precision": 0.7215189873417721,
+      "eval_recall": 0.7588757396449705,
+      "eval_runtime": 1.7207,
+      "eval_samples_per_second": 198.181,
+      "eval_steps_per_second": 3.487,
+      "step": 5400
+    },
+    {
+      "epoch": 12.703962703962704,
+      "grad_norm": 0.053321756422519684,
+      "learning_rate": 3.90396859209986e-06,
+      "loss": 7.323837839066982e-05,
+      "step": 5450
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.0006734261405654252,
+      "learning_rate": 3.52742436677351e-06,
+      "loss": 7.577850017696619e-05,
+      "step": 5500
+    },
+    {
+      "epoch": 12.937062937062937,
+      "grad_norm": 0.006321749184280634,
+      "learning_rate": 3.168592573308926e-06,
+      "loss": 6.354918237775564e-05,
+      "step": 5550
+    },
+    {
+      "epoch": 13.053613053613054,
+      "grad_norm": 0.01146603748202324,
+      "learning_rate": 2.8277692071097374e-06,
+      "loss": 7.275127340108157e-05,
+      "step": 5600
+    },
+    {
+      "epoch": 13.053613053613054,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9222520107238605,
+      "eval_PW_precision": 0.9662921348314607,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6860465116279069,
+      "eval_RP_precision": 0.6704545454545454,
+      "eval_RP_recall": 0.7023809523809523,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2633228840125392,
+      "eval_RV_precision": 0.22702702702702704,
+      "eval_RV_recall": 0.31343283582089554,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9295078444014614,
+      "eval_f1": 0.7326164874551971,
+      "eval_loss": 0.07243338972330093,
+      "eval_precision": 0.7107093184979137,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7334,
+      "eval_samples_per_second": 196.724,
+      "eval_steps_per_second": 3.461,
+      "step": 5600
+    },
+    {
+      "epoch": 13.17016317016317,
+      "grad_norm": 0.0032678074203431606,
+      "learning_rate": 2.5052354086759906e-06,
+      "loss": 4.818648099899292e-05,
+      "step": 5650
+    },
+    {
+      "epoch": 13.286713286713287,
+      "grad_norm": 5.290813714964315e-05,
+      "learning_rate": 2.201257231695203e-06,
+      "loss": 3.962628543376923e-05,
+      "step": 5700
+    },
+    {
+      "epoch": 13.403263403263404,
+      "grad_norm": 0.003765746718272567,
+      "learning_rate": 1.9160854235783676e-06,
+      "loss": 7.49044306576252e-05,
+      "step": 5750
+    },
+    {
+      "epoch": 13.51981351981352,
+      "grad_norm": 0.004614013712853193,
+      "learning_rate": 1.6499552186218404e-06,
+      "loss": 0.00010283836163580418,
+      "step": 5800
+    },
+    {
+      "epoch": 13.51981351981352,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2636655948553055,
+      "eval_RV_precision": 0.23163841807909605,
+      "eval_RV_recall": 0.30597014925373134,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9307973350526542,
+      "eval_f1": 0.7344877344877345,
+      "eval_loss": 0.0731448158621788,
+      "eval_precision": 0.7169014084507043,
+      "eval_recall": 0.7529585798816568,
+      "eval_runtime": 1.7378,
+      "eval_samples_per_second": 196.225,
+      "eval_steps_per_second": 3.453,
+      "step": 5800
+    },
+    {
+      "epoch": 13.636363636363637,
+      "grad_norm": 0.008611422032117844,
+      "learning_rate": 1.4030861439658371e-06,
+      "loss": 5.049420055001974e-05,
+      "step": 5850
+    },
+    {
+      "epoch": 13.752913752913752,
+      "grad_norm": 0.0007724300376139581,
+      "learning_rate": 1.1756818385094903e-06,
+      "loss": 4.655594471842051e-05,
+      "step": 5900
+    },
+    {
+      "epoch": 13.86946386946387,
+      "grad_norm": 0.0035631547216326,
+      "learning_rate": 9.679298849319506e-07,
+      "loss": 9.550724178552627e-05,
+      "step": 5950
+    },
+    {
+      "epoch": 13.986013986013987,
+      "grad_norm": 0.0005321915959939361,
+      "learning_rate": 7.800016549580014e-07,
+      "loss": 3.305248450487852e-05,
+      "step": 6000
+    },
+    {
+      "epoch": 13.986013986013987,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.27564102564102566,
+      "eval_RV_precision": 0.24157303370786518,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9314420803782506,
+      "eval_f1": 0.7368421052631579,
+      "eval_loss": 0.07319783419370651,
+      "eval_precision": 0.7187060478199718,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7266,
+      "eval_samples_per_second": 197.499,
+      "eval_steps_per_second": 3.475,
+      "step": 6000
+    },
+    {
+      "epoch": 14.102564102564102,
+      "grad_norm": 7.208294846350327e-05,
+      "learning_rate": 6.120521679958968e-07,
+      "loss": 1.7309895483776926e-05,
+      "step": 6050
+    },
+    {
+      "epoch": 14.21911421911422,
+      "grad_norm": 0.08203601837158203,
+      "learning_rate": 4.6421996326397875e-07,
+      "loss": 6.703537423163652e-05,
+      "step": 6100
+    },
+    {
+      "epoch": 14.335664335664335,
+      "grad_norm": 0.021905163303017616,
+      "learning_rate": 3.3662698551159e-07,
+      "loss": 3.695807652547956e-05,
+      "step": 6150
+    },
+    {
+      "epoch": 14.452214452214452,
+      "grad_norm": 0.001607498386874795,
+      "learning_rate": 2.2937848442851906e-07,
+      "loss": 5.6628240272402764e-05,
+      "step": 6200
+    },
+    {
+      "epoch": 14.452214452214452,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2765273311897106,
+      "eval_RV_precision": 0.24293785310734464,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9316569954867827,
+      "eval_f1": 0.7373737373737376,
+      "eval_loss": 0.07330625504255295,
+      "eval_precision": 0.719718309859155,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.7366,
+      "eval_samples_per_second": 196.361,
+      "eval_steps_per_second": 3.455,
+      "step": 6200
+    },
+    {
+      "epoch": 14.56876456876457,
+      "grad_norm": 0.0034460832830518484,
+      "learning_rate": 1.4256292782600377e-07,
+      "loss": 4.395733587443829e-05,
+      "step": 6250
+    },
+    {
+      "epoch": 14.685314685314685,
+      "grad_norm": 0.009358527138829231,
+      "learning_rate": 7.625192866082264e-08,
+      "loss": 4.598582163453102e-05,
+      "step": 6300
+    },
+    {
+      "epoch": 14.801864801864802,
+      "grad_norm": 0.00038345414213836193,
+      "learning_rate": 3.050018596277293e-08,
+      "loss": 1.7856133636087178e-05,
+      "step": 6350
+    },
+    {
+      "epoch": 14.918414918414918,
+      "grad_norm": 0.0005302863428369164,
+      "learning_rate": 5.345439714191103e-09,
+      "loss": 5.2209962159395215e-05,
+      "step": 6400
+    },
+    {
+      "epoch": 14.918414918414918,
+      "eval_FP_f1": 0.9972144846796658,
+      "eval_FP_precision": 0.9944444444444445,
+      "eval_FP_recall": 1.0,
+      "eval_FP_support": 179,
+      "eval_PW_f1": 0.9197860962566844,
+      "eval_PW_precision": 0.9608938547486033,
+      "eval_PW_recall": 0.882051282051282,
+      "eval_PW_support": 195,
+      "eval_RP_f1": 0.6842105263157895,
+      "eval_RP_precision": 0.6724137931034483,
+      "eval_RP_recall": 0.6964285714285714,
+      "eval_RP_support": 168,
+      "eval_RV_f1": 0.2765273311897106,
+      "eval_RV_precision": 0.24293785310734464,
+      "eval_RV_recall": 0.3208955223880597,
+      "eval_RV_support": 134,
+      "eval_accuracy": 0.9316569954867827,
+      "eval_f1": 0.7373737373737376,
+      "eval_loss": 0.07330433279275894,
+      "eval_precision": 0.719718309859155,
+      "eval_recall": 0.7559171597633136,
+      "eval_runtime": 1.733,
+      "eval_samples_per_second": 196.768,
+      "eval_steps_per_second": 3.462,
+      "step": 6400
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 6435,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 15,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 10
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.50468214590592e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}