diff --git a/.gitattributes b/.gitattributes
index 15777fb59da365cea01d94d239d6e61a25c11da4..df318bc0f05ae9a29d997bb9fdc38b41ee8d28ae 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -399,3 +399,5 @@ aseratus1__7fa35f4f-2ed9-4c3c-bee7-ca2aaf0d9493/tokenizer.json filter=lfs diff=l
 arcwarden46__55aa93e7-c3af-4fe4-9127-195595c283bf/last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 arcwarden46__55aa93e7-c3af-4fe4-9127-195595c283bf/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 chchen__Llama-3.1-8B-Instruct-PsyCourse-info-fold8/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+Daewon0808__mmlu_noaugs_llamabase_lora/tokenizer.json filter=lfs diff=lfs merge=lfs -text
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/.gitattributes b/Daewon0808__mmlu_noaugs_llamabase_lora/.gitattributes
new file mode 100644
index 0000000000000000000000000000000000000000..52373fe24473b1aa44333d318f578ae6bf04b49b
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/.gitattributes
@@ -0,0 +1,36 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/README.md b/Daewon0808__mmlu_noaugs_llamabase_lora/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..5c3254d8254850e3d9ff74ecdef93525d093f1b4
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/README.md
@@ -0,0 +1,579 @@
+---
+base_model: meta-llama/Llama-3.1-8B-Instruct
+library_name: peft
+license: llama3.1
+tags:
+- generated_from_trainer
+model-index:
+- name: mmlu_noaugs_llamabase_lora
+  results: []
+---
+
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+
+# mmlu_noaugs_llamabase_lora
+
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2476
+- Prm accuracy: 0.8968
+- Prm precision: 0.9052
+- Prm recall: 0.9813
+- Prm specificty: 0.4211
+- Prm npv: 0.8
+- Prm f1: 0.9417
+- Prm f1 neg: 0.5517
+- Prm f1 auc: 0.7012
+- Prm f1 auc (fixed): 0.9319
+
+## Model description
+
+More information needed
+
+## Intended uses & limitations
+
+More information needed
+
+## Training and evaluation data
+
+More information needed
+
+## Training procedure
+
+### Training hyperparameters
+
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 2
+- eval_batch_size: 4
+- seed: 908932403
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+
+### Training results
+
+| Training Loss | Epoch  | Step | Validation Loss | Prm accuracy | Prm precision | Prm recall | Prm specificty | Prm npv | Prm f1 | Prm f1 neg | Prm f1 auc | Prm f1 auc (fixed) |
+|:-------------:|:------:|:----:|:---------------:|:------------:|:-------------:|:----------:|:--------------:|:-------:|:------:|:----------:|:----------:|:------------------:|
+| No log        | 0      | 0    | 5.1042          | 0.1508       | 0.0           | 0.0        | 1.0            | 0.1508  | 0.0    | 0.2621     | 0.5        | 0.5034             |
+| 3.5586        | 0.0020 | 5    | 5.1021          | 0.1508       | 0.0           | 0.0        | 1.0            | 0.1508  | 0.0    | 0.2621     | 0.5        | 0.5027             |
+| 3.5596        | 0.0040 | 10   | 5.0229          | 0.1508       | 0.0           | 0.0        | 1.0            | 0.1508  | 0.0    | 0.2621     | 0.5        | 0.5069             |
+| 3.4512        | 0.0059 | 15   | 4.7937          | 0.1508       | 0.0           | 0.0        | 1.0            | 0.1508  | 0.0    | 0.2621     | 0.5        | 0.5049             |
+| 2.894         | 0.0079 | 20   | 4.1833          | 0.1508       | 0.0           | 0.0        | 1.0            | 0.1508  | 0.0    | 0.2621     | 0.5        | 0.5002             |
+| 1.2933        | 0.0099 | 25   | 2.5885          | 0.1984       | 0.8           | 0.0748     | 0.8947         | 0.1466  | 0.1368 | 0.2519     | 0.4848     | 0.4788             |
+| 0.5383        | 0.0119 | 30   | 1.1531          | 0.6429       | 0.81          | 0.7570     | 0.0            | 0.0     | 0.7826 | 0.0        | 0.3785     | 0.4592             |
+| 0.4477        | 0.0139 | 35   | 0.8378          | 0.7222       | 0.8273        | 0.8505     | 0.0            | 0.0     | 0.8387 | 0.0        | 0.4252     | 0.4899             |
+| 0.3996        | 0.0158 | 40   | 0.7927          | 0.6349       | 0.8144        | 0.7383     | 0.0526         | 0.0345  | 0.7745 | 0.0417     | 0.3955     | 0.5243             |
+| 0.3229        | 0.0178 | 45   | 0.6333          | 0.7222       | 0.8333        | 0.8411     | 0.0526         | 0.0556  | 0.8372 | 0.0541     | 0.4469     | 0.5553             |
+| 0.3174        | 0.0198 | 50   | 0.5189          | 0.8333       | 0.8468        | 0.9813     | 0.0            | 0.0     | 0.9091 | 0.0        | 0.4907     | 0.6090             |
+| 0.3652        | 0.0218 | 55   | 0.4620          | 0.8413       | 0.8537        | 0.9813     | 0.0526         | 0.3333  | 0.9130 | 0.0909     | 0.5170     | 0.6328             |
+| 0.4152        | 0.0237 | 60   | 0.4495          | 0.8413       | 0.8537        | 0.9813     | 0.0526         | 0.3333  | 0.9130 | 0.0909     | 0.5170     | 0.6520             |
+| 0.4165        | 0.0257 | 65   | 0.4258          | 0.8571       | 0.856         | 1.0        | 0.0526         | 1.0     | 0.9224 | 0.1        | 0.5263     | 0.6874             |
+| 0.2842        | 0.0277 | 70   | 0.4152          | 0.8492       | 0.8548        | 0.9907     | 0.0526         | 0.5     | 0.9177 | 0.0952     | 0.5216     | 0.6913             |
+| 0.3106        | 0.0297 | 75   | 0.4034          | 0.8413       | 0.8537        | 0.9813     | 0.0526         | 0.3333  | 0.9130 | 0.0909     | 0.5170     | 0.6975             |
+| 0.294         | 0.0317 | 80   | 0.4234          | 0.8571       | 0.856         | 1.0        | 0.0526         | 1.0     | 0.9224 | 0.1        | 0.5263     | 0.7120             |
+| 0.3158        | 0.0336 | 85   | 0.3841          | 0.8492       | 0.8548        | 0.9907     | 0.0526         | 0.5     | 0.9177 | 0.0952     | 0.5216     | 0.7275             |
+| 0.4256        | 0.0356 | 90   | 0.4285          | 0.8571       | 0.856         | 1.0        | 0.0526         | 1.0     | 0.9224 | 0.1        | 0.5263     | 0.7356             |
+| 0.1175        | 0.0376 | 95   | 0.3971          | 0.8571       | 0.856         | 1.0        | 0.0526         | 1.0     | 0.9224 | 0.1        | 0.5263     | 0.7386             |
+| 0.2182        | 0.0396 | 100  | 0.3895          | 0.8571       | 0.8618        | 0.9907     | 0.1053         | 0.6667  | 0.9217 | 0.1818     | 0.5480     | 0.7516             |
+| 0.2952        | 0.0416 | 105  | 0.3997          | 0.8571       | 0.8618        | 0.9907     | 0.1053         | 0.6667  | 0.9217 | 0.1818     | 0.5480     | 0.7804             |
+| 0.3356        | 0.0435 | 110  | 0.4005          | 0.8571       | 0.8618        | 0.9907     | 0.1053         | 0.6667  | 0.9217 | 0.1818     | 0.5480     | 0.7946             |
+| 0.1921        | 0.0455 | 115  | 0.3910          | 0.8571       | 0.8618        | 0.9907     | 0.1053         | 0.6667  | 0.9217 | 0.1818     | 0.5480     | 0.7890             |
+| 0.2915        | 0.0475 | 120  | 0.3566          | 0.8571       | 0.8739        | 0.9720     | 0.2105         | 0.5714  | 0.9204 | 0.3077     | 0.5912     | 0.7954             |
+| 0.2589        | 0.0495 | 125  | 0.4049          | 0.8571       | 0.856         | 1.0        | 0.0526         | 1.0     | 0.9224 | 0.1        | 0.5263     | 0.8212             |
+| 0.204         | 0.0514 | 130  | 0.3419          | 0.8651       | 0.875         | 0.9813     | 0.2105         | 0.6667  | 0.9251 | 0.32       | 0.5959     | 0.8175             |
+| 0.2886        | 0.0534 | 135  | 0.4007          | 0.8571       | 0.8618        | 0.9907     | 0.1053         | 0.6667  | 0.9217 | 0.1818     | 0.5480     | 0.8123             |
+| 0.2604        | 0.0554 | 140  | 0.3428          | 0.8651       | 0.8879        | 0.9626     | 0.3158         | 0.6     | 0.9238 | 0.4138     | 0.6392     | 0.8232             |
+| 0.2017        | 0.0574 | 145  | 0.4089          | 0.8571       | 0.8618        | 0.9907     | 0.1053         | 0.6667  | 0.9217 | 0.1818     | 0.5480     | 0.8315             |
+| 0.2315        | 0.0594 | 150  | 0.3350          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8308             |
+| 0.2868        | 0.0613 | 155  | 0.3712          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8360             |
+| 0.2975        | 0.0633 | 160  | 0.3474          | 0.8571       | 0.8678        | 0.9813     | 0.1579         | 0.6     | 0.9211 | 0.25       | 0.5696     | 0.8202             |
+| 0.239         | 0.0653 | 165  | 0.3818          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8163             |
+| 0.2298        | 0.0673 | 170  | 0.375           | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8278             |
+| 0.2153        | 0.0693 | 175  | 0.3604          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8510             |
+| 0.2646        | 0.0712 | 180  | 0.3209          | 0.8730       | 0.8957        | 0.9626     | 0.3684         | 0.6364  | 0.9279 | 0.4667     | 0.6655     | 0.8623             |
+| 0.2527        | 0.0732 | 185  | 0.3151          | 0.8651       | 0.875         | 0.9813     | 0.2105         | 0.6667  | 0.9251 | 0.32       | 0.5959     | 0.8610             |
+| 0.2401        | 0.0752 | 190  | 0.3287          | 0.8571       | 0.8678        | 0.9813     | 0.1579         | 0.6     | 0.9211 | 0.25       | 0.5696     | 0.8431             |
+| 0.2773        | 0.0772 | 195  | 0.3184          | 0.8810       | 0.8898        | 0.9813     | 0.3158         | 0.75    | 0.9333 | 0.4444     | 0.6485     | 0.8382             |
+| 0.2678        | 0.0791 | 200  | 0.3359          | 0.8571       | 0.8678        | 0.9813     | 0.1579         | 0.6     | 0.9211 | 0.25       | 0.5696     | 0.8455             |
+| 0.3147        | 0.0811 | 205  | 0.3180          | 0.8810       | 0.8898        | 0.9813     | 0.3158         | 0.75    | 0.9333 | 0.4444     | 0.6485     | 0.8542             |
+| 0.4339        | 0.0831 | 210  | 0.3448          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8613             |
+| 0.3083        | 0.0851 | 215  | 0.3160          | 0.8730       | 0.9099        | 0.9439     | 0.4737         | 0.6     | 0.9266 | 0.5294     | 0.7088     | 0.8455             |
+| 0.2174        | 0.0871 | 220  | 0.3269          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8564             |
+| 0.2564        | 0.0890 | 225  | 0.3187          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8470             |
+| 0.2363        | 0.0910 | 230  | 0.3174          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8583             |
+| 0.1932        | 0.0930 | 235  | 0.3140          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8515             |
+| 0.2705        | 0.0950 | 240  | 0.3017          | 0.8730       | 0.9099        | 0.9439     | 0.4737         | 0.6     | 0.9266 | 0.5294     | 0.7088     | 0.8571             |
+| 0.2385        | 0.0970 | 245  | 0.3461          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8532             |
+| 0.2374        | 0.0989 | 250  | 0.3276          | 0.8810       | 0.9107        | 0.9533     | 0.4737         | 0.6429  | 0.9315 | 0.5455     | 0.7135     | 0.8384             |
+| 0.1895        | 0.1009 | 255  | 0.3765          | 0.8651       | 0.8629        | 1.0        | 0.1053         | 1.0     | 0.9264 | 0.1905     | 0.5526     | 0.8610             |
+| 0.2399        | 0.1029 | 260  | 0.3144          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8596             |
+| 0.2882        | 0.1049 | 265  | 0.3055          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8571             |
+| 0.2001        | 0.1068 | 270  | 0.3245          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8468             |
+| 0.3035        | 0.1088 | 275  | 0.3040          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8436             |
+| 0.1815        | 0.1108 | 280  | 0.3353          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8637             |
+| 0.2318        | 0.1128 | 285  | 0.2986          | 0.8810       | 0.8966        | 0.9720     | 0.3684         | 0.7     | 0.9327 | 0.4828     | 0.6702     | 0.8424             |
+| 0.1622        | 0.1148 | 290  | 0.3303          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8379             |
+| 0.2673        | 0.1167 | 295  | 0.3165          | 0.8651       | 0.9018        | 0.9439     | 0.4211         | 0.5714  | 0.9224 | 0.4848     | 0.6825     | 0.8261             |
+| 0.2208        | 0.1187 | 300  | 0.3674          | 0.8730       | 0.8699        | 1.0        | 0.1579         | 1.0     | 0.9304 | 0.2727     | 0.5789     | 0.8394             |
+| 0.2161        | 0.1207 | 305  | 0.3055          | 0.8651       | 0.9018        | 0.9439     | 0.4211         | 0.5714  | 0.9224 | 0.4848     | 0.6825     | 0.8394             |
+| 0.2535        | 0.1227 | 310  | 0.3549          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8384             |
+| 0.211         | 0.1247 | 315  | 0.3117          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8374             |
+| 0.1955        | 0.1266 | 320  | 0.3258          | 0.8730       | 0.8824        | 0.9813     | 0.2632         | 0.7143  | 0.9292 | 0.3846     | 0.6222     | 0.8500             |
+| 0.1921        | 0.1286 | 325  | 0.2997          | 0.8810       | 0.8966        | 0.9720     | 0.3684         | 0.7     | 0.9327 | 0.4828     | 0.6702     | 0.8549             |
+| 0.2789        | 0.1306 | 330  | 0.3153          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8591             |
+| 0.2284        | 0.1326 | 335  | 0.2934          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8581             |
+| 0.2548        | 0.1345 | 340  | 0.3239          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8706             |
+| 0.216         | 0.1365 | 345  | 0.2907          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8753             |
+| 0.2371        | 0.1385 | 350  | 0.3369          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8598             |
+| 0.2502        | 0.1405 | 355  | 0.3207          | 0.8810       | 0.8898        | 0.9813     | 0.3158         | 0.75    | 0.9333 | 0.4444     | 0.6485     | 0.8364             |
+| 0.2213        | 0.1425 | 360  | 0.3064          | 0.8810       | 0.8898        | 0.9813     | 0.3158         | 0.75    | 0.9333 | 0.4444     | 0.6485     | 0.8266             |
+| 0.1756        | 0.1444 | 365  | 0.3125          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8519             |
+| 0.3004        | 0.1464 | 370  | 0.3199          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8716             |
+| 0.2268        | 0.1484 | 375  | 0.3114          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8701             |
+| 0.1889        | 0.1504 | 380  | 0.2903          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8704             |
+| 0.228         | 0.1524 | 385  | 0.3068          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8763             |
+| 0.1713        | 0.1543 | 390  | 0.2810          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.8716             |
+| 0.345         | 0.1563 | 395  | 0.3201          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8724             |
+| 0.1982        | 0.1583 | 400  | 0.2874          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8546             |
+| 0.2288        | 0.1603 | 405  | 0.2906          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8652             |
+| 0.2509        | 0.1622 | 410  | 0.2913          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8687             |
+| 0.1724        | 0.1642 | 415  | 0.3291          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8546             |
+| 0.1448        | 0.1662 | 420  | 0.3218          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8428             |
+| 0.1781        | 0.1682 | 425  | 0.3226          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8539             |
+| 0.1436        | 0.1702 | 430  | 0.3036          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.8657             |
+| 0.2191        | 0.1721 | 435  | 0.3273          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8704             |
+| 0.2608        | 0.1741 | 440  | 0.2902          | 0.8889       | 0.9115        | 0.9626     | 0.4737         | 0.6923  | 0.9364 | 0.5625     | 0.7182     | 0.8598             |
+| 0.1206        | 0.1761 | 445  | 0.3444          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8620             |
+| 0.188         | 0.1781 | 450  | 0.3073          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8620             |
+| 0.2284        | 0.1801 | 455  | 0.3105          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8532             |
+| 0.2169        | 0.1820 | 460  | 0.3042          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8468             |
+| 0.2142        | 0.1840 | 465  | 0.3519          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8650             |
+| 0.2361        | 0.1860 | 470  | 0.3061          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.8689             |
+| 0.2079        | 0.1880 | 475  | 0.3222          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8672             |
+| 0.2033        | 0.1899 | 480  | 0.3071          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8608             |
+| 0.3038        | 0.1919 | 485  | 0.3200          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8667             |
+| 0.132         | 0.1939 | 490  | 0.3118          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8652             |
+| 0.2147        | 0.1959 | 495  | 0.3252          | 0.8810       | 0.8898        | 0.9813     | 0.3158         | 0.75    | 0.9333 | 0.4444     | 0.6485     | 0.8569             |
+| 0.2216        | 0.1979 | 500  | 0.3043          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8613             |
+| 0.157         | 0.1998 | 505  | 0.3992          | 0.8571       | 0.8618        | 0.9907     | 0.1053         | 0.6667  | 0.9217 | 0.1818     | 0.5480     | 0.8603             |
+| 0.2009        | 0.2018 | 510  | 0.3239          | 0.8651       | 0.8947        | 0.9533     | 0.3684         | 0.5833  | 0.9231 | 0.4516     | 0.6608     | 0.8500             |
+| 0.1752        | 0.2038 | 515  | 0.3304          | 0.8651       | 0.8947        | 0.9533     | 0.3684         | 0.5833  | 0.9231 | 0.4516     | 0.6608     | 0.8674             |
+| 0.1819        | 0.2058 | 520  | 0.3360          | 0.8730       | 0.8889        | 0.9720     | 0.3158         | 0.6667  | 0.9286 | 0.4286     | 0.6439     | 0.8719             |
+| 0.1659        | 0.2078 | 525  | 0.3467          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8645             |
+| 0.1608        | 0.2097 | 530  | 0.3483          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8645             |
+| 0.1853        | 0.2117 | 535  | 0.3020          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8704             |
+| 0.1733        | 0.2137 | 540  | 0.3047          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8608             |
+| 0.2449        | 0.2157 | 545  | 0.3027          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8630             |
+| 0.1253        | 0.2176 | 550  | 0.3196          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8606             |
+| 0.3692        | 0.2196 | 555  | 0.3180          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8645             |
+| 0.1696        | 0.2216 | 560  | 0.3035          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8665             |
+| 0.1643        | 0.2236 | 565  | 0.3624          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8792             |
+| 0.1572        | 0.2256 | 570  | 0.3107          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8748             |
+| 0.1456        | 0.2275 | 575  | 0.3508          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8701             |
+| 0.1231        | 0.2295 | 580  | 0.3221          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8687             |
+| 0.1408        | 0.2315 | 585  | 0.3179          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8746             |
+| 0.2118        | 0.2335 | 590  | 0.2976          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8736             |
+| 0.2414        | 0.2355 | 595  | 0.3357          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8623             |
+| 0.2222        | 0.2374 | 600  | 0.2980          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8527             |
+| 0.1665        | 0.2394 | 605  | 0.3632          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8460             |
+| 0.2406        | 0.2414 | 610  | 0.3882          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8431             |
+| 0.2064        | 0.2434 | 615  | 0.3037          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8428             |
+| 0.1954        | 0.2454 | 620  | 0.3296          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8438             |
+| 0.1802        | 0.2473 | 625  | 0.3403          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.8524             |
+| 0.1179        | 0.2493 | 630  | 0.3403          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8554             |
+| 0.1018        | 0.2513 | 635  | 0.3390          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.8598             |
+| 0.118         | 0.2533 | 640  | 0.3097          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8625             |
+| 0.2164        | 0.2552 | 645  | 0.3143          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8633             |
+| 0.1553        | 0.2572 | 650  | 0.2865          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8637             |
+| 0.2552        | 0.2592 | 655  | 0.3285          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8679             |
+| 0.172         | 0.2612 | 660  | 0.2879          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8647             |
+| 0.1782        | 0.2632 | 665  | 0.3037          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8736             |
+| 0.1752        | 0.2651 | 670  | 0.3050          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8812             |
+| 0.1889        | 0.2671 | 675  | 0.3057          | 0.8810       | 0.8966        | 0.9720     | 0.3684         | 0.7     | 0.9327 | 0.4828     | 0.6702     | 0.8888             |
+| 0.2348        | 0.2691 | 680  | 0.2949          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8832             |
+| 0.1516        | 0.2711 | 685  | 0.3026          | 0.8810       | 0.8966        | 0.9720     | 0.3684         | 0.7     | 0.9327 | 0.4828     | 0.6702     | 0.8785             |
+| 0.1436        | 0.2731 | 690  | 0.2922          | 0.8810       | 0.8966        | 0.9720     | 0.3684         | 0.7     | 0.9327 | 0.4828     | 0.6702     | 0.8669             |
+| 0.1987        | 0.2750 | 695  | 0.2945          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8628             |
+| 0.1739        | 0.2770 | 700  | 0.2897          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8751             |
+| 0.1383        | 0.2790 | 705  | 0.2916          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8837             |
+| 0.1144        | 0.2810 | 710  | 0.2715          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8834             |
+| 0.2438        | 0.2829 | 715  | 0.2947          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.8876             |
+| 0.2005        | 0.2849 | 720  | 0.2731          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8773             |
+| 0.2213        | 0.2869 | 725  | 0.2823          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8856             |
+| 0.1945        | 0.2889 | 730  | 0.3130          | 0.8810       | 0.8966        | 0.9720     | 0.3684         | 0.7     | 0.9327 | 0.4828     | 0.6702     | 0.8918             |
+| 0.2601        | 0.2909 | 735  | 0.2929          | 0.8810       | 0.8966        | 0.9720     | 0.3684         | 0.7     | 0.9327 | 0.4828     | 0.6702     | 0.8923             |
+| 0.2906        | 0.2928 | 740  | 0.2775          | 0.8651       | 0.875         | 0.9813     | 0.2105         | 0.6667  | 0.9251 | 0.32       | 0.5959     | 0.8883             |
+| 0.1787        | 0.2948 | 745  | 0.3001          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.8910             |
+| 0.206         | 0.2968 | 750  | 0.2696          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8893             |
+| 0.2335        | 0.2988 | 755  | 0.2807          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8893             |
+| 0.2223        | 0.3008 | 760  | 0.3451          | 0.8651       | 0.8689        | 0.9907     | 0.1579         | 0.75    | 0.9258 | 0.2609     | 0.5743     | 0.8925             |
+| 0.1712        | 0.3027 | 765  | 0.2799          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8812             |
+| 0.1918        | 0.3047 | 770  | 0.2818          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8805             |
+| 0.1562        | 0.3067 | 775  | 0.3066          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.8800             |
+| 0.2327        | 0.3087 | 780  | 0.2822          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8901             |
+| 0.1048        | 0.3106 | 785  | 0.2894          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8999             |
+| 0.2088        | 0.3126 | 790  | 0.3060          | 0.8730       | 0.8889        | 0.9720     | 0.3158         | 0.6667  | 0.9286 | 0.4286     | 0.6439     | 0.8992             |
+| 0.165         | 0.3146 | 795  | 0.2797          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8962             |
+| 0.1453        | 0.3166 | 800  | 0.3201          | 0.8730       | 0.8824        | 0.9813     | 0.2632         | 0.7143  | 0.9292 | 0.3846     | 0.6222     | 0.8942             |
+| 0.1317        | 0.3186 | 805  | 0.3004          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8866             |
+| 0.1504        | 0.3205 | 810  | 0.2663          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8864             |
+| 0.2157        | 0.3225 | 815  | 0.2690          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9036             |
+| 0.1695        | 0.3245 | 820  | 0.2921          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9043             |
+| 0.2153        | 0.3265 | 825  | 0.2613          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9001             |
+| 0.2316        | 0.3285 | 830  | 0.2685          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8972             |
+| 0.1607        | 0.3304 | 835  | 0.2912          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8945             |
+| 0.2282        | 0.3324 | 840  | 0.2893          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8947             |
+| 0.2044        | 0.3344 | 845  | 0.2731          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9038             |
+| 0.2093        | 0.3364 | 850  | 0.2735          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9011             |
+| 0.1343        | 0.3383 | 855  | 0.2757          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9021             |
+| 0.1687        | 0.3403 | 860  | 0.2669          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9009             |
+| 0.1289        | 0.3423 | 865  | 0.2648          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8992             |
+| 0.1797        | 0.3443 | 870  | 0.2660          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.8984             |
+| 0.1474        | 0.3463 | 875  | 0.2711          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9038             |
+| 0.2294        | 0.3482 | 880  | 0.2765          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9056             |
+| 0.2146        | 0.3502 | 885  | 0.2559          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9080             |
+| 0.1346        | 0.3522 | 890  | 0.2787          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9068             |
+| 0.1529        | 0.3542 | 895  | 0.2842          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9070             |
+| 0.1412        | 0.3562 | 900  | 0.2947          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.9026             |
+| 0.147         | 0.3581 | 905  | 0.2685          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8947             |
+| 0.154         | 0.3601 | 910  | 0.2666          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8938             |
+| 0.181         | 0.3621 | 915  | 0.3164          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.8935             |
+| 0.292         | 0.3641 | 920  | 0.2672          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8915             |
+| 0.221         | 0.3660 | 925  | 0.2661          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8965             |
+| 0.1616        | 0.3680 | 930  | 0.3228          | 0.8730       | 0.8760        | 0.9907     | 0.2105         | 0.8     | 0.9298 | 0.3333     | 0.6006     | 0.9051             |
+| 0.1313        | 0.3700 | 935  | 0.2460          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9124             |
+| 0.1421        | 0.3720 | 940  | 0.2492          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9147             |
+| 0.1684        | 0.3740 | 945  | 0.2782          | 0.8810       | 0.8833        | 0.9907     | 0.2632         | 0.8333  | 0.9339 | 0.4        | 0.6269     | 0.9159             |
+| 0.2086        | 0.3759 | 950  | 0.2525          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9174             |
+| 0.1754        | 0.3779 | 955  | 0.2566          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9169             |
+| 0.2395        | 0.3799 | 960  | 0.2858          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.9110             |
+| 0.1631        | 0.3819 | 965  | 0.2758          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9117             |
+| 0.1587        | 0.3839 | 970  | 0.2495          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9164             |
+| 0.1348        | 0.3858 | 975  | 0.2501          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9181             |
+| 0.2087        | 0.3878 | 980  | 0.2621          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9154             |
+| 0.1822        | 0.3898 | 985  | 0.2467          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9083             |
+| 0.2198        | 0.3918 | 990  | 0.2441          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9110             |
+| 0.2012        | 0.3937 | 995  | 0.2449          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9139             |
+| 0.1678        | 0.3957 | 1000 | 0.2607          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9132             |
+| 0.1307        | 0.3977 | 1005 | 0.2757          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9152             |
+| 0.1473        | 0.3997 | 1010 | 0.2512          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9149             |
+| 0.1496        | 0.4017 | 1015 | 0.2530          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9117             |
+| 0.1807        | 0.4036 | 1020 | 0.2736          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9110             |
+| 0.1713        | 0.4056 | 1025 | 0.2759          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9031             |
+| 0.153         | 0.4076 | 1030 | 0.2869          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8930             |
+| 0.1407        | 0.4096 | 1035 | 0.2816          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.8977             |
+| 0.122         | 0.4116 | 1040 | 0.2953          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9063             |
+| 0.1859        | 0.4135 | 1045 | 0.2765          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9070             |
+| 0.2319        | 0.4155 | 1050 | 0.2482          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9164             |
+| 0.1719        | 0.4175 | 1055 | 0.2447          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9161             |
+| 0.1443        | 0.4195 | 1060 | 0.2553          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9105             |
+| 0.1484        | 0.4214 | 1065 | 0.2553          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9053             |
+| 0.1971        | 0.4234 | 1070 | 0.2592          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8997             |
+| 0.201         | 0.4254 | 1075 | 0.2595          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.8970             |
+| 0.2379        | 0.4274 | 1080 | 0.2587          | 0.8730       | 0.9027        | 0.9533     | 0.4211         | 0.6154  | 0.9273 | 0.5        | 0.6872     | 0.8979             |
+| 0.2112        | 0.4294 | 1085 | 0.2736          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.8967             |
+| 0.1532        | 0.4313 | 1090 | 0.2926          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.8982             |
+| 0.1453        | 0.4333 | 1095 | 0.2684          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.9029             |
+| 0.2357        | 0.4353 | 1100 | 0.2555          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.9051             |
+| 0.1251        | 0.4373 | 1105 | 0.2843          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.9090             |
+| 0.1819        | 0.4393 | 1110 | 0.3307          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.9078             |
+| 0.1311        | 0.4412 | 1115 | 0.2685          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9080             |
+| 0.1672        | 0.4432 | 1120 | 0.2665          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9014             |
+| 0.1554        | 0.4452 | 1125 | 0.2970          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9075             |
+| 0.2573        | 0.4472 | 1130 | 0.2768          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9068             |
+| 0.2269        | 0.4491 | 1135 | 0.2778          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9095             |
+| 0.1622        | 0.4511 | 1140 | 0.2974          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9132             |
+| 0.1893        | 0.4531 | 1145 | 0.2928          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9169             |
+| 0.1676        | 0.4551 | 1150 | 0.2622          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9196             |
+| 0.1986        | 0.4571 | 1155 | 0.2618          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9186             |
+| 0.1612        | 0.4590 | 1160 | 0.2552          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9218             |
+| 0.2285        | 0.4610 | 1165 | 0.2429          | 0.9048       | 0.9204        | 0.9720     | 0.5263         | 0.7692  | 0.9455 | 0.625      | 0.7491     | 0.9235             |
+| 0.1993        | 0.4630 | 1170 | 0.2518          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9220             |
+| 0.1322        | 0.4650 | 1175 | 0.2837          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9213             |
+| 0.1462        | 0.4670 | 1180 | 0.2813          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9206             |
+| 0.1299        | 0.4689 | 1185 | 0.2602          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9196             |
+| 0.1897        | 0.4709 | 1190 | 0.2695          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9171             |
+| 0.2253        | 0.4729 | 1195 | 0.2587          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9179             |
+| 0.2335        | 0.4749 | 1200 | 0.2523          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9183             |
+| 0.1227        | 0.4769 | 1205 | 0.2726          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9132             |
+| 0.2031        | 0.4788 | 1210 | 0.2707          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9159             |
+| 0.2279        | 0.4808 | 1215 | 0.2523          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9198             |
+| 0.1252        | 0.4828 | 1220 | 0.2557          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9211             |
+| 0.2003        | 0.4848 | 1225 | 0.2836          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9213             |
+| 0.1729        | 0.4867 | 1230 | 0.2630          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9225             |
+| 0.186         | 0.4887 | 1235 | 0.2506          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9193             |
+| 0.1215        | 0.4907 | 1240 | 0.2552          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9215             |
+| 0.1696        | 0.4927 | 1245 | 0.2568          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9188             |
+| 0.1471        | 0.4947 | 1250 | 0.2777          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9193             |
+| 0.1985        | 0.4966 | 1255 | 0.2558          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9218             |
+| 0.2085        | 0.4986 | 1260 | 0.2562          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9176             |
+| 0.1661        | 0.5006 | 1265 | 0.2580          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9186             |
+| 0.2171        | 0.5026 | 1270 | 0.2666          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9166             |
+| 0.2171        | 0.5046 | 1275 | 0.2524          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9166             |
+| 0.1837        | 0.5065 | 1280 | 0.2450          | 0.8810       | 0.9035        | 0.9626     | 0.4211         | 0.6667  | 0.9321 | 0.5161     | 0.6918     | 0.9242             |
+| 0.1592        | 0.5085 | 1285 | 0.2526          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9260             |
+| 0.1305        | 0.5105 | 1290 | 0.2559          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9292             |
+| 0.1682        | 0.5125 | 1295 | 0.2554          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9306             |
+| 0.168         | 0.5144 | 1300 | 0.2505          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9282             |
+| 0.1321        | 0.5164 | 1305 | 0.2537          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9282             |
+| 0.1411        | 0.5184 | 1310 | 0.2521          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9260             |
+| 0.1807        | 0.5204 | 1315 | 0.2497          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9294             |
+| 0.1256        | 0.5224 | 1320 | 0.2423          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9277             |
+| 0.2529        | 0.5243 | 1325 | 0.2429          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9329             |
+| 0.1568        | 0.5263 | 1330 | 0.2615          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9316             |
+| 0.1933        | 0.5283 | 1335 | 0.2801          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9324             |
+| 0.1718        | 0.5303 | 1340 | 0.2523          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9361             |
+| 0.1627        | 0.5323 | 1345 | 0.2356          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9361             |
+| 0.2347        | 0.5342 | 1350 | 0.2348          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9358             |
+| 0.1635        | 0.5362 | 1355 | 0.2481          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9341             |
+| 0.1538        | 0.5382 | 1360 | 0.2732          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9319             |
+| 0.1698        | 0.5402 | 1365 | 0.2699          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9272             |
+| 0.1549        | 0.5421 | 1370 | 0.2533          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9240             |
+| 0.159         | 0.5441 | 1375 | 0.2518          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9233             |
+| 0.1362        | 0.5461 | 1380 | 0.2628          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9242             |
+| 0.0855        | 0.5481 | 1385 | 0.2663          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9230             |
+| 0.1307        | 0.5501 | 1390 | 0.2682          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9225             |
+| 0.17          | 0.5520 | 1395 | 0.2539          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.1573        | 0.5540 | 1400 | 0.2459          | 0.8889       | 0.9115        | 0.9626     | 0.4737         | 0.6923  | 0.9364 | 0.5625     | 0.7182     | 0.9238             |
+| 0.1903        | 0.5560 | 1405 | 0.2562          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9238             |
+| 0.2037        | 0.5580 | 1410 | 0.2727          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9235             |
+| 0.1333        | 0.5600 | 1415 | 0.2726          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9183             |
+| 0.1619        | 0.5619 | 1420 | 0.2806          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9164             |
+| 0.177         | 0.5639 | 1425 | 0.2959          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.9137             |
+| 0.2655        | 0.5659 | 1430 | 0.2774          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9159             |
+| 0.1851        | 0.5679 | 1435 | 0.2606          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9115             |
+| 0.1449        | 0.5698 | 1440 | 0.2725          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9095             |
+| 0.1421        | 0.5718 | 1445 | 0.2837          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9124             |
+| 0.1892        | 0.5738 | 1450 | 0.2753          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9092             |
+| 0.1643        | 0.5758 | 1455 | 0.2709          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9129             |
+| 0.1659        | 0.5778 | 1460 | 0.2576          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9134             |
+| 0.1434        | 0.5797 | 1465 | 0.2691          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9137             |
+| 0.1903        | 0.5817 | 1470 | 0.2710          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9171             |
+| 0.1675        | 0.5837 | 1475 | 0.2572          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9147             |
+| 0.1912        | 0.5857 | 1480 | 0.2490          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9171             |
+| 0.1338        | 0.5877 | 1485 | 0.2436          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9203             |
+| 0.175         | 0.5896 | 1490 | 0.2501          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9260             |
+| 0.148         | 0.5916 | 1495 | 0.2669          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9277             |
+| 0.1234        | 0.5936 | 1500 | 0.2651          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9336             |
+| 0.1688        | 0.5956 | 1505 | 0.2421          | 0.8889       | 0.9115        | 0.9626     | 0.4737         | 0.6923  | 0.9364 | 0.5625     | 0.7182     | 0.9324             |
+| 0.2332        | 0.5975 | 1510 | 0.2392          | 0.8889       | 0.9115        | 0.9626     | 0.4737         | 0.6923  | 0.9364 | 0.5625     | 0.7182     | 0.9267             |
+| 0.1258        | 0.5995 | 1515 | 0.2466          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9213             |
+| 0.1068        | 0.6015 | 1520 | 0.2623          | 0.8889       | 0.8974        | 0.9813     | 0.3684         | 0.7778  | 0.9375 | 0.5        | 0.6749     | 0.9188             |
+| 0.1506        | 0.6035 | 1525 | 0.2594          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9166             |
+| 0.1524        | 0.6055 | 1530 | 0.2474          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9193             |
+| 0.1328        | 0.6074 | 1535 | 0.2464          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9191             |
+| 0.1784        | 0.6094 | 1540 | 0.2552          | 0.9048       | 0.9130        | 0.9813     | 0.4737         | 0.8182  | 0.9459 | 0.6        | 0.7275     | 0.9208             |
+| 0.1852        | 0.6114 | 1545 | 0.2535          | 0.9048       | 0.9130        | 0.9813     | 0.4737         | 0.8182  | 0.9459 | 0.6        | 0.7275     | 0.9225             |
+| 0.1415        | 0.6134 | 1550 | 0.2463          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9220             |
+| 0.1392        | 0.6154 | 1555 | 0.2479          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9223             |
+| 0.1441        | 0.6173 | 1560 | 0.2503          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9228             |
+| 0.1124        | 0.6193 | 1565 | 0.2594          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9235             |
+| 0.3161        | 0.6213 | 1570 | 0.2596          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9233             |
+| 0.1689        | 0.6233 | 1575 | 0.2446          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9215             |
+| 0.1719        | 0.6252 | 1580 | 0.2430          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9247             |
+| 0.0944        | 0.6272 | 1585 | 0.2515          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9270             |
+| 0.1166        | 0.6292 | 1590 | 0.2511          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9272             |
+| 0.1908        | 0.6312 | 1595 | 0.2559          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9242             |
+| 0.1541        | 0.6332 | 1600 | 0.2469          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9250             |
+| 0.1501        | 0.6351 | 1605 | 0.2444          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.1984        | 0.6371 | 1610 | 0.2521          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9240             |
+| 0.1732        | 0.6391 | 1615 | 0.2502          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9230             |
+| 0.1784        | 0.6411 | 1620 | 0.2447          | 0.9048       | 0.9130        | 0.9813     | 0.4737         | 0.8182  | 0.9459 | 0.6        | 0.7275     | 0.9201             |
+| 0.12          | 0.6431 | 1625 | 0.2542          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9188             |
+| 0.1346        | 0.6450 | 1630 | 0.2676          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9149             |
+| 0.1813        | 0.6470 | 1635 | 0.2789          | 0.8889       | 0.8908        | 0.9907     | 0.3158         | 0.8571  | 0.9381 | 0.4615     | 0.6532     | 0.9142             |
+| 0.1867        | 0.6490 | 1640 | 0.2712          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9137             |
+| 0.1382        | 0.6510 | 1645 | 0.2561          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9152             |
+| 0.1678        | 0.6529 | 1650 | 0.2517          | 0.8968       | 0.9123        | 0.9720     | 0.4737         | 0.75    | 0.9412 | 0.5806     | 0.7228     | 0.9154             |
+| 0.1584        | 0.6549 | 1655 | 0.2584          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9149             |
+| 0.1223        | 0.6569 | 1660 | 0.2762          | 0.8968       | 0.8983        | 0.9907     | 0.3684         | 0.875   | 0.9422 | 0.5185     | 0.6795     | 0.9107             |
+| 0.1168        | 0.6589 | 1665 | 0.2656          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9117             |
+| 0.1536        | 0.6609 | 1670 | 0.2622          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9110             |
+| 0.1485        | 0.6628 | 1675 | 0.2685          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9115             |
+| 0.2081        | 0.6648 | 1680 | 0.2720          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9100             |
+| 0.1716        | 0.6668 | 1685 | 0.2747          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9132             |
+| 0.1459        | 0.6688 | 1690 | 0.2722          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9142             |
+| 0.2358        | 0.6708 | 1695 | 0.2688          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9156             |
+| 0.1675        | 0.6727 | 1700 | 0.2611          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9169             |
+| 0.1496        | 0.6747 | 1705 | 0.2605          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9164             |
+| 0.1064        | 0.6767 | 1710 | 0.2640          | 0.9048       | 0.9060        | 0.9907     | 0.4211         | 0.8889  | 0.9464 | 0.5714     | 0.7059     | 0.9169             |
+| 0.1782        | 0.6787 | 1715 | 0.2617          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9161             |
+| 0.1581        | 0.6806 | 1720 | 0.2597          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9206             |
+| 0.1887        | 0.6826 | 1725 | 0.2538          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9235             |
+| 0.1568        | 0.6846 | 1730 | 0.2541          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9250             |
+| 0.0757        | 0.6866 | 1735 | 0.2638          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.143         | 0.6886 | 1740 | 0.2677          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9240             |
+| 0.1405        | 0.6905 | 1745 | 0.2574          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9250             |
+| 0.1821        | 0.6925 | 1750 | 0.2474          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9267             |
+| 0.1183        | 0.6945 | 1755 | 0.2472          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9257             |
+| 0.1315        | 0.6965 | 1760 | 0.2646          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9247             |
+| 0.1256        | 0.6985 | 1765 | 0.2702          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9235             |
+| 0.1569        | 0.7004 | 1770 | 0.2587          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9238             |
+| 0.1998        | 0.7024 | 1775 | 0.2563          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9252             |
+| 0.1454        | 0.7044 | 1780 | 0.2588          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9262             |
+| 0.1251        | 0.7064 | 1785 | 0.2593          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9240             |
+| 0.1204        | 0.7083 | 1790 | 0.2582          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9223             |
+| 0.1302        | 0.7103 | 1795 | 0.2626          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9220             |
+| 0.2232        | 0.7123 | 1800 | 0.2691          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9208             |
+| 0.155         | 0.7143 | 1805 | 0.2673          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9225             |
+| 0.1727        | 0.7163 | 1810 | 0.2671          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9198             |
+| 0.1557        | 0.7182 | 1815 | 0.2632          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9186             |
+| 0.1531        | 0.7202 | 1820 | 0.2569          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9201             |
+| 0.1363        | 0.7222 | 1825 | 0.2576          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9211             |
+| 0.1897        | 0.7242 | 1830 | 0.2670          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9228             |
+| 0.1467        | 0.7262 | 1835 | 0.2676          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9223             |
+| 0.1472        | 0.7281 | 1840 | 0.2609          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9228             |
+| 0.1381        | 0.7301 | 1845 | 0.2558          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9235             |
+| 0.203         | 0.7321 | 1850 | 0.2588          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9218             |
+| 0.1642        | 0.7341 | 1855 | 0.2601          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9206             |
+| 0.1359        | 0.7361 | 1860 | 0.2613          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9233             |
+| 0.1537        | 0.7380 | 1865 | 0.2667          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9235             |
+| 0.1199        | 0.7400 | 1870 | 0.2688          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9238             |
+| 0.1238        | 0.7420 | 1875 | 0.2700          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9257             |
+| 0.1897        | 0.7440 | 1880 | 0.2618          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9282             |
+| 0.1958        | 0.7459 | 1885 | 0.2503          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9238             |
+| 0.1221        | 0.7479 | 1890 | 0.2503          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9242             |
+| 0.1028        | 0.7499 | 1895 | 0.2495          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.1734        | 0.7519 | 1900 | 0.2536          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9242             |
+| 0.0761        | 0.7539 | 1905 | 0.2637          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9238             |
+| 0.1673        | 0.7558 | 1910 | 0.2712          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.1329        | 0.7578 | 1915 | 0.2645          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.1163        | 0.7598 | 1920 | 0.2571          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9230             |
+| 0.1591        | 0.7618 | 1925 | 0.2492          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9235             |
+| 0.1692        | 0.7638 | 1930 | 0.2490          | 0.8889       | 0.9043        | 0.9720     | 0.4211         | 0.7273  | 0.9369 | 0.5333     | 0.6965     | 0.9238             |
+| 0.1514        | 0.7657 | 1935 | 0.2518          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9242             |
+| 0.114         | 0.7677 | 1940 | 0.2572          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9250             |
+| 0.1141        | 0.7697 | 1945 | 0.2586          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9260             |
+| 0.0812        | 0.7717 | 1950 | 0.2549          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9252             |
+| 0.1512        | 0.7736 | 1955 | 0.2509          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9228             |
+| 0.1379        | 0.7756 | 1960 | 0.2495          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9235             |
+| 0.1241        | 0.7776 | 1965 | 0.2511          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9228             |
+| 0.1669        | 0.7796 | 1970 | 0.2524          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9225             |
+| 0.1688        | 0.7816 | 1975 | 0.2578          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9260             |
+| 0.1458        | 0.7835 | 1980 | 0.2629          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9228             |
+| 0.0784        | 0.7855 | 1985 | 0.2591          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.2139        | 0.7875 | 1990 | 0.2558          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9242             |
+| 0.1119        | 0.7895 | 1995 | 0.2514          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9238             |
+| 0.1187        | 0.7915 | 2000 | 0.2472          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9233             |
+| 0.1289        | 0.7934 | 2005 | 0.2460          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9242             |
+| 0.2012        | 0.7954 | 2010 | 0.2497          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.0951        | 0.7974 | 2015 | 0.2501          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9250             |
+| 0.1273        | 0.7994 | 2020 | 0.2539          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9250             |
+| 0.1155        | 0.8013 | 2025 | 0.2594          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9265             |
+| 0.082         | 0.8033 | 2030 | 0.2610          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9265             |
+| 0.1615        | 0.8053 | 2035 | 0.2564          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9255             |
+| 0.1129        | 0.8073 | 2040 | 0.2522          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9257             |
+| 0.154         | 0.8093 | 2045 | 0.2519          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9252             |
+| 0.1211        | 0.8112 | 2050 | 0.2523          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9262             |
+| 0.1664        | 0.8132 | 2055 | 0.2555          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9247             |
+| 0.1891        | 0.8152 | 2060 | 0.2577          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9250             |
+| 0.0951        | 0.8172 | 2065 | 0.2550          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9270             |
+| 0.1303        | 0.8192 | 2070 | 0.2561          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9262             |
+| 0.1099        | 0.8211 | 2075 | 0.2547          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9252             |
+| 0.1822        | 0.8231 | 2080 | 0.2538          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9245             |
+| 0.1216        | 0.8251 | 2085 | 0.2498          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9252             |
+| 0.2189        | 0.8271 | 2090 | 0.2474          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9262             |
+| 0.23          | 0.8290 | 2095 | 0.2448          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9255             |
+| 0.1472        | 0.8310 | 2100 | 0.2454          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9257             |
+| 0.1603        | 0.8330 | 2105 | 0.2473          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9247             |
+| 0.2199        | 0.8350 | 2110 | 0.2507          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9265             |
+| 0.0888        | 0.8370 | 2115 | 0.2558          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9272             |
+| 0.1762        | 0.8389 | 2120 | 0.2588          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9279             |
+| 0.1224        | 0.8409 | 2125 | 0.2602          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9274             |
+| 0.1754        | 0.8429 | 2130 | 0.2628          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9287             |
+| 0.1713        | 0.8449 | 2135 | 0.2621          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9267             |
+| 0.1818        | 0.8469 | 2140 | 0.2576          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9274             |
+| 0.3122        | 0.8488 | 2145 | 0.2513          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9274             |
+| 0.1482        | 0.8508 | 2150 | 0.2473          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9282             |
+| 0.1824        | 0.8528 | 2155 | 0.2443          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9272             |
+| 0.1602        | 0.8548 | 2160 | 0.2429          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9277             |
+| 0.1297        | 0.8567 | 2165 | 0.2434          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9287             |
+| 0.102         | 0.8587 | 2170 | 0.2452          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9277             |
+| 0.1362        | 0.8607 | 2175 | 0.2465          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9284             |
+| 0.1262        | 0.8627 | 2180 | 0.2477          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9299             |
+| 0.1252        | 0.8647 | 2185 | 0.2493          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9292             |
+| 0.1245        | 0.8666 | 2190 | 0.2491          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9304             |
+| 0.112         | 0.8686 | 2195 | 0.2473          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9319             |
+| 0.1282        | 0.8706 | 2200 | 0.2472          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9311             |
+| 0.1528        | 0.8726 | 2205 | 0.2464          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9304             |
+| 0.1212        | 0.8746 | 2210 | 0.2465          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9306             |
+| 0.1702        | 0.8765 | 2215 | 0.2456          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9321             |
+| 0.1665        | 0.8785 | 2220 | 0.2440          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1192        | 0.8805 | 2225 | 0.2456          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9331             |
+| 0.1518        | 0.8825 | 2230 | 0.2459          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9329             |
+| 0.2145        | 0.8844 | 2235 | 0.2456          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.1033        | 0.8864 | 2240 | 0.2445          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9302             |
+| 0.1555        | 0.8884 | 2245 | 0.2444          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1651        | 0.8904 | 2250 | 0.2453          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.2616        | 0.8924 | 2255 | 0.2452          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9321             |
+| 0.1996        | 0.8943 | 2260 | 0.2443          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9321             |
+| 0.1372        | 0.8963 | 2265 | 0.2451          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9292             |
+| 0.1477        | 0.8983 | 2270 | 0.2459          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9306             |
+| 0.1968        | 0.9003 | 2275 | 0.2455          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9306             |
+| 0.1769        | 0.9023 | 2280 | 0.2460          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.1718        | 0.9042 | 2285 | 0.2462          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9311             |
+| 0.2272        | 0.9062 | 2290 | 0.2457          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9304             |
+| 0.1488        | 0.9082 | 2295 | 0.2472          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1605        | 0.9102 | 2300 | 0.2468          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9306             |
+| 0.2384        | 0.9121 | 2305 | 0.2473          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9321             |
+| 0.0929        | 0.9141 | 2310 | 0.2464          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9304             |
+| 0.1644        | 0.9161 | 2315 | 0.2470          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9299             |
+| 0.1308        | 0.9181 | 2320 | 0.2462          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1822        | 0.9201 | 2325 | 0.2477          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9311             |
+| 0.1655        | 0.9220 | 2330 | 0.2466          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1505        | 0.9240 | 2335 | 0.2465          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9324             |
+| 0.1426        | 0.9260 | 2340 | 0.2468          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9319             |
+| 0.0893        | 0.9280 | 2345 | 0.2469          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9321             |
+| 0.1803        | 0.9300 | 2350 | 0.2459          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1194        | 0.9319 | 2355 | 0.2456          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1253        | 0.9339 | 2360 | 0.2457          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.0962        | 0.9359 | 2365 | 0.2467          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.194         | 0.9379 | 2370 | 0.2468          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.1881        | 0.9398 | 2375 | 0.2456          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.0894        | 0.9418 | 2380 | 0.2456          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1326        | 0.9438 | 2385 | 0.2470          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.1285        | 0.9458 | 2390 | 0.2471          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9299             |
+| 0.104         | 0.9478 | 2395 | 0.2480          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1435        | 0.9497 | 2400 | 0.2474          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9302             |
+| 0.1911        | 0.9517 | 2405 | 0.2471          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.1017        | 0.9537 | 2410 | 0.2482          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9302             |
+| 0.1332        | 0.9557 | 2415 | 0.2467          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9311             |
+| 0.1623        | 0.9577 | 2420 | 0.2474          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1048        | 0.9596 | 2425 | 0.2471          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1586        | 0.9616 | 2430 | 0.2470          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1931        | 0.9636 | 2435 | 0.2478          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9302             |
+| 0.1527        | 0.9656 | 2440 | 0.2473          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1557        | 0.9676 | 2445 | 0.2467          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9292             |
+| 0.1623        | 0.9695 | 2450 | 0.2481          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9284             |
+| 0.0696        | 0.9715 | 2455 | 0.2465          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1697        | 0.9735 | 2460 | 0.2468          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9324             |
+| 0.1061        | 0.9755 | 2465 | 0.2467          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1576        | 0.9774 | 2470 | 0.2472          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9311             |
+| 0.105         | 0.9794 | 2475 | 0.2469          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.0886        | 0.9814 | 2480 | 0.2487          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9292             |
+| 0.1544        | 0.9834 | 2485 | 0.2475          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9314             |
+| 0.1716        | 0.9854 | 2490 | 0.2473          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9302             |
+| 0.1768        | 0.9873 | 2495 | 0.2483          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9311             |
+| 0.1271        | 0.9893 | 2500 | 0.2462          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.15          | 0.9913 | 2505 | 0.2475          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9302             |
+| 0.1143        | 0.9933 | 2510 | 0.2482          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9309             |
+| 0.1269        | 0.9953 | 2515 | 0.2470          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9311             |
+| 0.1279        | 0.9972 | 2520 | 0.2479          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9316             |
+| 0.1752        | 0.9992 | 2525 | 0.2476          | 0.8968       | 0.9052        | 0.9813     | 0.4211         | 0.8     | 0.9417 | 0.5517     | 0.7012     | 0.9319             |
+
+
+### Framework versions
+
+- PEFT 0.12.0
+- Transformers 4.46.0
+- Pytorch 2.4.0+cu118
+- Datasets 3.0.0
+- Tokenizers 0.20.1
\ No newline at end of file
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/adapter_config.json b/Daewon0808__mmlu_noaugs_llamabase_lora/adapter_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..7a5752c57b7fb6cc6341d36768192c9f88b50ab7
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/adapter_config.json
@@ -0,0 +1,34 @@
+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-3.1-8B-Instruct",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj",
+    "up_proj",
+    "gate_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}
\ No newline at end of file
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/adapter_model.safetensors b/Daewon0808__mmlu_noaugs_llamabase_lora/adapter_model.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..99e2957fe03166bc7443f78282f375fcbbc490eb
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/adapter_model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8993e6be9287112bd10a32e6b31e55064441ee88231f0970a9379a8428e0b101
+size 83946192
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/README.md b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..0994074add6527289eb93335320fbd12270c4e7f
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/README.md
@@ -0,0 +1,202 @@
+---
+base_model: meta-llama/Llama-3.1-8B-Instruct
+library_name: peft
+---
+
+# Model Card for Model ID
+
+<!-- Provide a quick summary of what the model is/does. -->
+
+
+
+## Model Details
+
+### Model Description
+
+<!-- Provide a longer summary of what this model is. -->
+
+
+
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+
+### Model Sources [optional]
+
+<!-- Provide the basic links for the model. -->
+
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+
+## Uses
+
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+
+### Direct Use
+
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+
+[More Information Needed]
+
+### Downstream Use [optional]
+
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+
+[More Information Needed]
+
+### Out-of-Scope Use
+
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+
+[More Information Needed]
+
+## Bias, Risks, and Limitations
+
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+
+[More Information Needed]
+
+### Recommendations
+
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+
+## How to Get Started with the Model
+
+Use the code below to get started with the model.
+
+[More Information Needed]
+
+## Training Details
+
+### Training Data
+
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+
+[More Information Needed]
+
+### Training Procedure
+
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+
+#### Preprocessing [optional]
+
+[More Information Needed]
+
+
+#### Training Hyperparameters
+
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+
+#### Speeds, Sizes, Times [optional]
+
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+
+[More Information Needed]
+
+## Evaluation
+
+<!-- This section describes the evaluation protocols and provides the results. -->
+
+### Testing Data, Factors & Metrics
+
+#### Testing Data
+
+<!-- This should link to a Dataset Card if possible. -->
+
+[More Information Needed]
+
+#### Factors
+
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+
+[More Information Needed]
+
+#### Metrics
+
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+
+[More Information Needed]
+
+### Results
+
+[More Information Needed]
+
+#### Summary
+
+
+
+## Model Examination [optional]
+
+<!-- Relevant interpretability work for the model goes here -->
+
+[More Information Needed]
+
+## Environmental Impact
+
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+
+## Technical Specifications [optional]
+
+### Model Architecture and Objective
+
+[More Information Needed]
+
+### Compute Infrastructure
+
+[More Information Needed]
+
+#### Hardware
+
+[More Information Needed]
+
+#### Software
+
+[More Information Needed]
+
+## Citation [optional]
+
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+
+**BibTeX:**
+
+[More Information Needed]
+
+**APA:**
+
+[More Information Needed]
+
+## Glossary [optional]
+
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+
+[More Information Needed]
+
+## More Information [optional]
+
+[More Information Needed]
+
+## Model Card Authors [optional]
+
+[More Information Needed]
+
+## Model Card Contact
+
+[More Information Needed]
+### Framework versions
+
+- PEFT 0.12.0
\ No newline at end of file
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/adapter_config.json b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/adapter_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..7a5752c57b7fb6cc6341d36768192c9f88b50ab7
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/adapter_config.json
@@ -0,0 +1,34 @@
+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-3.1-8B-Instruct",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "q_proj",
+    "down_proj",
+    "o_proj",
+    "up_proj",
+    "gate_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}
\ No newline at end of file
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/adapter_model.safetensors b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/adapter_model.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..99e2957fe03166bc7443f78282f375fcbbc490eb
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/adapter_model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8993e6be9287112bd10a32e6b31e55064441ee88231f0970a9379a8428e0b101
+size 83946192
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4ddfa1251cd4a5d39e1871ba3fb8836b2fbad511
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b5d21e826789f10cc4848c817d9184c9a24bfb5be3b9afc3856c8b328cd60ae
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..42bc33a25723f1655dc9c69c5854cbb8ee8f3e30
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fbc85f11ca01b3e58a075195f2da0302adf89c838350694fb93df8643e2a0dc8
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7adfcf8aba6cc7f4ea33cb7ed0646b374364717a
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:552752ed3b741125419f3bdd3ccc8ba204290bf3c91683b8c2154ecfe59a7379
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..562ea560cb72023359795a8315ed3ee746347104
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29dfcef0dd8cc0971508a49f0763c74f377c28b379128758325d18734413187c
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7c738baec32f7400cb96ad002340405d5c103ce9
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08279dd327b3478f6e480dd0dd856de2acbbb7a2bec93bc3bf9cb8d399d2408b
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8a2fdb7a87c45875a9622cb75313caba3323a68d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83c987abc97b1f9da42b7666105c632c0eb1e6bfd816374947a8b0ebddd1a13c
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0b756e0acb81732013e19eee60e0055f9b152b71
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b7623ce9a186410695380fdbee54b21b1bc45e81145c6615b930f279374026b8
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..f98a428b077b910842643ad2dc341644fbaf5c67
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:857f7208a9e64164df420e6a2a7beacc096f6af598acb1c33d1c74be7ce3b029
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_0_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_0_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8095e47b1da51bcb7293d24469f423a0d96c2c35
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_0_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08621b68e478cd76dcf6920df0bd91525d35129d61b7e3dc1258593271097ddf
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_1_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_1_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3bc10ac575dd8f97719b60bd870b2fbc6af6b162
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_1_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a34ef6b95eb5f4afd3a1743d115f9ca9da22a2da00ade6f96901c5b5189576a9
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_2_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_2_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..791de1729f6bf64cad75aad3f03c48864d2a3536
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_2_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:951c3f8378a314c0ffbb18f6bae932751290a829a8fcec1a9766f2a8bed79465
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_3_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_3_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7072bea452eb6f5f4aabd4756276a89e7b29a37b
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_3_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb6a3bc7a89771aca1262358db78b44b3307e0eb2f37685c435fdc1cb4d54f94
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_4_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_4_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..33f4e914e600762f754634b43716a29261077b2e
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_4_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f9387cfbcabeba69df402bedbfa687df1efc5c847edd1c55aa77a3223a2867e4
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_5_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_5_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8899e1922696372530eed9eb2d38dc169baf26b6
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_5_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3af047aafc1451055b33826062d29b3c59f6a55147d9e204c26afbffda178e67
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_6_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_6_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5fd88294a2d398abcd6a7d71a53a7a9c53fcce3d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_6_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cd909fb24203b185a59c83b77bb33b52df6f3016728b9def2ac192696e7fa38b
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_7_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_7_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2a34e9727c55b4cd888458b440471dae0372d065
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1000/zero_pp_rank_7_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e4da50b7f67385f30f80d6c001e1c298fe46a9076ad693b0b34ffa3220b24da
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bd53f1b92f4fabb104c0362852c442a1bf44f1c4
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e3137d43cde14a60ff0f2eac686985cc630eb7017e83ce9e8b505006622dbc1
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ee548f62fe4d33636c326cc7d8194a6031a427aa
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cd02754a06880e46397c9ea7c588945a7681bba2d66bcfadc47bac11ef2c7c06
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5a3948c3a470b91f85d54fe75bbe74f9735e48da
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ed7ab0576bce1a4d3b79c4a2c7e4eb15d784e0d09a765321971404152aadf4f
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ef8e60e369f2348a075ee171941b50b7ab8cc7d7
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad64ae7bf23935866028f9a5119d559c8ccec6548514866015cc933f5dac3064
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..fd91d70d2b81f2f69396a285b3b072879db8b72e
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:959b7b5d379415acdb4c919b9713db61c7a286f1599d14402b8457e71919e925
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7e04e93fef8497435b282fdf86da4638c2a19eb2
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0712ffcab9642225a3b7fa8e128f2d635af947a46859f1064ce2aa7110bcc16b
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..adf3728b66e715f0679e7eb58e3226fbc818ee6c
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dde3dd4094809576e151cab94d2aaf7ba1d96c1f487f867eb6f68b5d5467b1cb
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..15163c1c734eaf74072f68c6fe6e1630cdc91819
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dbdaffd43840d9d14103bf5de8257a8cadd16d05cf2e886d7813332503e14d30
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_0_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_0_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..50b6467ac7e4e068a65421eefa38e0e3dbdbf5fc
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_0_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a36188d783a3d03c15c07ddc474a5c3a80fda966a943a9d8fd5d93706ad53be
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_1_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_1_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..898266a1acefa6f2c4d0ef8ce8c92eef3b2f8065
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_1_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4be00c62a69cd4defc2671f60631d40f4c0a8572ef7c7c27d94645a4430fe72d
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_2_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_2_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d58eed3361d622954272735df922bdc643b8a253
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_2_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d487f9e2676c9b9c6ef9230ee16fa1ac29e0cfcb9bb9553d4433f7a2b3aded20
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_3_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_3_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..921cb34c74e15471c6a6fbef38a082e2a3f0dcb2
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_3_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8441b3077109f2791b0f8087966194cef28f3d92b412700fe4a581cbc3bd95f
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_4_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_4_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..68f16bca67641e407d682ba8775db0fc7617b0ad
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_4_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:49dff0cbc517064e453cd0bc80d368eb51950247df3a68b7bfea9ea717a790e5
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_5_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_5_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9006545bdf33d4b5354e7d8f52cf0fbf4639c4ec
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_5_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c46f39de99e19898daecb0b82281d93bb7c69d1a7900893b11f2c0821d95a54
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_6_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_6_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a2ef7c0e513fd70cdb2c01fa5951c35421ca860d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_6_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f184ecb811e1b46269d49f2b5d477c2c1ae6e4cfd8603a6bd3913594089f896e
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_7_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_7_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..25ae69d5efdc3d0a5f785f292d85f76881bc7950
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step1500/zero_pp_rank_7_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38e9bd74739b16fc4031d994ace266cfa94029eb1224aa38418d5f9c1aa65478
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..30259816a504470b9186f10adf2172b325ec985d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:679987f939b53787f0eb2472b33e1244a772a2d9c62d049ee85156ac985d9453
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a1cd2ff0ff54e24b8d107c8c26ddd118927c9a48
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d30ed0c6ba58e1b6f2a1f1bfc3e98f436f154eb9437fb4252cd68a6476c24f2a
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..02445f716842cebc30949129457063dbd8b32509
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8540a662841eb8e8d30b114c49a11e08ee2e385e91d7ee52e8f52dd3d1720c10
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..da395d0330f33c7e1bf962aebdca0e965c5f6c22
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4e978ce30f289a2800fc8fc5ffc620f9704b82accc1b5b7f2eb4aa27b8af9a0e
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..27d5bf4034502ddd2702f7fd97e77ebe786b0a9a
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:21668098101b328ceb144a52752ba46252188af04264c77f4b227796ef614485
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b9ff5cfa0302b527c61ad43f935ac3b90ba23d83
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd8f8fb13370197f5c7b7c26df5fefa210074290cc0a65c299222d4d4e78ee74
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ace2e9317bb9b499cfea68a639e4d87e9a2c84a9
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:407543442941a9d2298ab04321d0eb07b18e83bef9de3168dc6ca8361a029224
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..cbb2e26ff2370e8bcc0d4a56c34ff5ed312d0a4c
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:149f1d98d39eb7c959eebef6cdd0bd7fa215937206645f794d11b2b1ad500b9b
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..324adaadc34119225a48f0bbdbe5509edbf03079
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_0_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a07c080225894a0c799e27437baa810bbe0f7a3b27a02038245780a011445eea
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6e9cd12dfd3dfe67cb48a8d3c5b1dcb4835ec1ee
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_1_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ef6f98609c5930b88d8edbd47bf1570d1661a35ec5c91db7e38d8a959c43fc8
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..33cce1377dab89c7452764e82c8f00ef82723b5d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_2_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bea730c3b293a8603daef39998c061bd5f1b278ba27214b361507b344aaad7af
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..70399fb0dcf40729e279e458af331ebf69247866
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_3_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0fdab9cd4e2d6b65fbbfe6c2ccc173a31ad324e20c83e4bb44af913abdf95f6
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_4_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_4_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5e4ce0f033aa1708dc257fca592289e2bd649747
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_4_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f154461b9a788ff0793f77d897fcb0a8e8661f96af6992bd5564ee832583a46
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_5_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_5_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3cdc50851a9d91a6d00fd6c5cf214b0a8250411d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_5_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6fb22096a7899096883f6f62554d5a0874e0dde72710a569700208faf9fe0b73
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_6_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_6_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5eb3eeb09dec0d781b9a694f7c46f45484596858
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_6_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2702ce44514cbf369b4e75b20bd7aa54f88186f7d6f9d8e99449e6402cd936e2
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_7_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_7_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ef43c8e28074496739971d30fa39e05b748efba9
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2000/zero_pp_rank_7_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:371ffb0c41b521a6d733f535c52f132d6f9b99456238aa9eaf56e7a58ba0b668
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..63f5e1973da0ca15ed31c7da90129095c6ba8976
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:850bd0ab1b54097e4e3a250fc1af964dd96eacf8cc11dcba5e4885f3d9094de7
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..77a21e1fd3611110d5decff708a79eb586072b82
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa3e6553f88d78f663a624f7b38eaa1d96da6364d6027f2b5c7047b701cb10a1
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..062ca0e3d44a540c1fd84b631fe31eb270e29aaf
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:42f8cd20c22561f41a11188ebea507b5434f53c788a121925528671e299eb5e5
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e8c97a14431f0163dbfc77b7195abee547053ed4
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e432bb033485a85564cbda573d35b6c6d17b29c346aacb2c485740658dae6a87
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..74e1702f901a4024df87e6b692647a2668334e90
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e766f812802fc01325590edc733a5f73b353b9bcbf260b4ef1b0a9751a892ac
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a5085fd62300419292c30cd224c8d2de6ffe2cd9
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e50ecfeaa958a08d233a9e3dc98d67a356b636bf497a94b6dc680b195b35ce88
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..63b9ea81691aa852702e403093221fec93ebe719
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c45b3b7155f470a7a8f6e2c7eac9272510e5a0974ec493f89d22aac5d4021f63
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5eb4d5753d6d4114d2b4de378b51d9476df355f6
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:032fd475513e7634f877b7118ea98fb168e4e99a221a0f826195e35602448159
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..80b726eafffcd18597caf946ae223461a69d3789
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_0_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7ef31d60ef0e17cdd85cfcaed966c3189aefd3643fed5463e0f0a5829d578b0
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..da22919dfa9d07a7b6b1b60932630cfaeaeeea9c
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_1_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8bf35c7c84d13cdea8aecaddd7ba452660619f59ebacd73169bfcd241ec8fc42
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2221898dccb3e6c891fd819618145bed5bfd2e53
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_2_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e19918f0f43a4aabe440ff554ddb79c224adc05bac293271205aa2b296af95b
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e8a6d59dbe885ce719fd59219cc6e7033beae1b5
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_3_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:762e69617482eb51de80708932329bbd9cd7077fadbb9de8b07be61e321b36cc
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_4_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_4_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d674371ddf437a867d069749f5b6149b2bf239d5
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_4_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:705a6620877eda4801d6bdfc10b615da784e7618b210cb01f6de2dde10442cf4
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_5_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_5_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5b03ba1beb0a725a4267c8232e42f76b05677f7e
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_5_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db59fbd2e4887b99b69bf6578e98bf75f80ba89a432060e6a0e0d705f024618f
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_6_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_6_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3fb35787be1931c02cb8024948a0ffa220a93f7b
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_6_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e97e306fa8d4b0b46ab20cea78c2c0a58c4771f21a8e84b8e689bc17980c9875
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_7_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_7_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b0f183a694f0e53bb63dc5940c11a1269c4ee09e
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2500/zero_pp_rank_7_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30b373019a63c1c26c0672ec6f8b51f2d11a48ea06343b28ff4ec0474f9f8e39
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e2677d7fbfb5e88f54579401d91d6e54b5bf9fea
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:861929229c450609f965e607811cb31a33b299fd5147ee699104258ef6ca7819
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..39e98015f0456c6c8587cb74c366a1da9ccf313e
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6fddd4b3906f45e88638539aa5c8acf64822445c94ec49b385ca0b95584cda0d
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4642aff3222e574c720636076689fb86506ec754
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75f1b9c8dd08bc9e785e9e08bc3722334bb2ef7c02555fd486fc9960839ed940
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..203847b5603919fdb348a9daf20477d78de82e06
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4435b70975f350d4e43f00761a3ba9e0c9724e9292c375d05c1d6ba11f8d916e
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9e030837f98153caf464b5c8ab661d2a87109439
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:819af42bbb1a7d6fdb204806e78cdbf746c3a16f97b65331bc2e0f860470c49d
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7262840244cce5dc450d18c5e10c7ad5a31ed07f
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e2ce59f12df3bb180aa025af688b7eefcc8df1e2d0ac216300937ccedce5538
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c30b43acdb340a0f331918e99f43847acf217225
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff94bd5fdbda3acfb6136cb50c75401c19d153cb9a95b735a7cc35cdd866e0d7
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b6bf910e310bbdadf2f36622bb0f95f2fb3e25b9
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:69ea48644239a9842b04a8bb8aa1e9acad477810dc1f68eda2e676c8e13b2df6
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_0_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_0_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2c277b4ea0e66e7466451a54bce9aefe017ca3bb
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_0_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6059b5c925239d2b22527f5dc89ff0bbd7ad395dd9205f0526e8b8f28bbb7ab3
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_1_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_1_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d54ce736f34132bc6c02adb5be40aed07cd62060
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_1_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0c56d034b29195895f65c764f034f879d0c82ff36477f4106076b2a4407d7c3c
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_2_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_2_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a9baf85b281b81957303dba4bd85c2a0f792f4c3
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_2_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d4054654bb5425b3575d7bd6f426fb9dd05c824b45aebda1455cfe42d23028df
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_3_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_3_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8daf535a6c03143dfb5535eea1f2ed1f8953d2ef
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_3_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61007c896165c3c3210459c9fd7197280caf8119e342be70aaa08836124b6a0c
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_4_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_4_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0519d8501d63b1abc3016d8ca8d825fcc2d22c3d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_4_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a56d86d0704fd7c84df87f416a5e62634bf7dff2f720f4e4bc2309d902cd4692
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_5_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_5_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a3f9a8eccbc8fa69a817756616df2b7e32b6d2d3
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_5_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7b8338eeee59b3b77c9f3a53351fd3ba81a47b5430942e5e1a7368736769378
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_6_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_6_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..55089ebeebdccb682518b15f1eaa6330c3abacca
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_6_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1b083fa2f5c519386a7e2d45a3f87c286db76948183106f27f193ee0738e5831
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_7_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_7_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d309a7d03e4f14c698c1410b92b141baca7813cf
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step2527/zero_pp_rank_7_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db246a336a78da33395d2be244abd96e2364cbda8533416bedf7614eca61c11c
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4c94ddd9167b7463ce148b5614502f6fab33f00f
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:814653618da883866f58c0bfc352228b49300fa6570be3df8652d8bcc482a703
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..78a9a7ff2c499400020484f478fa4b76baa85d91
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:00561f0ca5f4b22aa47abe074105d67e20de5e7c3d522cd0ba4506475e4a094e
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..412a1f7f736865319c1b89a9517818b9c8ac3039
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:288123142f269333c4ec49e89487a3e02c18d3ca9ee32b94af213d42a0cc4b37
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0a1b558f8952695f66057f15503a0c195068e9ba
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d527f79dfd885e593ad07c9bd84975eca97f2894d49d68b36bf985d31a316f2d
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..db32bcded45e6256d5027f9a95450352f0feb38d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6fdd2ebce5575cd329f3aad51f0eb4b78ea00f026dc26ff73b0c13ac93825015
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0bff977c34f0a1d683512f5b9d71ef7f8929d72c
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a09dd27a6d21aa31cd16b826ddbcff45f74b92e8ae0f39a53f22f938d9a48f10
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ad618421d041bc50fee842bb6473842523e0a49c
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a84485e0e4547dad808cbf39ac361c8ba11c32a9000ad92984aa232ff1373aa1
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4c0f32e1adf9ca70013ea812014a9520c5612a67
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:734adee25fde0f95da1cc38af6b5d8c974a4b0548266b21b20b2f060cce95b4b
+size 62918128
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_0_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_0_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c1feaf9f019e04ce3c2114f96cc760de8096bc9d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_0_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:116f1f6d875fcb2ab9ca88fff80edcd4d4549437242681bfc997af07af0de1de
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_1_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_1_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..57042f380e3fbfa33292418d9aaaf66c45edc400
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_1_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:afc36081b11464fd178225755d72969a582bdfa05cca8d57ffd76cdb46bebb8c
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_2_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_2_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2aaa669819c131aede5ad7686b8602d8d59f3fe5
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_2_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:292ec2e715e4f648b5d18c0ec7106994b361da19854f4e3e840dcfa29ca73a79
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_3_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_3_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e4c1bd45dcd2241e2924a71ecb7eb8415b9a06f1
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_3_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91a9ffe6f9ef225b13bc7c37ed47982283ab3017af4d462514c6f9f89281800f
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_4_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_4_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b7134f69b7864feff24369f82d2b8e9b3040ee05
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_4_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5171d4835c79434583d0f27f17e75a5506e3f9ff9cf3afc557b44a16d7a1739
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_5_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_5_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..162293e43d2d5dd4f5435ffe4a33d1767aa9c7fe
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_5_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:937d2ddfe144d94ee2d7a3783391ca36d41107d3380a965e327281baf441afd8
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_6_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_6_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..10d15fb68a30bfcb806ac1db88f634f700ef4023
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_6_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18db3efe0a380517f1280041c2ded1a74ba8dc589313bd852bba710a3e9f5dc8
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_7_mp_rank_00_model_states.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_7_mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..288f0d2b3acb2722743a50aad16c6cc8855a30f4
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/global_step500/zero_pp_rank_7_mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:933462b180bd749e8d324452bc4b334ae14dd1aa6445e777f74fec6c619c3532
+size 445678
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/latest b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/latest
new file mode 100644
index 0000000000000000000000000000000000000000..3eecd55d34b8457560df599420fbfbe3ab57b3b8
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/latest
@@ -0,0 +1 @@
+global_step2527
\ No newline at end of file
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_0.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_0.pth
new file mode 100644
index 0000000000000000000000000000000000000000..0624c1759bdb79e4598e39e4585b0ec1d9e4698c
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_0.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0c8e2b7992fed46a9874858412305bf3ca5a3b0b431c0b8ba72afaf3b883fb61
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_1.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_1.pth
new file mode 100644
index 0000000000000000000000000000000000000000..53d9ea33ead22ee3bec81bf6cac6424665db97f9
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_1.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d55b1f92cdd98f0c85160b39639ba2e3d753218426becb5414f67df0e806dbc3
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_2.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_2.pth
new file mode 100644
index 0000000000000000000000000000000000000000..29eb91b8a8a6afebd379144e7489ed987348761d
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_2.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65f0ee9c483174649a66547e6b94e3f21464c4028a00670396b56ea6358e192a
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_3.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_3.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5fdbd75c7e5e852a831a2e7aaab5b389fcba3b11
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_3.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:59a15800e82c0fb3e9ab0d124a71970696e4f51dd42674aa0d336ddda8d38c75
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_4.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_4.pth
new file mode 100644
index 0000000000000000000000000000000000000000..da3e5982d8c1aaec8b87d9ea4b35fe1fedc3c04b
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_4.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:85bd11558e66d5246896030b823a3b2315ae09b27c5f1e40500db84b67ce67d1
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_5.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_5.pth
new file mode 100644
index 0000000000000000000000000000000000000000..721b6b459e82bb12e8c8cd36ed2af6e1ea986553
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_5.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce6836461afd3af1ac789584d7360edbac7e487553e71a7159b1b185e1105820
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_6.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_6.pth
new file mode 100644
index 0000000000000000000000000000000000000000..832f10b82cc640eb8f66a896d6332ee054dfabd4
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_6.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32d42f8aca23541b74a3edd1a9789f5a70f4ad8b4256d0f4ce67b000f3a4e26b
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_7.pth b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_7.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f874e2509d52fc6002f0dcdd693e00c524b81223
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/rng_state_7.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5ec050f65fe541ec7833e37a0a01e9bf3e8d10f05e62bbcad4c09e90d0fc81be
+size 15984
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/scheduler.pt b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8e1edf9c68d97766df80da18c2d9dd83b2b1fc3f
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba1417a4512f0520215fff01c82d65455bbbf8bb1817ff1d5e6b2e4fc2d3773d
+size 1064
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/special_tokens_map.json b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/special_tokens_map.json
new file mode 100644
index 0000000000000000000000000000000000000000..b43be96621d147110fb8a18b5776ec6e38516127
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/special_tokens_map.json
@@ -0,0 +1,17 @@
+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|eot_id|>"
+}
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/tokenizer.json b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/tokenizer.json
new file mode 100644
index 0000000000000000000000000000000000000000..1c1d8d5c9024994f1d3b00f9662b8dd89ca13cf2
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b9e4e7fb171f92fd137b777cc2714bf87d11576700a1dcd7a399e7bbe39537b
+size 17209920
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/tokenizer_config.json b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..b6e4e4df0ecc9c7f724a657ad557fae021e2b830
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/tokenizer_config.json
@@ -0,0 +1,2063 @@
+{
+  "added_tokens_decoder": {
+    "128000": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128001": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128002": {
+      "content": "<|reserved_special_token_0|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128003": {
+      "content": "<|reserved_special_token_1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128004": {
+      "content": "<|finetune_right_pad_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128005": {
+      "content": "<|reserved_special_token_2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128006": {
+      "content": "<|start_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128007": {
+      "content": "<|end_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128008": {
+      "content": "<|eom_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128009": {
+      "content": "<|eot_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128010": {
+      "content": "<|python_tag|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128011": {
+      "content": "<|reserved_special_token_3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128012": {
+      "content": "<|reserved_special_token_4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128013": {
+      "content": "<|reserved_special_token_5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128014": {
+      "content": "<|reserved_special_token_6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128015": {
+      "content": "<|reserved_special_token_7|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128016": {
+      "content": "<|reserved_special_token_8|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128017": {
+      "content": "<|reserved_special_token_9|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128018": {
+      "content": "<|reserved_special_token_10|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128019": {
+      "content": "<|reserved_special_token_11|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128020": {
+      "content": "<|reserved_special_token_12|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128021": {
+      "content": "<|reserved_special_token_13|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128022": {
+      "content": "<|reserved_special_token_14|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128023": {
+      "content": "<|reserved_special_token_15|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128024": {
+      "content": "<|reserved_special_token_16|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128025": {
+      "content": "<|reserved_special_token_17|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128026": {
+      "content": "<|reserved_special_token_18|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128027": {
+      "content": "<|reserved_special_token_19|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128028": {
+      "content": "<|reserved_special_token_20|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128029": {
+      "content": "<|reserved_special_token_21|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128030": {
+      "content": "<|reserved_special_token_22|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128031": {
+      "content": "<|reserved_special_token_23|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128032": {
+      "content": "<|reserved_special_token_24|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128033": {
+      "content": "<|reserved_special_token_25|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128034": {
+      "content": "<|reserved_special_token_26|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128035": {
+      "content": "<|reserved_special_token_27|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128036": {
+      "content": "<|reserved_special_token_28|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128037": {
+      "content": "<|reserved_special_token_29|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128038": {
+      "content": "<|reserved_special_token_30|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128039": {
+      "content": "<|reserved_special_token_31|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128040": {
+      "content": "<|reserved_special_token_32|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128041": {
+      "content": "<|reserved_special_token_33|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128042": {
+      "content": "<|reserved_special_token_34|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128043": {
+      "content": "<|reserved_special_token_35|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128044": {
+      "content": "<|reserved_special_token_36|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128045": {
+      "content": "<|reserved_special_token_37|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128046": {
+      "content": "<|reserved_special_token_38|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128047": {
+      "content": "<|reserved_special_token_39|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128048": {
+      "content": "<|reserved_special_token_40|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128049": {
+      "content": "<|reserved_special_token_41|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128050": {
+      "content": "<|reserved_special_token_42|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128051": {
+      "content": "<|reserved_special_token_43|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128052": {
+      "content": "<|reserved_special_token_44|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128053": {
+      "content": "<|reserved_special_token_45|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128054": {
+      "content": "<|reserved_special_token_46|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128055": {
+      "content": "<|reserved_special_token_47|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128056": {
+      "content": "<|reserved_special_token_48|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128057": {
+      "content": "<|reserved_special_token_49|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128058": {
+      "content": "<|reserved_special_token_50|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128059": {
+      "content": "<|reserved_special_token_51|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128060": {
+      "content": "<|reserved_special_token_52|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128061": {
+      "content": "<|reserved_special_token_53|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128062": {
+      "content": "<|reserved_special_token_54|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128063": {
+      "content": "<|reserved_special_token_55|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128064": {
+      "content": "<|reserved_special_token_56|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128065": {
+      "content": "<|reserved_special_token_57|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128066": {
+      "content": "<|reserved_special_token_58|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128067": {
+      "content": "<|reserved_special_token_59|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128068": {
+      "content": "<|reserved_special_token_60|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128069": {
+      "content": "<|reserved_special_token_61|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128070": {
+      "content": "<|reserved_special_token_62|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128071": {
+      "content": "<|reserved_special_token_63|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128072": {
+      "content": "<|reserved_special_token_64|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128073": {
+      "content": "<|reserved_special_token_65|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128074": {
+      "content": "<|reserved_special_token_66|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128075": {
+      "content": "<|reserved_special_token_67|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128076": {
+      "content": "<|reserved_special_token_68|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128077": {
+      "content": "<|reserved_special_token_69|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128078": {
+      "content": "<|reserved_special_token_70|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128079": {
+      "content": "<|reserved_special_token_71|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128080": {
+      "content": "<|reserved_special_token_72|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128081": {
+      "content": "<|reserved_special_token_73|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128082": {
+      "content": "<|reserved_special_token_74|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128083": {
+      "content": "<|reserved_special_token_75|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128084": {
+      "content": "<|reserved_special_token_76|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128085": {
+      "content": "<|reserved_special_token_77|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128086": {
+      "content": "<|reserved_special_token_78|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128087": {
+      "content": "<|reserved_special_token_79|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128088": {
+      "content": "<|reserved_special_token_80|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128089": {
+      "content": "<|reserved_special_token_81|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128090": {
+      "content": "<|reserved_special_token_82|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128091": {
+      "content": "<|reserved_special_token_83|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128092": {
+      "content": "<|reserved_special_token_84|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128093": {
+      "content": "<|reserved_special_token_85|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128094": {
+      "content": "<|reserved_special_token_86|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128095": {
+      "content": "<|reserved_special_token_87|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128096": {
+      "content": "<|reserved_special_token_88|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128097": {
+      "content": "<|reserved_special_token_89|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128098": {
+      "content": "<|reserved_special_token_90|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128099": {
+      "content": "<|reserved_special_token_91|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128100": {
+      "content": "<|reserved_special_token_92|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128101": {
+      "content": "<|reserved_special_token_93|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128102": {
+      "content": "<|reserved_special_token_94|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128103": {
+      "content": "<|reserved_special_token_95|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128104": {
+      "content": "<|reserved_special_token_96|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128105": {
+      "content": "<|reserved_special_token_97|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128106": {
+      "content": "<|reserved_special_token_98|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128107": {
+      "content": "<|reserved_special_token_99|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128108": {
+      "content": "<|reserved_special_token_100|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128109": {
+      "content": "<|reserved_special_token_101|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128110": {
+      "content": "<|reserved_special_token_102|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128111": {
+      "content": "<|reserved_special_token_103|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128112": {
+      "content": "<|reserved_special_token_104|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128113": {
+      "content": "<|reserved_special_token_105|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128114": {
+      "content": "<|reserved_special_token_106|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128115": {
+      "content": "<|reserved_special_token_107|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128116": {
+      "content": "<|reserved_special_token_108|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128117": {
+      "content": "<|reserved_special_token_109|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128118": {
+      "content": "<|reserved_special_token_110|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128119": {
+      "content": "<|reserved_special_token_111|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128120": {
+      "content": "<|reserved_special_token_112|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128121": {
+      "content": "<|reserved_special_token_113|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128122": {
+      "content": "<|reserved_special_token_114|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128123": {
+      "content": "<|reserved_special_token_115|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128124": {
+      "content": "<|reserved_special_token_116|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128125": {
+      "content": "<|reserved_special_token_117|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128126": {
+      "content": "<|reserved_special_token_118|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128127": {
+      "content": "<|reserved_special_token_119|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128128": {
+      "content": "<|reserved_special_token_120|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128129": {
+      "content": "<|reserved_special_token_121|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128130": {
+      "content": "<|reserved_special_token_122|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128131": {
+      "content": "<|reserved_special_token_123|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128132": {
+      "content": "<|reserved_special_token_124|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128133": {
+      "content": "<|reserved_special_token_125|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128134": {
+      "content": "<|reserved_special_token_126|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128135": {
+      "content": "<|reserved_special_token_127|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128136": {
+      "content": "<|reserved_special_token_128|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128137": {
+      "content": "<|reserved_special_token_129|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128138": {
+      "content": "<|reserved_special_token_130|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128139": {
+      "content": "<|reserved_special_token_131|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128140": {
+      "content": "<|reserved_special_token_132|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128141": {
+      "content": "<|reserved_special_token_133|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128142": {
+      "content": "<|reserved_special_token_134|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128143": {
+      "content": "<|reserved_special_token_135|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128144": {
+      "content": "<|reserved_special_token_136|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128145": {
+      "content": "<|reserved_special_token_137|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128146": {
+      "content": "<|reserved_special_token_138|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128147": {
+      "content": "<|reserved_special_token_139|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128148": {
+      "content": "<|reserved_special_token_140|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128149": {
+      "content": "<|reserved_special_token_141|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128150": {
+      "content": "<|reserved_special_token_142|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128151": {
+      "content": "<|reserved_special_token_143|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128152": {
+      "content": "<|reserved_special_token_144|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128153": {
+      "content": "<|reserved_special_token_145|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128154": {
+      "content": "<|reserved_special_token_146|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128155": {
+      "content": "<|reserved_special_token_147|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128156": {
+      "content": "<|reserved_special_token_148|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128157": {
+      "content": "<|reserved_special_token_149|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128158": {
+      "content": "<|reserved_special_token_150|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128159": {
+      "content": "<|reserved_special_token_151|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128160": {
+      "content": "<|reserved_special_token_152|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128161": {
+      "content": "<|reserved_special_token_153|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128162": {
+      "content": "<|reserved_special_token_154|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128163": {
+      "content": "<|reserved_special_token_155|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128164": {
+      "content": "<|reserved_special_token_156|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128165": {
+      "content": "<|reserved_special_token_157|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128166": {
+      "content": "<|reserved_special_token_158|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128167": {
+      "content": "<|reserved_special_token_159|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128168": {
+      "content": "<|reserved_special_token_160|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128169": {
+      "content": "<|reserved_special_token_161|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128170": {
+      "content": "<|reserved_special_token_162|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128171": {
+      "content": "<|reserved_special_token_163|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128172": {
+      "content": "<|reserved_special_token_164|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128173": {
+      "content": "<|reserved_special_token_165|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128174": {
+      "content": "<|reserved_special_token_166|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128175": {
+      "content": "<|reserved_special_token_167|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128176": {
+      "content": "<|reserved_special_token_168|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128177": {
+      "content": "<|reserved_special_token_169|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128178": {
+      "content": "<|reserved_special_token_170|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128179": {
+      "content": "<|reserved_special_token_171|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128180": {
+      "content": "<|reserved_special_token_172|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128181": {
+      "content": "<|reserved_special_token_173|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128182": {
+      "content": "<|reserved_special_token_174|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128183": {
+      "content": "<|reserved_special_token_175|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128184": {
+      "content": "<|reserved_special_token_176|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128185": {
+      "content": "<|reserved_special_token_177|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128186": {
+      "content": "<|reserved_special_token_178|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128187": {
+      "content": "<|reserved_special_token_179|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128188": {
+      "content": "<|reserved_special_token_180|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128189": {
+      "content": "<|reserved_special_token_181|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128190": {
+      "content": "<|reserved_special_token_182|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128191": {
+      "content": "<|reserved_special_token_183|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128192": {
+      "content": "<|reserved_special_token_184|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128193": {
+      "content": "<|reserved_special_token_185|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128194": {
+      "content": "<|reserved_special_token_186|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128195": {
+      "content": "<|reserved_special_token_187|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128196": {
+      "content": "<|reserved_special_token_188|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128197": {
+      "content": "<|reserved_special_token_189|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128198": {
+      "content": "<|reserved_special_token_190|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128199": {
+      "content": "<|reserved_special_token_191|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128200": {
+      "content": "<|reserved_special_token_192|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128201": {
+      "content": "<|reserved_special_token_193|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128202": {
+      "content": "<|reserved_special_token_194|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128203": {
+      "content": "<|reserved_special_token_195|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128204": {
+      "content": "<|reserved_special_token_196|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128205": {
+      "content": "<|reserved_special_token_197|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128206": {
+      "content": "<|reserved_special_token_198|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128207": {
+      "content": "<|reserved_special_token_199|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128208": {
+      "content": "<|reserved_special_token_200|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128209": {
+      "content": "<|reserved_special_token_201|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128210": {
+      "content": "<|reserved_special_token_202|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128211": {
+      "content": "<|reserved_special_token_203|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128212": {
+      "content": "<|reserved_special_token_204|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128213": {
+      "content": "<|reserved_special_token_205|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128214": {
+      "content": "<|reserved_special_token_206|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128215": {
+      "content": "<|reserved_special_token_207|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128216": {
+      "content": "<|reserved_special_token_208|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128217": {
+      "content": "<|reserved_special_token_209|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128218": {
+      "content": "<|reserved_special_token_210|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128219": {
+      "content": "<|reserved_special_token_211|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128220": {
+      "content": "<|reserved_special_token_212|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128221": {
+      "content": "<|reserved_special_token_213|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128222": {
+      "content": "<|reserved_special_token_214|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128223": {
+      "content": "<|reserved_special_token_215|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128224": {
+      "content": "<|reserved_special_token_216|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128225": {
+      "content": "<|reserved_special_token_217|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128226": {
+      "content": "<|reserved_special_token_218|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128227": {
+      "content": "<|reserved_special_token_219|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128228": {
+      "content": "<|reserved_special_token_220|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128229": {
+      "content": "<|reserved_special_token_221|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128230": {
+      "content": "<|reserved_special_token_222|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128231": {
+      "content": "<|reserved_special_token_223|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128232": {
+      "content": "<|reserved_special_token_224|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128233": {
+      "content": "<|reserved_special_token_225|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128234": {
+      "content": "<|reserved_special_token_226|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128235": {
+      "content": "<|reserved_special_token_227|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128236": {
+      "content": "<|reserved_special_token_228|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128237": {
+      "content": "<|reserved_special_token_229|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128238": {
+      "content": "<|reserved_special_token_230|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128239": {
+      "content": "<|reserved_special_token_231|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128240": {
+      "content": "<|reserved_special_token_232|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128241": {
+      "content": "<|reserved_special_token_233|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128242": {
+      "content": "<|reserved_special_token_234|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128243": {
+      "content": "<|reserved_special_token_235|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128244": {
+      "content": "<|reserved_special_token_236|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128245": {
+      "content": "<|reserved_special_token_237|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128246": {
+      "content": "<|reserved_special_token_238|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128247": {
+      "content": "<|reserved_special_token_239|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128248": {
+      "content": "<|reserved_special_token_240|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128249": {
+      "content": "<|reserved_special_token_241|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128250": {
+      "content": "<|reserved_special_token_242|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128251": {
+      "content": "<|reserved_special_token_243|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128252": {
+      "content": "<|reserved_special_token_244|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128253": {
+      "content": "<|reserved_special_token_245|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128254": {
+      "content": "<|reserved_special_token_246|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128255": {
+      "content": "<|reserved_special_token_247|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|begin_of_text|>",
+  "chat_template": "{{- bos_token }}\n{%- if custom_tools is defined %}\n    {%- set tools = custom_tools %}\n{%- endif %}\n{%- if not tools_in_user_message is defined %}\n    {%- set tools_in_user_message = true %}\n{%- endif %}\n{%- if not date_string is defined %}\n    {%- set date_string = \"26 Jul 2024\" %}\n{%- endif %}\n{%- if not tools is defined %}\n    {%- set tools = none %}\n{%- endif %}\n\n{#- This block extracts the system message, so we can slot it into the right place. #}\n{%- if messages[0]['role'] == 'system' %}\n    {%- set system_message = messages[0]['content']|trim %}\n    {%- set messages = messages[1:] %}\n{%- else %}\n    {%- set system_message = \"\" %}\n{%- endif %}\n\n{#- System message + builtin tools #}\n{{- \"<|start_header_id|>system<|end_header_id|>\\n\\n\" }}\n{%- if builtin_tools is defined or tools is not none %}\n    {{- \"Environment: ipython\\n\" }}\n{%- endif %}\n{%- if builtin_tools is defined %}\n    {{- \"Tools: \" + builtin_tools | reject('equalto', 'code_interpreter') | join(\", \") + \"\\n\\n\"}}\n{%- endif %}\n{{- \"Cutting Knowledge Date: December 2023\\n\" }}\n{{- \"Today Date: \" + date_string + \"\\n\\n\" }}\n{%- if tools is not none and not tools_in_user_message %}\n    {{- \"You have access to the following functions. To call a function, please respond with JSON for a function call.\" }}\n    {{- 'Respond in the format {\"name\": function name, \"parameters\": dictionary of argument name and its value}.' }}\n    {{- \"Do not use variables.\\n\\n\" }}\n    {%- for t in tools %}\n        {{- t | tojson(indent=4) }}\n        {{- \"\\n\\n\" }}\n    {%- endfor %}\n{%- endif %}\n{{- system_message }}\n{{- \"<|eot_id|>\" }}\n\n{#- Custom tools are passed in a user message with some extra guidance #}\n{%- if tools_in_user_message and not tools is none %}\n    {#- Extract the first user message so we can plug it in here #}\n    {%- if messages | length != 0 %}\n        {%- set first_user_message = messages[0]['content']|trim %}\n        {%- set messages = messages[1:] %}\n    {%- else %}\n        {{- raise_exception(\"Cannot put tools in the first user message when there's no first user message!\") }}\n{%- endif %}\n    {{- '<|start_header_id|>user<|end_header_id|>\\n\\n' -}}\n    {{- \"Given the following functions, please respond with a JSON for a function call \" }}\n    {{- \"with its proper arguments that best answers the given prompt.\\n\\n\" }}\n    {{- 'Respond in the format {\"name\": function name, \"parameters\": dictionary of argument name and its value}.' }}\n    {{- \"Do not use variables.\\n\\n\" }}\n    {%- for t in tools %}\n        {{- t | tojson(indent=4) }}\n        {{- \"\\n\\n\" }}\n    {%- endfor %}\n    {{- first_user_message + \"<|eot_id|>\"}}\n{%- endif %}\n\n{%- for message in messages %}\n    {%- if not (message.role == 'ipython' or message.role == 'tool' or 'tool_calls' in message) %}\n        {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>\\n\\n'+ message['content'] | trim + '<|eot_id|>' }}\n    {%- elif 'tool_calls' in message %}\n        {%- if not message.tool_calls|length == 1 %}\n            {{- raise_exception(\"This model only supports single tool-calls at once!\") }}\n        {%- endif %}\n        {%- set tool_call = message.tool_calls[0].function %}\n        {%- if builtin_tools is defined and tool_call.name in builtin_tools %}\n            {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' -}}\n            {{- \"<|python_tag|>\" + tool_call.name + \".call(\" }}\n            {%- for arg_name, arg_val in tool_call.arguments | items %}\n                {{- arg_name + '=\"' + arg_val + '\"' }}\n                {%- if not loop.last %}\n                    {{- \", \" }}\n                {%- endif %}\n                {%- endfor %}\n            {{- \")\" }}\n        {%- else  %}\n            {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' -}}\n            {{- '{\"name\": \"' + tool_call.name + '\", ' }}\n            {{- '\"parameters\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- \"}\" }}\n        {%- endif %}\n        {%- if builtin_tools is defined %}\n            {#- This means we're in ipython mode #}\n            {{- \"<|eom_id|>\" }}\n        {%- else %}\n            {{- \"<|eot_id|>\" }}\n        {%- endif %}\n    {%- elif message.role == \"tool\" or message.role == \"ipython\" %}\n        {{- \"<|start_header_id|>ipython<|end_header_id|>\\n\\n\" }}\n        {%- if message.content is mapping or message.content is iterable %}\n            {{- message.content | tojson }}\n        {%- else %}\n            {{- message.content }}\n        {%- endif %}\n        {{- \"<|eot_id|>\" }}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 131072,
+  "pad_token": "<|eot_id|>",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/trainer_state.json b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..0d97db6a85a1ddf52a835ac319cfc5191aaa412e
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/trainer_state.json
@@ -0,0 +1,26324 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 5,
+  "global_step": 2527,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_PRM Accuracy": 0.15079365079365079,
+      "eval_PRM F1": 0.0,
+      "eval_PRM F1 AUC": 0.5,
+      "eval_PRM F1 AUC (fixed)": 0.5034431874077718,
+      "eval_PRM F1 Neg": 0.2620689655172414,
+      "eval_PRM NPV": 0.15079365079365079,
+      "eval_PRM Precision": 0.0,
+      "eval_PRM Recall": 0.0,
+      "eval_PRM Specificty": 1.0,
+      "eval_loss": 5.104166507720947,
+      "eval_runtime": 5.645,
+      "eval_samples_per_second": 5.314,
+      "eval_steps_per_second": 0.177,
+      "step": 0
+    },
+    {
+      "epoch": 0.0003957261574990107,
+      "grad_norm": 18.679440766969446,
+      "learning_rate": 3.952569169960474e-07,
+      "loss": 4.1606,
+      "step": 1
+    },
+    {
+      "epoch": 0.0007914523149980214,
+      "grad_norm": 19.93434430744454,
+      "learning_rate": 7.905138339920948e-07,
+      "loss": 3.9287,
+      "step": 2
+    },
+    {
+      "epoch": 0.001187178472497032,
+      "grad_norm": 18.764187337010576,
+      "learning_rate": 1.1857707509881422e-06,
+      "loss": 3.9258,
+      "step": 3
+    },
+    {
+      "epoch": 0.0015829046299960427,
+      "grad_norm": 19.92512130907959,
+      "learning_rate": 1.5810276679841897e-06,
+      "loss": 4.1885,
+      "step": 4
+    },
+    {
+      "epoch": 0.0019786307874950534,
+      "grad_norm": 17.09367148451006,
+      "learning_rate": 1.9762845849802374e-06,
+      "loss": 3.5586,
+      "step": 5
+    },
+    {
+      "epoch": 0.0019786307874950534,
+      "eval_PRM Accuracy": 0.15079365079365079,
+      "eval_PRM F1": 0.0,
+      "eval_PRM F1 AUC": 0.5,
+      "eval_PRM F1 AUC (fixed)": 0.5027053615346778,
+      "eval_PRM F1 Neg": 0.2620689655172414,
+      "eval_PRM NPV": 0.15079365079365079,
+      "eval_PRM Precision": 0.0,
+      "eval_PRM Recall": 0.0,
+      "eval_PRM Specificty": 1.0,
+      "eval_loss": 5.102083206176758,
+      "eval_runtime": 5.7709,
+      "eval_samples_per_second": 5.198,
+      "eval_steps_per_second": 0.173,
+      "step": 5
+    },
+    {
+      "epoch": 0.002374356944994064,
+      "grad_norm": 17.288014813010893,
+      "learning_rate": 2.3715415019762844e-06,
+      "loss": 3.4521,
+      "step": 6
+    },
+    {
+      "epoch": 0.002770083102493075,
+      "grad_norm": 19.783148250791655,
+      "learning_rate": 2.7667984189723323e-06,
+      "loss": 3.832,
+      "step": 7
+    },
+    {
+      "epoch": 0.0031658092599920855,
+      "grad_norm": 18.56069488836899,
+      "learning_rate": 3.1620553359683794e-06,
+      "loss": 4.0889,
+      "step": 8
+    },
+    {
+      "epoch": 0.003561535417491096,
+      "grad_norm": 18.151830981159222,
+      "learning_rate": 3.5573122529644273e-06,
+      "loss": 3.5774,
+      "step": 9
+    },
+    {
+      "epoch": 0.003957261574990107,
+      "grad_norm": 17.60401013651056,
+      "learning_rate": 3.952569169960475e-06,
+      "loss": 3.5596,
+      "step": 10
+    },
+    {
+      "epoch": 0.003957261574990107,
+      "eval_PRM Accuracy": 0.15079365079365079,
+      "eval_PRM F1": 0.0,
+      "eval_PRM F1 AUC": 0.5,
+      "eval_PRM F1 AUC (fixed)": 0.5068863748155436,
+      "eval_PRM F1 Neg": 0.2620689655172414,
+      "eval_PRM NPV": 0.15079365079365079,
+      "eval_PRM Precision": 0.0,
+      "eval_PRM Recall": 0.0,
+      "eval_PRM Specificty": 1.0,
+      "eval_loss": 5.022916793823242,
+      "eval_runtime": 5.3601,
+      "eval_samples_per_second": 5.597,
+      "eval_steps_per_second": 0.187,
+      "step": 10
+    },
+    {
+      "epoch": 0.004352987732489117,
+      "grad_norm": 18.843141225173827,
+      "learning_rate": 4.347826086956522e-06,
+      "loss": 3.5303,
+      "step": 11
+    },
+    {
+      "epoch": 0.004748713889988128,
+      "grad_norm": 17.902273627028176,
+      "learning_rate": 4.743083003952569e-06,
+      "loss": 3.3682,
+      "step": 12
+    },
+    {
+      "epoch": 0.0051444400474871385,
+      "grad_norm": 19.787789936375873,
+      "learning_rate": 5.138339920948617e-06,
+      "loss": 3.4863,
+      "step": 13
+    },
+    {
+      "epoch": 0.00554016620498615,
+      "grad_norm": 22.32404701195085,
+      "learning_rate": 5.533596837944665e-06,
+      "loss": 3.6895,
+      "step": 14
+    },
+    {
+      "epoch": 0.00593589236248516,
+      "grad_norm": 20.26194882666582,
+      "learning_rate": 5.928853754940711e-06,
+      "loss": 3.4512,
+      "step": 15
+    },
+    {
+      "epoch": 0.00593589236248516,
+      "eval_PRM Accuracy": 0.15079365079365079,
+      "eval_PRM F1": 0.0,
+      "eval_PRM F1 AUC": 0.5,
+      "eval_PRM F1 AUC (fixed)": 0.5049188391539596,
+      "eval_PRM F1 Neg": 0.2620689655172414,
+      "eval_PRM NPV": 0.15079365079365079,
+      "eval_PRM Precision": 0.0,
+      "eval_PRM Recall": 0.0,
+      "eval_PRM Specificty": 1.0,
+      "eval_loss": 4.793749809265137,
+      "eval_runtime": 5.2891,
+      "eval_samples_per_second": 5.672,
+      "eval_steps_per_second": 0.189,
+      "step": 15
+    },
+    {
+      "epoch": 0.006331618519984171,
+      "grad_norm": 19.77688244477446,
+      "learning_rate": 6.324110671936759e-06,
+      "loss": 3.2798,
+      "step": 16
+    },
+    {
+      "epoch": 0.006727344677483181,
+      "grad_norm": 20.673340406580706,
+      "learning_rate": 6.719367588932807e-06,
+      "loss": 3.1404,
+      "step": 17
+    },
+    {
+      "epoch": 0.007123070834982192,
+      "grad_norm": 21.981025672661666,
+      "learning_rate": 7.1146245059288545e-06,
+      "loss": 3.3759,
+      "step": 18
+    },
+    {
+      "epoch": 0.007518796992481203,
+      "grad_norm": 20.457962505081607,
+      "learning_rate": 7.509881422924901e-06,
+      "loss": 2.917,
+      "step": 19
+    },
+    {
+      "epoch": 0.007914523149980214,
+      "grad_norm": 23.374264614038623,
+      "learning_rate": 7.90513833992095e-06,
+      "loss": 2.894,
+      "step": 20
+    },
+    {
+      "epoch": 0.007914523149980214,
+      "eval_PRM Accuracy": 0.15079365079365079,
+      "eval_PRM F1": 0.0,
+      "eval_PRM F1 AUC": 0.5,
+      "eval_PRM F1 AUC (fixed)": 0.5002459419576979,
+      "eval_PRM F1 Neg": 0.2620689655172414,
+      "eval_PRM NPV": 0.15079365079365079,
+      "eval_PRM Precision": 0.0,
+      "eval_PRM Recall": 0.0,
+      "eval_PRM Specificty": 1.0,
+      "eval_loss": 4.183333396911621,
+      "eval_runtime": 5.212,
+      "eval_samples_per_second": 5.756,
+      "eval_steps_per_second": 0.192,
+      "step": 20
+    },
+    {
+      "epoch": 0.008310249307479225,
+      "grad_norm": 20.430795312660443,
+      "learning_rate": 8.300395256916998e-06,
+      "loss": 2.2808,
+      "step": 21
+    },
+    {
+      "epoch": 0.008705975464978234,
+      "grad_norm": 18.6760840600575,
+      "learning_rate": 8.695652173913044e-06,
+      "loss": 1.8269,
+      "step": 22
+    },
+    {
+      "epoch": 0.009101701622477245,
+      "grad_norm": 20.19597080657976,
+      "learning_rate": 9.090909090909091e-06,
+      "loss": 1.8501,
+      "step": 23
+    },
+    {
+      "epoch": 0.009497427779976256,
+      "grad_norm": 19.41223634980227,
+      "learning_rate": 9.486166007905138e-06,
+      "loss": 1.4681,
+      "step": 24
+    },
+    {
+      "epoch": 0.009893153937475268,
+      "grad_norm": 15.159492022053273,
+      "learning_rate": 9.881422924901186e-06,
+      "loss": 1.2933,
+      "step": 25
+    },
+    {
+      "epoch": 0.009893153937475268,
+      "eval_PRM Accuracy": 0.1984126984126984,
+      "eval_PRM F1": 0.13675213675213677,
+      "eval_PRM F1 AUC": 0.48475159862272504,
+      "eval_PRM F1 AUC (fixed)": 0.47884899163797345,
+      "eval_PRM F1 Neg": 0.2518518518518518,
+      "eval_PRM NPV": 0.14655172413793102,
+      "eval_PRM Precision": 0.8,
+      "eval_PRM Recall": 0.07476635514018691,
+      "eval_PRM Specificty": 0.8947368421052632,
+      "eval_loss": 2.5885417461395264,
+      "eval_runtime": 5.0187,
+      "eval_samples_per_second": 5.978,
+      "eval_steps_per_second": 0.199,
+      "step": 25
+    },
+    {
+      "epoch": 0.010288880094974277,
+      "grad_norm": 11.195465424334387,
+      "learning_rate": 1.0276679841897234e-05,
+      "loss": 0.8041,
+      "step": 26
+    },
+    {
+      "epoch": 0.010684606252473288,
+      "grad_norm": 6.156751897014624,
+      "learning_rate": 1.0671936758893281e-05,
+      "loss": 0.6689,
+      "step": 27
+    },
+    {
+      "epoch": 0.0110803324099723,
+      "grad_norm": 3.7995404914247657,
+      "learning_rate": 1.106719367588933e-05,
+      "loss": 0.5178,
+      "step": 28
+    },
+    {
+      "epoch": 0.01147605856747131,
+      "grad_norm": 3.174129656529322,
+      "learning_rate": 1.1462450592885376e-05,
+      "loss": 0.5728,
+      "step": 29
+    },
+    {
+      "epoch": 0.01187178472497032,
+      "grad_norm": 4.941466575923112,
+      "learning_rate": 1.1857707509881423e-05,
+      "loss": 0.5383,
+      "step": 30
+    },
+    {
+      "epoch": 0.01187178472497032,
+      "eval_PRM Accuracy": 0.6428571428571429,
+      "eval_PRM F1": 0.782608695652174,
+      "eval_PRM F1 AUC": 0.37850467289719625,
+      "eval_PRM F1 AUC (fixed)": 0.45917363502213476,
+      "eval_PRM F1 Neg": 0.0,
+      "eval_PRM NPV": 0.0,
+      "eval_PRM Precision": 0.81,
+      "eval_PRM Recall": 0.7570093457943925,
+      "eval_PRM Specificty": 0.0,
+      "eval_loss": 1.1531250476837158,
+      "eval_runtime": 5.2389,
+      "eval_samples_per_second": 5.726,
+      "eval_steps_per_second": 0.191,
+      "step": 30
+    },
+    {
+      "epoch": 0.01226751088246933,
+      "grad_norm": 1.7533835915646967,
+      "learning_rate": 1.225296442687747e-05,
+      "loss": 0.3236,
+      "step": 31
+    },
+    {
+      "epoch": 0.012663237039968342,
+      "grad_norm": 4.8618928869998665,
+      "learning_rate": 1.2648221343873517e-05,
+      "loss": 0.6709,
+      "step": 32
+    },
+    {
+      "epoch": 0.013058963197467353,
+      "grad_norm": 5.833727450640927,
+      "learning_rate": 1.3043478260869566e-05,
+      "loss": 0.7535,
+      "step": 33
+    },
+    {
+      "epoch": 0.013454689354966362,
+      "grad_norm": 5.013599184272929,
+      "learning_rate": 1.3438735177865614e-05,
+      "loss": 0.5645,
+      "step": 34
+    },
+    {
+      "epoch": 0.013850415512465374,
+      "grad_norm": 3.841617194736358,
+      "learning_rate": 1.383399209486166e-05,
+      "loss": 0.4477,
+      "step": 35
+    },
+    {
+      "epoch": 0.013850415512465374,
+      "eval_PRM Accuracy": 0.7222222222222222,
+      "eval_PRM F1": 0.8387096774193549,
+      "eval_PRM F1 AUC": 0.4252336448598131,
+      "eval_PRM F1 AUC (fixed)": 0.4899163797343827,
+      "eval_PRM F1 Neg": 0.0,
+      "eval_PRM NPV": 0.0,
+      "eval_PRM Precision": 0.8272727272727273,
+      "eval_PRM Recall": 0.8504672897196262,
+      "eval_PRM Specificty": 0.0,
+      "eval_loss": 0.8377603888511658,
+      "eval_runtime": 5.1008,
+      "eval_samples_per_second": 5.881,
+      "eval_steps_per_second": 0.196,
+      "step": 35
+    },
+    {
+      "epoch": 0.014246141669964385,
+      "grad_norm": 2.9464506470041365,
+      "learning_rate": 1.4229249011857709e-05,
+      "loss": 0.3883,
+      "step": 36
+    },
+    {
+      "epoch": 0.014641867827463396,
+      "grad_norm": 2.3395513500376905,
+      "learning_rate": 1.4624505928853754e-05,
+      "loss": 0.3986,
+      "step": 37
+    },
+    {
+      "epoch": 0.015037593984962405,
+      "grad_norm": 1.4167566579602888,
+      "learning_rate": 1.5019762845849802e-05,
+      "loss": 0.3546,
+      "step": 38
+    },
+    {
+      "epoch": 0.015433320142461416,
+      "grad_norm": 2.0367146336429593,
+      "learning_rate": 1.541501976284585e-05,
+      "loss": 0.478,
+      "step": 39
+    },
+    {
+      "epoch": 0.015829046299960427,
+      "grad_norm": 4.047508246077786,
+      "learning_rate": 1.58102766798419e-05,
+      "loss": 0.3996,
+      "step": 40
+    },
+    {
+      "epoch": 0.015829046299960427,
+      "eval_PRM Accuracy": 0.6349206349206349,
+      "eval_PRM F1": 0.7745098039215687,
+      "eval_PRM F1 AUC": 0.3954746679783571,
+      "eval_PRM F1 AUC (fixed)": 0.5243482538121004,
+      "eval_PRM F1 Neg": 0.041666666666666664,
+      "eval_PRM NPV": 0.034482758620689655,
+      "eval_PRM Precision": 0.8144329896907216,
+      "eval_PRM Recall": 0.7383177570093458,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.7927083373069763,
+      "eval_runtime": 5.3924,
+      "eval_samples_per_second": 5.563,
+      "eval_steps_per_second": 0.185,
+      "step": 40
+    },
+    {
+      "epoch": 0.016224772457459437,
+      "grad_norm": 3.3239278410198474,
+      "learning_rate": 1.6205533596837947e-05,
+      "loss": 0.5471,
+      "step": 41
+    },
+    {
+      "epoch": 0.01662049861495845,
+      "grad_norm": 4.355448382606326,
+      "learning_rate": 1.6600790513833996e-05,
+      "loss": 0.4165,
+      "step": 42
+    },
+    {
+      "epoch": 0.01701622477245746,
+      "grad_norm": 4.730438132075204,
+      "learning_rate": 1.699604743083004e-05,
+      "loss": 0.4449,
+      "step": 43
+    },
+    {
+      "epoch": 0.01741195092995647,
+      "grad_norm": 2.466837950012606,
+      "learning_rate": 1.739130434782609e-05,
+      "loss": 0.4586,
+      "step": 44
+    },
+    {
+      "epoch": 0.01780767708745548,
+      "grad_norm": 2.3655525165338935,
+      "learning_rate": 1.7786561264822134e-05,
+      "loss": 0.3229,
+      "step": 45
+    },
+    {
+      "epoch": 0.01780767708745548,
+      "eval_PRM Accuracy": 0.7222222222222222,
+      "eval_PRM F1": 0.8372093023255814,
+      "eval_PRM F1 AUC": 0.44687653713723563,
+      "eval_PRM F1 AUC (fixed)": 0.5553369404820462,
+      "eval_PRM F1 Neg": 0.05405405405405406,
+      "eval_PRM NPV": 0.05555555555555555,
+      "eval_PRM Precision": 0.8333333333333334,
+      "eval_PRM Recall": 0.8411214953271028,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.6333333253860474,
+      "eval_runtime": 5.1383,
+      "eval_samples_per_second": 5.838,
+      "eval_steps_per_second": 0.195,
+      "step": 45
+    },
+    {
+      "epoch": 0.01820340324495449,
+      "grad_norm": 1.9000119738790562,
+      "learning_rate": 1.8181818181818182e-05,
+      "loss": 0.2971,
+      "step": 46
+    },
+    {
+      "epoch": 0.018599129402453504,
+      "grad_norm": 1.0739447125176689,
+      "learning_rate": 1.857707509881423e-05,
+      "loss": 0.3701,
+      "step": 47
+    },
+    {
+      "epoch": 0.018994855559952513,
+      "grad_norm": 1.0930446768487763,
+      "learning_rate": 1.8972332015810275e-05,
+      "loss": 0.2685,
+      "step": 48
+    },
+    {
+      "epoch": 0.019390581717451522,
+      "grad_norm": 2.286243908202953,
+      "learning_rate": 1.9367588932806324e-05,
+      "loss": 0.4901,
+      "step": 49
+    },
+    {
+      "epoch": 0.019786307874950535,
+      "grad_norm": 1.820785279394848,
+      "learning_rate": 1.9762845849802372e-05,
+      "loss": 0.3174,
+      "step": 50
+    },
+    {
+      "epoch": 0.019786307874950535,
+      "eval_PRM Accuracy": 0.8333333333333334,
+      "eval_PRM F1": 0.9090909090909091,
+      "eval_PRM F1 AUC": 0.49065420560747663,
+      "eval_PRM F1 AUC (fixed)": 0.6089522872602066,
+      "eval_PRM F1 Neg": 0.0,
+      "eval_PRM NPV": 0.0,
+      "eval_PRM Precision": 0.8467741935483871,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.0,
+      "eval_loss": 0.5188801884651184,
+      "eval_runtime": 5.1873,
+      "eval_samples_per_second": 5.783,
+      "eval_steps_per_second": 0.193,
+      "step": 50
+    },
+    {
+      "epoch": 0.020182034032449545,
+      "grad_norm": 2.116954246335264,
+      "learning_rate": 2.015810276679842e-05,
+      "loss": 0.3754,
+      "step": 51
+    },
+    {
+      "epoch": 0.020577760189948554,
+      "grad_norm": 1.5562673959829776,
+      "learning_rate": 2.055335968379447e-05,
+      "loss": 0.3152,
+      "step": 52
+    },
+    {
+      "epoch": 0.020973486347447567,
+      "grad_norm": 2.0021756500849315,
+      "learning_rate": 2.0948616600790517e-05,
+      "loss": 0.3499,
+      "step": 53
+    },
+    {
+      "epoch": 0.021369212504946576,
+      "grad_norm": 1.3364495175327136,
+      "learning_rate": 2.1343873517786562e-05,
+      "loss": 0.387,
+      "step": 54
+    },
+    {
+      "epoch": 0.02176493866244559,
+      "grad_norm": 1.570371776127056,
+      "learning_rate": 2.173913043478261e-05,
+      "loss": 0.3652,
+      "step": 55
+    },
+    {
+      "epoch": 0.02176493866244559,
+      "eval_PRM Accuracy": 0.8412698412698413,
+      "eval_PRM F1": 0.9130434782608695,
+      "eval_PRM F1 AUC": 0.5169699950811608,
+      "eval_PRM F1 AUC (fixed)": 0.6328086571569109,
+      "eval_PRM F1 Neg": 0.09090909090909091,
+      "eval_PRM NPV": 0.3333333333333333,
+      "eval_PRM Precision": 0.8536585365853658,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.4619791805744171,
+      "eval_runtime": 5.1608,
+      "eval_samples_per_second": 5.813,
+      "eval_steps_per_second": 0.194,
+      "step": 55
+    },
+    {
+      "epoch": 0.0221606648199446,
+      "grad_norm": 0.7617945507743419,
+      "learning_rate": 2.213438735177866e-05,
+      "loss": 0.3217,
+      "step": 56
+    },
+    {
+      "epoch": 0.022556390977443608,
+      "grad_norm": 1.524009595673118,
+      "learning_rate": 2.2529644268774703e-05,
+      "loss": 0.3338,
+      "step": 57
+    },
+    {
+      "epoch": 0.02295211713494262,
+      "grad_norm": 1.3376491978579645,
+      "learning_rate": 2.2924901185770752e-05,
+      "loss": 0.352,
+      "step": 58
+    },
+    {
+      "epoch": 0.02334784329244163,
+      "grad_norm": 1.2102881704805017,
+      "learning_rate": 2.33201581027668e-05,
+      "loss": 0.3458,
+      "step": 59
+    },
+    {
+      "epoch": 0.02374356944994064,
+      "grad_norm": 1.3015321149253491,
+      "learning_rate": 2.3715415019762845e-05,
+      "loss": 0.4152,
+      "step": 60
+    },
+    {
+      "epoch": 0.02374356944994064,
+      "eval_PRM Accuracy": 0.8412698412698413,
+      "eval_PRM F1": 0.9130434782608695,
+      "eval_PRM F1 AUC": 0.5169699950811608,
+      "eval_PRM F1 AUC (fixed)": 0.6519921298573536,
+      "eval_PRM F1 Neg": 0.09090909090909091,
+      "eval_PRM NPV": 0.3333333333333333,
+      "eval_PRM Precision": 0.8536585365853658,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.4494791626930237,
+      "eval_runtime": 5.1859,
+      "eval_samples_per_second": 5.785,
+      "eval_steps_per_second": 0.193,
+      "step": 60
+    },
+    {
+      "epoch": 0.024139295607439652,
+      "grad_norm": 2.870493246763942,
+      "learning_rate": 2.4110671936758893e-05,
+      "loss": 0.3011,
+      "step": 61
+    },
+    {
+      "epoch": 0.02453502176493866,
+      "grad_norm": 1.8638626392658066,
+      "learning_rate": 2.450592885375494e-05,
+      "loss": 0.3317,
+      "step": 62
+    },
+    {
+      "epoch": 0.024930747922437674,
+      "grad_norm": 0.8756457676198278,
+      "learning_rate": 2.490118577075099e-05,
+      "loss": 0.3231,
+      "step": 63
+    },
+    {
+      "epoch": 0.025326474079936684,
+      "grad_norm": 1.089305270497872,
+      "learning_rate": 2.5296442687747035e-05,
+      "loss": 0.3354,
+      "step": 64
+    },
+    {
+      "epoch": 0.025722200237435693,
+      "grad_norm": 2.5979890390130764,
+      "learning_rate": 2.5691699604743087e-05,
+      "loss": 0.4165,
+      "step": 65
+    },
+    {
+      "epoch": 0.025722200237435693,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9224137931034483,
+      "eval_PRM F1 AUC": 0.5263157894736843,
+      "eval_PRM F1 AUC (fixed)": 0.6874077717658633,
+      "eval_PRM F1 Neg": 0.1,
+      "eval_PRM NPV": 1.0,
+      "eval_PRM Precision": 0.856,
+      "eval_PRM Recall": 1.0,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.4258463680744171,
+      "eval_runtime": 5.0916,
+      "eval_samples_per_second": 5.892,
+      "eval_steps_per_second": 0.196,
+      "step": 65
+    },
+    {
+      "epoch": 0.026117926394934706,
+      "grad_norm": 2.2676484289457775,
+      "learning_rate": 2.608695652173913e-05,
+      "loss": 0.3829,
+      "step": 66
+    },
+    {
+      "epoch": 0.026513652552433715,
+      "grad_norm": 1.480591503241869,
+      "learning_rate": 2.6482213438735183e-05,
+      "loss": 0.3344,
+      "step": 67
+    },
+    {
+      "epoch": 0.026909378709932725,
+      "grad_norm": 1.9032369881350584,
+      "learning_rate": 2.6877470355731228e-05,
+      "loss": 0.4024,
+      "step": 68
+    },
+    {
+      "epoch": 0.027305104867431738,
+      "grad_norm": 0.7853162517569824,
+      "learning_rate": 2.7272727272727273e-05,
+      "loss": 0.2465,
+      "step": 69
+    },
+    {
+      "epoch": 0.027700831024930747,
+      "grad_norm": 0.9899304740153296,
+      "learning_rate": 2.766798418972332e-05,
+      "loss": 0.2842,
+      "step": 70
+    },
+    {
+      "epoch": 0.027700831024930747,
+      "eval_PRM Accuracy": 0.8492063492063492,
+      "eval_PRM F1": 0.9177489177489178,
+      "eval_PRM F1 AUC": 0.5216428922774226,
+      "eval_PRM F1 AUC (fixed)": 0.691342843089031,
+      "eval_PRM F1 Neg": 0.09523809523809523,
+      "eval_PRM NPV": 0.5,
+      "eval_PRM Precision": 0.8548387096774194,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.41523438692092896,
+      "eval_runtime": 5.2108,
+      "eval_samples_per_second": 5.757,
+      "eval_steps_per_second": 0.192,
+      "step": 70
+    },
+    {
+      "epoch": 0.02809655718242976,
+      "grad_norm": 1.0455841735483649,
+      "learning_rate": 2.8063241106719366e-05,
+      "loss": 0.3616,
+      "step": 71
+    },
+    {
+      "epoch": 0.02849228333992877,
+      "grad_norm": 1.3692130591804181,
+      "learning_rate": 2.8458498023715418e-05,
+      "loss": 0.3801,
+      "step": 72
+    },
+    {
+      "epoch": 0.02888800949742778,
+      "grad_norm": 2.6586144803573806,
+      "learning_rate": 2.8853754940711463e-05,
+      "loss": 0.3188,
+      "step": 73
+    },
+    {
+      "epoch": 0.02928373565492679,
+      "grad_norm": 1.7817113798850117,
+      "learning_rate": 2.9249011857707508e-05,
+      "loss": 0.4109,
+      "step": 74
+    },
+    {
+      "epoch": 0.0296794618124258,
+      "grad_norm": 3.2318845283795654,
+      "learning_rate": 2.964426877470356e-05,
+      "loss": 0.3106,
+      "step": 75
+    },
+    {
+      "epoch": 0.0296794618124258,
+      "eval_PRM Accuracy": 0.8412698412698413,
+      "eval_PRM F1": 0.9130434782608695,
+      "eval_PRM F1 AUC": 0.5169699950811608,
+      "eval_PRM F1 AUC (fixed)": 0.6974913920314806,
+      "eval_PRM F1 Neg": 0.09090909090909091,
+      "eval_PRM NPV": 0.3333333333333333,
+      "eval_PRM Precision": 0.8536585365853658,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.4033854305744171,
+      "eval_runtime": 5.2736,
+      "eval_samples_per_second": 5.689,
+      "eval_steps_per_second": 0.19,
+      "step": 75
+    },
+    {
+      "epoch": 0.03007518796992481,
+      "grad_norm": 1.7909426411134697,
+      "learning_rate": 3.0039525691699605e-05,
+      "loss": 0.3859,
+      "step": 76
+    },
+    {
+      "epoch": 0.030470914127423823,
+      "grad_norm": 1.3774726761743339,
+      "learning_rate": 3.0434782608695656e-05,
+      "loss": 0.2687,
+      "step": 77
+    },
+    {
+      "epoch": 0.030866640284922833,
+      "grad_norm": 0.9814212497780863,
+      "learning_rate": 3.08300395256917e-05,
+      "loss": 0.2458,
+      "step": 78
+    },
+    {
+      "epoch": 0.03126236644242184,
+      "grad_norm": 2.711898808984566,
+      "learning_rate": 3.1225296442687746e-05,
+      "loss": 0.3655,
+      "step": 79
+    },
+    {
+      "epoch": 0.031658092599920855,
+      "grad_norm": 2.180725341318851,
+      "learning_rate": 3.16205533596838e-05,
+      "loss": 0.294,
+      "step": 80
+    },
+    {
+      "epoch": 0.031658092599920855,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9224137931034483,
+      "eval_PRM F1 AUC": 0.5263157894736843,
+      "eval_PRM F1 AUC (fixed)": 0.7120019675356615,
+      "eval_PRM F1 Neg": 0.1,
+      "eval_PRM NPV": 1.0,
+      "eval_PRM Precision": 0.856,
+      "eval_PRM Recall": 1.0,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.42337238788604736,
+      "eval_runtime": 5.2813,
+      "eval_samples_per_second": 5.68,
+      "eval_steps_per_second": 0.189,
+      "step": 80
+    },
+    {
+      "epoch": 0.03205381875741987,
+      "grad_norm": 1.730652370020414,
+      "learning_rate": 3.201581027667984e-05,
+      "loss": 0.2952,
+      "step": 81
+    },
+    {
+      "epoch": 0.032449544914918874,
+      "grad_norm": 2.9913050569584634,
+      "learning_rate": 3.2411067193675894e-05,
+      "loss": 0.4053,
+      "step": 82
+    },
+    {
+      "epoch": 0.032845271072417886,
+      "grad_norm": 1.0609369534237518,
+      "learning_rate": 3.280632411067194e-05,
+      "loss": 0.237,
+      "step": 83
+    },
+    {
+      "epoch": 0.0332409972299169,
+      "grad_norm": 1.504838778747724,
+      "learning_rate": 3.320158102766799e-05,
+      "loss": 0.3227,
+      "step": 84
+    },
+    {
+      "epoch": 0.033636723387415905,
+      "grad_norm": 1.5043466193721529,
+      "learning_rate": 3.3596837944664036e-05,
+      "loss": 0.3158,
+      "step": 85
+    },
+    {
+      "epoch": 0.033636723387415905,
+      "eval_PRM Accuracy": 0.8492063492063492,
+      "eval_PRM F1": 0.9177489177489178,
+      "eval_PRM F1 AUC": 0.5216428922774226,
+      "eval_PRM F1 AUC (fixed)": 0.7274963108706344,
+      "eval_PRM F1 Neg": 0.09523809523809523,
+      "eval_PRM NPV": 0.5,
+      "eval_PRM Precision": 0.8548387096774194,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.3841145932674408,
+      "eval_runtime": 5.1431,
+      "eval_samples_per_second": 5.833,
+      "eval_steps_per_second": 0.194,
+      "step": 85
+    },
+    {
+      "epoch": 0.03403244954491492,
+      "grad_norm": 3.929722829050404,
+      "learning_rate": 3.399209486166008e-05,
+      "loss": 0.2845,
+      "step": 86
+    },
+    {
+      "epoch": 0.03442817570241393,
+      "grad_norm": 3.103114457537566,
+      "learning_rate": 3.438735177865613e-05,
+      "loss": 0.3327,
+      "step": 87
+    },
+    {
+      "epoch": 0.03482390185991294,
+      "grad_norm": 2.6349915618562707,
+      "learning_rate": 3.478260869565218e-05,
+      "loss": 0.2698,
+      "step": 88
+    },
+    {
+      "epoch": 0.03521962801741195,
+      "grad_norm": 1.7545206935775584,
+      "learning_rate": 3.517786561264822e-05,
+      "loss": 0.2223,
+      "step": 89
+    },
+    {
+      "epoch": 0.03561535417491096,
+      "grad_norm": 3.266788647502398,
+      "learning_rate": 3.557312252964427e-05,
+      "loss": 0.4256,
+      "step": 90
+    },
+    {
+      "epoch": 0.03561535417491096,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9224137931034483,
+      "eval_PRM F1 AUC": 0.5263157894736843,
+      "eval_PRM F1 AUC (fixed)": 0.7356123954746678,
+      "eval_PRM F1 Neg": 0.1,
+      "eval_PRM NPV": 1.0,
+      "eval_PRM Precision": 0.856,
+      "eval_PRM Recall": 1.0,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.42851561307907104,
+      "eval_runtime": 4.9755,
+      "eval_samples_per_second": 6.03,
+      "eval_steps_per_second": 0.201,
+      "step": 90
+    },
+    {
+      "epoch": 0.036011080332409975,
+      "grad_norm": 1.027944848557743,
+      "learning_rate": 3.596837944664031e-05,
+      "loss": 0.1986,
+      "step": 91
+    },
+    {
+      "epoch": 0.03640680648990898,
+      "grad_norm": 4.277804218438809,
+      "learning_rate": 3.6363636363636364e-05,
+      "loss": 0.4712,
+      "step": 92
+    },
+    {
+      "epoch": 0.036802532647407994,
+      "grad_norm": 2.635565838869095,
+      "learning_rate": 3.675889328063241e-05,
+      "loss": 0.3304,
+      "step": 93
+    },
+    {
+      "epoch": 0.03719825880490701,
+      "grad_norm": 2.8178407973377277,
+      "learning_rate": 3.715415019762846e-05,
+      "loss": 0.3158,
+      "step": 94
+    },
+    {
+      "epoch": 0.03759398496240601,
+      "grad_norm": 0.8948854518829017,
+      "learning_rate": 3.7549407114624506e-05,
+      "loss": 0.1175,
+      "step": 95
+    },
+    {
+      "epoch": 0.03759398496240601,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9224137931034483,
+      "eval_PRM F1 AUC": 0.5263157894736843,
+      "eval_PRM F1 AUC (fixed)": 0.7385636989670438,
+      "eval_PRM F1 Neg": 0.1,
+      "eval_PRM NPV": 1.0,
+      "eval_PRM Precision": 0.856,
+      "eval_PRM Recall": 1.0,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.3970703184604645,
+      "eval_runtime": 5.0611,
+      "eval_samples_per_second": 5.928,
+      "eval_steps_per_second": 0.198,
+      "step": 95
+    },
+    {
+      "epoch": 0.037989711119905026,
+      "grad_norm": 1.5523517867148884,
+      "learning_rate": 3.794466403162055e-05,
+      "loss": 0.2827,
+      "step": 96
+    },
+    {
+      "epoch": 0.03838543727740404,
+      "grad_norm": 1.2316878136884037,
+      "learning_rate": 3.83399209486166e-05,
+      "loss": 0.2935,
+      "step": 97
+    },
+    {
+      "epoch": 0.038781163434903045,
+      "grad_norm": 1.6115305122370436,
+      "learning_rate": 3.873517786561265e-05,
+      "loss": 0.1908,
+      "step": 98
+    },
+    {
+      "epoch": 0.03917688959240206,
+      "grad_norm": 1.318558125157373,
+      "learning_rate": 3.91304347826087e-05,
+      "loss": 0.291,
+      "step": 99
+    },
+    {
+      "epoch": 0.03957261574990107,
+      "grad_norm": 2.6638735395301287,
+      "learning_rate": 3.9525691699604744e-05,
+      "loss": 0.2182,
+      "step": 100
+    },
+    {
+      "epoch": 0.03957261574990107,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9217391304347826,
+      "eval_PRM F1 AUC": 0.5479586817511067,
+      "eval_PRM F1 AUC (fixed)": 0.7515986227250369,
+      "eval_PRM F1 Neg": 0.18181818181818182,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8617886178861789,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.38951823115348816,
+      "eval_runtime": 5.1666,
+      "eval_samples_per_second": 5.807,
+      "eval_steps_per_second": 0.194,
+      "step": 100
+    },
+    {
+      "epoch": 0.039968341907400076,
+      "grad_norm": 0.9643087620304042,
+      "learning_rate": 3.9920948616600796e-05,
+      "loss": 0.1804,
+      "step": 101
+    },
+    {
+      "epoch": 0.04036406806489909,
+      "grad_norm": 1.613929197330765,
+      "learning_rate": 4.031620553359684e-05,
+      "loss": 0.2626,
+      "step": 102
+    },
+    {
+      "epoch": 0.0407597942223981,
+      "grad_norm": 2.955399791178141,
+      "learning_rate": 4.0711462450592886e-05,
+      "loss": 0.3522,
+      "step": 103
+    },
+    {
+      "epoch": 0.04115552037989711,
+      "grad_norm": 1.6852133078387364,
+      "learning_rate": 4.110671936758894e-05,
+      "loss": 0.2877,
+      "step": 104
+    },
+    {
+      "epoch": 0.04155124653739612,
+      "grad_norm": 1.7499190920574095,
+      "learning_rate": 4.150197628458498e-05,
+      "loss": 0.2952,
+      "step": 105
+    },
+    {
+      "epoch": 0.04155124653739612,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9217391304347826,
+      "eval_PRM F1 AUC": 0.5479586817511067,
+      "eval_PRM F1 AUC (fixed)": 0.7803738317757009,
+      "eval_PRM F1 Neg": 0.18181818181818182,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8617886178861789,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.3997395932674408,
+      "eval_runtime": 5.0138,
+      "eval_samples_per_second": 5.983,
+      "eval_steps_per_second": 0.199,
+      "step": 105
+    },
+    {
+      "epoch": 0.041946972694895134,
+      "grad_norm": 2.261535997190661,
+      "learning_rate": 4.1897233201581034e-05,
+      "loss": 0.3005,
+      "step": 106
+    },
+    {
+      "epoch": 0.042342698852394146,
+      "grad_norm": 2.451377333545837,
+      "learning_rate": 4.229249011857708e-05,
+      "loss": 0.2937,
+      "step": 107
+    },
+    {
+      "epoch": 0.04273842500989315,
+      "grad_norm": 1.6329569247243219,
+      "learning_rate": 4.2687747035573124e-05,
+      "loss": 0.2243,
+      "step": 108
+    },
+    {
+      "epoch": 0.043134151167392165,
+      "grad_norm": 1.3271824854083534,
+      "learning_rate": 4.3083003952569175e-05,
+      "loss": 0.2728,
+      "step": 109
+    },
+    {
+      "epoch": 0.04352987732489118,
+      "grad_norm": 1.7152258452977818,
+      "learning_rate": 4.347826086956522e-05,
+      "loss": 0.3356,
+      "step": 110
+    },
+    {
+      "epoch": 0.04352987732489118,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9217391304347826,
+      "eval_PRM F1 AUC": 0.5479586817511067,
+      "eval_PRM F1 AUC (fixed)": 0.794638465322184,
+      "eval_PRM F1 Neg": 0.18181818181818182,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8617886178861789,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.4004557430744171,
+      "eval_runtime": 5.2442,
+      "eval_samples_per_second": 5.721,
+      "eval_steps_per_second": 0.191,
+      "step": 110
+    },
+    {
+      "epoch": 0.043925603482390184,
+      "grad_norm": 1.699776281060092,
+      "learning_rate": 4.387351778656127e-05,
+      "loss": 0.2784,
+      "step": 111
+    },
+    {
+      "epoch": 0.0443213296398892,
+      "grad_norm": 1.4948043135883748,
+      "learning_rate": 4.426877470355732e-05,
+      "loss": 0.2808,
+      "step": 112
+    },
+    {
+      "epoch": 0.04471705579738821,
+      "grad_norm": 1.9758117190865245,
+      "learning_rate": 4.466403162055336e-05,
+      "loss": 0.3023,
+      "step": 113
+    },
+    {
+      "epoch": 0.045112781954887216,
+      "grad_norm": 3.454023285461921,
+      "learning_rate": 4.505928853754941e-05,
+      "loss": 0.2808,
+      "step": 114
+    },
+    {
+      "epoch": 0.04550850811238623,
+      "grad_norm": 1.9989238541236272,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 0.1921,
+      "step": 115
+    },
+    {
+      "epoch": 0.04550850811238623,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9217391304347826,
+      "eval_PRM F1 AUC": 0.5479586817511067,
+      "eval_PRM F1 AUC (fixed)": 0.7889818002951302,
+      "eval_PRM F1 Neg": 0.18181818181818182,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8617886178861789,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.3909505307674408,
+      "eval_runtime": 5.1055,
+      "eval_samples_per_second": 5.876,
+      "eval_steps_per_second": 0.196,
+      "step": 115
+    },
+    {
+      "epoch": 0.04590423426988524,
+      "grad_norm": 1.096742114098721,
+      "learning_rate": 4.5849802371541504e-05,
+      "loss": 0.2413,
+      "step": 116
+    },
+    {
+      "epoch": 0.04629996042738425,
+      "grad_norm": 2.2713661239067036,
+      "learning_rate": 4.624505928853755e-05,
+      "loss": 0.3195,
+      "step": 117
+    },
+    {
+      "epoch": 0.04669568658488326,
+      "grad_norm": 1.5536702621287604,
+      "learning_rate": 4.66403162055336e-05,
+      "loss": 0.2578,
+      "step": 118
+    },
+    {
+      "epoch": 0.04709141274238227,
+      "grad_norm": 1.0218391497773849,
+      "learning_rate": 4.7035573122529645e-05,
+      "loss": 0.209,
+      "step": 119
+    },
+    {
+      "epoch": 0.04748713889988128,
+      "grad_norm": 1.5213079067906112,
+      "learning_rate": 4.743083003952569e-05,
+      "loss": 0.2915,
+      "step": 120
+    },
+    {
+      "epoch": 0.04748713889988128,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9203539823008849,
+      "eval_PRM F1 AUC": 0.5912444663059518,
+      "eval_PRM F1 AUC (fixed)": 0.7953762911952778,
+      "eval_PRM F1 Neg": 0.3076923076923077,
+      "eval_PRM NPV": 0.5714285714285714,
+      "eval_PRM Precision": 0.8739495798319328,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.35664063692092896,
+      "eval_runtime": 5.182,
+      "eval_samples_per_second": 5.789,
+      "eval_steps_per_second": 0.193,
+      "step": 120
+    },
+    {
+      "epoch": 0.04788286505738029,
+      "grad_norm": 2.125450802219854,
+      "learning_rate": 4.782608695652174e-05,
+      "loss": 0.3243,
+      "step": 121
+    },
+    {
+      "epoch": 0.048278591214879304,
+      "grad_norm": 1.6091177857858354,
+      "learning_rate": 4.822134387351779e-05,
+      "loss": 0.2841,
+      "step": 122
+    },
+    {
+      "epoch": 0.04867431737237832,
+      "grad_norm": 2.8232863051515986,
+      "learning_rate": 4.861660079051384e-05,
+      "loss": 0.3283,
+      "step": 123
+    },
+    {
+      "epoch": 0.04907004352987732,
+      "grad_norm": 1.3279890401688152,
+      "learning_rate": 4.901185770750988e-05,
+      "loss": 0.2414,
+      "step": 124
+    },
+    {
+      "epoch": 0.049465769687376336,
+      "grad_norm": 1.4678986924745383,
+      "learning_rate": 4.940711462450593e-05,
+      "loss": 0.2589,
+      "step": 125
+    },
+    {
+      "epoch": 0.049465769687376336,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9224137931034483,
+      "eval_PRM F1 AUC": 0.5263157894736843,
+      "eval_PRM F1 AUC (fixed)": 0.8212001967535659,
+      "eval_PRM F1 Neg": 0.1,
+      "eval_PRM NPV": 1.0,
+      "eval_PRM Precision": 0.856,
+      "eval_PRM Recall": 1.0,
+      "eval_PRM Specificty": 0.05263157894736842,
+      "eval_loss": 0.4049479067325592,
+      "eval_runtime": 5.4146,
+      "eval_samples_per_second": 5.541,
+      "eval_steps_per_second": 0.185,
+      "step": 125
+    },
+    {
+      "epoch": 0.04986149584487535,
+      "grad_norm": 1.1559564295941434,
+      "learning_rate": 4.980237154150198e-05,
+      "loss": 0.2222,
+      "step": 126
+    },
+    {
+      "epoch": 0.050257222002374355,
+      "grad_norm": 1.9597752126020416,
+      "learning_rate": 5.0197628458498025e-05,
+      "loss": 0.2693,
+      "step": 127
+    },
+    {
+      "epoch": 0.05065294815987337,
+      "grad_norm": 1.3689526731616795,
+      "learning_rate": 5.059288537549407e-05,
+      "loss": 0.2213,
+      "step": 128
+    },
+    {
+      "epoch": 0.05104867431737238,
+      "grad_norm": 1.1014604418337837,
+      "learning_rate": 5.098814229249013e-05,
+      "loss": 0.255,
+      "step": 129
+    },
+    {
+      "epoch": 0.051444400474871387,
+      "grad_norm": 1.1479733100742033,
+      "learning_rate": 5.138339920948617e-05,
+      "loss": 0.204,
+      "step": 130
+    },
+    {
+      "epoch": 0.051444400474871387,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9251101321585903,
+      "eval_PRM F1 AUC": 0.5959173635022135,
+      "eval_PRM F1 AUC (fixed)": 0.8175110673880963,
+      "eval_PRM F1 Neg": 0.32,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.875,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.34192708134651184,
+      "eval_runtime": 5.1073,
+      "eval_samples_per_second": 5.874,
+      "eval_steps_per_second": 0.196,
+      "step": 130
+    },
+    {
+      "epoch": 0.0518401266323704,
+      "grad_norm": 1.4006703561222118,
+      "learning_rate": 5.177865612648222e-05,
+      "loss": 0.2168,
+      "step": 131
+    },
+    {
+      "epoch": 0.05223585278986941,
+      "grad_norm": 1.4684150660483872,
+      "learning_rate": 5.217391304347826e-05,
+      "loss": 0.243,
+      "step": 132
+    },
+    {
+      "epoch": 0.05263157894736842,
+      "grad_norm": 1.5573221708921128,
+      "learning_rate": 5.256916996047431e-05,
+      "loss": 0.1855,
+      "step": 133
+    },
+    {
+      "epoch": 0.05302730510486743,
+      "grad_norm": 1.1398886453802985,
+      "learning_rate": 5.2964426877470366e-05,
+      "loss": 0.2977,
+      "step": 134
+    },
+    {
+      "epoch": 0.053423031262366444,
+      "grad_norm": 2.9618738605058224,
+      "learning_rate": 5.335968379446641e-05,
+      "loss": 0.2886,
+      "step": 135
+    },
+    {
+      "epoch": 0.053423031262366444,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9217391304347826,
+      "eval_PRM F1 AUC": 0.5479586817511067,
+      "eval_PRM F1 AUC (fixed)": 0.8123462862764388,
+      "eval_PRM F1 Neg": 0.18181818181818182,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8617886178861789,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.4007161557674408,
+      "eval_runtime": 5.5442,
+      "eval_samples_per_second": 5.411,
+      "eval_steps_per_second": 0.18,
+      "step": 135
+    },
+    {
+      "epoch": 0.05381875741986545,
+      "grad_norm": 1.565540818573565,
+      "learning_rate": 5.3754940711462456e-05,
+      "loss": 0.1988,
+      "step": 136
+    },
+    {
+      "epoch": 0.05421448357736446,
+      "grad_norm": 1.495014957094978,
+      "learning_rate": 5.41501976284585e-05,
+      "loss": 0.2204,
+      "step": 137
+    },
+    {
+      "epoch": 0.054610209734863475,
+      "grad_norm": 1.2248016105245465,
+      "learning_rate": 5.4545454545454546e-05,
+      "loss": 0.2326,
+      "step": 138
+    },
+    {
+      "epoch": 0.05500593589236249,
+      "grad_norm": 1.7373926239107826,
+      "learning_rate": 5.49407114624506e-05,
+      "loss": 0.2783,
+      "step": 139
+    },
+    {
+      "epoch": 0.055401662049861494,
+      "grad_norm": 1.4994899705517453,
+      "learning_rate": 5.533596837944664e-05,
+      "loss": 0.2604,
+      "step": 140
+    },
+    {
+      "epoch": 0.055401662049861494,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9237668161434978,
+      "eval_PRM F1 AUC": 0.6392031480570586,
+      "eval_PRM F1 AUC (fixed)": 0.82316773241515,
+      "eval_PRM F1 Neg": 0.41379310344827586,
+      "eval_PRM NPV": 0.6,
+      "eval_PRM Precision": 0.8879310344827587,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3427734375,
+      "eval_runtime": 5.1773,
+      "eval_samples_per_second": 5.795,
+      "eval_steps_per_second": 0.193,
+      "step": 140
+    },
+    {
+      "epoch": 0.05579738820736051,
+      "grad_norm": 2.303864895570084,
+      "learning_rate": 5.573122529644269e-05,
+      "loss": 0.2971,
+      "step": 141
+    },
+    {
+      "epoch": 0.05619311436485952,
+      "grad_norm": 2.288316867147724,
+      "learning_rate": 5.612648221343873e-05,
+      "loss": 0.28,
+      "step": 142
+    },
+    {
+      "epoch": 0.056588840522358526,
+      "grad_norm": 2.245095025736702,
+      "learning_rate": 5.652173913043478e-05,
+      "loss": 0.2554,
+      "step": 143
+    },
+    {
+      "epoch": 0.05698456667985754,
+      "grad_norm": 1.2883463466689713,
+      "learning_rate": 5.6916996047430836e-05,
+      "loss": 0.2144,
+      "step": 144
+    },
+    {
+      "epoch": 0.05738029283735655,
+      "grad_norm": 1.4597842467629922,
+      "learning_rate": 5.731225296442688e-05,
+      "loss": 0.2017,
+      "step": 145
+    },
+    {
+      "epoch": 0.05738029283735655,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9217391304347826,
+      "eval_PRM F1 AUC": 0.5479586817511067,
+      "eval_PRM F1 AUC (fixed)": 0.8315297589768814,
+      "eval_PRM F1 Neg": 0.18181818181818182,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8617886178861789,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.4089192748069763,
+      "eval_runtime": 5.1596,
+      "eval_samples_per_second": 5.814,
+      "eval_steps_per_second": 0.194,
+      "step": 145
+    },
+    {
+      "epoch": 0.05777601899485556,
+      "grad_norm": 1.233341524177808,
+      "learning_rate": 5.7707509881422926e-05,
+      "loss": 0.1829,
+      "step": 146
+    },
+    {
+      "epoch": 0.05817174515235457,
+      "grad_norm": 1.9138426132930946,
+      "learning_rate": 5.810276679841897e-05,
+      "loss": 0.2902,
+      "step": 147
+    },
+    {
+      "epoch": 0.05856747130985358,
+      "grad_norm": 0.9978418885286504,
+      "learning_rate": 5.8498023715415016e-05,
+      "loss": 0.1895,
+      "step": 148
+    },
+    {
+      "epoch": 0.05896319746735259,
+      "grad_norm": 2.1072103709598236,
+      "learning_rate": 5.8893280632411074e-05,
+      "loss": 0.2599,
+      "step": 149
+    },
+    {
+      "epoch": 0.0593589236248516,
+      "grad_norm": 1.6725269059527457,
+      "learning_rate": 5.928853754940712e-05,
+      "loss": 0.2315,
+      "step": 150
+    },
+    {
+      "epoch": 0.0593589236248516,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8307919331037875,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3349609375,
+      "eval_runtime": 5.4009,
+      "eval_samples_per_second": 5.555,
+      "eval_steps_per_second": 0.185,
+      "step": 150
+    },
+    {
+      "epoch": 0.059754649782350615,
+      "grad_norm": 1.3586844877082114,
+      "learning_rate": 5.9683794466403164e-05,
+      "loss": 0.2984,
+      "step": 151
+    },
+    {
+      "epoch": 0.06015037593984962,
+      "grad_norm": 2.786379743121634,
+      "learning_rate": 6.007905138339921e-05,
+      "loss": 0.2945,
+      "step": 152
+    },
+    {
+      "epoch": 0.060546102097348634,
+      "grad_norm": 1.5039454417658424,
+      "learning_rate": 6.0474308300395254e-05,
+      "loss": 0.2597,
+      "step": 153
+    },
+    {
+      "epoch": 0.060941828254847646,
+      "grad_norm": 1.1947267375427337,
+      "learning_rate": 6.086956521739131e-05,
+      "loss": 0.2005,
+      "step": 154
+    },
+    {
+      "epoch": 0.06133755441234666,
+      "grad_norm": 1.1758811153435025,
+      "learning_rate": 6.126482213438736e-05,
+      "loss": 0.2868,
+      "step": 155
+    },
+    {
+      "epoch": 0.06133755441234666,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8359567142154452,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3711588680744171,
+      "eval_runtime": 5.3751,
+      "eval_samples_per_second": 5.581,
+      "eval_steps_per_second": 0.186,
+      "step": 155
+    },
+    {
+      "epoch": 0.061733280569845665,
+      "grad_norm": 1.8336176830650266,
+      "learning_rate": 6.16600790513834e-05,
+      "loss": 0.2875,
+      "step": 156
+    },
+    {
+      "epoch": 0.06212900672734468,
+      "grad_norm": 2.072198112402528,
+      "learning_rate": 6.205533596837945e-05,
+      "loss": 0.3571,
+      "step": 157
+    },
+    {
+      "epoch": 0.06252473288484368,
+      "grad_norm": 1.6474731027868925,
+      "learning_rate": 6.245059288537549e-05,
+      "loss": 0.3023,
+      "step": 158
+    },
+    {
+      "epoch": 0.0629204590423427,
+      "grad_norm": 0.9986757071545244,
+      "learning_rate": 6.284584980237155e-05,
+      "loss": 0.2186,
+      "step": 159
+    },
+    {
+      "epoch": 0.06331618519984171,
+      "grad_norm": 1.2990604666461316,
+      "learning_rate": 6.32411067193676e-05,
+      "loss": 0.2975,
+      "step": 160
+    },
+    {
+      "epoch": 0.06331618519984171,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9210526315789473,
+      "eval_PRM F1 AUC": 0.5696015740285293,
+      "eval_PRM F1 AUC (fixed)": 0.8202164289227742,
+      "eval_PRM F1 Neg": 0.25,
+      "eval_PRM NPV": 0.6,
+      "eval_PRM Precision": 0.8677685950413223,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3473958373069763,
+      "eval_runtime": 5.001,
+      "eval_samples_per_second": 5.999,
+      "eval_steps_per_second": 0.2,
+      "step": 160
+    },
+    {
+      "epoch": 0.06371191135734072,
+      "grad_norm": 1.0648872975811778,
+      "learning_rate": 6.363636363636364e-05,
+      "loss": 0.2697,
+      "step": 161
+    },
+    {
+      "epoch": 0.06410763751483974,
+      "grad_norm": 2.361891944586372,
+      "learning_rate": 6.403162055335969e-05,
+      "loss": 0.2922,
+      "step": 162
+    },
+    {
+      "epoch": 0.06450336367233875,
+      "grad_norm": 2.4306862174047588,
+      "learning_rate": 6.442687747035574e-05,
+      "loss": 0.2909,
+      "step": 163
+    },
+    {
+      "epoch": 0.06489908982983775,
+      "grad_norm": 1.7139361560341446,
+      "learning_rate": 6.482213438735179e-05,
+      "loss": 0.3111,
+      "step": 164
+    },
+    {
+      "epoch": 0.06529481598733676,
+      "grad_norm": 1.1156092091125824,
+      "learning_rate": 6.521739130434783e-05,
+      "loss": 0.239,
+      "step": 165
+    },
+    {
+      "epoch": 0.06529481598733676,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8162813575996065,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3817708194255829,
+      "eval_runtime": 4.8896,
+      "eval_samples_per_second": 6.135,
+      "eval_steps_per_second": 0.205,
+      "step": 165
+    },
+    {
+      "epoch": 0.06569054214483577,
+      "grad_norm": 2.290693649853952,
+      "learning_rate": 6.561264822134388e-05,
+      "loss": 0.1944,
+      "step": 166
+    },
+    {
+      "epoch": 0.06608626830233479,
+      "grad_norm": 0.9996789652946064,
+      "learning_rate": 6.600790513833992e-05,
+      "loss": 0.2382,
+      "step": 167
+    },
+    {
+      "epoch": 0.0664819944598338,
+      "grad_norm": 1.9728676319629503,
+      "learning_rate": 6.640316205533598e-05,
+      "loss": 0.3577,
+      "step": 168
+    },
+    {
+      "epoch": 0.06687772061733281,
+      "grad_norm": 1.399037552654936,
+      "learning_rate": 6.679841897233203e-05,
+      "loss": 0.2326,
+      "step": 169
+    },
+    {
+      "epoch": 0.06727344677483181,
+      "grad_norm": 1.711639348538408,
+      "learning_rate": 6.719367588932807e-05,
+      "loss": 0.2298,
+      "step": 170
+    },
+    {
+      "epoch": 0.06727344677483181,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8278406296114118,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.375,
+      "eval_runtime": 5.2933,
+      "eval_samples_per_second": 5.668,
+      "eval_steps_per_second": 0.189,
+      "step": 170
+    },
+    {
+      "epoch": 0.06766917293233082,
+      "grad_norm": 1.090873751851087,
+      "learning_rate": 6.758893280632412e-05,
+      "loss": 0.2071,
+      "step": 171
+    },
+    {
+      "epoch": 0.06806489908982984,
+      "grad_norm": 1.0528725839121942,
+      "learning_rate": 6.798418972332016e-05,
+      "loss": 0.2097,
+      "step": 172
+    },
+    {
+      "epoch": 0.06846062524732885,
+      "grad_norm": 1.564611352824747,
+      "learning_rate": 6.837944664031622e-05,
+      "loss": 0.1678,
+      "step": 173
+    },
+    {
+      "epoch": 0.06885635140482786,
+      "grad_norm": 1.7184526814417416,
+      "learning_rate": 6.877470355731227e-05,
+      "loss": 0.2539,
+      "step": 174
+    },
+    {
+      "epoch": 0.06925207756232687,
+      "grad_norm": 1.5523488421815403,
+      "learning_rate": 6.916996047430831e-05,
+      "loss": 0.2153,
+      "step": 175
+    },
+    {
+      "epoch": 0.06925207756232687,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8509591736350219,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3604166805744171,
+      "eval_runtime": 5.3446,
+      "eval_samples_per_second": 5.613,
+      "eval_steps_per_second": 0.187,
+      "step": 175
+    },
+    {
+      "epoch": 0.06964780371982587,
+      "grad_norm": 0.9338854274836507,
+      "learning_rate": 6.956521739130436e-05,
+      "loss": 0.1609,
+      "step": 176
+    },
+    {
+      "epoch": 0.07004352987732489,
+      "grad_norm": 1.918425900220694,
+      "learning_rate": 6.99604743083004e-05,
+      "loss": 0.3119,
+      "step": 177
+    },
+    {
+      "epoch": 0.0704392560348239,
+      "grad_norm": 1.174433070795973,
+      "learning_rate": 7.035573122529645e-05,
+      "loss": 0.2123,
+      "step": 178
+    },
+    {
+      "epoch": 0.07083498219232291,
+      "grad_norm": 1.2418185542233562,
+      "learning_rate": 7.075098814229249e-05,
+      "loss": 0.2086,
+      "step": 179
+    },
+    {
+      "epoch": 0.07123070834982193,
+      "grad_norm": 1.5109792612782922,
+      "learning_rate": 7.114624505928854e-05,
+      "loss": 0.2646,
+      "step": 180
+    },
+    {
+      "epoch": 0.07123070834982193,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9279279279279279,
+      "eval_PRM F1 AUC": 0.6655189375307428,
+      "eval_PRM F1 AUC (fixed)": 0.8622725036891294,
+      "eval_PRM F1 Neg": 0.4666666666666667,
+      "eval_PRM NPV": 0.6363636363636364,
+      "eval_PRM Precision": 0.8956521739130435,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3208984434604645,
+      "eval_runtime": 5.1541,
+      "eval_samples_per_second": 5.821,
+      "eval_steps_per_second": 0.194,
+      "step": 180
+    },
+    {
+      "epoch": 0.07162643450732094,
+      "grad_norm": 1.5574165262021364,
+      "learning_rate": 7.154150197628458e-05,
+      "loss": 0.2786,
+      "step": 181
+    },
+    {
+      "epoch": 0.07202216066481995,
+      "grad_norm": 1.7800358189484389,
+      "learning_rate": 7.193675889328062e-05,
+      "loss": 0.1803,
+      "step": 182
+    },
+    {
+      "epoch": 0.07241788682231895,
+      "grad_norm": 1.0747136227042327,
+      "learning_rate": 7.233201581027668e-05,
+      "loss": 0.2416,
+      "step": 183
+    },
+    {
+      "epoch": 0.07281361297981796,
+      "grad_norm": 1.6040584368559547,
+      "learning_rate": 7.272727272727273e-05,
+      "loss": 0.271,
+      "step": 184
+    },
+    {
+      "epoch": 0.07320933913731698,
+      "grad_norm": 1.3537700370672423,
+      "learning_rate": 7.312252964426877e-05,
+      "loss": 0.2527,
+      "step": 185
+    },
+    {
+      "epoch": 0.07320933913731698,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9251101321585903,
+      "eval_PRM F1 AUC": 0.5959173635022135,
+      "eval_PRM F1 AUC (fixed)": 0.8610427939006394,
+      "eval_PRM F1 Neg": 0.32,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.875,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3151041567325592,
+      "eval_runtime": 5.2916,
+      "eval_samples_per_second": 5.669,
+      "eval_steps_per_second": 0.189,
+      "step": 185
+    },
+    {
+      "epoch": 0.07360506529481599,
+      "grad_norm": 0.6761748961609548,
+      "learning_rate": 7.351778656126482e-05,
+      "loss": 0.1759,
+      "step": 186
+    },
+    {
+      "epoch": 0.074000791452315,
+      "grad_norm": 0.8729138605124771,
+      "learning_rate": 7.391304347826086e-05,
+      "loss": 0.2607,
+      "step": 187
+    },
+    {
+      "epoch": 0.07439651760981401,
+      "grad_norm": 0.8200508709377767,
+      "learning_rate": 7.430830039525692e-05,
+      "loss": 0.2634,
+      "step": 188
+    },
+    {
+      "epoch": 0.07479224376731301,
+      "grad_norm": 1.239198743416465,
+      "learning_rate": 7.470355731225297e-05,
+      "loss": 0.2095,
+      "step": 189
+    },
+    {
+      "epoch": 0.07518796992481203,
+      "grad_norm": 0.8414227436143085,
+      "learning_rate": 7.509881422924901e-05,
+      "loss": 0.2401,
+      "step": 190
+    },
+    {
+      "epoch": 0.07518796992481203,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9210526315789473,
+      "eval_PRM F1 AUC": 0.5696015740285293,
+      "eval_PRM F1 AUC (fixed)": 0.8430890309886867,
+      "eval_PRM F1 Neg": 0.25,
+      "eval_PRM NPV": 0.6,
+      "eval_PRM Precision": 0.8677685950413223,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3287109434604645,
+      "eval_runtime": 5.0329,
+      "eval_samples_per_second": 5.961,
+      "eval_steps_per_second": 0.199,
+      "step": 190
+    },
+    {
+      "epoch": 0.07558369608231104,
+      "grad_norm": 1.0553310781861904,
+      "learning_rate": 7.549407114624506e-05,
+      "loss": 0.1618,
+      "step": 191
+    },
+    {
+      "epoch": 0.07597942223981005,
+      "grad_norm": 0.5619230002995388,
+      "learning_rate": 7.58893280632411e-05,
+      "loss": 0.1691,
+      "step": 192
+    },
+    {
+      "epoch": 0.07637514839730906,
+      "grad_norm": 0.8517539406417115,
+      "learning_rate": 7.628458498023716e-05,
+      "loss": 0.2236,
+      "step": 193
+    },
+    {
+      "epoch": 0.07677087455480808,
+      "grad_norm": 1.4422012975184149,
+      "learning_rate": 7.66798418972332e-05,
+      "loss": 0.3376,
+      "step": 194
+    },
+    {
+      "epoch": 0.07716660071230709,
+      "grad_norm": 0.9935483122606977,
+      "learning_rate": 7.707509881422925e-05,
+      "loss": 0.2773,
+      "step": 195
+    },
+    {
+      "epoch": 0.07716660071230709,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9333333333333333,
+      "eval_PRM F1 AUC": 0.6485489424495818,
+      "eval_PRM F1 AUC (fixed)": 0.838170191834727,
+      "eval_PRM F1 Neg": 0.4444444444444444,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8898305084745762,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3184244930744171,
+      "eval_runtime": 4.9712,
+      "eval_samples_per_second": 6.035,
+      "eval_steps_per_second": 0.201,
+      "step": 195
+    },
+    {
+      "epoch": 0.07756232686980609,
+      "grad_norm": 1.1973683080119206,
+      "learning_rate": 7.74703557312253e-05,
+      "loss": 0.2544,
+      "step": 196
+    },
+    {
+      "epoch": 0.0779580530273051,
+      "grad_norm": 1.8585460585260873,
+      "learning_rate": 7.786561264822134e-05,
+      "loss": 0.2083,
+      "step": 197
+    },
+    {
+      "epoch": 0.07835377918480411,
+      "grad_norm": 1.287945904589627,
+      "learning_rate": 7.82608695652174e-05,
+      "loss": 0.252,
+      "step": 198
+    },
+    {
+      "epoch": 0.07874950534230313,
+      "grad_norm": 0.7920011868098351,
+      "learning_rate": 7.865612648221344e-05,
+      "loss": 0.2184,
+      "step": 199
+    },
+    {
+      "epoch": 0.07914523149980214,
+      "grad_norm": 1.5441373183702873,
+      "learning_rate": 7.905138339920949e-05,
+      "loss": 0.2678,
+      "step": 200
+    },
+    {
+      "epoch": 0.07914523149980214,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9210526315789473,
+      "eval_PRM F1 AUC": 0.5696015740285293,
+      "eval_PRM F1 AUC (fixed)": 0.8455484505656665,
+      "eval_PRM F1 Neg": 0.25,
+      "eval_PRM NPV": 0.6,
+      "eval_PRM Precision": 0.8677685950413223,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3359375,
+      "eval_runtime": 5.1477,
+      "eval_samples_per_second": 5.828,
+      "eval_steps_per_second": 0.194,
+      "step": 200
+    },
+    {
+      "epoch": 0.07954095765730115,
+      "grad_norm": 1.7498047378823298,
+      "learning_rate": 7.944664031620553e-05,
+      "loss": 0.2156,
+      "step": 201
+    },
+    {
+      "epoch": 0.07993668381480015,
+      "grad_norm": 0.7914969036534353,
+      "learning_rate": 7.984189723320159e-05,
+      "loss": 0.1594,
+      "step": 202
+    },
+    {
+      "epoch": 0.08033240997229917,
+      "grad_norm": 1.4693699270347629,
+      "learning_rate": 8.023715415019764e-05,
+      "loss": 0.26,
+      "step": 203
+    },
+    {
+      "epoch": 0.08072813612979818,
+      "grad_norm": 2.90232378523646,
+      "learning_rate": 8.063241106719368e-05,
+      "loss": 0.2366,
+      "step": 204
+    },
+    {
+      "epoch": 0.08112386228729719,
+      "grad_norm": 1.9206441874267852,
+      "learning_rate": 8.102766798418973e-05,
+      "loss": 0.3147,
+      "step": 205
+    },
+    {
+      "epoch": 0.08112386228729719,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9333333333333333,
+      "eval_PRM F1 AUC": 0.6485489424495818,
+      "eval_PRM F1 AUC (fixed)": 0.8541564190850959,
+      "eval_PRM F1 Neg": 0.4444444444444444,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8898305084745762,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3179687559604645,
+      "eval_runtime": 5.1803,
+      "eval_samples_per_second": 5.791,
+      "eval_steps_per_second": 0.193,
+      "step": 205
+    },
+    {
+      "epoch": 0.0815195884447962,
+      "grad_norm": 1.2105328533998576,
+      "learning_rate": 8.142292490118577e-05,
+      "loss": 0.1757,
+      "step": 206
+    },
+    {
+      "epoch": 0.08191531460229522,
+      "grad_norm": 1.4430350619244348,
+      "learning_rate": 8.181818181818183e-05,
+      "loss": 0.2095,
+      "step": 207
+    },
+    {
+      "epoch": 0.08231104075979422,
+      "grad_norm": 1.146391461565794,
+      "learning_rate": 8.221343873517787e-05,
+      "loss": 0.1514,
+      "step": 208
+    },
+    {
+      "epoch": 0.08270676691729323,
+      "grad_norm": 1.9607721975101102,
+      "learning_rate": 8.260869565217392e-05,
+      "loss": 0.2995,
+      "step": 209
+    },
+    {
+      "epoch": 0.08310249307479224,
+      "grad_norm": 2.449872281022898,
+      "learning_rate": 8.300395256916996e-05,
+      "loss": 0.4339,
+      "step": 210
+    },
+    {
+      "epoch": 0.08310249307479224,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8612887358583375,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3447916805744171,
+      "eval_runtime": 5.1114,
+      "eval_samples_per_second": 5.869,
+      "eval_steps_per_second": 0.196,
+      "step": 210
+    },
+    {
+      "epoch": 0.08349821923229125,
+      "grad_norm": 1.177023762186669,
+      "learning_rate": 8.339920948616601e-05,
+      "loss": 0.168,
+      "step": 211
+    },
+    {
+      "epoch": 0.08389394538979027,
+      "grad_norm": 1.5995463953350837,
+      "learning_rate": 8.379446640316207e-05,
+      "loss": 0.2363,
+      "step": 212
+    },
+    {
+      "epoch": 0.08428967154728928,
+      "grad_norm": 1.003097082648222,
+      "learning_rate": 8.418972332015811e-05,
+      "loss": 0.2565,
+      "step": 213
+    },
+    {
+      "epoch": 0.08468539770478829,
+      "grad_norm": 2.7142190062016125,
+      "learning_rate": 8.458498023715416e-05,
+      "loss": 0.2661,
+      "step": 214
+    },
+    {
+      "epoch": 0.08508112386228729,
+      "grad_norm": 2.76848978150072,
+      "learning_rate": 8.49802371541502e-05,
+      "loss": 0.3083,
+      "step": 215
+    },
+    {
+      "epoch": 0.08508112386228729,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.926605504587156,
+      "eval_PRM F1 AUC": 0.7088047220855878,
+      "eval_PRM F1 AUC (fixed)": 0.8455484505656665,
+      "eval_PRM F1 Neg": 0.5294117647058824,
+      "eval_PRM NPV": 0.6,
+      "eval_PRM Precision": 0.9099099099099099,
+      "eval_PRM Recall": 0.9439252336448598,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.3160156309604645,
+      "eval_runtime": 5.4929,
+      "eval_samples_per_second": 5.462,
+      "eval_steps_per_second": 0.182,
+      "step": 215
+    },
+    {
+      "epoch": 0.0854768500197863,
+      "grad_norm": 1.875375450618787,
+      "learning_rate": 8.537549407114625e-05,
+      "loss": 0.2555,
+      "step": 216
+    },
+    {
+      "epoch": 0.08587257617728532,
+      "grad_norm": 1.1347133907648337,
+      "learning_rate": 8.57707509881423e-05,
+      "loss": 0.2831,
+      "step": 217
+    },
+    {
+      "epoch": 0.08626830233478433,
+      "grad_norm": 1.3466133793289627,
+      "learning_rate": 8.616600790513835e-05,
+      "loss": 0.272,
+      "step": 218
+    },
+    {
+      "epoch": 0.08666402849228334,
+      "grad_norm": 1.0665527978871852,
+      "learning_rate": 8.65612648221344e-05,
+      "loss": 0.2105,
+      "step": 219
+    },
+    {
+      "epoch": 0.08705975464978236,
+      "grad_norm": 1.144635175140197,
+      "learning_rate": 8.695652173913044e-05,
+      "loss": 0.2174,
+      "step": 220
+    },
+    {
+      "epoch": 0.08705975464978236,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8563698967043777,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3269205689430237,
+      "eval_runtime": 5.2243,
+      "eval_samples_per_second": 5.742,
+      "eval_steps_per_second": 0.191,
+      "step": 220
+    },
+    {
+      "epoch": 0.08745548080728135,
+      "grad_norm": 0.9633190515538607,
+      "learning_rate": 8.735177865612649e-05,
+      "loss": 0.2542,
+      "step": 221
+    },
+    {
+      "epoch": 0.08785120696478037,
+      "grad_norm": 0.8678739847092348,
+      "learning_rate": 8.774703557312254e-05,
+      "loss": 0.173,
+      "step": 222
+    },
+    {
+      "epoch": 0.08824693312227938,
+      "grad_norm": 1.106862169280851,
+      "learning_rate": 8.814229249011859e-05,
+      "loss": 0.2533,
+      "step": 223
+    },
+    {
+      "epoch": 0.0886426592797784,
+      "grad_norm": 1.6096321049896682,
+      "learning_rate": 8.853754940711463e-05,
+      "loss": 0.2735,
+      "step": 224
+    },
+    {
+      "epoch": 0.0890383854372774,
+      "grad_norm": 1.3072048830902998,
+      "learning_rate": 8.893280632411068e-05,
+      "loss": 0.2564,
+      "step": 225
+    },
+    {
+      "epoch": 0.0890383854372774,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.8470241023118543,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3187499940395355,
+      "eval_runtime": 5.1405,
+      "eval_samples_per_second": 5.836,
+      "eval_steps_per_second": 0.195,
+      "step": 225
+    },
+    {
+      "epoch": 0.08943411159477642,
+      "grad_norm": 1.161608459147029,
+      "learning_rate": 8.932806324110672e-05,
+      "loss": 0.225,
+      "step": 226
+    },
+    {
+      "epoch": 0.08982983775227543,
+      "grad_norm": 1.1778486661442251,
+      "learning_rate": 8.972332015810277e-05,
+      "loss": 0.2729,
+      "step": 227
+    },
+    {
+      "epoch": 0.09022556390977443,
+      "grad_norm": 1.0913941998044796,
+      "learning_rate": 9.011857707509881e-05,
+      "loss": 0.1974,
+      "step": 228
+    },
+    {
+      "epoch": 0.09062129006727344,
+      "grad_norm": 1.056959365446791,
+      "learning_rate": 9.051383399209486e-05,
+      "loss": 0.2323,
+      "step": 229
+    },
+    {
+      "epoch": 0.09101701622477246,
+      "grad_norm": 1.2558494214060387,
+      "learning_rate": 9.090909090909092e-05,
+      "loss": 0.2363,
+      "step": 230
+    },
+    {
+      "epoch": 0.09101701622477246,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8583374323659617,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3174479305744171,
+      "eval_runtime": 5.2308,
+      "eval_samples_per_second": 5.735,
+      "eval_steps_per_second": 0.191,
+      "step": 230
+    },
+    {
+      "epoch": 0.09141274238227147,
+      "grad_norm": 1.0360688099651376,
+      "learning_rate": 9.130434782608696e-05,
+      "loss": 0.2554,
+      "step": 231
+    },
+    {
+      "epoch": 0.09180846853977048,
+      "grad_norm": 0.8582464112266317,
+      "learning_rate": 9.169960474308301e-05,
+      "loss": 0.2762,
+      "step": 232
+    },
+    {
+      "epoch": 0.0922041946972695,
+      "grad_norm": 0.9274943349895965,
+      "learning_rate": 9.209486166007905e-05,
+      "loss": 0.2091,
+      "step": 233
+    },
+    {
+      "epoch": 0.0925999208547685,
+      "grad_norm": 1.1594653771729335,
+      "learning_rate": 9.24901185770751e-05,
+      "loss": 0.2196,
+      "step": 234
+    },
+    {
+      "epoch": 0.09299564701226751,
+      "grad_norm": 0.829752859205453,
+      "learning_rate": 9.288537549407114e-05,
+      "loss": 0.1932,
+      "step": 235
+    },
+    {
+      "epoch": 0.09299564701226751,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8514510575504181,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.31399738788604736,
+      "eval_runtime": 5.2972,
+      "eval_samples_per_second": 5.663,
+      "eval_steps_per_second": 0.189,
+      "step": 235
+    },
+    {
+      "epoch": 0.09339137316976652,
+      "grad_norm": 0.8250115723885185,
+      "learning_rate": 9.32806324110672e-05,
+      "loss": 0.2012,
+      "step": 236
+    },
+    {
+      "epoch": 0.09378709932726553,
+      "grad_norm": 1.2558087006660452,
+      "learning_rate": 9.367588932806325e-05,
+      "loss": 0.2531,
+      "step": 237
+    },
+    {
+      "epoch": 0.09418282548476455,
+      "grad_norm": 0.9946412275943232,
+      "learning_rate": 9.407114624505929e-05,
+      "loss": 0.1825,
+      "step": 238
+    },
+    {
+      "epoch": 0.09457855164226356,
+      "grad_norm": 1.4633465246756725,
+      "learning_rate": 9.446640316205534e-05,
+      "loss": 0.2834,
+      "step": 239
+    },
+    {
+      "epoch": 0.09497427779976256,
+      "grad_norm": 1.7421557902320985,
+      "learning_rate": 9.486166007905138e-05,
+      "loss": 0.2705,
+      "step": 240
+    },
+    {
+      "epoch": 0.09497427779976256,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.926605504587156,
+      "eval_PRM F1 AUC": 0.7088047220855878,
+      "eval_PRM F1 AUC (fixed)": 0.8571077225774718,
+      "eval_PRM F1 Neg": 0.5294117647058824,
+      "eval_PRM NPV": 0.6,
+      "eval_PRM Precision": 0.9099099099099099,
+      "eval_PRM Recall": 0.9439252336448598,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.3016926944255829,
+      "eval_runtime": 5.0028,
+      "eval_samples_per_second": 5.997,
+      "eval_steps_per_second": 0.2,
+      "step": 240
+    },
+    {
+      "epoch": 0.09537000395726157,
+      "grad_norm": 1.428635764785657,
+      "learning_rate": 9.525691699604744e-05,
+      "loss": 0.2511,
+      "step": 241
+    },
+    {
+      "epoch": 0.09576573011476058,
+      "grad_norm": 1.1933830808299823,
+      "learning_rate": 9.565217391304348e-05,
+      "loss": 0.2014,
+      "step": 242
+    },
+    {
+      "epoch": 0.0961614562722596,
+      "grad_norm": 1.5877875387397131,
+      "learning_rate": 9.604743083003953e-05,
+      "loss": 0.317,
+      "step": 243
+    },
+    {
+      "epoch": 0.09655718242975861,
+      "grad_norm": 1.0930814880388284,
+      "learning_rate": 9.644268774703557e-05,
+      "loss": 0.1752,
+      "step": 244
+    },
+    {
+      "epoch": 0.09695290858725762,
+      "grad_norm": 0.9366911184178074,
+      "learning_rate": 9.683794466403162e-05,
+      "loss": 0.2385,
+      "step": 245
+    },
+    {
+      "epoch": 0.09695290858725762,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.853172651254304,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3461262881755829,
+      "eval_runtime": 5.0216,
+      "eval_samples_per_second": 5.974,
+      "eval_steps_per_second": 0.199,
+      "step": 245
+    },
+    {
+      "epoch": 0.09734863474475663,
+      "grad_norm": 1.5642817021626845,
+      "learning_rate": 9.723320158102768e-05,
+      "loss": 0.2859,
+      "step": 246
+    },
+    {
+      "epoch": 0.09774436090225563,
+      "grad_norm": 0.9228916964648477,
+      "learning_rate": 9.762845849802372e-05,
+      "loss": 0.1865,
+      "step": 247
+    },
+    {
+      "epoch": 0.09814008705975465,
+      "grad_norm": 1.834239459619384,
+      "learning_rate": 9.802371541501977e-05,
+      "loss": 0.3112,
+      "step": 248
+    },
+    {
+      "epoch": 0.09853581321725366,
+      "grad_norm": 0.8583064177610271,
+      "learning_rate": 9.841897233201581e-05,
+      "loss": 0.2794,
+      "step": 249
+    },
+    {
+      "epoch": 0.09893153937475267,
+      "grad_norm": 1.4101251707770837,
+      "learning_rate": 9.881422924901186e-05,
+      "loss": 0.2374,
+      "step": 250
+    },
+    {
+      "epoch": 0.09893153937475267,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9315068493150684,
+      "eval_PRM F1 AUC": 0.7134776192818495,
+      "eval_PRM F1 AUC (fixed)": 0.838416133792425,
+      "eval_PRM F1 Neg": 0.5454545454545454,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9107142857142857,
+      "eval_PRM Recall": 0.9532710280373832,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.32760417461395264,
+      "eval_runtime": 5.2183,
+      "eval_samples_per_second": 5.749,
+      "eval_steps_per_second": 0.192,
+      "step": 250
+    },
+    {
+      "epoch": 0.09932726553225169,
+      "grad_norm": 1.5146570123653844,
+      "learning_rate": 9.920948616600791e-05,
+      "loss": 0.2844,
+      "step": 251
+    },
+    {
+      "epoch": 0.0997229916897507,
+      "grad_norm": 2.1373876601209068,
+      "learning_rate": 9.960474308300396e-05,
+      "loss": 0.2694,
+      "step": 252
+    },
+    {
+      "epoch": 0.1001187178472497,
+      "grad_norm": 1.0271558400601226,
+      "learning_rate": 0.0001,
+      "loss": 0.2281,
+      "step": 253
+    },
+    {
+      "epoch": 0.10051444400474871,
+      "grad_norm": 1.2796333872637746,
+      "learning_rate": 9.999995228457853e-05,
+      "loss": 0.2788,
+      "step": 254
+    },
+    {
+      "epoch": 0.10091017016224772,
+      "grad_norm": 0.9128345535627792,
+      "learning_rate": 9.99998091384052e-05,
+      "loss": 0.1895,
+      "step": 255
+    },
+    {
+      "epoch": 0.10091017016224772,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9264069264069265,
+      "eval_PRM F1 AUC": 0.5526315789473684,
+      "eval_PRM F1 AUC (fixed)": 0.8610427939006395,
+      "eval_PRM F1 Neg": 0.19047619047619047,
+      "eval_PRM NPV": 1.0,
+      "eval_PRM Precision": 0.8629032258064516,
+      "eval_PRM Recall": 1.0,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.37649738788604736,
+      "eval_runtime": 4.9898,
+      "eval_samples_per_second": 6.012,
+      "eval_steps_per_second": 0.2,
+      "step": 255
+    },
+    {
+      "epoch": 0.10130589631974674,
+      "grad_norm": 1.183245380563395,
+      "learning_rate": 9.999957056175321e-05,
+      "loss": 0.1924,
+      "step": 256
+    },
+    {
+      "epoch": 0.10170162247724575,
+      "grad_norm": 0.9298576014658254,
+      "learning_rate": 9.999923655507792e-05,
+      "loss": 0.2081,
+      "step": 257
+    },
+    {
+      "epoch": 0.10209734863474476,
+      "grad_norm": 0.8789574502583992,
+      "learning_rate": 9.999880711901682e-05,
+      "loss": 0.1722,
+      "step": 258
+    },
+    {
+      "epoch": 0.10249307479224377,
+      "grad_norm": 1.1415498146511225,
+      "learning_rate": 9.999828225438954e-05,
+      "loss": 0.1649,
+      "step": 259
+    },
+    {
+      "epoch": 0.10288880094974277,
+      "grad_norm": 1.3009427976925718,
+      "learning_rate": 9.999766196219784e-05,
+      "loss": 0.2399,
+      "step": 260
+    },
+    {
+      "epoch": 0.10288880094974277,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.8595671421544514,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3143880069255829,
+      "eval_runtime": 5.1441,
+      "eval_samples_per_second": 5.832,
+      "eval_steps_per_second": 0.194,
+      "step": 260
+    },
+    {
+      "epoch": 0.10328452710724179,
+      "grad_norm": 1.1352674593331524,
+      "learning_rate": 9.99969462436256e-05,
+      "loss": 0.2004,
+      "step": 261
+    },
+    {
+      "epoch": 0.1036802532647408,
+      "grad_norm": 1.4953862767195778,
+      "learning_rate": 9.999613510003891e-05,
+      "loss": 0.2354,
+      "step": 262
+    },
+    {
+      "epoch": 0.10407597942223981,
+      "grad_norm": 1.9296494594100453,
+      "learning_rate": 9.999522853298589e-05,
+      "loss": 0.2936,
+      "step": 263
+    },
+    {
+      "epoch": 0.10447170557973882,
+      "grad_norm": 0.8113504181052489,
+      "learning_rate": 9.999422654419682e-05,
+      "loss": 0.2143,
+      "step": 264
+    },
+    {
+      "epoch": 0.10486743173723784,
+      "grad_norm": 1.1104817906610782,
+      "learning_rate": 9.999312913558413e-05,
+      "loss": 0.2882,
+      "step": 265
+    },
+    {
+      "epoch": 0.10486743173723784,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8571077225774717,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.30546873807907104,
+      "eval_runtime": 5.164,
+      "eval_samples_per_second": 5.809,
+      "eval_steps_per_second": 0.194,
+      "step": 265
+    },
+    {
+      "epoch": 0.10526315789473684,
+      "grad_norm": 1.1601254855815446,
+      "learning_rate": 9.999193630924236e-05,
+      "loss": 0.2889,
+      "step": 266
+    },
+    {
+      "epoch": 0.10565888405223585,
+      "grad_norm": 0.7848753248273791,
+      "learning_rate": 9.999064806744816e-05,
+      "loss": 0.1975,
+      "step": 267
+    },
+    {
+      "epoch": 0.10605461020973486,
+      "grad_norm": 1.1626303940674743,
+      "learning_rate": 9.998926441266026e-05,
+      "loss": 0.2703,
+      "step": 268
+    },
+    {
+      "epoch": 0.10645033636723387,
+      "grad_norm": 1.1554886525777526,
+      "learning_rate": 9.998778534751956e-05,
+      "loss": 0.2719,
+      "step": 269
+    },
+    {
+      "epoch": 0.10684606252473289,
+      "grad_norm": 0.8180652665693736,
+      "learning_rate": 9.998621087484901e-05,
+      "loss": 0.2001,
+      "step": 270
+    },
+    {
+      "epoch": 0.10684606252473289,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8467781603541564,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3245442807674408,
+      "eval_runtime": 5.1644,
+      "eval_samples_per_second": 5.809,
+      "eval_steps_per_second": 0.194,
+      "step": 270
+    },
+    {
+      "epoch": 0.1072417886822319,
+      "grad_norm": 0.9863699033545287,
+      "learning_rate": 9.998454099765368e-05,
+      "loss": 0.2373,
+      "step": 271
+    },
+    {
+      "epoch": 0.1076375148397309,
+      "grad_norm": 0.8246783888944057,
+      "learning_rate": 9.998277571912073e-05,
+      "loss": 0.1456,
+      "step": 272
+    },
+    {
+      "epoch": 0.10803324099722991,
+      "grad_norm": 0.8474312355323622,
+      "learning_rate": 9.99809150426194e-05,
+      "loss": 0.2183,
+      "step": 273
+    },
+    {
+      "epoch": 0.10842896715472893,
+      "grad_norm": 0.8415999725913421,
+      "learning_rate": 9.9978958971701e-05,
+      "loss": 0.2074,
+      "step": 274
+    },
+    {
+      "epoch": 0.10882469331222794,
+      "grad_norm": 1.4159013929201012,
+      "learning_rate": 9.997690751009892e-05,
+      "loss": 0.3035,
+      "step": 275
+    },
+    {
+      "epoch": 0.10882469331222794,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8435809149040826,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3040364682674408,
+      "eval_runtime": 5.0664,
+      "eval_samples_per_second": 5.921,
+      "eval_steps_per_second": 0.197,
+      "step": 275
+    },
+    {
+      "epoch": 0.10922041946972695,
+      "grad_norm": 0.8032189766847755,
+      "learning_rate": 9.997476066172863e-05,
+      "loss": 0.1381,
+      "step": 276
+    },
+    {
+      "epoch": 0.10961614562722596,
+      "grad_norm": 1.485921094149362,
+      "learning_rate": 9.997251843068762e-05,
+      "loss": 0.2787,
+      "step": 277
+    },
+    {
+      "epoch": 0.11001187178472498,
+      "grad_norm": 1.580917742842857,
+      "learning_rate": 9.997018082125546e-05,
+      "loss": 0.1975,
+      "step": 278
+    },
+    {
+      "epoch": 0.11040759794222398,
+      "grad_norm": 1.2831791263250123,
+      "learning_rate": 9.996774783789377e-05,
+      "loss": 0.2232,
+      "step": 279
+    },
+    {
+      "epoch": 0.11080332409972299,
+      "grad_norm": 0.927647590301699,
+      "learning_rate": 9.996521948524615e-05,
+      "loss": 0.1815,
+      "step": 280
+    },
+    {
+      "epoch": 0.11080332409972299,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8637481554353172,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.33525389432907104,
+      "eval_runtime": 5.271,
+      "eval_samples_per_second": 5.692,
+      "eval_steps_per_second": 0.19,
+      "step": 280
+    },
+    {
+      "epoch": 0.111199050257222,
+      "grad_norm": 1.3954702518092017,
+      "learning_rate": 9.996259576813828e-05,
+      "loss": 0.2555,
+      "step": 281
+    },
+    {
+      "epoch": 0.11159477641472101,
+      "grad_norm": 1.4230080409477388,
+      "learning_rate": 9.995987669157781e-05,
+      "loss": 0.257,
+      "step": 282
+    },
+    {
+      "epoch": 0.11199050257222003,
+      "grad_norm": 2.206257207395009,
+      "learning_rate": 9.995706226075445e-05,
+      "loss": 0.3274,
+      "step": 283
+    },
+    {
+      "epoch": 0.11238622872971904,
+      "grad_norm": 0.9692411308181991,
+      "learning_rate": 9.995415248103982e-05,
+      "loss": 0.2275,
+      "step": 284
+    },
+    {
+      "epoch": 0.11278195488721804,
+      "grad_norm": 1.3141857890806372,
+      "learning_rate": 9.995114735798761e-05,
+      "loss": 0.2318,
+      "step": 285
+    },
+    {
+      "epoch": 0.11278195488721804,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9327354260089686,
+      "eval_PRM F1 AUC": 0.6701918347270044,
+      "eval_PRM F1 AUC (fixed)": 0.8423512051155927,
+      "eval_PRM F1 Neg": 0.4827586206896552,
+      "eval_PRM NPV": 0.7,
+      "eval_PRM Precision": 0.896551724137931,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2985677123069763,
+      "eval_runtime": 5.0325,
+      "eval_samples_per_second": 5.961,
+      "eval_steps_per_second": 0.199,
+      "step": 285
+    },
+    {
+      "epoch": 0.11317768104471705,
+      "grad_norm": 1.9304656673414036,
+      "learning_rate": 9.994804689733344e-05,
+      "loss": 0.2594,
+      "step": 286
+    },
+    {
+      "epoch": 0.11357340720221606,
+      "grad_norm": 0.734774262183603,
+      "learning_rate": 9.99448511049949e-05,
+      "loss": 0.1599,
+      "step": 287
+    },
+    {
+      "epoch": 0.11396913335971508,
+      "grad_norm": 1.131100839114183,
+      "learning_rate": 9.994155998707155e-05,
+      "loss": 0.174,
+      "step": 288
+    },
+    {
+      "epoch": 0.11436485951721409,
+      "grad_norm": 0.7482016646974031,
+      "learning_rate": 9.993817354984486e-05,
+      "loss": 0.1518,
+      "step": 289
+    },
+    {
+      "epoch": 0.1147605856747131,
+      "grad_norm": 0.8413429547614211,
+      "learning_rate": 9.993469179977821e-05,
+      "loss": 0.1622,
+      "step": 290
+    },
+    {
+      "epoch": 0.1147605856747131,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.837924249877029,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.33027344942092896,
+      "eval_runtime": 5.2643,
+      "eval_samples_per_second": 5.699,
+      "eval_steps_per_second": 0.19,
+      "step": 290
+    },
+    {
+      "epoch": 0.11515631183221212,
+      "grad_norm": 2.0453925987101083,
+      "learning_rate": 9.993111474351698e-05,
+      "loss": 0.3581,
+      "step": 291
+    },
+    {
+      "epoch": 0.11555203798971111,
+      "grad_norm": 1.1289598031461439,
+      "learning_rate": 9.992744238788836e-05,
+      "loss": 0.1954,
+      "step": 292
+    },
+    {
+      "epoch": 0.11594776414721013,
+      "grad_norm": 0.9469501646996655,
+      "learning_rate": 9.99236747399015e-05,
+      "loss": 0.2,
+      "step": 293
+    },
+    {
+      "epoch": 0.11634349030470914,
+      "grad_norm": 0.7404051811597198,
+      "learning_rate": 9.991981180674737e-05,
+      "loss": 0.1776,
+      "step": 294
+    },
+    {
+      "epoch": 0.11673921646220815,
+      "grad_norm": 1.495367589248185,
+      "learning_rate": 9.991585359579884e-05,
+      "loss": 0.2673,
+      "step": 295
+    },
+    {
+      "epoch": 0.11673921646220815,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9223744292237442,
+      "eval_PRM F1 AUC": 0.6824889326119036,
+      "eval_PRM F1 AUC (fixed)": 0.8261190359075258,
+      "eval_PRM F1 Neg": 0.48484848484848486,
+      "eval_PRM NPV": 0.5714285714285714,
+      "eval_PRM Precision": 0.9017857142857143,
+      "eval_PRM Recall": 0.9439252336448598,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3164713680744171,
+      "eval_runtime": 5.0855,
+      "eval_samples_per_second": 5.899,
+      "eval_steps_per_second": 0.197,
+      "step": 295
+    },
+    {
+      "epoch": 0.11713494261970717,
+      "grad_norm": 1.3916230330347663,
+      "learning_rate": 9.991180011461063e-05,
+      "loss": 0.2719,
+      "step": 296
+    },
+    {
+      "epoch": 0.11753066877720618,
+      "grad_norm": 1.4981842952663937,
+      "learning_rate": 9.990765137091927e-05,
+      "loss": 0.3036,
+      "step": 297
+    },
+    {
+      "epoch": 0.11792639493470518,
+      "grad_norm": 0.8921097366961067,
+      "learning_rate": 9.990340737264311e-05,
+      "loss": 0.2214,
+      "step": 298
+    },
+    {
+      "epoch": 0.11832212109220419,
+      "grad_norm": 0.6011491751212544,
+      "learning_rate": 9.989906812788235e-05,
+      "loss": 0.1254,
+      "step": 299
+    },
+    {
+      "epoch": 0.1187178472497032,
+      "grad_norm": 1.0259347512053194,
+      "learning_rate": 9.989463364491893e-05,
+      "loss": 0.2208,
+      "step": 300
+    },
+    {
+      "epoch": 0.1187178472497032,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9304347826086956,
+      "eval_PRM F1 AUC": 0.5789473684210527,
+      "eval_PRM F1 AUC (fixed)": 0.8393999016232169,
+      "eval_PRM F1 Neg": 0.2727272727272727,
+      "eval_PRM NPV": 1.0,
+      "eval_PRM Precision": 0.8699186991869918,
+      "eval_PRM Recall": 1.0,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3674153685569763,
+      "eval_runtime": 5.2469,
+      "eval_samples_per_second": 5.718,
+      "eval_steps_per_second": 0.191,
+      "step": 300
+    },
+    {
+      "epoch": 0.11911357340720222,
+      "grad_norm": 1.250546832822412,
+      "learning_rate": 9.989010393221656e-05,
+      "loss": 0.2572,
+      "step": 301
+    },
+    {
+      "epoch": 0.11950929956470123,
+      "grad_norm": 0.9395942123920941,
+      "learning_rate": 9.988547899842076e-05,
+      "loss": 0.1837,
+      "step": 302
+    },
+    {
+      "epoch": 0.11990502572220024,
+      "grad_norm": 1.3530243734510679,
+      "learning_rate": 9.988075885235873e-05,
+      "loss": 0.3279,
+      "step": 303
+    },
+    {
+      "epoch": 0.12030075187969924,
+      "grad_norm": 0.9765077752217082,
+      "learning_rate": 9.987594350303941e-05,
+      "loss": 0.2229,
+      "step": 304
+    },
+    {
+      "epoch": 0.12069647803719825,
+      "grad_norm": 1.0545077927262563,
+      "learning_rate": 9.98710329596535e-05,
+      "loss": 0.2161,
+      "step": 305
+    },
+    {
+      "epoch": 0.12069647803719825,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9223744292237442,
+      "eval_PRM F1 AUC": 0.6824889326119036,
+      "eval_PRM F1 AUC (fixed)": 0.8393999016232169,
+      "eval_PRM F1 Neg": 0.48484848484848486,
+      "eval_PRM NPV": 0.5714285714285714,
+      "eval_PRM Precision": 0.9017857142857143,
+      "eval_PRM Recall": 0.9439252336448598,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.30553385615348816,
+      "eval_runtime": 5.3692,
+      "eval_samples_per_second": 5.587,
+      "eval_steps_per_second": 0.186,
+      "step": 305
+    },
+    {
+      "epoch": 0.12109220419469727,
+      "grad_norm": 1.1795462130232517,
+      "learning_rate": 9.986602723157332e-05,
+      "loss": 0.2487,
+      "step": 306
+    },
+    {
+      "epoch": 0.12148793035219628,
+      "grad_norm": 1.0058697005107944,
+      "learning_rate": 9.986092632835286e-05,
+      "loss": 0.3177,
+      "step": 307
+    },
+    {
+      "epoch": 0.12188365650969529,
+      "grad_norm": 0.8430723023497687,
+      "learning_rate": 9.985573025972785e-05,
+      "loss": 0.2092,
+      "step": 308
+    },
+    {
+      "epoch": 0.1222793826671943,
+      "grad_norm": 1.2163734543499976,
+      "learning_rate": 9.985043903561555e-05,
+      "loss": 0.2518,
+      "step": 309
+    },
+    {
+      "epoch": 0.12267510882469332,
+      "grad_norm": 1.1247340666262227,
+      "learning_rate": 9.984505266611491e-05,
+      "loss": 0.2535,
+      "step": 310
+    },
+    {
+      "epoch": 0.12267510882469332,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.838416133792425,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3548828065395355,
+      "eval_runtime": 5.1907,
+      "eval_samples_per_second": 5.78,
+      "eval_steps_per_second": 0.193,
+      "step": 310
+    },
+    {
+      "epoch": 0.12307083498219232,
+      "grad_norm": 0.8470639680714415,
+      "learning_rate": 9.98395711615064e-05,
+      "loss": 0.1742,
+      "step": 311
+    },
+    {
+      "epoch": 0.12346656113969133,
+      "grad_norm": 0.9707165612657758,
+      "learning_rate": 9.983399453225216e-05,
+      "loss": 0.2156,
+      "step": 312
+    },
+    {
+      "epoch": 0.12386228729719034,
+      "grad_norm": 0.792127345348363,
+      "learning_rate": 9.982832278899582e-05,
+      "loss": 0.1683,
+      "step": 313
+    },
+    {
+      "epoch": 0.12425801345468936,
+      "grad_norm": 1.055078180826939,
+      "learning_rate": 9.982255594256253e-05,
+      "loss": 0.2223,
+      "step": 314
+    },
+    {
+      "epoch": 0.12465373961218837,
+      "grad_norm": 0.8177205122347739,
+      "learning_rate": 9.981669400395906e-05,
+      "loss": 0.211,
+      "step": 315
+    },
+    {
+      "epoch": 0.12465373961218837,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8374323659616331,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.31171876192092896,
+      "eval_runtime": 5.1605,
+      "eval_samples_per_second": 5.813,
+      "eval_steps_per_second": 0.194,
+      "step": 315
+    },
+    {
+      "epoch": 0.12504946576968737,
+      "grad_norm": 0.8238792553312159,
+      "learning_rate": 9.981073698437355e-05,
+      "loss": 0.2213,
+      "step": 316
+    },
+    {
+      "epoch": 0.1254451919271864,
+      "grad_norm": 1.0718017518131142,
+      "learning_rate": 9.98046848951757e-05,
+      "loss": 0.2396,
+      "step": 317
+    },
+    {
+      "epoch": 0.1258409180846854,
+      "grad_norm": 0.7683394451532709,
+      "learning_rate": 9.97985377479166e-05,
+      "loss": 0.1901,
+      "step": 318
+    },
+    {
+      "epoch": 0.12623664424218442,
+      "grad_norm": 0.9797483340445025,
+      "learning_rate": 9.979229555432882e-05,
+      "loss": 0.2459,
+      "step": 319
+    },
+    {
+      "epoch": 0.12663237039968342,
+      "grad_norm": 0.9647973102452009,
+      "learning_rate": 9.978595832632632e-05,
+      "loss": 0.1955,
+      "step": 320
+    },
+    {
+      "epoch": 0.12663237039968342,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9292035398230089,
+      "eval_PRM F1 AUC": 0.6222331529758978,
+      "eval_PRM F1 AUC (fixed)": 0.8499754058042301,
+      "eval_PRM F1 Neg": 0.38461538461538464,
+      "eval_PRM NPV": 0.7142857142857143,
+      "eval_PRM Precision": 0.8823529411764706,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.3257812559604645,
+      "eval_runtime": 5.0409,
+      "eval_samples_per_second": 5.951,
+      "eval_steps_per_second": 0.198,
+      "step": 320
+    },
+    {
+      "epoch": 0.12702809655718242,
+      "grad_norm": 0.7472444243359343,
+      "learning_rate": 9.977952607600442e-05,
+      "loss": 0.1753,
+      "step": 321
+    },
+    {
+      "epoch": 0.12742382271468145,
+      "grad_norm": 0.7697177526460143,
+      "learning_rate": 9.977299881563984e-05,
+      "loss": 0.1979,
+      "step": 322
+    },
+    {
+      "epoch": 0.12781954887218044,
+      "grad_norm": 1.321938759641418,
+      "learning_rate": 9.976637655769061e-05,
+      "loss": 0.2902,
+      "step": 323
+    },
+    {
+      "epoch": 0.12821527502967947,
+      "grad_norm": 1.1740807914013507,
+      "learning_rate": 9.975965931479607e-05,
+      "loss": 0.2133,
+      "step": 324
+    },
+    {
+      "epoch": 0.12861100118717847,
+      "grad_norm": 0.7366182647350779,
+      "learning_rate": 9.97528470997769e-05,
+      "loss": 0.1921,
+      "step": 325
+    },
+    {
+      "epoch": 0.12861100118717847,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9327354260089686,
+      "eval_PRM F1 AUC": 0.6701918347270044,
+      "eval_PRM F1 AUC (fixed)": 0.8548942449581899,
+      "eval_PRM F1 Neg": 0.4827586206896552,
+      "eval_PRM NPV": 0.7,
+      "eval_PRM Precision": 0.896551724137931,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2997395694255829,
+      "eval_runtime": 5.0623,
+      "eval_samples_per_second": 5.926,
+      "eval_steps_per_second": 0.198,
+      "step": 325
+    },
+    {
+      "epoch": 0.1290067273446775,
+      "grad_norm": 0.8896912481225402,
+      "learning_rate": 9.974593992563498e-05,
+      "loss": 0.2559,
+      "step": 326
+    },
+    {
+      "epoch": 0.1294024535021765,
+      "grad_norm": 0.9695093010075738,
+      "learning_rate": 9.973893780555346e-05,
+      "loss": 0.2718,
+      "step": 327
+    },
+    {
+      "epoch": 0.1297981796596755,
+      "grad_norm": 0.6357808888573262,
+      "learning_rate": 9.973184075289672e-05,
+      "loss": 0.1819,
+      "step": 328
+    },
+    {
+      "epoch": 0.13019390581717452,
+      "grad_norm": 0.8888502692301904,
+      "learning_rate": 9.972464878121028e-05,
+      "loss": 0.2223,
+      "step": 329
+    },
+    {
+      "epoch": 0.13058963197467352,
+      "grad_norm": 0.9594382776671175,
+      "learning_rate": 9.97173619042209e-05,
+      "loss": 0.2789,
+      "step": 330
+    },
+    {
+      "epoch": 0.13058963197467352,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8590752582390555,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3152669370174408,
+      "eval_runtime": 5.1645,
+      "eval_samples_per_second": 5.809,
+      "eval_steps_per_second": 0.194,
+      "step": 330
+    },
+    {
+      "epoch": 0.13098535813217255,
+      "grad_norm": 0.6130473102316657,
+      "learning_rate": 9.970998013583643e-05,
+      "loss": 0.2048,
+      "step": 331
+    },
+    {
+      "epoch": 0.13138108428967155,
+      "grad_norm": 0.823459766763559,
+      "learning_rate": 9.97025034901458e-05,
+      "loss": 0.1988,
+      "step": 332
+    },
+    {
+      "epoch": 0.13177681044717054,
+      "grad_norm": 0.9735050043211828,
+      "learning_rate": 9.96949319814191e-05,
+      "loss": 0.2353,
+      "step": 333
+    },
+    {
+      "epoch": 0.13217253660466957,
+      "grad_norm": 1.0910141354775398,
+      "learning_rate": 9.968726562410744e-05,
+      "loss": 0.2309,
+      "step": 334
+    },
+    {
+      "epoch": 0.13256826276216857,
+      "grad_norm": 0.8365728032037729,
+      "learning_rate": 9.967950443284293e-05,
+      "loss": 0.2284,
+      "step": 335
+    },
+    {
+      "epoch": 0.13256826276216857,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8580914904082637,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.29342448711395264,
+      "eval_runtime": 5.0072,
+      "eval_samples_per_second": 5.991,
+      "eval_steps_per_second": 0.2,
+      "step": 335
+    },
+    {
+      "epoch": 0.1329639889196676,
+      "grad_norm": 1.0082810285089199,
+      "learning_rate": 9.967164842243872e-05,
+      "loss": 0.2653,
+      "step": 336
+    },
+    {
+      "epoch": 0.1333597150771666,
+      "grad_norm": 0.8990981173594887,
+      "learning_rate": 9.966369760788895e-05,
+      "loss": 0.2215,
+      "step": 337
+    },
+    {
+      "epoch": 0.13375544123466562,
+      "grad_norm": 0.9830980248851123,
+      "learning_rate": 9.965565200436865e-05,
+      "loss": 0.2166,
+      "step": 338
+    },
+    {
+      "epoch": 0.13415116739216462,
+      "grad_norm": 0.867151466408736,
+      "learning_rate": 9.96475116272338e-05,
+      "loss": 0.1822,
+      "step": 339
+    },
+    {
+      "epoch": 0.13454689354966362,
+      "grad_norm": 1.31489859787621,
+      "learning_rate": 9.963927649202127e-05,
+      "loss": 0.2548,
+      "step": 340
+    },
+    {
+      "epoch": 0.13454689354966362,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8706345302508608,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.3238932192325592,
+      "eval_runtime": 5.1658,
+      "eval_samples_per_second": 5.807,
+      "eval_steps_per_second": 0.194,
+      "step": 340
+    },
+    {
+      "epoch": 0.13494261970716265,
+      "grad_norm": 0.6966773582270539,
+      "learning_rate": 9.963094661444878e-05,
+      "loss": 0.1503,
+      "step": 341
+    },
+    {
+      "epoch": 0.13533834586466165,
+      "grad_norm": 0.8887232899725811,
+      "learning_rate": 9.962252201041486e-05,
+      "loss": 0.1899,
+      "step": 342
+    },
+    {
+      "epoch": 0.13573407202216067,
+      "grad_norm": 1.2646791592227051,
+      "learning_rate": 9.961400269599886e-05,
+      "loss": 0.2255,
+      "step": 343
+    },
+    {
+      "epoch": 0.13612979817965967,
+      "grad_norm": 1.7623683677474806,
+      "learning_rate": 9.960538868746087e-05,
+      "loss": 0.2685,
+      "step": 344
+    },
+    {
+      "epoch": 0.1365255243371587,
+      "grad_norm": 1.62914005315704,
+      "learning_rate": 9.959668000124177e-05,
+      "loss": 0.216,
+      "step": 345
+    },
+    {
+      "epoch": 0.1365255243371587,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8753074274471224,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2906900942325592,
+      "eval_runtime": 5.192,
+      "eval_samples_per_second": 5.778,
+      "eval_steps_per_second": 0.193,
+      "step": 345
+    },
+    {
+      "epoch": 0.1369212504946577,
+      "grad_norm": 1.3767602974689317,
+      "learning_rate": 9.958787665396308e-05,
+      "loss": 0.219,
+      "step": 346
+    },
+    {
+      "epoch": 0.1373169766521567,
+      "grad_norm": 2.3282257840117855,
+      "learning_rate": 9.957897866242702e-05,
+      "loss": 0.2678,
+      "step": 347
+    },
+    {
+      "epoch": 0.13771270280965572,
+      "grad_norm": 1.9681003835046509,
+      "learning_rate": 9.956998604361644e-05,
+      "loss": 0.2789,
+      "step": 348
+    },
+    {
+      "epoch": 0.13810842896715472,
+      "grad_norm": 0.907908829178822,
+      "learning_rate": 9.956089881469482e-05,
+      "loss": 0.1907,
+      "step": 349
+    },
+    {
+      "epoch": 0.13850415512465375,
+      "grad_norm": 1.3362738911096135,
+      "learning_rate": 9.955171699300617e-05,
+      "loss": 0.2371,
+      "step": 350
+    },
+    {
+      "epoch": 0.13850415512465375,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8598130841121495,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.33688151836395264,
+      "eval_runtime": 5.1772,
+      "eval_samples_per_second": 5.795,
+      "eval_steps_per_second": 0.193,
+      "step": 350
+    },
+    {
+      "epoch": 0.13889988128215275,
+      "grad_norm": 1.3672787888299363,
+      "learning_rate": 9.95424405960751e-05,
+      "loss": 0.2614,
+      "step": 351
+    },
+    {
+      "epoch": 0.13929560743965175,
+      "grad_norm": 0.8475475035358652,
+      "learning_rate": 9.953306964160669e-05,
+      "loss": 0.1748,
+      "step": 352
+    },
+    {
+      "epoch": 0.13969133359715077,
+      "grad_norm": 0.841326974870686,
+      "learning_rate": 9.952360414748649e-05,
+      "loss": 0.1412,
+      "step": 353
+    },
+    {
+      "epoch": 0.14008705975464977,
+      "grad_norm": 0.706401463403191,
+      "learning_rate": 9.951404413178052e-05,
+      "loss": 0.1674,
+      "step": 354
+    },
+    {
+      "epoch": 0.1404827859121488,
+      "grad_norm": 0.7334831776284896,
+      "learning_rate": 9.950438961273517e-05,
+      "loss": 0.2502,
+      "step": 355
+    },
+    {
+      "epoch": 0.1404827859121488,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9333333333333333,
+      "eval_PRM F1 AUC": 0.6485489424495818,
+      "eval_PRM F1 AUC (fixed)": 0.8364485981308412,
+      "eval_PRM F1 Neg": 0.4444444444444444,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8898305084745762,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3207356631755829,
+      "eval_runtime": 5.6724,
+      "eval_samples_per_second": 5.289,
+      "eval_steps_per_second": 0.176,
+      "step": 355
+    },
+    {
+      "epoch": 0.1408785120696478,
+      "grad_norm": 1.169454666033358,
+      "learning_rate": 9.949464060877723e-05,
+      "loss": 0.2633,
+      "step": 356
+    },
+    {
+      "epoch": 0.14127423822714683,
+      "grad_norm": 0.6655323966174417,
+      "learning_rate": 9.948479713851379e-05,
+      "loss": 0.2104,
+      "step": 357
+    },
+    {
+      "epoch": 0.14166996438464582,
+      "grad_norm": 1.105528441828879,
+      "learning_rate": 9.947485922073231e-05,
+      "loss": 0.2246,
+      "step": 358
+    },
+    {
+      "epoch": 0.14206569054214482,
+      "grad_norm": 0.7732703486644537,
+      "learning_rate": 9.946482687440042e-05,
+      "loss": 0.1996,
+      "step": 359
+    },
+    {
+      "epoch": 0.14246141669964385,
+      "grad_norm": 1.0412262937824934,
+      "learning_rate": 9.945470011866604e-05,
+      "loss": 0.2213,
+      "step": 360
+    },
+    {
+      "epoch": 0.14246141669964385,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9333333333333333,
+      "eval_PRM F1 AUC": 0.6485489424495818,
+      "eval_PRM F1 AUC (fixed)": 0.8266109198229217,
+      "eval_PRM F1 Neg": 0.4444444444444444,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8898305084745762,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3063802123069763,
+      "eval_runtime": 5.4261,
+      "eval_samples_per_second": 5.529,
+      "eval_steps_per_second": 0.184,
+      "step": 360
+    },
+    {
+      "epoch": 0.14285714285714285,
+      "grad_norm": 0.7698025566577554,
+      "learning_rate": 9.944447897285729e-05,
+      "loss": 0.1353,
+      "step": 361
+    },
+    {
+      "epoch": 0.14325286901464188,
+      "grad_norm": 1.0319691799316077,
+      "learning_rate": 9.943416345648238e-05,
+      "loss": 0.2365,
+      "step": 362
+    },
+    {
+      "epoch": 0.14364859517214087,
+      "grad_norm": 0.9563986730994617,
+      "learning_rate": 9.942375358922971e-05,
+      "loss": 0.2088,
+      "step": 363
+    },
+    {
+      "epoch": 0.1440443213296399,
+      "grad_norm": 1.0952805260909144,
+      "learning_rate": 9.941324939096772e-05,
+      "loss": 0.2111,
+      "step": 364
+    },
+    {
+      "epoch": 0.1444400474871389,
+      "grad_norm": 1.3390066068610906,
+      "learning_rate": 9.94026508817449e-05,
+      "loss": 0.1756,
+      "step": 365
+    },
+    {
+      "epoch": 0.1444400474871389,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.851942941465814,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.31253254413604736,
+      "eval_runtime": 5.1502,
+      "eval_samples_per_second": 5.825,
+      "eval_steps_per_second": 0.194,
+      "step": 365
+    },
+    {
+      "epoch": 0.1448357736446379,
+      "grad_norm": 1.3896729818869984,
+      "learning_rate": 9.939195808178974e-05,
+      "loss": 0.2269,
+      "step": 366
+    },
+    {
+      "epoch": 0.14523149980213693,
+      "grad_norm": 1.096496697601604,
+      "learning_rate": 9.93811710115107e-05,
+      "loss": 0.2103,
+      "step": 367
+    },
+    {
+      "epoch": 0.14562722595963593,
+      "grad_norm": 1.627563341278145,
+      "learning_rate": 9.937028969149617e-05,
+      "loss": 0.306,
+      "step": 368
+    },
+    {
+      "epoch": 0.14602295211713495,
+      "grad_norm": 1.482460015518166,
+      "learning_rate": 9.93593141425144e-05,
+      "loss": 0.2673,
+      "step": 369
+    },
+    {
+      "epoch": 0.14641867827463395,
+      "grad_norm": 1.4920757526323924,
+      "learning_rate": 9.934824438551353e-05,
+      "loss": 0.3004,
+      "step": 370
+    },
+    {
+      "epoch": 0.14641867827463395,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.8716182980816528,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.31985676288604736,
+      "eval_runtime": 5.0419,
+      "eval_samples_per_second": 5.95,
+      "eval_steps_per_second": 0.198,
+      "step": 370
+    },
+    {
+      "epoch": 0.14681440443213298,
+      "grad_norm": 0.7554380511114847,
+      "learning_rate": 9.933708044162149e-05,
+      "loss": 0.1703,
+      "step": 371
+    },
+    {
+      "epoch": 0.14721013058963198,
+      "grad_norm": 0.9818963538490313,
+      "learning_rate": 9.932582233214593e-05,
+      "loss": 0.2075,
+      "step": 372
+    },
+    {
+      "epoch": 0.14760585674713098,
+      "grad_norm": 1.0053359257785752,
+      "learning_rate": 9.931447007857432e-05,
+      "loss": 0.2281,
+      "step": 373
+    },
+    {
+      "epoch": 0.14800158290463,
+      "grad_norm": 1.1019921540211615,
+      "learning_rate": 9.930302370257374e-05,
+      "loss": 0.2599,
+      "step": 374
+    },
+    {
+      "epoch": 0.148397309062129,
+      "grad_norm": 0.8993492170365734,
+      "learning_rate": 9.929148322599093e-05,
+      "loss": 0.2268,
+      "step": 375
+    },
+    {
+      "epoch": 0.148397309062129,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8701426463354649,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3114257752895355,
+      "eval_runtime": 5.2769,
+      "eval_samples_per_second": 5.685,
+      "eval_steps_per_second": 0.19,
+      "step": 375
+    },
+    {
+      "epoch": 0.14879303521962803,
+      "grad_norm": 1.084242791231953,
+      "learning_rate": 9.927984867085224e-05,
+      "loss": 0.2426,
+      "step": 376
+    },
+    {
+      "epoch": 0.14918876137712703,
+      "grad_norm": 0.6338408899181103,
+      "learning_rate": 9.926812005936359e-05,
+      "loss": 0.2107,
+      "step": 377
+    },
+    {
+      "epoch": 0.14958448753462603,
+      "grad_norm": 0.8577307195658436,
+      "learning_rate": 9.925629741391038e-05,
+      "loss": 0.2256,
+      "step": 378
+    },
+    {
+      "epoch": 0.14998021369212505,
+      "grad_norm": 0.986026436466095,
+      "learning_rate": 9.924438075705756e-05,
+      "loss": 0.1965,
+      "step": 379
+    },
+    {
+      "epoch": 0.15037593984962405,
+      "grad_norm": 1.0569187352960723,
+      "learning_rate": 9.92323701115494e-05,
+      "loss": 0.1889,
+      "step": 380
+    },
+    {
+      "epoch": 0.15037593984962405,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8703885882931628,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.29033201932907104,
+      "eval_runtime": 5.3494,
+      "eval_samples_per_second": 5.608,
+      "eval_steps_per_second": 0.187,
+      "step": 380
+    },
+    {
+      "epoch": 0.15077166600712308,
+      "grad_norm": 1.2605523383406032,
+      "learning_rate": 9.922026550030965e-05,
+      "loss": 0.2204,
+      "step": 381
+    },
+    {
+      "epoch": 0.15116739216462208,
+      "grad_norm": 0.8260289962696835,
+      "learning_rate": 9.92080669464414e-05,
+      "loss": 0.1768,
+      "step": 382
+    },
+    {
+      "epoch": 0.1515631183221211,
+      "grad_norm": 0.6518838181399441,
+      "learning_rate": 9.919577447322697e-05,
+      "loss": 0.1653,
+      "step": 383
+    },
+    {
+      "epoch": 0.1519588444796201,
+      "grad_norm": 1.1826921723081798,
+      "learning_rate": 9.918338810412801e-05,
+      "loss": 0.1728,
+      "step": 384
+    },
+    {
+      "epoch": 0.1523545706371191,
+      "grad_norm": 1.4179737906616703,
+      "learning_rate": 9.917090786278533e-05,
+      "loss": 0.228,
+      "step": 385
+    },
+    {
+      "epoch": 0.1523545706371191,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8762911952779144,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.30677083134651184,
+      "eval_runtime": 5.2909,
+      "eval_samples_per_second": 5.67,
+      "eval_steps_per_second": 0.189,
+      "step": 385
+    },
+    {
+      "epoch": 0.15275029679461813,
+      "grad_norm": 1.1578945566674441,
+      "learning_rate": 9.915833377301898e-05,
+      "loss": 0.2205,
+      "step": 386
+    },
+    {
+      "epoch": 0.15314602295211713,
+      "grad_norm": 0.8585571856540902,
+      "learning_rate": 9.914566585882801e-05,
+      "loss": 0.1929,
+      "step": 387
+    },
+    {
+      "epoch": 0.15354174910961615,
+      "grad_norm": 1.792104707688705,
+      "learning_rate": 9.913290414439068e-05,
+      "loss": 0.1997,
+      "step": 388
+    },
+    {
+      "epoch": 0.15393747526711515,
+      "grad_norm": 1.1743712044158157,
+      "learning_rate": 9.912004865406415e-05,
+      "loss": 0.1936,
+      "step": 389
+    },
+    {
+      "epoch": 0.15433320142461418,
+      "grad_norm": 1.3008181859254757,
+      "learning_rate": 9.910709941238467e-05,
+      "loss": 0.1713,
+      "step": 390
+    },
+    {
+      "epoch": 0.15433320142461418,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8716182980816527,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2810221314430237,
+      "eval_runtime": 5.1475,
+      "eval_samples_per_second": 5.828,
+      "eval_steps_per_second": 0.194,
+      "step": 390
+    },
+    {
+      "epoch": 0.15472892758211318,
+      "grad_norm": 1.240862311563138,
+      "learning_rate": 9.909405644406738e-05,
+      "loss": 0.1991,
+      "step": 391
+    },
+    {
+      "epoch": 0.15512465373961218,
+      "grad_norm": 0.9361534992273919,
+      "learning_rate": 9.908091977400629e-05,
+      "loss": 0.1806,
+      "step": 392
+    },
+    {
+      "epoch": 0.1555203798971112,
+      "grad_norm": 1.4114250852078498,
+      "learning_rate": 9.906768942727427e-05,
+      "loss": 0.2864,
+      "step": 393
+    },
+    {
+      "epoch": 0.1559161060546102,
+      "grad_norm": 1.2260932555252384,
+      "learning_rate": 9.905436542912301e-05,
+      "loss": 0.2536,
+      "step": 394
+    },
+    {
+      "epoch": 0.15631183221210923,
+      "grad_norm": 1.6525328253857028,
+      "learning_rate": 9.904094780498288e-05,
+      "loss": 0.345,
+      "step": 395
+    },
+    {
+      "epoch": 0.15631183221210923,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8723561239547467,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.32011717557907104,
+      "eval_runtime": 4.9245,
+      "eval_samples_per_second": 6.092,
+      "eval_steps_per_second": 0.203,
+      "step": 395
+    },
+    {
+      "epoch": 0.15670755836960823,
+      "grad_norm": 0.8309626636232432,
+      "learning_rate": 9.902743658046301e-05,
+      "loss": 0.2328,
+      "step": 396
+    },
+    {
+      "epoch": 0.15710328452710723,
+      "grad_norm": 0.6975758308838723,
+      "learning_rate": 9.901383178135113e-05,
+      "loss": 0.2085,
+      "step": 397
+    },
+    {
+      "epoch": 0.15749901068460626,
+      "grad_norm": 0.8218021256812938,
+      "learning_rate": 9.900013343361361e-05,
+      "loss": 0.2183,
+      "step": 398
+    },
+    {
+      "epoch": 0.15789473684210525,
+      "grad_norm": 0.8764692476896122,
+      "learning_rate": 9.898634156339534e-05,
+      "loss": 0.1802,
+      "step": 399
+    },
+    {
+      "epoch": 0.15829046299960428,
+      "grad_norm": 0.9927961927952914,
+      "learning_rate": 9.897245619701972e-05,
+      "loss": 0.1982,
+      "step": 400
+    },
+    {
+      "epoch": 0.15829046299960428,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8546483030004918,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2874349057674408,
+      "eval_runtime": 5.1824,
+      "eval_samples_per_second": 5.789,
+      "eval_steps_per_second": 0.193,
+      "step": 400
+    },
+    {
+      "epoch": 0.15868618915710328,
+      "grad_norm": 0.782945547898975,
+      "learning_rate": 9.89584773609886e-05,
+      "loss": 0.227,
+      "step": 401
+    },
+    {
+      "epoch": 0.1590819153146023,
+      "grad_norm": 0.6988366912221621,
+      "learning_rate": 9.894440508198219e-05,
+      "loss": 0.2346,
+      "step": 402
+    },
+    {
+      "epoch": 0.1594776414721013,
+      "grad_norm": 1.1754822643408613,
+      "learning_rate": 9.893023938685911e-05,
+      "loss": 0.247,
+      "step": 403
+    },
+    {
+      "epoch": 0.1598733676296003,
+      "grad_norm": 0.9649274593902464,
+      "learning_rate": 9.891598030265623e-05,
+      "loss": 0.2903,
+      "step": 404
+    },
+    {
+      "epoch": 0.16026909378709933,
+      "grad_norm": 0.7841368053872065,
+      "learning_rate": 9.89016278565887e-05,
+      "loss": 0.2288,
+      "step": 405
+    },
+    {
+      "epoch": 0.16026909378709933,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8652238071815052,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.29055988788604736,
+      "eval_runtime": 5.1745,
+      "eval_samples_per_second": 5.798,
+      "eval_steps_per_second": 0.193,
+      "step": 405
+    },
+    {
+      "epoch": 0.16066481994459833,
+      "grad_norm": 0.8325349839097159,
+      "learning_rate": 9.88871820760498e-05,
+      "loss": 0.1579,
+      "step": 406
+    },
+    {
+      "epoch": 0.16106054610209736,
+      "grad_norm": 0.8240296874341528,
+      "learning_rate": 9.887264298861103e-05,
+      "loss": 0.2281,
+      "step": 407
+    },
+    {
+      "epoch": 0.16145627225959636,
+      "grad_norm": 0.9157494959887805,
+      "learning_rate": 9.88580106220219e-05,
+      "loss": 0.2262,
+      "step": 408
+    },
+    {
+      "epoch": 0.16185199841709538,
+      "grad_norm": 1.4685427377561266,
+      "learning_rate": 9.884328500421005e-05,
+      "loss": 0.2113,
+      "step": 409
+    },
+    {
+      "epoch": 0.16224772457459438,
+      "grad_norm": 1.3600235444934314,
+      "learning_rate": 9.882846616328099e-05,
+      "loss": 0.2509,
+      "step": 410
+    },
+    {
+      "epoch": 0.16224772457459438,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.868666994589277,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2912760376930237,
+      "eval_runtime": 5.2052,
+      "eval_samples_per_second": 5.763,
+      "eval_steps_per_second": 0.192,
+      "step": 410
+    },
+    {
+      "epoch": 0.16264345073209338,
+      "grad_norm": 1.376461926922242,
+      "learning_rate": 9.881355412751822e-05,
+      "loss": 0.3067,
+      "step": 411
+    },
+    {
+      "epoch": 0.1630391768895924,
+      "grad_norm": 0.881208694997927,
+      "learning_rate": 9.87985489253831e-05,
+      "loss": 0.1424,
+      "step": 412
+    },
+    {
+      "epoch": 0.1634349030470914,
+      "grad_norm": 0.8607549492243324,
+      "learning_rate": 9.878345058551484e-05,
+      "loss": 0.1672,
+      "step": 413
+    },
+    {
+      "epoch": 0.16383062920459043,
+      "grad_norm": 1.1797007312476324,
+      "learning_rate": 9.876825913673036e-05,
+      "loss": 0.226,
+      "step": 414
+    },
+    {
+      "epoch": 0.16422635536208943,
+      "grad_norm": 0.8436626857735583,
+      "learning_rate": 9.875297460802431e-05,
+      "loss": 0.1724,
+      "step": 415
+    },
+    {
+      "epoch": 0.16422635536208943,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8546483030004919,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.32906901836395264,
+      "eval_runtime": 5.2012,
+      "eval_samples_per_second": 5.768,
+      "eval_steps_per_second": 0.192,
+      "step": 415
+    },
+    {
+      "epoch": 0.16462208151958843,
+      "grad_norm": 1.3318480631785306,
+      "learning_rate": 9.873759702856901e-05,
+      "loss": 0.2726,
+      "step": 416
+    },
+    {
+      "epoch": 0.16501780767708746,
+      "grad_norm": 0.752632643815522,
+      "learning_rate": 9.872212642771439e-05,
+      "loss": 0.147,
+      "step": 417
+    },
+    {
+      "epoch": 0.16541353383458646,
+      "grad_norm": 0.8256280123403222,
+      "learning_rate": 9.870656283498786e-05,
+      "loss": 0.1734,
+      "step": 418
+    },
+    {
+      "epoch": 0.16580925999208548,
+      "grad_norm": 0.7778366327127897,
+      "learning_rate": 9.869090628009438e-05,
+      "loss": 0.1882,
+      "step": 419
+    },
+    {
+      "epoch": 0.16620498614958448,
+      "grad_norm": 0.7268919844563321,
+      "learning_rate": 9.86751567929163e-05,
+      "loss": 0.1448,
+      "step": 420
+    },
+    {
+      "epoch": 0.16620498614958448,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8428430890309887,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.32180988788604736,
+      "eval_runtime": 5.3336,
+      "eval_samples_per_second": 5.625,
+      "eval_steps_per_second": 0.187,
+      "step": 420
+    },
+    {
+      "epoch": 0.1666007123070835,
+      "grad_norm": 0.7964057658543404,
+      "learning_rate": 9.865931440351337e-05,
+      "loss": 0.1282,
+      "step": 421
+    },
+    {
+      "epoch": 0.1669964384645825,
+      "grad_norm": 0.8358088064920918,
+      "learning_rate": 9.864337914212263e-05,
+      "loss": 0.1679,
+      "step": 422
+    },
+    {
+      "epoch": 0.1673921646220815,
+      "grad_norm": 0.9007579879808606,
+      "learning_rate": 9.86273510391584e-05,
+      "loss": 0.1463,
+      "step": 423
+    },
+    {
+      "epoch": 0.16778789077958053,
+      "grad_norm": 0.8237939831731644,
+      "learning_rate": 9.861123012521219e-05,
+      "loss": 0.1546,
+      "step": 424
+    },
+    {
+      "epoch": 0.16818361693707953,
+      "grad_norm": 0.7456620296348686,
+      "learning_rate": 9.859501643105262e-05,
+      "loss": 0.1781,
+      "step": 425
+    },
+    {
+      "epoch": 0.16818361693707953,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8539104771273979,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.32255858182907104,
+      "eval_runtime": 4.727,
+      "eval_samples_per_second": 6.347,
+      "eval_steps_per_second": 0.212,
+      "step": 425
+    },
+    {
+      "epoch": 0.16857934309457856,
+      "grad_norm": 0.9709925984122385,
+      "learning_rate": 9.857870998762544e-05,
+      "loss": 0.1897,
+      "step": 426
+    },
+    {
+      "epoch": 0.16897506925207756,
+      "grad_norm": 1.1905147231479112,
+      "learning_rate": 9.856231082605342e-05,
+      "loss": 0.2153,
+      "step": 427
+    },
+    {
+      "epoch": 0.16937079540957659,
+      "grad_norm": 0.9991178556819051,
+      "learning_rate": 9.854581897763626e-05,
+      "loss": 0.1695,
+      "step": 428
+    },
+    {
+      "epoch": 0.16976652156707558,
+      "grad_norm": 0.9334313761797003,
+      "learning_rate": 9.852923447385056e-05,
+      "loss": 0.157,
+      "step": 429
+    },
+    {
+      "epoch": 0.17016224772457458,
+      "grad_norm": 0.9741867864822177,
+      "learning_rate": 9.851255734634983e-05,
+      "loss": 0.1436,
+      "step": 430
+    },
+    {
+      "epoch": 0.17016224772457458,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.865715691096901,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.3036458194255829,
+      "eval_runtime": 5.1452,
+      "eval_samples_per_second": 5.831,
+      "eval_steps_per_second": 0.194,
+      "step": 430
+    },
+    {
+      "epoch": 0.1705579738820736,
+      "grad_norm": 1.2848545499996646,
+      "learning_rate": 9.849578762696426e-05,
+      "loss": 0.1791,
+      "step": 431
+    },
+    {
+      "epoch": 0.1709537000395726,
+      "grad_norm": 1.3007941726582894,
+      "learning_rate": 9.847892534770086e-05,
+      "loss": 0.2304,
+      "step": 432
+    },
+    {
+      "epoch": 0.17134942619707164,
+      "grad_norm": 1.3002150956886682,
+      "learning_rate": 9.846197054074325e-05,
+      "loss": 0.1966,
+      "step": 433
+    },
+    {
+      "epoch": 0.17174515235457063,
+      "grad_norm": 1.0644083825553325,
+      "learning_rate": 9.844492323845167e-05,
+      "loss": 0.2084,
+      "step": 434
+    },
+    {
+      "epoch": 0.17214087851206966,
+      "grad_norm": 0.9651572025987847,
+      "learning_rate": 9.842778347336286e-05,
+      "loss": 0.2191,
+      "step": 435
+    },
+    {
+      "epoch": 0.17214087851206966,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8703885882931628,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3273111879825592,
+      "eval_runtime": 5.1399,
+      "eval_samples_per_second": 5.837,
+      "eval_steps_per_second": 0.195,
+      "step": 435
+    },
+    {
+      "epoch": 0.17253660466956866,
+      "grad_norm": 0.8248507421737991,
+      "learning_rate": 9.841055127819009e-05,
+      "loss": 0.1464,
+      "step": 436
+    },
+    {
+      "epoch": 0.17293233082706766,
+      "grad_norm": 0.8808171345651463,
+      "learning_rate": 9.8393226685823e-05,
+      "loss": 0.191,
+      "step": 437
+    },
+    {
+      "epoch": 0.1733280569845667,
+      "grad_norm": 0.7174727552036037,
+      "learning_rate": 9.837580972932762e-05,
+      "loss": 0.1699,
+      "step": 438
+    },
+    {
+      "epoch": 0.17372378314206569,
+      "grad_norm": 1.0549911008959587,
+      "learning_rate": 9.835830044194625e-05,
+      "loss": 0.2365,
+      "step": 439
+    },
+    {
+      "epoch": 0.1741195092995647,
+      "grad_norm": 1.0764702097362318,
+      "learning_rate": 9.834069885709738e-05,
+      "loss": 0.2608,
+      "step": 440
+    },
+    {
+      "epoch": 0.1741195092995647,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9363636363636364,
+      "eval_PRM F1 AUC": 0.7181505164781112,
+      "eval_PRM F1 AUC (fixed)": 0.8598130841121494,
+      "eval_PRM F1 Neg": 0.5625,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.911504424778761,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.29023438692092896,
+      "eval_runtime": 5.1473,
+      "eval_samples_per_second": 5.828,
+      "eval_steps_per_second": 0.194,
+      "step": 440
+    },
+    {
+      "epoch": 0.1745152354570637,
+      "grad_norm": 1.507816191114127,
+      "learning_rate": 9.83230050083757e-05,
+      "loss": 0.2383,
+      "step": 441
+    },
+    {
+      "epoch": 0.1749109616145627,
+      "grad_norm": 1.2173394026481812,
+      "learning_rate": 9.830521892955202e-05,
+      "loss": 0.2277,
+      "step": 442
+    },
+    {
+      "epoch": 0.17530668777206174,
+      "grad_norm": 1.156748942545076,
+      "learning_rate": 9.828734065457313e-05,
+      "loss": 0.2219,
+      "step": 443
+    },
+    {
+      "epoch": 0.17570241392956074,
+      "grad_norm": 1.0696524188080094,
+      "learning_rate": 9.826937021756177e-05,
+      "loss": 0.2053,
+      "step": 444
+    },
+    {
+      "epoch": 0.17609814008705976,
+      "grad_norm": 0.6772780331197916,
+      "learning_rate": 9.825130765281668e-05,
+      "loss": 0.1206,
+      "step": 445
+    },
+    {
+      "epoch": 0.17609814008705976,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8620265617314313,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.34436848759651184,
+      "eval_runtime": 5.1589,
+      "eval_samples_per_second": 5.815,
+      "eval_steps_per_second": 0.194,
+      "step": 445
+    },
+    {
+      "epoch": 0.17649386624455876,
+      "grad_norm": 1.6058506163829567,
+      "learning_rate": 9.823315299481235e-05,
+      "loss": 0.2915,
+      "step": 446
+    },
+    {
+      "epoch": 0.1768895924020578,
+      "grad_norm": 1.532309323119185,
+      "learning_rate": 9.821490627819904e-05,
+      "loss": 0.241,
+      "step": 447
+    },
+    {
+      "epoch": 0.1772853185595568,
+      "grad_norm": 2.43027550013657,
+      "learning_rate": 9.81965675378028e-05,
+      "loss": 0.1774,
+      "step": 448
+    },
+    {
+      "epoch": 0.17768104471705579,
+      "grad_norm": 1.2828904326228279,
+      "learning_rate": 9.81781368086252e-05,
+      "loss": 0.1487,
+      "step": 449
+    },
+    {
+      "epoch": 0.1780767708745548,
+      "grad_norm": 0.7713967290502675,
+      "learning_rate": 9.815961412584347e-05,
+      "loss": 0.188,
+      "step": 450
+    },
+    {
+      "epoch": 0.1780767708745548,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8620265617314314,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.30725911259651184,
+      "eval_runtime": 5.2096,
+      "eval_samples_per_second": 5.759,
+      "eval_steps_per_second": 0.192,
+      "step": 450
+    },
+    {
+      "epoch": 0.1784724970320538,
+      "grad_norm": 1.1963818551662022,
+      "learning_rate": 9.814099952481032e-05,
+      "loss": 0.1916,
+      "step": 451
+    },
+    {
+      "epoch": 0.17886822318955284,
+      "grad_norm": 1.0308637746858087,
+      "learning_rate": 9.812229304105387e-05,
+      "loss": 0.1818,
+      "step": 452
+    },
+    {
+      "epoch": 0.17926394934705184,
+      "grad_norm": 1.1222282905450551,
+      "learning_rate": 9.810349471027765e-05,
+      "loss": 0.1794,
+      "step": 453
+    },
+    {
+      "epoch": 0.17965967550455086,
+      "grad_norm": 1.1244269374574152,
+      "learning_rate": 9.808460456836047e-05,
+      "loss": 0.2561,
+      "step": 454
+    },
+    {
+      "epoch": 0.18005540166204986,
+      "grad_norm": 1.7094228415535384,
+      "learning_rate": 9.806562265135635e-05,
+      "loss": 0.2284,
+      "step": 455
+    },
+    {
+      "epoch": 0.18005540166204986,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.853172651254304,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.31051433086395264,
+      "eval_runtime": 4.9345,
+      "eval_samples_per_second": 6.08,
+      "eval_steps_per_second": 0.203,
+      "step": 455
+    },
+    {
+      "epoch": 0.18045112781954886,
+      "grad_norm": 1.137280961780425,
+      "learning_rate": 9.804654899549451e-05,
+      "loss": 0.2141,
+      "step": 456
+    },
+    {
+      "epoch": 0.1808468539770479,
+      "grad_norm": 1.496837047531952,
+      "learning_rate": 9.802738363717928e-05,
+      "loss": 0.2694,
+      "step": 457
+    },
+    {
+      "epoch": 0.1812425801345469,
+      "grad_norm": 1.250545215062278,
+      "learning_rate": 9.800812661298992e-05,
+      "loss": 0.211,
+      "step": 458
+    },
+    {
+      "epoch": 0.18163830629204591,
+      "grad_norm": 1.4604350769296355,
+      "learning_rate": 9.798877795968078e-05,
+      "loss": 0.2178,
+      "step": 459
+    },
+    {
+      "epoch": 0.1820340324495449,
+      "grad_norm": 0.9088694011668346,
+      "learning_rate": 9.796933771418098e-05,
+      "loss": 0.2169,
+      "step": 460
+    },
+    {
+      "epoch": 0.1820340324495449,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8467781603541564,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.30423176288604736,
+      "eval_runtime": 4.865,
+      "eval_samples_per_second": 6.167,
+      "eval_steps_per_second": 0.206,
+      "step": 460
+    },
+    {
+      "epoch": 0.1824297586070439,
+      "grad_norm": 1.2863171743495188,
+      "learning_rate": 9.794980591359453e-05,
+      "loss": 0.1991,
+      "step": 461
+    },
+    {
+      "epoch": 0.18282548476454294,
+      "grad_norm": 1.1857003231197765,
+      "learning_rate": 9.793018259520014e-05,
+      "loss": 0.1593,
+      "step": 462
+    },
+    {
+      "epoch": 0.18322121092204194,
+      "grad_norm": 1.0413845286286343,
+      "learning_rate": 9.791046779645121e-05,
+      "loss": 0.2232,
+      "step": 463
+    },
+    {
+      "epoch": 0.18361693707954096,
+      "grad_norm": 1.0062633991526322,
+      "learning_rate": 9.789066155497573e-05,
+      "loss": 0.1731,
+      "step": 464
+    },
+    {
+      "epoch": 0.18401266323703996,
+      "grad_norm": 1.408974424486651,
+      "learning_rate": 9.787076390857623e-05,
+      "loss": 0.2142,
+      "step": 465
+    },
+    {
+      "epoch": 0.18401266323703996,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8649778652238072,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.35185545682907104,
+      "eval_runtime": 5.1784,
+      "eval_samples_per_second": 5.793,
+      "eval_steps_per_second": 0.193,
+      "step": 465
+    },
+    {
+      "epoch": 0.184408389394539,
+      "grad_norm": 1.2291668566653438,
+      "learning_rate": 9.78507748952297e-05,
+      "loss": 0.1815,
+      "step": 466
+    },
+    {
+      "epoch": 0.184804115552038,
+      "grad_norm": 0.7961457074977336,
+      "learning_rate": 9.783069455308749e-05,
+      "loss": 0.1498,
+      "step": 467
+    },
+    {
+      "epoch": 0.185199841709537,
+      "grad_norm": 1.8456966784990103,
+      "learning_rate": 9.78105229204753e-05,
+      "loss": 0.2613,
+      "step": 468
+    },
+    {
+      "epoch": 0.18559556786703602,
+      "grad_norm": 1.2877100962816268,
+      "learning_rate": 9.779026003589304e-05,
+      "loss": 0.1955,
+      "step": 469
+    },
+    {
+      "epoch": 0.18599129402453501,
+      "grad_norm": 1.267302401798338,
+      "learning_rate": 9.77699059380148e-05,
+      "loss": 0.2361,
+      "step": 470
+    },
+    {
+      "epoch": 0.18599129402453501,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8689129365469748,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3060872256755829,
+      "eval_runtime": 4.9107,
+      "eval_samples_per_second": 6.109,
+      "eval_steps_per_second": 0.204,
+      "step": 470
+    },
+    {
+      "epoch": 0.18638702018203404,
+      "grad_norm": 1.1960094258040463,
+      "learning_rate": 9.774946066568873e-05,
+      "loss": 0.1815,
+      "step": 471
+    },
+    {
+      "epoch": 0.18678274633953304,
+      "grad_norm": 1.5934914556010202,
+      "learning_rate": 9.772892425793705e-05,
+      "loss": 0.2188,
+      "step": 472
+    },
+    {
+      "epoch": 0.18717847249703207,
+      "grad_norm": 1.2091755268659399,
+      "learning_rate": 9.770829675395587e-05,
+      "loss": 0.1823,
+      "step": 473
+    },
+    {
+      "epoch": 0.18757419865453107,
+      "grad_norm": 1.235062546844469,
+      "learning_rate": 9.768757819311523e-05,
+      "loss": 0.1667,
+      "step": 474
+    },
+    {
+      "epoch": 0.18796992481203006,
+      "grad_norm": 1.1992116630214977,
+      "learning_rate": 9.766676861495888e-05,
+      "loss": 0.2079,
+      "step": 475
+    },
+    {
+      "epoch": 0.18796992481203006,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.867191342843089,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.32223308086395264,
+      "eval_runtime": 5.2368,
+      "eval_samples_per_second": 5.729,
+      "eval_steps_per_second": 0.191,
+      "step": 475
+    },
+    {
+      "epoch": 0.1883656509695291,
+      "grad_norm": 0.9100189558273402,
+      "learning_rate": 9.764586805920434e-05,
+      "loss": 0.1956,
+      "step": 476
+    },
+    {
+      "epoch": 0.1887613771270281,
+      "grad_norm": 1.0054252441051408,
+      "learning_rate": 9.76248765657428e-05,
+      "loss": 0.2282,
+      "step": 477
+    },
+    {
+      "epoch": 0.18915710328452712,
+      "grad_norm": 1.0047134966770168,
+      "learning_rate": 9.760379417463894e-05,
+      "loss": 0.2355,
+      "step": 478
+    },
+    {
+      "epoch": 0.18955282944202612,
+      "grad_norm": 0.8125513539439929,
+      "learning_rate": 9.758262092613099e-05,
+      "loss": 0.2278,
+      "step": 479
+    },
+    {
+      "epoch": 0.18994855559952512,
+      "grad_norm": 0.7611823051482737,
+      "learning_rate": 9.756135686063055e-05,
+      "loss": 0.2033,
+      "step": 480
+    },
+    {
+      "epoch": 0.18994855559952512,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8607968519429414,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.30712890625,
+      "eval_runtime": 5.0564,
+      "eval_samples_per_second": 5.933,
+      "eval_steps_per_second": 0.198,
+      "step": 480
+    },
+    {
+      "epoch": 0.19034428175702414,
+      "grad_norm": 0.6433764553200512,
+      "learning_rate": 9.754000201872258e-05,
+      "loss": 0.1526,
+      "step": 481
+    },
+    {
+      "epoch": 0.19074000791452314,
+      "grad_norm": 0.7881003350239213,
+      "learning_rate": 9.75185564411653e-05,
+      "loss": 0.2109,
+      "step": 482
+    },
+    {
+      "epoch": 0.19113573407202217,
+      "grad_norm": 0.826672657143874,
+      "learning_rate": 9.749702016889008e-05,
+      "loss": 0.1467,
+      "step": 483
+    },
+    {
+      "epoch": 0.19153146022952117,
+      "grad_norm": 1.026482727630389,
+      "learning_rate": 9.747539324300143e-05,
+      "loss": 0.2369,
+      "step": 484
+    },
+    {
+      "epoch": 0.1919271863870202,
+      "grad_norm": 1.3195179269839081,
+      "learning_rate": 9.745367570477688e-05,
+      "loss": 0.3038,
+      "step": 485
+    },
+    {
+      "epoch": 0.1919271863870202,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8666994589276931,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.32001954317092896,
+      "eval_runtime": 4.9903,
+      "eval_samples_per_second": 6.012,
+      "eval_steps_per_second": 0.2,
+      "step": 485
+    },
+    {
+      "epoch": 0.1923229125445192,
+      "grad_norm": 0.8319515966711912,
+      "learning_rate": 9.743186759566685e-05,
+      "loss": 0.1669,
+      "step": 486
+    },
+    {
+      "epoch": 0.1927186387020182,
+      "grad_norm": 0.972732634979424,
+      "learning_rate": 9.74099689572947e-05,
+      "loss": 0.2254,
+      "step": 487
+    },
+    {
+      "epoch": 0.19311436485951722,
+      "grad_norm": 1.0125530271904788,
+      "learning_rate": 9.738797983145654e-05,
+      "loss": 0.1997,
+      "step": 488
+    },
+    {
+      "epoch": 0.19351009101701622,
+      "grad_norm": 0.8485645922174874,
+      "learning_rate": 9.736590026012114e-05,
+      "loss": 0.1444,
+      "step": 489
+    },
+    {
+      "epoch": 0.19390581717451524,
+      "grad_norm": 0.7367979409086853,
+      "learning_rate": 9.734373028543001e-05,
+      "loss": 0.132,
+      "step": 490
+    },
+    {
+      "epoch": 0.19390581717451524,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.8652238071815052,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.31181639432907104,
+      "eval_runtime": 4.9899,
+      "eval_samples_per_second": 6.012,
+      "eval_steps_per_second": 0.2,
+      "step": 490
+    },
+    {
+      "epoch": 0.19430154333201424,
+      "grad_norm": 1.0451585604362188,
+      "learning_rate": 9.732146994969706e-05,
+      "loss": 0.2093,
+      "step": 491
+    },
+    {
+      "epoch": 0.19469726948951327,
+      "grad_norm": 0.8972052689670954,
+      "learning_rate": 9.729911929540883e-05,
+      "loss": 0.1578,
+      "step": 492
+    },
+    {
+      "epoch": 0.19509299564701227,
+      "grad_norm": 1.2723243916022555,
+      "learning_rate": 9.727667836522407e-05,
+      "loss": 0.2714,
+      "step": 493
+    },
+    {
+      "epoch": 0.19548872180451127,
+      "grad_norm": 0.8887536975525306,
+      "learning_rate": 9.725414720197399e-05,
+      "loss": 0.1458,
+      "step": 494
+    },
+    {
+      "epoch": 0.1958844479620103,
+      "grad_norm": 1.052302895536357,
+      "learning_rate": 9.72315258486619e-05,
+      "loss": 0.2147,
+      "step": 495
+    },
+    {
+      "epoch": 0.1958844479620103,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9333333333333333,
+      "eval_PRM F1 AUC": 0.6485489424495818,
+      "eval_PRM F1 AUC (fixed)": 0.8568617806197737,
+      "eval_PRM F1 Neg": 0.4444444444444444,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8898305084745762,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.32522785663604736,
+      "eval_runtime": 5.0028,
+      "eval_samples_per_second": 5.997,
+      "eval_steps_per_second": 0.2,
+      "step": 495
+    },
+    {
+      "epoch": 0.1962801741195093,
+      "grad_norm": 1.107885519591802,
+      "learning_rate": 9.720881434846332e-05,
+      "loss": 0.2153,
+      "step": 496
+    },
+    {
+      "epoch": 0.19667590027700832,
+      "grad_norm": 1.0550679159424838,
+      "learning_rate": 9.718601274472578e-05,
+      "loss": 0.2705,
+      "step": 497
+    },
+    {
+      "epoch": 0.19707162643450732,
+      "grad_norm": 1.1302368605928312,
+      "learning_rate": 9.716312108096884e-05,
+      "loss": 0.1845,
+      "step": 498
+    },
+    {
+      "epoch": 0.19746735259200635,
+      "grad_norm": 1.089049657778467,
+      "learning_rate": 9.714013940088388e-05,
+      "loss": 0.1842,
+      "step": 499
+    },
+    {
+      "epoch": 0.19786307874950534,
+      "grad_norm": 1.401334561425866,
+      "learning_rate": 9.711706774833414e-05,
+      "loss": 0.2216,
+      "step": 500
+    },
+    {
+      "epoch": 0.19786307874950534,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8612887358583373,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3042968809604645,
+      "eval_runtime": 5.1886,
+      "eval_samples_per_second": 5.782,
+      "eval_steps_per_second": 0.193,
+      "step": 500
+    },
+    {
+      "epoch": 0.19825880490700434,
+      "grad_norm": 1.1264535554417732,
+      "learning_rate": 9.709390616735456e-05,
+      "loss": 0.1603,
+      "step": 501
+    },
+    {
+      "epoch": 0.19865453106450337,
+      "grad_norm": 1.2549995485933023,
+      "learning_rate": 9.707065470215174e-05,
+      "loss": 0.1631,
+      "step": 502
+    },
+    {
+      "epoch": 0.19905025722200237,
+      "grad_norm": 1.4298566453240185,
+      "learning_rate": 9.70473133971038e-05,
+      "loss": 0.2256,
+      "step": 503
+    },
+    {
+      "epoch": 0.1994459833795014,
+      "grad_norm": 1.243183708125135,
+      "learning_rate": 9.702388229676033e-05,
+      "loss": 0.1871,
+      "step": 504
+    },
+    {
+      "epoch": 0.1998417095370004,
+      "grad_norm": 0.8346136506497759,
+      "learning_rate": 9.700036144584237e-05,
+      "loss": 0.157,
+      "step": 505
+    },
+    {
+      "epoch": 0.1998417095370004,
+      "eval_PRM Accuracy": 0.8571428571428571,
+      "eval_PRM F1": 0.9217391304347826,
+      "eval_PRM F1 AUC": 0.5479586817511067,
+      "eval_PRM F1 AUC (fixed)": 0.8603049680275455,
+      "eval_PRM F1 Neg": 0.18181818181818182,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8617886178861789,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.10526315789473684,
+      "eval_loss": 0.3991861939430237,
+      "eval_runtime": 5.0295,
+      "eval_samples_per_second": 5.965,
+      "eval_steps_per_second": 0.199,
+      "step": 505
+    },
+    {
+      "epoch": 0.2002374356944994,
+      "grad_norm": 1.3900068270293604,
+      "learning_rate": 9.697675088924218e-05,
+      "loss": 0.2165,
+      "step": 506
+    },
+    {
+      "epoch": 0.20063316185199842,
+      "grad_norm": 0.5945249548749268,
+      "learning_rate": 9.695305067202328e-05,
+      "loss": 0.1352,
+      "step": 507
+    },
+    {
+      "epoch": 0.20102888800949742,
+      "grad_norm": 1.043679639075919,
+      "learning_rate": 9.692926083942029e-05,
+      "loss": 0.1934,
+      "step": 508
+    },
+    {
+      "epoch": 0.20142461416699645,
+      "grad_norm": 0.9441783291481128,
+      "learning_rate": 9.690538143683891e-05,
+      "loss": 0.2495,
+      "step": 509
+    },
+    {
+      "epoch": 0.20182034032449545,
+      "grad_norm": 0.7709899617459975,
+      "learning_rate": 9.688141250985574e-05,
+      "loss": 0.2009,
+      "step": 510
+    },
+    {
+      "epoch": 0.20182034032449545,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9230769230769231,
+      "eval_PRM F1 AUC": 0.6608460403344811,
+      "eval_PRM F1 AUC (fixed)": 0.8499754058042301,
+      "eval_PRM F1 Neg": 0.45161290322580644,
+      "eval_PRM NPV": 0.5833333333333334,
+      "eval_PRM Precision": 0.8947368421052632,
+      "eval_PRM Recall": 0.9532710280373832,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.32386067509651184,
+      "eval_runtime": 5.0065,
+      "eval_samples_per_second": 5.992,
+      "eval_steps_per_second": 0.2,
+      "step": 510
+    },
+    {
+      "epoch": 0.20221606648199447,
+      "grad_norm": 1.1223110605792201,
+      "learning_rate": 9.68573541042183e-05,
+      "loss": 0.298,
+      "step": 511
+    },
+    {
+      "epoch": 0.20261179263949347,
+      "grad_norm": 1.4007344018582633,
+      "learning_rate": 9.683320626584486e-05,
+      "loss": 0.2643,
+      "step": 512
+    },
+    {
+      "epoch": 0.20300751879699247,
+      "grad_norm": 1.7682189070436682,
+      "learning_rate": 9.680896904082439e-05,
+      "loss": 0.2133,
+      "step": 513
+    },
+    {
+      "epoch": 0.2034032449544915,
+      "grad_norm": 1.036671216282991,
+      "learning_rate": 9.678464247541648e-05,
+      "loss": 0.1837,
+      "step": 514
+    },
+    {
+      "epoch": 0.2037989711119905,
+      "grad_norm": 0.695210891373307,
+      "learning_rate": 9.67602266160512e-05,
+      "loss": 0.1752,
+      "step": 515
+    },
+    {
+      "epoch": 0.2037989711119905,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9230769230769231,
+      "eval_PRM F1 AUC": 0.6608460403344811,
+      "eval_PRM F1 AUC (fixed)": 0.867437284800787,
+      "eval_PRM F1 Neg": 0.45161290322580644,
+      "eval_PRM NPV": 0.5833333333333334,
+      "eval_PRM Precision": 0.8947368421052632,
+      "eval_PRM Recall": 0.9532710280373832,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.33037108182907104,
+      "eval_runtime": 5.3133,
+      "eval_samples_per_second": 5.646,
+      "eval_steps_per_second": 0.188,
+      "step": 515
+    },
+    {
+      "epoch": 0.20419469726948952,
+      "grad_norm": 1.0365457684608814,
+      "learning_rate": 9.673572150932909e-05,
+      "loss": 0.2064,
+      "step": 516
+    },
+    {
+      "epoch": 0.20459042342698852,
+      "grad_norm": 1.4331670555504556,
+      "learning_rate": 9.6711127202021e-05,
+      "loss": 0.3918,
+      "step": 517
+    },
+    {
+      "epoch": 0.20498614958448755,
+      "grad_norm": 1.4725826262605737,
+      "learning_rate": 9.668644374106805e-05,
+      "loss": 0.2939,
+      "step": 518
+    },
+    {
+      "epoch": 0.20538187574198655,
+      "grad_norm": 0.7531585558002998,
+      "learning_rate": 9.666167117358149e-05,
+      "loss": 0.1518,
+      "step": 519
+    },
+    {
+      "epoch": 0.20577760189948555,
+      "grad_norm": 1.1173060271029716,
+      "learning_rate": 9.663680954684268e-05,
+      "loss": 0.1819,
+      "step": 520
+    },
+    {
+      "epoch": 0.20577760189948555,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9285714285714286,
+      "eval_PRM F1 AUC": 0.6438760452533202,
+      "eval_PRM F1 AUC (fixed)": 0.8718642400393507,
+      "eval_PRM F1 Neg": 0.42857142857142855,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8888888888888888,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3360026180744171,
+      "eval_runtime": 5.1335,
+      "eval_samples_per_second": 5.844,
+      "eval_steps_per_second": 0.195,
+      "step": 520
+    },
+    {
+      "epoch": 0.20617332805698457,
+      "grad_norm": 1.2406857590155362,
+      "learning_rate": 9.661185890830293e-05,
+      "loss": 0.1799,
+      "step": 521
+    },
+    {
+      "epoch": 0.20656905421448357,
+      "grad_norm": 0.8502138580876508,
+      "learning_rate": 9.658681930558345e-05,
+      "loss": 0.1954,
+      "step": 522
+    },
+    {
+      "epoch": 0.2069647803719826,
+      "grad_norm": 0.8615146218402908,
+      "learning_rate": 9.656169078647526e-05,
+      "loss": 0.224,
+      "step": 523
+    },
+    {
+      "epoch": 0.2073605065294816,
+      "grad_norm": 1.0325978121139723,
+      "learning_rate": 9.653647339893905e-05,
+      "loss": 0.2473,
+      "step": 524
+    },
+    {
+      "epoch": 0.2077562326869806,
+      "grad_norm": 0.8077612731881857,
+      "learning_rate": 9.651116719110517e-05,
+      "loss": 0.1659,
+      "step": 525
+    },
+    {
+      "epoch": 0.2077562326869806,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.8644859813084113,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3466796875,
+      "eval_runtime": 5.1442,
+      "eval_samples_per_second": 5.832,
+      "eval_steps_per_second": 0.194,
+      "step": 525
+    },
+    {
+      "epoch": 0.20815195884447962,
+      "grad_norm": 1.0624343543580033,
+      "learning_rate": 9.648577221127346e-05,
+      "loss": 0.1215,
+      "step": 526
+    },
+    {
+      "epoch": 0.20854768500197862,
+      "grad_norm": 5.168173680614494,
+      "learning_rate": 9.646028850791325e-05,
+      "loss": 0.1992,
+      "step": 527
+    },
+    {
+      "epoch": 0.20894341115947765,
+      "grad_norm": 1.8652195410740853,
+      "learning_rate": 9.64347161296631e-05,
+      "loss": 0.2237,
+      "step": 528
+    },
+    {
+      "epoch": 0.20933913731697665,
+      "grad_norm": 0.7799574378963159,
+      "learning_rate": 9.640905512533091e-05,
+      "loss": 0.2083,
+      "step": 529
+    },
+    {
+      "epoch": 0.20973486347447567,
+      "grad_norm": 0.9037284373512658,
+      "learning_rate": 9.638330554389374e-05,
+      "loss": 0.1608,
+      "step": 530
+    },
+    {
+      "epoch": 0.20973486347447567,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8644859813084113,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3483235538005829,
+      "eval_runtime": 5.0089,
+      "eval_samples_per_second": 5.989,
+      "eval_steps_per_second": 0.2,
+      "step": 530
+    },
+    {
+      "epoch": 0.21013058963197467,
+      "grad_norm": 0.9656568325957725,
+      "learning_rate": 9.635746743449763e-05,
+      "loss": 0.1943,
+      "step": 531
+    },
+    {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 1.1758744585978005,
+      "learning_rate": 9.633154084645766e-05,
+      "loss": 0.1958,
+      "step": 532
+    },
+    {
+      "epoch": 0.2109220419469727,
+      "grad_norm": 1.1040540916105812,
+      "learning_rate": 9.630552582925772e-05,
+      "loss": 0.2008,
+      "step": 533
+    },
+    {
+      "epoch": 0.2113177681044717,
+      "grad_norm": 0.9935287884699731,
+      "learning_rate": 9.627942243255055e-05,
+      "loss": 0.1666,
+      "step": 534
+    },
+    {
+      "epoch": 0.21171349426197072,
+      "grad_norm": 0.972737886868156,
+      "learning_rate": 9.625323070615751e-05,
+      "loss": 0.1853,
+      "step": 535
+    },
+    {
+      "epoch": 0.21171349426197072,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8703885882931629,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.30195313692092896,
+      "eval_runtime": 4.9376,
+      "eval_samples_per_second": 6.076,
+      "eval_steps_per_second": 0.203,
+      "step": 535
+    },
+    {
+      "epoch": 0.21210922041946972,
+      "grad_norm": 0.7467895741053363,
+      "learning_rate": 9.622695070006855e-05,
+      "loss": 0.134,
+      "step": 536
+    },
+    {
+      "epoch": 0.21250494657696875,
+      "grad_norm": 0.9403120886314019,
+      "learning_rate": 9.620058246444218e-05,
+      "loss": 0.2194,
+      "step": 537
+    },
+    {
+      "epoch": 0.21290067273446775,
+      "grad_norm": 1.2576960118400111,
+      "learning_rate": 9.617412604960523e-05,
+      "loss": 0.2212,
+      "step": 538
+    },
+    {
+      "epoch": 0.21329639889196675,
+      "grad_norm": 0.8308266600414512,
+      "learning_rate": 9.614758150605286e-05,
+      "loss": 0.1599,
+      "step": 539
+    },
+    {
+      "epoch": 0.21369212504946578,
+      "grad_norm": 0.960188799817658,
+      "learning_rate": 9.612094888444845e-05,
+      "loss": 0.1733,
+      "step": 540
+    },
+    {
+      "epoch": 0.21369212504946578,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8607968519429415,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3046875,
+      "eval_runtime": 5.0892,
+      "eval_samples_per_second": 5.895,
+      "eval_steps_per_second": 0.196,
+      "step": 540
+    },
+    {
+      "epoch": 0.21408785120696477,
+      "grad_norm": 0.8821226244088822,
+      "learning_rate": 9.609422823562345e-05,
+      "loss": 0.1838,
+      "step": 541
+    },
+    {
+      "epoch": 0.2144835773644638,
+      "grad_norm": 0.8779396786356636,
+      "learning_rate": 9.606741961057736e-05,
+      "loss": 0.1994,
+      "step": 542
+    },
+    {
+      "epoch": 0.2148793035219628,
+      "grad_norm": 0.9278291992515524,
+      "learning_rate": 9.604052306047755e-05,
+      "loss": 0.1424,
+      "step": 543
+    },
+    {
+      "epoch": 0.2152750296794618,
+      "grad_norm": 1.3601463696375726,
+      "learning_rate": 9.601353863665925e-05,
+      "loss": 0.2202,
+      "step": 544
+    },
+    {
+      "epoch": 0.21567075583696083,
+      "grad_norm": 0.9571474831287845,
+      "learning_rate": 9.598646639062538e-05,
+      "loss": 0.2449,
+      "step": 545
+    },
+    {
+      "epoch": 0.21567075583696083,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8630103295622233,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3026692569255829,
+      "eval_runtime": 4.9598,
+      "eval_samples_per_second": 6.049,
+      "eval_steps_per_second": 0.202,
+      "step": 545
+    },
+    {
+      "epoch": 0.21606648199445982,
+      "grad_norm": 0.6974800822103099,
+      "learning_rate": 9.595930637404649e-05,
+      "loss": 0.1742,
+      "step": 546
+    },
+    {
+      "epoch": 0.21646220815195885,
+      "grad_norm": 0.7413282402564647,
+      "learning_rate": 9.593205863876062e-05,
+      "loss": 0.17,
+      "step": 547
+    },
+    {
+      "epoch": 0.21685793430945785,
+      "grad_norm": 1.0502428203770906,
+      "learning_rate": 9.590472323677328e-05,
+      "loss": 0.1984,
+      "step": 548
+    },
+    {
+      "epoch": 0.21725366046695688,
+      "grad_norm": 1.0691413471866484,
+      "learning_rate": 9.58773002202573e-05,
+      "loss": 0.1281,
+      "step": 549
+    },
+    {
+      "epoch": 0.21764938662445588,
+      "grad_norm": 0.6566165275714569,
+      "learning_rate": 9.584978964155266e-05,
+      "loss": 0.1253,
+      "step": 550
+    },
+    {
+      "epoch": 0.21764938662445588,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8605509099852434,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3195638060569763,
+      "eval_runtime": 5.1351,
+      "eval_samples_per_second": 5.842,
+      "eval_steps_per_second": 0.195,
+      "step": 550
+    },
+    {
+      "epoch": 0.21804511278195488,
+      "grad_norm": 0.9558714705740771,
+      "learning_rate": 9.582219155316656e-05,
+      "loss": 0.1737,
+      "step": 551
+    },
+    {
+      "epoch": 0.2184408389394539,
+      "grad_norm": 0.9211184932049711,
+      "learning_rate": 9.579450600777314e-05,
+      "loss": 0.1874,
+      "step": 552
+    },
+    {
+      "epoch": 0.2188365650969529,
+      "grad_norm": 0.9822808185532677,
+      "learning_rate": 9.576673305821353e-05,
+      "loss": 0.2077,
+      "step": 553
+    },
+    {
+      "epoch": 0.21923229125445193,
+      "grad_norm": 1.0456582618812262,
+      "learning_rate": 9.573887275749564e-05,
+      "loss": 0.1653,
+      "step": 554
+    },
+    {
+      "epoch": 0.21962801741195093,
+      "grad_norm": 2.7426170342114937,
+      "learning_rate": 9.57109251587941e-05,
+      "loss": 0.3692,
+      "step": 555
+    },
+    {
+      "epoch": 0.21962801741195093,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8644859813084111,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3179687559604645,
+      "eval_runtime": 4.8311,
+      "eval_samples_per_second": 6.21,
+      "eval_steps_per_second": 0.207,
+      "step": 555
+    },
+    {
+      "epoch": 0.22002374356944995,
+      "grad_norm": 0.9584841161621672,
+      "learning_rate": 9.568289031545017e-05,
+      "loss": 0.2137,
+      "step": 556
+    },
+    {
+      "epoch": 0.22041946972694895,
+      "grad_norm": 0.902570061001305,
+      "learning_rate": 9.565476828097163e-05,
+      "loss": 0.1766,
+      "step": 557
+    },
+    {
+      "epoch": 0.22081519588444795,
+      "grad_norm": 0.6781830371649948,
+      "learning_rate": 9.562655910903267e-05,
+      "loss": 0.1375,
+      "step": 558
+    },
+    {
+      "epoch": 0.22121092204194698,
+      "grad_norm": 0.7032453896001626,
+      "learning_rate": 9.55982628534738e-05,
+      "loss": 0.1655,
+      "step": 559
+    },
+    {
+      "epoch": 0.22160664819944598,
+      "grad_norm": 1.2747164883201627,
+      "learning_rate": 9.55698795683017e-05,
+      "loss": 0.1696,
+      "step": 560
+    },
+    {
+      "epoch": 0.22160664819944598,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8664535169699951,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3035481870174408,
+      "eval_runtime": 4.7243,
+      "eval_samples_per_second": 6.35,
+      "eval_steps_per_second": 0.212,
+      "step": 560
+    },
+    {
+      "epoch": 0.222002374356945,
+      "grad_norm": 0.6865135453027532,
+      "learning_rate": 9.554140930768922e-05,
+      "loss": 0.1609,
+      "step": 561
+    },
+    {
+      "epoch": 0.222398100514444,
+      "grad_norm": 1.1115197727130854,
+      "learning_rate": 9.551285212597516e-05,
+      "loss": 0.1638,
+      "step": 562
+    },
+    {
+      "epoch": 0.222793826671943,
+      "grad_norm": 0.6641373048947078,
+      "learning_rate": 9.548420807766425e-05,
+      "loss": 0.1424,
+      "step": 563
+    },
+    {
+      "epoch": 0.22318955282944203,
+      "grad_norm": 1.4565119763313692,
+      "learning_rate": 9.545547721742698e-05,
+      "loss": 0.2122,
+      "step": 564
+    },
+    {
+      "epoch": 0.22358527898694103,
+      "grad_norm": 1.174160384376405,
+      "learning_rate": 9.542665960009959e-05,
+      "loss": 0.1643,
+      "step": 565
+    },
+    {
+      "epoch": 0.22358527898694103,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8792424987702901,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.36243489384651184,
+      "eval_runtime": 5.0113,
+      "eval_samples_per_second": 5.986,
+      "eval_steps_per_second": 0.2,
+      "step": 565
+    },
+    {
+      "epoch": 0.22398100514444005,
+      "grad_norm": 1.1951671765700973,
+      "learning_rate": 9.539775528068384e-05,
+      "loss": 0.2291,
+      "step": 566
+    },
+    {
+      "epoch": 0.22437673130193905,
+      "grad_norm": 1.0704835132881214,
+      "learning_rate": 9.536876431434703e-05,
+      "loss": 0.2534,
+      "step": 567
+    },
+    {
+      "epoch": 0.22477245745943808,
+      "grad_norm": 1.1412400220486025,
+      "learning_rate": 9.533968675642178e-05,
+      "loss": 0.2867,
+      "step": 568
+    },
+    {
+      "epoch": 0.22516818361693708,
+      "grad_norm": 0.8719591915839799,
+      "learning_rate": 9.531052266240601e-05,
+      "loss": 0.1715,
+      "step": 569
+    },
+    {
+      "epoch": 0.22556390977443608,
+      "grad_norm": 0.6894055076847694,
+      "learning_rate": 9.528127208796282e-05,
+      "loss": 0.1572,
+      "step": 570
+    },
+    {
+      "epoch": 0.22556390977443608,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8748155435317265,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.31067708134651184,
+      "eval_runtime": 5.3395,
+      "eval_samples_per_second": 5.619,
+      "eval_steps_per_second": 0.187,
+      "step": 570
+    },
+    {
+      "epoch": 0.2259596359319351,
+      "grad_norm": 0.9686660329013871,
+      "learning_rate": 9.525193508892034e-05,
+      "loss": 0.1939,
+      "step": 571
+    },
+    {
+      "epoch": 0.2263553620894341,
+      "grad_norm": 0.8864659755188832,
+      "learning_rate": 9.522251172127166e-05,
+      "loss": 0.1876,
+      "step": 572
+    },
+    {
+      "epoch": 0.22675108824693313,
+      "grad_norm": 0.7742166668044917,
+      "learning_rate": 9.519300204117469e-05,
+      "loss": 0.1888,
+      "step": 573
+    },
+    {
+      "epoch": 0.22714681440443213,
+      "grad_norm": 0.8043464652581477,
+      "learning_rate": 9.516340610495215e-05,
+      "loss": 0.2561,
+      "step": 574
+    },
+    {
+      "epoch": 0.22754254056193116,
+      "grad_norm": 0.6464540788353937,
+      "learning_rate": 9.513372396909133e-05,
+      "loss": 0.1456,
+      "step": 575
+    },
+    {
+      "epoch": 0.22754254056193116,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8701426463354648,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.3508463501930237,
+      "eval_runtime": 5.0857,
+      "eval_samples_per_second": 5.899,
+      "eval_steps_per_second": 0.197,
+      "step": 575
+    },
+    {
+      "epoch": 0.22793826671943015,
+      "grad_norm": 0.5592506160676732,
+      "learning_rate": 9.510395569024404e-05,
+      "loss": 0.1366,
+      "step": 576
+    },
+    {
+      "epoch": 0.22833399287692915,
+      "grad_norm": 0.9384888980101656,
+      "learning_rate": 9.507410132522652e-05,
+      "loss": 0.1857,
+      "step": 577
+    },
+    {
+      "epoch": 0.22872971903442818,
+      "grad_norm": 0.9045955332067419,
+      "learning_rate": 9.50441609310193e-05,
+      "loss": 0.2088,
+      "step": 578
+    },
+    {
+      "epoch": 0.22912544519192718,
+      "grad_norm": 1.2276700932407885,
+      "learning_rate": 9.501413456476717e-05,
+      "loss": 0.2593,
+      "step": 579
+    },
+    {
+      "epoch": 0.2295211713494262,
+      "grad_norm": 0.7015735002553686,
+      "learning_rate": 9.498402228377892e-05,
+      "loss": 0.1231,
+      "step": 580
+    },
+    {
+      "epoch": 0.2295211713494262,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.868666994589277,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3221028745174408,
+      "eval_runtime": 5.0205,
+      "eval_samples_per_second": 5.975,
+      "eval_steps_per_second": 0.199,
+      "step": 580
+    },
+    {
+      "epoch": 0.2299168975069252,
+      "grad_norm": 1.1283779128227227,
+      "learning_rate": 9.495382414552737e-05,
+      "loss": 0.1915,
+      "step": 581
+    },
+    {
+      "epoch": 0.23031262366442423,
+      "grad_norm": 0.7567864418022118,
+      "learning_rate": 9.492354020764919e-05,
+      "loss": 0.137,
+      "step": 582
+    },
+    {
+      "epoch": 0.23070834982192323,
+      "grad_norm": 1.0400915649584914,
+      "learning_rate": 9.489317052794481e-05,
+      "loss": 0.1729,
+      "step": 583
+    },
+    {
+      "epoch": 0.23110407597942223,
+      "grad_norm": 1.0751961953781162,
+      "learning_rate": 9.486271516437832e-05,
+      "loss": 0.2185,
+      "step": 584
+    },
+    {
+      "epoch": 0.23149980213692126,
+      "grad_norm": 1.16836913547842,
+      "learning_rate": 9.483217417507734e-05,
+      "loss": 0.1408,
+      "step": 585
+    },
+    {
+      "epoch": 0.23149980213692126,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8745696015740285,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.31787109375,
+      "eval_runtime": 4.9632,
+      "eval_samples_per_second": 6.045,
+      "eval_steps_per_second": 0.201,
+      "step": 585
+    },
+    {
+      "epoch": 0.23189552829442026,
+      "grad_norm": 1.128841484632027,
+      "learning_rate": 9.480154761833293e-05,
+      "loss": 0.2409,
+      "step": 586
+    },
+    {
+      "epoch": 0.23229125445191928,
+      "grad_norm": 1.0484734719659377,
+      "learning_rate": 9.477083555259943e-05,
+      "loss": 0.2563,
+      "step": 587
+    },
+    {
+      "epoch": 0.23268698060941828,
+      "grad_norm": 1.1994550998647855,
+      "learning_rate": 9.474003803649441e-05,
+      "loss": 0.2347,
+      "step": 588
+    },
+    {
+      "epoch": 0.23308270676691728,
+      "grad_norm": 1.4231828524881203,
+      "learning_rate": 9.470915512879852e-05,
+      "loss": 0.2093,
+      "step": 589
+    },
+    {
+      "epoch": 0.2334784329244163,
+      "grad_norm": 0.9663546927104574,
+      "learning_rate": 9.467818688845544e-05,
+      "loss": 0.2118,
+      "step": 590
+    },
+    {
+      "epoch": 0.2334784329244163,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8735858337432366,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.29755860567092896,
+      "eval_runtime": 5.2713,
+      "eval_samples_per_second": 5.691,
+      "eval_steps_per_second": 0.19,
+      "step": 590
+    },
+    {
+      "epoch": 0.2338741590819153,
+      "grad_norm": 0.907891643306674,
+      "learning_rate": 9.464713337457163e-05,
+      "loss": 0.1468,
+      "step": 591
+    },
+    {
+      "epoch": 0.23426988523941433,
+      "grad_norm": 0.9215718171161111,
+      "learning_rate": 9.461599464641638e-05,
+      "loss": 0.1335,
+      "step": 592
+    },
+    {
+      "epoch": 0.23466561139691333,
+      "grad_norm": 1.5082953660735747,
+      "learning_rate": 9.458477076342157e-05,
+      "loss": 0.3044,
+      "step": 593
+    },
+    {
+      "epoch": 0.23506133755441236,
+      "grad_norm": 0.6348812107302226,
+      "learning_rate": 9.455346178518164e-05,
+      "loss": 0.2146,
+      "step": 594
+    },
+    {
+      "epoch": 0.23545706371191136,
+      "grad_norm": 1.122679016046897,
+      "learning_rate": 9.452206777145342e-05,
+      "loss": 0.2414,
+      "step": 595
+    },
+    {
+      "epoch": 0.23545706371191136,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8622725036891293,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.33574217557907104,
+      "eval_runtime": 5.1043,
+      "eval_samples_per_second": 5.877,
+      "eval_steps_per_second": 0.196,
+      "step": 595
+    },
+    {
+      "epoch": 0.23585278986941036,
+      "grad_norm": 0.7336962804636922,
+      "learning_rate": 9.44905887821561e-05,
+      "loss": 0.1946,
+      "step": 596
+    },
+    {
+      "epoch": 0.23624851602690938,
+      "grad_norm": 1.5076773027459303,
+      "learning_rate": 9.445902487737095e-05,
+      "loss": 0.2643,
+      "step": 597
+    },
+    {
+      "epoch": 0.23664424218440838,
+      "grad_norm": 0.9990565626793124,
+      "learning_rate": 9.442737611734141e-05,
+      "loss": 0.2163,
+      "step": 598
+    },
+    {
+      "epoch": 0.2370399683419074,
+      "grad_norm": 0.7677618013103612,
+      "learning_rate": 9.439564256247281e-05,
+      "loss": 0.237,
+      "step": 599
+    },
+    {
+      "epoch": 0.2374356944994064,
+      "grad_norm": 0.8864752202385261,
+      "learning_rate": 9.436382427333237e-05,
+      "loss": 0.2222,
+      "step": 600
+    },
+    {
+      "epoch": 0.2374356944994064,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.852680767338908,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.29798176884651184,
+      "eval_runtime": 4.819,
+      "eval_samples_per_second": 6.225,
+      "eval_steps_per_second": 0.208,
+      "step": 600
+    },
+    {
+      "epoch": 0.23783142065690543,
+      "grad_norm": 0.843227711539601,
+      "learning_rate": 9.4331921310649e-05,
+      "loss": 0.2179,
+      "step": 601
+    },
+    {
+      "epoch": 0.23822714681440443,
+      "grad_norm": 0.9023599319655619,
+      "learning_rate": 9.429993373531326e-05,
+      "loss": 0.2213,
+      "step": 602
+    },
+    {
+      "epoch": 0.23862287297190343,
+      "grad_norm": 0.5349869383171925,
+      "learning_rate": 9.426786160837713e-05,
+      "loss": 0.1216,
+      "step": 603
+    },
+    {
+      "epoch": 0.23901859912940246,
+      "grad_norm": 0.6550727960830575,
+      "learning_rate": 9.423570499105403e-05,
+      "loss": 0.1914,
+      "step": 604
+    },
+    {
+      "epoch": 0.23941432528690146,
+      "grad_norm": 0.6256497404073587,
+      "learning_rate": 9.420346394471864e-05,
+      "loss": 0.1665,
+      "step": 605
+    },
+    {
+      "epoch": 0.23941432528690146,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8460403344810624,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.36315104365348816,
+      "eval_runtime": 4.9856,
+      "eval_samples_per_second": 6.017,
+      "eval_steps_per_second": 0.201,
+      "step": 605
+    },
+    {
+      "epoch": 0.23981005144440048,
+      "grad_norm": 0.6183163375383558,
+      "learning_rate": 9.417113853090675e-05,
+      "loss": 0.137,
+      "step": 606
+    },
+    {
+      "epoch": 0.24020577760189948,
+      "grad_norm": 0.8027547947526502,
+      "learning_rate": 9.413872881131518e-05,
+      "loss": 0.1754,
+      "step": 607
+    },
+    {
+      "epoch": 0.24060150375939848,
+      "grad_norm": 0.671864441942157,
+      "learning_rate": 9.410623484780168e-05,
+      "loss": 0.1527,
+      "step": 608
+    },
+    {
+      "epoch": 0.2409972299168975,
+      "grad_norm": 1.1548928413207609,
+      "learning_rate": 9.407365670238479e-05,
+      "loss": 0.2031,
+      "step": 609
+    },
+    {
+      "epoch": 0.2413929560743965,
+      "grad_norm": 1.3152261646506562,
+      "learning_rate": 9.404099443724368e-05,
+      "loss": 0.2406,
+      "step": 610
+    },
+    {
+      "epoch": 0.2413929560743965,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8430890309886866,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.38823240995407104,
+      "eval_runtime": 5.115,
+      "eval_samples_per_second": 5.865,
+      "eval_steps_per_second": 0.196,
+      "step": 610
+    },
+    {
+      "epoch": 0.24178868223189554,
+      "grad_norm": 1.8054059950134695,
+      "learning_rate": 9.400824811471811e-05,
+      "loss": 0.2868,
+      "step": 611
+    },
+    {
+      "epoch": 0.24218440838939453,
+      "grad_norm": 1.483288223294385,
+      "learning_rate": 9.397541779730827e-05,
+      "loss": 0.2897,
+      "step": 612
+    },
+    {
+      "epoch": 0.24258013454689356,
+      "grad_norm": 0.8151158082075218,
+      "learning_rate": 9.394250354767467e-05,
+      "loss": 0.2069,
+      "step": 613
+    },
+    {
+      "epoch": 0.24297586070439256,
+      "grad_norm": 0.9609947966439928,
+      "learning_rate": 9.390950542863797e-05,
+      "loss": 0.2153,
+      "step": 614
+    },
+    {
+      "epoch": 0.24337158686189156,
+      "grad_norm": 1.0979707104056993,
+      "learning_rate": 9.387642350317894e-05,
+      "loss": 0.2064,
+      "step": 615
+    },
+    {
+      "epoch": 0.24337158686189156,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.8428430890309887,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3037109375,
+      "eval_runtime": 4.9687,
+      "eval_samples_per_second": 6.038,
+      "eval_steps_per_second": 0.201,
+      "step": 615
+    },
+    {
+      "epoch": 0.24376731301939059,
+      "grad_norm": 0.8619863219027731,
+      "learning_rate": 9.384325783443832e-05,
+      "loss": 0.1569,
+      "step": 616
+    },
+    {
+      "epoch": 0.24416303917688958,
+      "grad_norm": 0.8612757328902113,
+      "learning_rate": 9.381000848571666e-05,
+      "loss": 0.2054,
+      "step": 617
+    },
+    {
+      "epoch": 0.2445587653343886,
+      "grad_norm": 1.1283574341271685,
+      "learning_rate": 9.377667552047423e-05,
+      "loss": 0.1545,
+      "step": 618
+    },
+    {
+      "epoch": 0.2449544914918876,
+      "grad_norm": 0.7739505180687086,
+      "learning_rate": 9.374325900233088e-05,
+      "loss": 0.1364,
+      "step": 619
+    },
+    {
+      "epoch": 0.24535021764938664,
+      "grad_norm": 0.9957171774689368,
+      "learning_rate": 9.370975899506593e-05,
+      "loss": 0.1954,
+      "step": 620
+    },
+    {
+      "epoch": 0.24535021764938664,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8438268568617807,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.32962238788604736,
+      "eval_runtime": 5.0662,
+      "eval_samples_per_second": 5.922,
+      "eval_steps_per_second": 0.197,
+      "step": 620
+    },
+    {
+      "epoch": 0.24574594380688564,
+      "grad_norm": 1.4168595803088824,
+      "learning_rate": 9.367617556261808e-05,
+      "loss": 0.21,
+      "step": 621
+    },
+    {
+      "epoch": 0.24614166996438464,
+      "grad_norm": 0.9480516220046619,
+      "learning_rate": 9.364250876908522e-05,
+      "loss": 0.1425,
+      "step": 622
+    },
+    {
+      "epoch": 0.24653739612188366,
+      "grad_norm": 0.8553451927402599,
+      "learning_rate": 9.360875867872437e-05,
+      "loss": 0.1364,
+      "step": 623
+    },
+    {
+      "epoch": 0.24693312227938266,
+      "grad_norm": 2.176078009465126,
+      "learning_rate": 9.357492535595151e-05,
+      "loss": 0.2277,
+      "step": 624
+    },
+    {
+      "epoch": 0.2473288484368817,
+      "grad_norm": 1.1193803787713226,
+      "learning_rate": 9.354100886534152e-05,
+      "loss": 0.1802,
+      "step": 625
+    },
+    {
+      "epoch": 0.2473288484368817,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8524348253812101,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.34028321504592896,
+      "eval_runtime": 4.8865,
+      "eval_samples_per_second": 6.139,
+      "eval_steps_per_second": 0.205,
+      "step": 625
+    },
+    {
+      "epoch": 0.2477245745943807,
+      "grad_norm": 1.2630058603031382,
+      "learning_rate": 9.350700927162794e-05,
+      "loss": 0.1891,
+      "step": 626
+    },
+    {
+      "epoch": 0.24812030075187969,
+      "grad_norm": 1.1552702223291675,
+      "learning_rate": 9.347292663970301e-05,
+      "loss": 0.1836,
+      "step": 627
+    },
+    {
+      "epoch": 0.2485160269093787,
+      "grad_norm": 1.033400900315006,
+      "learning_rate": 9.34387610346174e-05,
+      "loss": 0.1597,
+      "step": 628
+    },
+    {
+      "epoch": 0.2489117530668777,
+      "grad_norm": 1.068934167801897,
+      "learning_rate": 9.340451252158015e-05,
+      "loss": 0.1603,
+      "step": 629
+    },
+    {
+      "epoch": 0.24930747922437674,
+      "grad_norm": 0.6160709854200137,
+      "learning_rate": 9.337018116595855e-05,
+      "loss": 0.1179,
+      "step": 630
+    },
+    {
+      "epoch": 0.24930747922437674,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8553861288735858,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3403157591819763,
+      "eval_runtime": 5.114,
+      "eval_samples_per_second": 5.866,
+      "eval_steps_per_second": 0.196,
+      "step": 630
+    },
+    {
+      "epoch": 0.24970320538187574,
+      "grad_norm": 0.7854758690178264,
+      "learning_rate": 9.333576703327803e-05,
+      "loss": 0.1222,
+      "step": 631
+    },
+    {
+      "epoch": 0.25009893153937474,
+      "grad_norm": 0.9830013903638098,
+      "learning_rate": 9.330127018922194e-05,
+      "loss": 0.1573,
+      "step": 632
+    },
+    {
+      "epoch": 0.2504946576968738,
+      "grad_norm": 0.8726529687641472,
+      "learning_rate": 9.326669069963156e-05,
+      "loss": 0.1647,
+      "step": 633
+    },
+    {
+      "epoch": 0.2508903838543728,
+      "grad_norm": 1.3151345227205198,
+      "learning_rate": 9.32320286305059e-05,
+      "loss": 0.2453,
+      "step": 634
+    },
+    {
+      "epoch": 0.2512861100118718,
+      "grad_norm": 0.7023228968713068,
+      "learning_rate": 9.319728404800157e-05,
+      "loss": 0.1018,
+      "step": 635
+    },
+    {
+      "epoch": 0.2512861100118718,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8598130841121495,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.3390462100505829,
+      "eval_runtime": 4.9693,
+      "eval_samples_per_second": 6.037,
+      "eval_steps_per_second": 0.201,
+      "step": 635
+    },
+    {
+      "epoch": 0.2516818361693708,
+      "grad_norm": 0.7983733224023781,
+      "learning_rate": 9.316245701843266e-05,
+      "loss": 0.1775,
+      "step": 636
+    },
+    {
+      "epoch": 0.2520775623268698,
+      "grad_norm": 1.4342366435295932,
+      "learning_rate": 9.312754760827061e-05,
+      "loss": 0.1809,
+      "step": 637
+    },
+    {
+      "epoch": 0.25247328848436884,
+      "grad_norm": 0.9750865337714575,
+      "learning_rate": 9.309255588414412e-05,
+      "loss": 0.1549,
+      "step": 638
+    },
+    {
+      "epoch": 0.25286901464186784,
+      "grad_norm": 0.9562341987446537,
+      "learning_rate": 9.305748191283898e-05,
+      "loss": 0.1988,
+      "step": 639
+    },
+    {
+      "epoch": 0.25326474079936684,
+      "grad_norm": 1.0368633553672248,
+      "learning_rate": 9.302232576129797e-05,
+      "loss": 0.118,
+      "step": 640
+    },
+    {
+      "epoch": 0.25326474079936684,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.8625184456468273,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.30970051884651184,
+      "eval_runtime": 5.1568,
+      "eval_samples_per_second": 5.818,
+      "eval_steps_per_second": 0.194,
+      "step": 640
+    },
+    {
+      "epoch": 0.25366046695686584,
+      "grad_norm": 0.8142380529929587,
+      "learning_rate": 9.29870874966207e-05,
+      "loss": 0.1667,
+      "step": 641
+    },
+    {
+      "epoch": 0.25405619311436484,
+      "grad_norm": 0.8805785694244057,
+      "learning_rate": 9.295176718606355e-05,
+      "loss": 0.1907,
+      "step": 642
+    },
+    {
+      "epoch": 0.2544519192718639,
+      "grad_norm": 0.9212718889915351,
+      "learning_rate": 9.291636489703943e-05,
+      "loss": 0.1987,
+      "step": 643
+    },
+    {
+      "epoch": 0.2548476454293629,
+      "grad_norm": 0.9962379537993588,
+      "learning_rate": 9.288088069711774e-05,
+      "loss": 0.2247,
+      "step": 644
+    },
+    {
+      "epoch": 0.2552433715868619,
+      "grad_norm": 1.169838474412042,
+      "learning_rate": 9.284531465402424e-05,
+      "loss": 0.2164,
+      "step": 645
+    },
+    {
+      "epoch": 0.2552433715868619,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8632562715199213,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3142741024494171,
+      "eval_runtime": 5.0218,
+      "eval_samples_per_second": 5.974,
+      "eval_steps_per_second": 0.199,
+      "step": 645
+    },
+    {
+      "epoch": 0.2556390977443609,
+      "grad_norm": 0.9185654433989892,
+      "learning_rate": 9.280966683564088e-05,
+      "loss": 0.2482,
+      "step": 646
+    },
+    {
+      "epoch": 0.2560348239018599,
+      "grad_norm": 1.3013352290446198,
+      "learning_rate": 9.277393731000568e-05,
+      "loss": 0.285,
+      "step": 647
+    },
+    {
+      "epoch": 0.25643055005935894,
+      "grad_norm": 0.763502671129575,
+      "learning_rate": 9.273812614531261e-05,
+      "loss": 0.1462,
+      "step": 648
+    },
+    {
+      "epoch": 0.25682627621685794,
+      "grad_norm": 0.8298355780986364,
+      "learning_rate": 9.270223340991147e-05,
+      "loss": 0.1856,
+      "step": 649
+    },
+    {
+      "epoch": 0.25722200237435694,
+      "grad_norm": 0.8506194786434039,
+      "learning_rate": 9.266625917230774e-05,
+      "loss": 0.1553,
+      "step": 650
+    },
+    {
+      "epoch": 0.25722200237435694,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.8637481554353172,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.28649088740348816,
+      "eval_runtime": 5.1222,
+      "eval_samples_per_second": 5.857,
+      "eval_steps_per_second": 0.195,
+      "step": 650
+    },
+    {
+      "epoch": 0.25761772853185594,
+      "grad_norm": 1.22543292326297,
+      "learning_rate": 9.263020350116247e-05,
+      "loss": 0.2312,
+      "step": 651
+    },
+    {
+      "epoch": 0.258013454689355,
+      "grad_norm": 0.7237414074956429,
+      "learning_rate": 9.259406646529209e-05,
+      "loss": 0.1754,
+      "step": 652
+    },
+    {
+      "epoch": 0.258409180846854,
+      "grad_norm": 1.0021829845702939,
+      "learning_rate": 9.255784813366837e-05,
+      "loss": 0.1796,
+      "step": 653
+    },
+    {
+      "epoch": 0.258804907004353,
+      "grad_norm": 0.8674056319285317,
+      "learning_rate": 9.252154857541825e-05,
+      "loss": 0.1464,
+      "step": 654
+    },
+    {
+      "epoch": 0.259200633161852,
+      "grad_norm": 1.1397401398742075,
+      "learning_rate": 9.248516785982364e-05,
+      "loss": 0.2552,
+      "step": 655
+    },
+    {
+      "epoch": 0.259200633161852,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8679291687161831,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3284505307674408,
+      "eval_runtime": 5.0817,
+      "eval_samples_per_second": 5.904,
+      "eval_steps_per_second": 0.197,
+      "step": 655
+    },
+    {
+      "epoch": 0.259596359319351,
+      "grad_norm": 0.9211209637559996,
+      "learning_rate": 9.244870605632142e-05,
+      "loss": 0.2238,
+      "step": 656
+    },
+    {
+      "epoch": 0.25999208547685004,
+      "grad_norm": 1.2824954013546763,
+      "learning_rate": 9.24121632345032e-05,
+      "loss": 0.2338,
+      "step": 657
+    },
+    {
+      "epoch": 0.26038781163434904,
+      "grad_norm": 1.0663396352881847,
+      "learning_rate": 9.237553946411519e-05,
+      "loss": 0.2045,
+      "step": 658
+    },
+    {
+      "epoch": 0.26078353779184804,
+      "grad_norm": 0.8001839653771903,
+      "learning_rate": 9.233883481505817e-05,
+      "loss": 0.2267,
+      "step": 659
+    },
+    {
+      "epoch": 0.26117926394934704,
+      "grad_norm": 0.7498852961610969,
+      "learning_rate": 9.230204935738725e-05,
+      "loss": 0.172,
+      "step": 660
+    },
+    {
+      "epoch": 0.26117926394934704,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8647319232661091,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2878580689430237,
+      "eval_runtime": 5.1742,
+      "eval_samples_per_second": 5.798,
+      "eval_steps_per_second": 0.193,
+      "step": 660
+    },
+    {
+      "epoch": 0.26157499010684604,
+      "grad_norm": 1.0755131951508787,
+      "learning_rate": 9.226518316131176e-05,
+      "loss": 0.1972,
+      "step": 661
+    },
+    {
+      "epoch": 0.2619707162643451,
+      "grad_norm": 0.6873731378290169,
+      "learning_rate": 9.222823629719516e-05,
+      "loss": 0.1689,
+      "step": 662
+    },
+    {
+      "epoch": 0.2623664424218441,
+      "grad_norm": 0.6996977850198727,
+      "learning_rate": 9.219120883555486e-05,
+      "loss": 0.1789,
+      "step": 663
+    },
+    {
+      "epoch": 0.2627621685793431,
+      "grad_norm": 0.8330640110587905,
+      "learning_rate": 9.215410084706206e-05,
+      "loss": 0.1788,
+      "step": 664
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 0.6960659280191442,
+      "learning_rate": 9.211691240254173e-05,
+      "loss": 0.1782,
+      "step": 665
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8735858337432366,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.30374348163604736,
+      "eval_runtime": 4.9925,
+      "eval_samples_per_second": 6.009,
+      "eval_steps_per_second": 0.2,
+      "step": 665
+    },
+    {
+      "epoch": 0.2635536208943411,
+      "grad_norm": 0.636245322646594,
+      "learning_rate": 9.207964357297235e-05,
+      "loss": 0.1565,
+      "step": 666
+    },
+    {
+      "epoch": 0.26394934705184014,
+      "grad_norm": 0.7137372039946666,
+      "learning_rate": 9.204229442948585e-05,
+      "loss": 0.1796,
+      "step": 667
+    },
+    {
+      "epoch": 0.26434507320933914,
+      "grad_norm": 1.0119871222857901,
+      "learning_rate": 9.20048650433674e-05,
+      "loss": 0.2521,
+      "step": 668
+    },
+    {
+      "epoch": 0.26474079936683814,
+      "grad_norm": 0.810789129823208,
+      "learning_rate": 9.196735548605541e-05,
+      "loss": 0.1693,
+      "step": 669
+    },
+    {
+      "epoch": 0.26513652552433714,
+      "grad_norm": 1.4243984555870466,
+      "learning_rate": 9.19297658291412e-05,
+      "loss": 0.1752,
+      "step": 670
+    },
+    {
+      "epoch": 0.26513652552433714,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8812100344318741,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.30504557490348816,
+      "eval_runtime": 5.1828,
+      "eval_samples_per_second": 5.788,
+      "eval_steps_per_second": 0.193,
+      "step": 670
+    },
+    {
+      "epoch": 0.2655322516818362,
+      "grad_norm": 0.6983153438067933,
+      "learning_rate": 9.189209614436906e-05,
+      "loss": 0.1612,
+      "step": 671
+    },
+    {
+      "epoch": 0.2659279778393352,
+      "grad_norm": 0.6844516702460982,
+      "learning_rate": 9.185434650363596e-05,
+      "loss": 0.1085,
+      "step": 672
+    },
+    {
+      "epoch": 0.2663237039968342,
+      "grad_norm": 0.9623071331666166,
+      "learning_rate": 9.181651697899152e-05,
+      "loss": 0.1929,
+      "step": 673
+    },
+    {
+      "epoch": 0.2667194301543332,
+      "grad_norm": 0.9791661878102461,
+      "learning_rate": 9.177860764263779e-05,
+      "loss": 0.1841,
+      "step": 674
+    },
+    {
+      "epoch": 0.2671151563118322,
+      "grad_norm": 1.0575489340859652,
+      "learning_rate": 9.174061856692919e-05,
+      "loss": 0.1889,
+      "step": 675
+    },
+    {
+      "epoch": 0.2671151563118322,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9327354260089686,
+      "eval_PRM F1 AUC": 0.6701918347270044,
+      "eval_PRM F1 AUC (fixed)": 0.8888342351205116,
+      "eval_PRM F1 Neg": 0.4827586206896552,
+      "eval_PRM NPV": 0.7,
+      "eval_PRM Precision": 0.896551724137931,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.30569660663604736,
+      "eval_runtime": 5.2772,
+      "eval_samples_per_second": 5.685,
+      "eval_steps_per_second": 0.189,
+      "step": 675
+    },
+    {
+      "epoch": 0.26751088246933125,
+      "grad_norm": 0.9711032560120395,
+      "learning_rate": 9.17025498243723e-05,
+      "loss": 0.1877,
+      "step": 676
+    },
+    {
+      "epoch": 0.26790660862683024,
+      "grad_norm": 0.871454567740767,
+      "learning_rate": 9.166440148762576e-05,
+      "loss": 0.1415,
+      "step": 677
+    },
+    {
+      "epoch": 0.26830233478432924,
+      "grad_norm": 1.0870337171879758,
+      "learning_rate": 9.162617362950015e-05,
+      "loss": 0.2121,
+      "step": 678
+    },
+    {
+      "epoch": 0.26869806094182824,
+      "grad_norm": 1.0263145249551762,
+      "learning_rate": 9.158786632295776e-05,
+      "loss": 0.2044,
+      "step": 679
+    },
+    {
+      "epoch": 0.26909378709932724,
+      "grad_norm": 1.5736627103678087,
+      "learning_rate": 9.15494796411126e-05,
+      "loss": 0.2348,
+      "step": 680
+    },
+    {
+      "epoch": 0.26909378709932724,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.883177570093458,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.294921875,
+      "eval_runtime": 4.8969,
+      "eval_samples_per_second": 6.126,
+      "eval_steps_per_second": 0.204,
+      "step": 680
+    },
+    {
+      "epoch": 0.2694895132568263,
+      "grad_norm": 0.9592710551250099,
+      "learning_rate": 9.151101365723013e-05,
+      "loss": 0.1873,
+      "step": 681
+    },
+    {
+      "epoch": 0.2698852394143253,
+      "grad_norm": 1.3107103493867434,
+      "learning_rate": 9.147246844472716e-05,
+      "loss": 0.1817,
+      "step": 682
+    },
+    {
+      "epoch": 0.2702809655718243,
+      "grad_norm": 0.7689651641593306,
+      "learning_rate": 9.143384407717175e-05,
+      "loss": 0.141,
+      "step": 683
+    },
+    {
+      "epoch": 0.2706766917293233,
+      "grad_norm": 0.9300396795313893,
+      "learning_rate": 9.1395140628283e-05,
+      "loss": 0.1624,
+      "step": 684
+    },
+    {
+      "epoch": 0.2710724178868223,
+      "grad_norm": 1.1186614704956632,
+      "learning_rate": 9.1356358171931e-05,
+      "loss": 0.1516,
+      "step": 685
+    },
+    {
+      "epoch": 0.2710724178868223,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9327354260089686,
+      "eval_PRM F1 AUC": 0.6701918347270044,
+      "eval_PRM F1 AUC (fixed)": 0.8785046728971962,
+      "eval_PRM F1 Neg": 0.4827586206896552,
+      "eval_PRM NPV": 0.7,
+      "eval_PRM Precision": 0.896551724137931,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3026367127895355,
+      "eval_runtime": 5.1819,
+      "eval_samples_per_second": 5.789,
+      "eval_steps_per_second": 0.193,
+      "step": 685
+    },
+    {
+      "epoch": 0.27146814404432135,
+      "grad_norm": 1.254189960241517,
+      "learning_rate": 9.131749678213657e-05,
+      "loss": 0.2783,
+      "step": 686
+    },
+    {
+      "epoch": 0.27186387020182035,
+      "grad_norm": 1.0113966691212009,
+      "learning_rate": 9.127855653307123e-05,
+      "loss": 0.2462,
+      "step": 687
+    },
+    {
+      "epoch": 0.27225959635931934,
+      "grad_norm": 0.8125794573843638,
+      "learning_rate": 9.123953749905697e-05,
+      "loss": 0.1396,
+      "step": 688
+    },
+    {
+      "epoch": 0.27265532251681834,
+      "grad_norm": 0.9128450199165946,
+      "learning_rate": 9.12004397545662e-05,
+      "loss": 0.1608,
+      "step": 689
+    },
+    {
+      "epoch": 0.2730510486743174,
+      "grad_norm": 0.5624585862098771,
+      "learning_rate": 9.116126337422152e-05,
+      "loss": 0.1436,
+      "step": 690
+    },
+    {
+      "epoch": 0.2730510486743174,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9327354260089686,
+      "eval_PRM F1 AUC": 0.6701918347270044,
+      "eval_PRM F1 AUC (fixed)": 0.8669454008853911,
+      "eval_PRM F1 Neg": 0.4827586206896552,
+      "eval_PRM NPV": 0.7,
+      "eval_PRM Precision": 0.896551724137931,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2922200560569763,
+      "eval_runtime": 5.3417,
+      "eval_samples_per_second": 5.616,
+      "eval_steps_per_second": 0.187,
+      "step": 690
+    },
+    {
+      "epoch": 0.2734467748318164,
+      "grad_norm": 0.7591065889823867,
+      "learning_rate": 9.112200843279565e-05,
+      "loss": 0.2158,
+      "step": 691
+    },
+    {
+      "epoch": 0.2738425009893154,
+      "grad_norm": 0.9354338454813161,
+      "learning_rate": 9.108267500521121e-05,
+      "loss": 0.2026,
+      "step": 692
+    },
+    {
+      "epoch": 0.2742382271468144,
+      "grad_norm": 0.7268205891367698,
+      "learning_rate": 9.104326316654067e-05,
+      "loss": 0.1468,
+      "step": 693
+    },
+    {
+      "epoch": 0.2746339533043134,
+      "grad_norm": 1.4335552146734205,
+      "learning_rate": 9.10037729920061e-05,
+      "loss": 0.223,
+      "step": 694
+    },
+    {
+      "epoch": 0.27502967946181245,
+      "grad_norm": 0.7555211334022334,
+      "learning_rate": 9.096420455697914e-05,
+      "loss": 0.1987,
+      "step": 695
+    },
+    {
+      "epoch": 0.27502967946181245,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8627643876045253,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2944987118244171,
+      "eval_runtime": 5.047,
+      "eval_samples_per_second": 5.944,
+      "eval_steps_per_second": 0.198,
+      "step": 695
+    },
+    {
+      "epoch": 0.27542540561931145,
+      "grad_norm": 0.8189189658622638,
+      "learning_rate": 9.092455793698075e-05,
+      "loss": 0.1846,
+      "step": 696
+    },
+    {
+      "epoch": 0.27582113177681045,
+      "grad_norm": 0.6793424965135729,
+      "learning_rate": 9.088483320768115e-05,
+      "loss": 0.1841,
+      "step": 697
+    },
+    {
+      "epoch": 0.27621685793430945,
+      "grad_norm": 1.1346566755573384,
+      "learning_rate": 9.08450304448996e-05,
+      "loss": 0.2525,
+      "step": 698
+    },
+    {
+      "epoch": 0.27661258409180844,
+      "grad_norm": 0.6534103036603515,
+      "learning_rate": 9.080514972460439e-05,
+      "loss": 0.1462,
+      "step": 699
+    },
+    {
+      "epoch": 0.2770083102493075,
+      "grad_norm": 0.7628441572243372,
+      "learning_rate": 9.076519112291246e-05,
+      "loss": 0.1739,
+      "step": 700
+    },
+    {
+      "epoch": 0.2770083102493075,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8750614854894245,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2897135317325592,
+      "eval_runtime": 5.2861,
+      "eval_samples_per_second": 5.675,
+      "eval_steps_per_second": 0.189,
+      "step": 700
+    },
+    {
+      "epoch": 0.2774040364068065,
+      "grad_norm": 0.6607457838568496,
+      "learning_rate": 9.07251547160895e-05,
+      "loss": 0.1313,
+      "step": 701
+    },
+    {
+      "epoch": 0.2777997625643055,
+      "grad_norm": 0.8533872530467852,
+      "learning_rate": 9.06850405805497e-05,
+      "loss": 0.1595,
+      "step": 702
+    },
+    {
+      "epoch": 0.2781954887218045,
+      "grad_norm": 0.6476126920331056,
+      "learning_rate": 9.064484879285555e-05,
+      "loss": 0.1456,
+      "step": 703
+    },
+    {
+      "epoch": 0.2785912148793035,
+      "grad_norm": 0.982952385932065,
+      "learning_rate": 9.060457942971776e-05,
+      "loss": 0.2164,
+      "step": 704
+    },
+    {
+      "epoch": 0.27898694103680255,
+      "grad_norm": 0.7667149787248076,
+      "learning_rate": 9.056423256799513e-05,
+      "loss": 0.1383,
+      "step": 705
+    },
+    {
+      "epoch": 0.27898694103680255,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.883669454008854,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2916015684604645,
+      "eval_runtime": 4.9834,
+      "eval_samples_per_second": 6.02,
+      "eval_steps_per_second": 0.201,
+      "step": 705
+    },
+    {
+      "epoch": 0.27938266719430155,
+      "grad_norm": 0.9769531041036345,
+      "learning_rate": 9.052380828469436e-05,
+      "loss": 0.1637,
+      "step": 706
+    },
+    {
+      "epoch": 0.27977839335180055,
+      "grad_norm": 0.9214654827890637,
+      "learning_rate": 9.048330665696993e-05,
+      "loss": 0.1894,
+      "step": 707
+    },
+    {
+      "epoch": 0.28017411950929955,
+      "grad_norm": 1.02055901185936,
+      "learning_rate": 9.04427277621239e-05,
+      "loss": 0.2138,
+      "step": 708
+    },
+    {
+      "epoch": 0.2805698456667986,
+      "grad_norm": 1.638505514806321,
+      "learning_rate": 9.040207167760586e-05,
+      "loss": 0.293,
+      "step": 709
+    },
+    {
+      "epoch": 0.2809655718242976,
+      "grad_norm": 0.5103129313867601,
+      "learning_rate": 9.036133848101269e-05,
+      "loss": 0.1144,
+      "step": 710
+    },
+    {
+      "epoch": 0.2809655718242976,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.883423512051156,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.271484375,
+      "eval_runtime": 5.0799,
+      "eval_samples_per_second": 5.906,
+      "eval_steps_per_second": 0.197,
+      "step": 710
+    },
+    {
+      "epoch": 0.2813612979817966,
+      "grad_norm": 0.851892128891332,
+      "learning_rate": 9.032052825008845e-05,
+      "loss": 0.1526,
+      "step": 711
+    },
+    {
+      "epoch": 0.2817570241392956,
+      "grad_norm": 0.8483666128644993,
+      "learning_rate": 9.027964106272423e-05,
+      "loss": 0.1492,
+      "step": 712
+    },
+    {
+      "epoch": 0.2821527502967946,
+      "grad_norm": 0.7632322196341024,
+      "learning_rate": 9.023867699695804e-05,
+      "loss": 0.1646,
+      "step": 713
+    },
+    {
+      "epoch": 0.28254847645429365,
+      "grad_norm": 0.7612194930893317,
+      "learning_rate": 9.019763613097455e-05,
+      "loss": 0.1688,
+      "step": 714
+    },
+    {
+      "epoch": 0.28294420261179265,
+      "grad_norm": 1.1141932691697012,
+      "learning_rate": 9.015651854310506e-05,
+      "loss": 0.2438,
+      "step": 715
+    },
+    {
+      "epoch": 0.28294420261179265,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.8876045253320216,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.29472655057907104,
+      "eval_runtime": 4.9817,
+      "eval_samples_per_second": 6.022,
+      "eval_steps_per_second": 0.201,
+      "step": 715
+    },
+    {
+      "epoch": 0.28333992876929165,
+      "grad_norm": 1.1587755741290395,
+      "learning_rate": 9.011532431182729e-05,
+      "loss": 0.1748,
+      "step": 716
+    },
+    {
+      "epoch": 0.28373565492679065,
+      "grad_norm": 1.5392021948756802,
+      "learning_rate": 9.007405351576524e-05,
+      "loss": 0.3444,
+      "step": 717
+    },
+    {
+      "epoch": 0.28413138108428965,
+      "grad_norm": 0.7938171697497031,
+      "learning_rate": 9.003270623368905e-05,
+      "loss": 0.1653,
+      "step": 718
+    },
+    {
+      "epoch": 0.2845271072417887,
+      "grad_norm": 1.0671784206576023,
+      "learning_rate": 8.999128254451486e-05,
+      "loss": 0.2085,
+      "step": 719
+    },
+    {
+      "epoch": 0.2849228333992877,
+      "grad_norm": 0.8571675690584678,
+      "learning_rate": 8.99497825273046e-05,
+      "loss": 0.2005,
+      "step": 720
+    },
+    {
+      "epoch": 0.2849228333992877,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8772749631087065,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27314454317092896,
+      "eval_runtime": 5.1322,
+      "eval_samples_per_second": 5.845,
+      "eval_steps_per_second": 0.195,
+      "step": 720
+    },
+    {
+      "epoch": 0.2853185595567867,
+      "grad_norm": 0.7020104268585275,
+      "learning_rate": 8.990820626126589e-05,
+      "loss": 0.1178,
+      "step": 721
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.551517656772806,
+      "learning_rate": 8.986655382575192e-05,
+      "loss": 0.1306,
+      "step": 722
+    },
+    {
+      "epoch": 0.2861100118717847,
+      "grad_norm": 0.835937866856043,
+      "learning_rate": 8.982482530026122e-05,
+      "loss": 0.1967,
+      "step": 723
+    },
+    {
+      "epoch": 0.28650573802928375,
+      "grad_norm": 0.8368102251324648,
+      "learning_rate": 8.978302076443754e-05,
+      "loss": 0.1727,
+      "step": 724
+    },
+    {
+      "epoch": 0.28690146418678275,
+      "grad_norm": 0.8660458425103343,
+      "learning_rate": 8.974114029806976e-05,
+      "loss": 0.2213,
+      "step": 725
+    },
+    {
+      "epoch": 0.28690146418678275,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.8856369896704377,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2822916805744171,
+      "eval_runtime": 5.1756,
+      "eval_samples_per_second": 5.796,
+      "eval_steps_per_second": 0.193,
+      "step": 725
+    },
+    {
+      "epoch": 0.28729719034428175,
+      "grad_norm": 1.4395936296050706,
+      "learning_rate": 8.969918398109162e-05,
+      "loss": 0.2175,
+      "step": 726
+    },
+    {
+      "epoch": 0.28769291650178075,
+      "grad_norm": 0.8392540153410275,
+      "learning_rate": 8.965715189358164e-05,
+      "loss": 0.2052,
+      "step": 727
+    },
+    {
+      "epoch": 0.2880886426592798,
+      "grad_norm": 0.8498842269373648,
+      "learning_rate": 8.9615044115763e-05,
+      "loss": 0.23,
+      "step": 728
+    },
+    {
+      "epoch": 0.2884843688167788,
+      "grad_norm": 1.1484022806367529,
+      "learning_rate": 8.95728607280033e-05,
+      "loss": 0.1833,
+      "step": 729
+    },
+    {
+      "epoch": 0.2888800949742778,
+      "grad_norm": 0.6436287635235969,
+      "learning_rate": 8.953060181081447e-05,
+      "loss": 0.1945,
+      "step": 730
+    },
+    {
+      "epoch": 0.2888800949742778,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9327354260089686,
+      "eval_PRM F1 AUC": 0.6701918347270044,
+      "eval_PRM F1 AUC (fixed)": 0.8917855386128873,
+      "eval_PRM F1 Neg": 0.4827586206896552,
+      "eval_PRM NPV": 0.7,
+      "eval_PRM Precision": 0.896551724137931,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.31298828125,
+      "eval_runtime": 5.1871,
+      "eval_samples_per_second": 5.784,
+      "eval_steps_per_second": 0.193,
+      "step": 730
+    },
+    {
+      "epoch": 0.2892758211317768,
+      "grad_norm": 0.7279521368670537,
+      "learning_rate": 8.948826744485258e-05,
+      "loss": 0.1433,
+      "step": 731
+    },
+    {
+      "epoch": 0.2896715472892758,
+      "grad_norm": 0.9415593375937553,
+      "learning_rate": 8.944585771091773e-05,
+      "loss": 0.1826,
+      "step": 732
+    },
+    {
+      "epoch": 0.29006727344677485,
+      "grad_norm": 0.8353676957085796,
+      "learning_rate": 8.940337268995385e-05,
+      "loss": 0.1902,
+      "step": 733
+    },
+    {
+      "epoch": 0.29046299960427385,
+      "grad_norm": 1.1591437479608018,
+      "learning_rate": 8.936081246304855e-05,
+      "loss": 0.2265,
+      "step": 734
+    },
+    {
+      "epoch": 0.29085872576177285,
+      "grad_norm": 1.0589753650535267,
+      "learning_rate": 8.931817711143302e-05,
+      "loss": 0.2601,
+      "step": 735
+    },
+    {
+      "epoch": 0.29085872576177285,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9327354260089686,
+      "eval_PRM F1 AUC": 0.6701918347270044,
+      "eval_PRM F1 AUC (fixed)": 0.8922774225282833,
+      "eval_PRM F1 Neg": 0.4827586206896552,
+      "eval_PRM NPV": 0.7,
+      "eval_PRM Precision": 0.896551724137931,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.29293620586395264,
+      "eval_runtime": 5.1837,
+      "eval_samples_per_second": 5.787,
+      "eval_steps_per_second": 0.193,
+      "step": 735
+    },
+    {
+      "epoch": 0.29125445191927185,
+      "grad_norm": 0.9466532951110602,
+      "learning_rate": 8.92754667164818e-05,
+      "loss": 0.269,
+      "step": 736
+    },
+    {
+      "epoch": 0.29165017807677085,
+      "grad_norm": 0.5546897117290948,
+      "learning_rate": 8.923268135971267e-05,
+      "loss": 0.1516,
+      "step": 737
+    },
+    {
+      "epoch": 0.2920459042342699,
+      "grad_norm": 0.726795549085925,
+      "learning_rate": 8.91898211227865e-05,
+      "loss": 0.1738,
+      "step": 738
+    },
+    {
+      "epoch": 0.2924416303917689,
+      "grad_norm": 0.8758479495103402,
+      "learning_rate": 8.914688608750701e-05,
+      "loss": 0.1995,
+      "step": 739
+    },
+    {
+      "epoch": 0.2928373565492679,
+      "grad_norm": 0.9058601441832761,
+      "learning_rate": 8.91038763358208e-05,
+      "loss": 0.2906,
+      "step": 740
+    },
+    {
+      "epoch": 0.2928373565492679,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.9251101321585903,
+      "eval_PRM F1 AUC": 0.5959173635022135,
+      "eval_PRM F1 AUC (fixed)": 0.8883423512051157,
+      "eval_PRM F1 Neg": 0.32,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.875,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.2775065004825592,
+      "eval_runtime": 5.1279,
+      "eval_samples_per_second": 5.85,
+      "eval_steps_per_second": 0.195,
+      "step": 740
+    },
+    {
+      "epoch": 0.2932330827067669,
+      "grad_norm": 0.9063094013514543,
+      "learning_rate": 8.906079194981695e-05,
+      "loss": 0.1671,
+      "step": 741
+    },
+    {
+      "epoch": 0.29362880886426596,
+      "grad_norm": 0.6651368106596527,
+      "learning_rate": 8.901763301172708e-05,
+      "loss": 0.1513,
+      "step": 742
+    },
+    {
+      "epoch": 0.29402453502176495,
+      "grad_norm": 0.5973154384515552,
+      "learning_rate": 8.897439960392507e-05,
+      "loss": 0.1293,
+      "step": 743
+    },
+    {
+      "epoch": 0.29442026117926395,
+      "grad_norm": 0.8955840947808993,
+      "learning_rate": 8.89310918089269e-05,
+      "loss": 0.2392,
+      "step": 744
+    },
+    {
+      "epoch": 0.29481598733676295,
+      "grad_norm": 0.6206958893144313,
+      "learning_rate": 8.888770970939057e-05,
+      "loss": 0.1787,
+      "step": 745
+    },
+    {
+      "epoch": 0.29481598733676295,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.8910477127397934,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.30009764432907104,
+      "eval_runtime": 4.8482,
+      "eval_samples_per_second": 6.188,
+      "eval_steps_per_second": 0.206,
+      "step": 745
+    },
+    {
+      "epoch": 0.29521171349426195,
+      "grad_norm": 0.6786888424779063,
+      "learning_rate": 8.88442533881159e-05,
+      "loss": 0.1603,
+      "step": 746
+    },
+    {
+      "epoch": 0.295607439651761,
+      "grad_norm": 0.9414471796153763,
+      "learning_rate": 8.880072292804435e-05,
+      "loss": 0.1964,
+      "step": 747
+    },
+    {
+      "epoch": 0.29600316580926,
+      "grad_norm": 0.7837874338689773,
+      "learning_rate": 8.875711841225888e-05,
+      "loss": 0.2305,
+      "step": 748
+    },
+    {
+      "epoch": 0.296398891966759,
+      "grad_norm": 1.2912999325498091,
+      "learning_rate": 8.871343992398383e-05,
+      "loss": 0.2515,
+      "step": 749
+    },
+    {
+      "epoch": 0.296794618124258,
+      "grad_norm": 0.9026489779277271,
+      "learning_rate": 8.866968754658466e-05,
+      "loss": 0.206,
+      "step": 750
+    },
+    {
+      "epoch": 0.296794618124258,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8893261190359075,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26956379413604736,
+      "eval_runtime": 5.3776,
+      "eval_samples_per_second": 5.579,
+      "eval_steps_per_second": 0.186,
+      "step": 750
+    },
+    {
+      "epoch": 0.297190344281757,
+      "grad_norm": 0.7696797543394589,
+      "learning_rate": 8.862586136356794e-05,
+      "loss": 0.1674,
+      "step": 751
+    },
+    {
+      "epoch": 0.29758607043925606,
+      "grad_norm": 0.9602999971402979,
+      "learning_rate": 8.858196145858104e-05,
+      "loss": 0.1898,
+      "step": 752
+    },
+    {
+      "epoch": 0.29798179659675506,
+      "grad_norm": 0.8828895719430124,
+      "learning_rate": 8.853798791541204e-05,
+      "loss": 0.2273,
+      "step": 753
+    },
+    {
+      "epoch": 0.29837752275425405,
+      "grad_norm": 0.9976380413908069,
+      "learning_rate": 8.849394081798962e-05,
+      "loss": 0.1945,
+      "step": 754
+    },
+    {
+      "epoch": 0.29877324891175305,
+      "grad_norm": 0.8342263917602064,
+      "learning_rate": 8.844982025038279e-05,
+      "loss": 0.2335,
+      "step": 755
+    },
+    {
+      "epoch": 0.29877324891175305,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8893261190359075,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2806640565395355,
+      "eval_runtime": 4.8594,
+      "eval_samples_per_second": 6.174,
+      "eval_steps_per_second": 0.206,
+      "step": 755
+    },
+    {
+      "epoch": 0.29916897506925205,
+      "grad_norm": 0.9151882315488452,
+      "learning_rate": 8.84056262968008e-05,
+      "loss": 0.2161,
+      "step": 756
+    },
+    {
+      "epoch": 0.2995647012267511,
+      "grad_norm": 0.8459616664970567,
+      "learning_rate": 8.836135904159302e-05,
+      "loss": 0.1541,
+      "step": 757
+    },
+    {
+      "epoch": 0.2999604273842501,
+      "grad_norm": 0.6746795344350985,
+      "learning_rate": 8.831701856924864e-05,
+      "loss": 0.162,
+      "step": 758
+    },
+    {
+      "epoch": 0.3003561535417491,
+      "grad_norm": 0.7654457054114777,
+      "learning_rate": 8.827260496439662e-05,
+      "loss": 0.1826,
+      "step": 759
+    },
+    {
+      "epoch": 0.3007518796992481,
+      "grad_norm": 1.1923245027585447,
+      "learning_rate": 8.822811831180555e-05,
+      "loss": 0.2223,
+      "step": 760
+    },
+    {
+      "epoch": 0.3007518796992481,
+      "eval_PRM Accuracy": 0.8650793650793651,
+      "eval_PRM F1": 0.925764192139738,
+      "eval_PRM F1 AUC": 0.5742744712247909,
+      "eval_PRM F1 AUC (fixed)": 0.8925233644859814,
+      "eval_PRM F1 Neg": 0.2608695652173913,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.8688524590163934,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.15789473684210525,
+      "eval_loss": 0.3451497256755829,
+      "eval_runtime": 5.0736,
+      "eval_samples_per_second": 5.913,
+      "eval_steps_per_second": 0.197,
+      "step": 760
+    },
+    {
+      "epoch": 0.30114760585674716,
+      "grad_norm": 1.315315242050645,
+      "learning_rate": 8.818355869638339e-05,
+      "loss": 0.2256,
+      "step": 761
+    },
+    {
+      "epoch": 0.30154333201424616,
+      "grad_norm": 0.7026193936703187,
+      "learning_rate": 8.81389262031774e-05,
+      "loss": 0.2259,
+      "step": 762
+    },
+    {
+      "epoch": 0.30193905817174516,
+      "grad_norm": 0.7378162205814667,
+      "learning_rate": 8.809422091737387e-05,
+      "loss": 0.1867,
+      "step": 763
+    },
+    {
+      "epoch": 0.30233478432924416,
+      "grad_norm": 0.83139474139224,
+      "learning_rate": 8.804944292429807e-05,
+      "loss": 0.2439,
+      "step": 764
+    },
+    {
+      "epoch": 0.30273051048674315,
+      "grad_norm": 0.6124547932922225,
+      "learning_rate": 8.800459230941405e-05,
+      "loss": 0.1712,
+      "step": 765
+    },
+    {
+      "epoch": 0.30273051048674315,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.8812100344318741,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.27991536259651184,
+      "eval_runtime": 5.2088,
+      "eval_samples_per_second": 5.759,
+      "eval_steps_per_second": 0.192,
+      "step": 765
+    },
+    {
+      "epoch": 0.3031262366442422,
+      "grad_norm": 0.8159197300922938,
+      "learning_rate": 8.795966915832443e-05,
+      "loss": 0.182,
+      "step": 766
+    },
+    {
+      "epoch": 0.3035219628017412,
+      "grad_norm": 0.7908198253381381,
+      "learning_rate": 8.791467355677031e-05,
+      "loss": 0.2122,
+      "step": 767
+    },
+    {
+      "epoch": 0.3039176889592402,
+      "grad_norm": 0.7234911177006348,
+      "learning_rate": 8.786960559063105e-05,
+      "loss": 0.222,
+      "step": 768
+    },
+    {
+      "epoch": 0.3043134151167392,
+      "grad_norm": 0.7952637819088901,
+      "learning_rate": 8.782446534592413e-05,
+      "loss": 0.2116,
+      "step": 769
+    },
+    {
+      "epoch": 0.3047091412742382,
+      "grad_norm": 0.9612974289352592,
+      "learning_rate": 8.777925290880496e-05,
+      "loss": 0.1918,
+      "step": 770
+    },
+    {
+      "epoch": 0.3047091412742382,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.8804722085587801,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.28177082538604736,
+      "eval_runtime": 4.9519,
+      "eval_samples_per_second": 6.058,
+      "eval_steps_per_second": 0.202,
+      "step": 770
+    },
+    {
+      "epoch": 0.30510486743173726,
+      "grad_norm": 0.9087054032483611,
+      "learning_rate": 8.773396836556679e-05,
+      "loss": 0.2429,
+      "step": 771
+    },
+    {
+      "epoch": 0.30550059358923626,
+      "grad_norm": 0.7447575951133999,
+      "learning_rate": 8.768861180264045e-05,
+      "loss": 0.2014,
+      "step": 772
+    },
+    {
+      "epoch": 0.30589631974673526,
+      "grad_norm": 0.9069651617022895,
+      "learning_rate": 8.764318330659424e-05,
+      "loss": 0.2401,
+      "step": 773
+    },
+    {
+      "epoch": 0.30629204590423426,
+      "grad_norm": 0.9521867301096485,
+      "learning_rate": 8.759768296413376e-05,
+      "loss": 0.1792,
+      "step": 774
+    },
+    {
+      "epoch": 0.30668777206173325,
+      "grad_norm": 0.6072237551406509,
+      "learning_rate": 8.755211086210172e-05,
+      "loss": 0.1562,
+      "step": 775
+    },
+    {
+      "epoch": 0.30668777206173325,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.8799803246433842,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.306640625,
+      "eval_runtime": 5.0011,
+      "eval_samples_per_second": 5.999,
+      "eval_steps_per_second": 0.2,
+      "step": 775
+    },
+    {
+      "epoch": 0.3070834982192323,
+      "grad_norm": 0.8792892279462375,
+      "learning_rate": 8.750646708747781e-05,
+      "loss": 0.1507,
+      "step": 776
+    },
+    {
+      "epoch": 0.3074792243767313,
+      "grad_norm": 0.6571602790522012,
+      "learning_rate": 8.746075172737851e-05,
+      "loss": 0.1421,
+      "step": 777
+    },
+    {
+      "epoch": 0.3078749505342303,
+      "grad_norm": 1.0283840524578438,
+      "learning_rate": 8.741496486905691e-05,
+      "loss": 0.1422,
+      "step": 778
+    },
+    {
+      "epoch": 0.3082706766917293,
+      "grad_norm": 0.6998294955241987,
+      "learning_rate": 8.736910659990261e-05,
+      "loss": 0.1464,
+      "step": 779
+    },
+    {
+      "epoch": 0.30866640284922836,
+      "grad_norm": 1.2720310775742825,
+      "learning_rate": 8.732317700744146e-05,
+      "loss": 0.2327,
+      "step": 780
+    },
+    {
+      "epoch": 0.30866640284922836,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8900639449090014,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2822265625,
+      "eval_runtime": 5.103,
+      "eval_samples_per_second": 5.879,
+      "eval_steps_per_second": 0.196,
+      "step": 780
+    },
+    {
+      "epoch": 0.30906212900672736,
+      "grad_norm": 0.7342901789664035,
+      "learning_rate": 8.727717617933544e-05,
+      "loss": 0.1264,
+      "step": 781
+    },
+    {
+      "epoch": 0.30945785516422636,
+      "grad_norm": 1.1028064366961383,
+      "learning_rate": 8.723110420338251e-05,
+      "loss": 0.2212,
+      "step": 782
+    },
+    {
+      "epoch": 0.30985358132172536,
+      "grad_norm": 1.2893229878786714,
+      "learning_rate": 8.718496116751644e-05,
+      "loss": 0.1484,
+      "step": 783
+    },
+    {
+      "epoch": 0.31024930747922436,
+      "grad_norm": 0.5643435084286054,
+      "learning_rate": 8.71387471598066e-05,
+      "loss": 0.0959,
+      "step": 784
+    },
+    {
+      "epoch": 0.3106450336367234,
+      "grad_norm": 0.7583173597008048,
+      "learning_rate": 8.709246226845782e-05,
+      "loss": 0.1048,
+      "step": 785
+    },
+    {
+      "epoch": 0.3106450336367234,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8999016232169208,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.28942057490348816,
+      "eval_runtime": 5.0981,
+      "eval_samples_per_second": 5.885,
+      "eval_steps_per_second": 0.196,
+      "step": 785
+    },
+    {
+      "epoch": 0.3110407597942224,
+      "grad_norm": 0.8073987997530575,
+      "learning_rate": 8.704610658181021e-05,
+      "loss": 0.1581,
+      "step": 786
+    },
+    {
+      "epoch": 0.3114364859517214,
+      "grad_norm": 1.114560450506898,
+      "learning_rate": 8.699968018833904e-05,
+      "loss": 0.1419,
+      "step": 787
+    },
+    {
+      "epoch": 0.3118322121092204,
+      "grad_norm": 0.7316494749476418,
+      "learning_rate": 8.69531831766545e-05,
+      "loss": 0.0942,
+      "step": 788
+    },
+    {
+      "epoch": 0.3122279382667194,
+      "grad_norm": 2.010956156016771,
+      "learning_rate": 8.690661563550156e-05,
+      "loss": 0.2824,
+      "step": 789
+    },
+    {
+      "epoch": 0.31262366442421846,
+      "grad_norm": 1.153707937935504,
+      "learning_rate": 8.68599776537598e-05,
+      "loss": 0.2088,
+      "step": 790
+    },
+    {
+      "epoch": 0.31262366442421846,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9285714285714286,
+      "eval_PRM F1 AUC": 0.6438760452533202,
+      "eval_PRM F1 AUC (fixed)": 0.8991637973438268,
+      "eval_PRM F1 Neg": 0.42857142857142855,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.8888888888888888,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.30595701932907104,
+      "eval_runtime": 4.7699,
+      "eval_samples_per_second": 6.289,
+      "eval_steps_per_second": 0.21,
+      "step": 790
+    },
+    {
+      "epoch": 0.31301939058171746,
+      "grad_norm": 1.1484907644773685,
+      "learning_rate": 8.68132693204433e-05,
+      "loss": 0.2056,
+      "step": 791
+    },
+    {
+      "epoch": 0.31341511673921646,
+      "grad_norm": 1.6777980586879817,
+      "learning_rate": 8.676649072470034e-05,
+      "loss": 0.1962,
+      "step": 792
+    },
+    {
+      "epoch": 0.31381084289671546,
+      "grad_norm": 0.7395973147724139,
+      "learning_rate": 8.671964195581336e-05,
+      "loss": 0.1298,
+      "step": 793
+    },
+    {
+      "epoch": 0.31420656905421446,
+      "grad_norm": 0.9643682491142119,
+      "learning_rate": 8.66727231031987e-05,
+      "loss": 0.171,
+      "step": 794
+    },
+    {
+      "epoch": 0.3146022952117135,
+      "grad_norm": 0.8899614793760491,
+      "learning_rate": 8.662573425640645e-05,
+      "loss": 0.165,
+      "step": 795
+    },
+    {
+      "epoch": 0.3146022952117135,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8962124938514511,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2797200381755829,
+      "eval_runtime": 4.8426,
+      "eval_samples_per_second": 6.195,
+      "eval_steps_per_second": 0.207,
+      "step": 795
+    },
+    {
+      "epoch": 0.3149980213692125,
+      "grad_norm": 0.9323404131120511,
+      "learning_rate": 8.657867550512033e-05,
+      "loss": 0.1627,
+      "step": 796
+    },
+    {
+      "epoch": 0.3153937475267115,
+      "grad_norm": 0.7969863305269954,
+      "learning_rate": 8.65315469391575e-05,
+      "loss": 0.1364,
+      "step": 797
+    },
+    {
+      "epoch": 0.3157894736842105,
+      "grad_norm": 0.6073649742768036,
+      "learning_rate": 8.64843486484683e-05,
+      "loss": 0.1061,
+      "step": 798
+    },
+    {
+      "epoch": 0.31618519984170956,
+      "grad_norm": 0.9190067904070243,
+      "learning_rate": 8.643708072313618e-05,
+      "loss": 0.2136,
+      "step": 799
+    },
+    {
+      "epoch": 0.31658092599920856,
+      "grad_norm": 0.5106188430854406,
+      "learning_rate": 8.63897432533775e-05,
+      "loss": 0.1453,
+      "step": 800
+    },
+    {
+      "epoch": 0.31658092599920856,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9292035398230089,
+      "eval_PRM F1 AUC": 0.6222331529758978,
+      "eval_PRM F1 AUC (fixed)": 0.8942449581898672,
+      "eval_PRM F1 Neg": 0.38461538461538464,
+      "eval_PRM NPV": 0.7142857142857143,
+      "eval_PRM Precision": 0.8823529411764706,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.3200846314430237,
+      "eval_runtime": 5.0855,
+      "eval_samples_per_second": 5.899,
+      "eval_steps_per_second": 0.197,
+      "step": 800
+    },
+    {
+      "epoch": 0.31697665215670756,
+      "grad_norm": 0.7289283720156537,
+      "learning_rate": 8.634233632954139e-05,
+      "loss": 0.1527,
+      "step": 801
+    },
+    {
+      "epoch": 0.31737237831420656,
+      "grad_norm": 0.8570109277701821,
+      "learning_rate": 8.629486004210945e-05,
+      "loss": 0.1973,
+      "step": 802
+    },
+    {
+      "epoch": 0.31776810447170556,
+      "grad_norm": 0.7857443785523225,
+      "learning_rate": 8.624731448169576e-05,
+      "loss": 0.1507,
+      "step": 803
+    },
+    {
+      "epoch": 0.3181638306292046,
+      "grad_norm": 0.9553421553523828,
+      "learning_rate": 8.619969973904655e-05,
+      "loss": 0.2024,
+      "step": 804
+    },
+    {
+      "epoch": 0.3185595567867036,
+      "grad_norm": 0.6153155522590844,
+      "learning_rate": 8.615201590504017e-05,
+      "loss": 0.1317,
+      "step": 805
+    },
+    {
+      "epoch": 0.3185595567867036,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.8866207575012297,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.3003906309604645,
+      "eval_runtime": 5.1121,
+      "eval_samples_per_second": 5.868,
+      "eval_steps_per_second": 0.196,
+      "step": 805
+    },
+    {
+      "epoch": 0.3189552829442026,
+      "grad_norm": 0.7682299096727117,
+      "learning_rate": 8.610426307068674e-05,
+      "loss": 0.1388,
+      "step": 806
+    },
+    {
+      "epoch": 0.3193510091017016,
+      "grad_norm": 0.8666234152885707,
+      "learning_rate": 8.605644132712814e-05,
+      "loss": 0.2311,
+      "step": 807
+    },
+    {
+      "epoch": 0.3197467352592006,
+      "grad_norm": 1.5250090898838904,
+      "learning_rate": 8.600855076563776e-05,
+      "loss": 0.2397,
+      "step": 808
+    },
+    {
+      "epoch": 0.32014246141669966,
+      "grad_norm": 1.045702461189082,
+      "learning_rate": 8.596059147762034e-05,
+      "loss": 0.1861,
+      "step": 809
+    },
+    {
+      "epoch": 0.32053818757419866,
+      "grad_norm": 0.8749524500579257,
+      "learning_rate": 8.591256355461176e-05,
+      "loss": 0.1504,
+      "step": 810
+    },
+    {
+      "epoch": 0.32053818757419866,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8863748155435317,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2663411498069763,
+      "eval_runtime": 5.168,
+      "eval_samples_per_second": 5.805,
+      "eval_steps_per_second": 0.193,
+      "step": 810
+    },
+    {
+      "epoch": 0.32093391373169766,
+      "grad_norm": 1.383279312317896,
+      "learning_rate": 8.586446708827896e-05,
+      "loss": 0.1709,
+      "step": 811
+    },
+    {
+      "epoch": 0.32132963988919666,
+      "grad_norm": 0.8403605155927515,
+      "learning_rate": 8.581630217041963e-05,
+      "loss": 0.1964,
+      "step": 812
+    },
+    {
+      "epoch": 0.32172536604669566,
+      "grad_norm": 1.0912036401913052,
+      "learning_rate": 8.576806889296216e-05,
+      "loss": 0.1711,
+      "step": 813
+    },
+    {
+      "epoch": 0.3221210922041947,
+      "grad_norm": 1.7141470559355845,
+      "learning_rate": 8.57197673479654e-05,
+      "loss": 0.2641,
+      "step": 814
+    },
+    {
+      "epoch": 0.3225168183616937,
+      "grad_norm": 1.0645503918252057,
+      "learning_rate": 8.56713976276185e-05,
+      "loss": 0.2157,
+      "step": 815
+    },
+    {
+      "epoch": 0.3225168183616937,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9035907525823906,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2689778506755829,
+      "eval_runtime": 5.0017,
+      "eval_samples_per_second": 5.998,
+      "eval_steps_per_second": 0.2,
+      "step": 815
+    },
+    {
+      "epoch": 0.3229125445191927,
+      "grad_norm": 0.7009662996692828,
+      "learning_rate": 8.562295982424069e-05,
+      "loss": 0.14,
+      "step": 816
+    },
+    {
+      "epoch": 0.3233082706766917,
+      "grad_norm": 1.241855373078175,
+      "learning_rate": 8.557445403028122e-05,
+      "loss": 0.1907,
+      "step": 817
+    },
+    {
+      "epoch": 0.32370399683419077,
+      "grad_norm": 0.6956449753509186,
+      "learning_rate": 8.552588033831905e-05,
+      "loss": 0.1316,
+      "step": 818
+    },
+    {
+      "epoch": 0.32409972299168976,
+      "grad_norm": 1.2506381497847148,
+      "learning_rate": 8.547723884106274e-05,
+      "loss": 0.2073,
+      "step": 819
+    },
+    {
+      "epoch": 0.32449544914918876,
+      "grad_norm": 0.7410411089502383,
+      "learning_rate": 8.542852963135029e-05,
+      "loss": 0.1695,
+      "step": 820
+    },
+    {
+      "epoch": 0.32449544914918876,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9043285784554845,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.29212239384651184,
+      "eval_runtime": 5.1898,
+      "eval_samples_per_second": 5.781,
+      "eval_steps_per_second": 0.193,
+      "step": 820
+    },
+    {
+      "epoch": 0.32489117530668776,
+      "grad_norm": 1.0926492341151244,
+      "learning_rate": 8.537975280214889e-05,
+      "loss": 0.1957,
+      "step": 821
+    },
+    {
+      "epoch": 0.32528690146418676,
+      "grad_norm": 1.135039526246786,
+      "learning_rate": 8.533090844655482e-05,
+      "loss": 0.1414,
+      "step": 822
+    },
+    {
+      "epoch": 0.3256826276216858,
+      "grad_norm": 1.3071292433628887,
+      "learning_rate": 8.528199665779328e-05,
+      "loss": 0.1876,
+      "step": 823
+    },
+    {
+      "epoch": 0.3260783537791848,
+      "grad_norm": 0.8116672832951006,
+      "learning_rate": 8.523301752921811e-05,
+      "loss": 0.1551,
+      "step": 824
+    },
+    {
+      "epoch": 0.3264740799366838,
+      "grad_norm": 1.027783869631157,
+      "learning_rate": 8.518397115431169e-05,
+      "loss": 0.2153,
+      "step": 825
+    },
+    {
+      "epoch": 0.3264740799366838,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9001475651746188,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2613281309604645,
+      "eval_runtime": 5.3164,
+      "eval_samples_per_second": 5.643,
+      "eval_steps_per_second": 0.188,
+      "step": 825
+    },
+    {
+      "epoch": 0.3268698060941828,
+      "grad_norm": 0.8780206436295659,
+      "learning_rate": 8.513485762668476e-05,
+      "loss": 0.2199,
+      "step": 826
+    },
+    {
+      "epoch": 0.3272655322516818,
+      "grad_norm": 0.9425617394206817,
+      "learning_rate": 8.508567704007627e-05,
+      "loss": 0.145,
+      "step": 827
+    },
+    {
+      "epoch": 0.32766125840918087,
+      "grad_norm": 1.2828138498832955,
+      "learning_rate": 8.503642948835305e-05,
+      "loss": 0.2381,
+      "step": 828
+    },
+    {
+      "epoch": 0.32805698456667987,
+      "grad_norm": 0.8888925013939754,
+      "learning_rate": 8.498711506550983e-05,
+      "loss": 0.1869,
+      "step": 829
+    },
+    {
+      "epoch": 0.32845271072417886,
+      "grad_norm": 1.0940759254085846,
+      "learning_rate": 8.493773386566899e-05,
+      "loss": 0.2316,
+      "step": 830
+    },
+    {
+      "epoch": 0.32845271072417886,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.897196261682243,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2684895694255829,
+      "eval_runtime": 5.1585,
+      "eval_samples_per_second": 5.816,
+      "eval_steps_per_second": 0.194,
+      "step": 830
+    },
+    {
+      "epoch": 0.32884843688167786,
+      "grad_norm": 0.7567948350209694,
+      "learning_rate": 8.488828598308028e-05,
+      "loss": 0.1438,
+      "step": 831
+    },
+    {
+      "epoch": 0.32924416303917686,
+      "grad_norm": 0.7678359729015216,
+      "learning_rate": 8.483877151212077e-05,
+      "loss": 0.1517,
+      "step": 832
+    },
+    {
+      "epoch": 0.3296398891966759,
+      "grad_norm": 0.9923361241209745,
+      "learning_rate": 8.47891905472946e-05,
+      "loss": 0.1844,
+      "step": 833
+    },
+    {
+      "epoch": 0.3300356153541749,
+      "grad_norm": 0.7085662804763562,
+      "learning_rate": 8.473954318323287e-05,
+      "loss": 0.1897,
+      "step": 834
+    },
+    {
+      "epoch": 0.3304313415116739,
+      "grad_norm": 0.7147096103898686,
+      "learning_rate": 8.468982951469333e-05,
+      "loss": 0.1607,
+      "step": 835
+    },
+    {
+      "epoch": 0.3304313415116739,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8944909001475652,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2911783754825592,
+      "eval_runtime": 5.1004,
+      "eval_samples_per_second": 5.882,
+      "eval_steps_per_second": 0.196,
+      "step": 835
+    },
+    {
+      "epoch": 0.3308270676691729,
+      "grad_norm": 0.6596445924702422,
+      "learning_rate": 8.464004963656037e-05,
+      "loss": 0.1603,
+      "step": 836
+    },
+    {
+      "epoch": 0.33122279382667197,
+      "grad_norm": 0.5971853090797905,
+      "learning_rate": 8.45902036438447e-05,
+      "loss": 0.1523,
+      "step": 837
+    },
+    {
+      "epoch": 0.33161851998417097,
+      "grad_norm": 0.6966287567958265,
+      "learning_rate": 8.454029163168317e-05,
+      "loss": 0.1741,
+      "step": 838
+    },
+    {
+      "epoch": 0.33201424614166997,
+      "grad_norm": 0.6851643180686253,
+      "learning_rate": 8.449031369533876e-05,
+      "loss": 0.1682,
+      "step": 839
+    },
+    {
+      "epoch": 0.33240997229916897,
+      "grad_norm": 0.7036682208218882,
+      "learning_rate": 8.444026993020017e-05,
+      "loss": 0.2282,
+      "step": 840
+    },
+    {
+      "epoch": 0.33240997229916897,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8947368421052633,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.28925782442092896,
+      "eval_runtime": 5.0929,
+      "eval_samples_per_second": 5.891,
+      "eval_steps_per_second": 0.196,
+      "step": 840
+    },
+    {
+      "epoch": 0.33280569845666796,
+      "grad_norm": 0.6675456484859625,
+      "learning_rate": 8.439016043178176e-05,
+      "loss": 0.1559,
+      "step": 841
+    },
+    {
+      "epoch": 0.333201424614167,
+      "grad_norm": 0.7725292485843828,
+      "learning_rate": 8.433998529572338e-05,
+      "loss": 0.1756,
+      "step": 842
+    },
+    {
+      "epoch": 0.333597150771666,
+      "grad_norm": 0.5651744758485415,
+      "learning_rate": 8.428974461779014e-05,
+      "loss": 0.1308,
+      "step": 843
+    },
+    {
+      "epoch": 0.333992876929165,
+      "grad_norm": 0.8938081414973864,
+      "learning_rate": 8.423943849387223e-05,
+      "loss": 0.1983,
+      "step": 844
+    },
+    {
+      "epoch": 0.334388603086664,
+      "grad_norm": 1.083079267779291,
+      "learning_rate": 8.418906701998477e-05,
+      "loss": 0.2044,
+      "step": 845
+    },
+    {
+      "epoch": 0.334388603086664,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9038366945400886,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27307942509651184,
+      "eval_runtime": 5.0396,
+      "eval_samples_per_second": 5.953,
+      "eval_steps_per_second": 0.198,
+      "step": 845
+    },
+    {
+      "epoch": 0.334784329244163,
+      "grad_norm": 1.237028516692739,
+      "learning_rate": 8.413863029226762e-05,
+      "loss": 0.2041,
+      "step": 846
+    },
+    {
+      "epoch": 0.33518005540166207,
+      "grad_norm": 0.7362456243045792,
+      "learning_rate": 8.408812840698517e-05,
+      "loss": 0.1298,
+      "step": 847
+    },
+    {
+      "epoch": 0.33557578155916107,
+      "grad_norm": 0.8836264510234058,
+      "learning_rate": 8.403756146052617e-05,
+      "loss": 0.2198,
+      "step": 848
+    },
+    {
+      "epoch": 0.33597150771666007,
+      "grad_norm": 0.5770378079109552,
+      "learning_rate": 8.398692954940352e-05,
+      "loss": 0.1073,
+      "step": 849
+    },
+    {
+      "epoch": 0.33636723387415907,
+      "grad_norm": 1.4507493057396252,
+      "learning_rate": 8.393623277025415e-05,
+      "loss": 0.2093,
+      "step": 850
+    },
+    {
+      "epoch": 0.33636723387415907,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9011313330054107,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27347004413604736,
+      "eval_runtime": 5.0973,
+      "eval_samples_per_second": 5.885,
+      "eval_steps_per_second": 0.196,
+      "step": 850
+    },
+    {
+      "epoch": 0.33676296003165807,
+      "grad_norm": 0.8132004482782825,
+      "learning_rate": 8.388547121983881e-05,
+      "loss": 0.1809,
+      "step": 851
+    },
+    {
+      "epoch": 0.3371586861891571,
+      "grad_norm": 0.813328882882879,
+      "learning_rate": 8.383464499504183e-05,
+      "loss": 0.1313,
+      "step": 852
+    },
+    {
+      "epoch": 0.3375544123466561,
+      "grad_norm": 0.8381291582903194,
+      "learning_rate": 8.378375419287099e-05,
+      "loss": 0.1769,
+      "step": 853
+    },
+    {
+      "epoch": 0.3379501385041551,
+      "grad_norm": 0.6462416856495375,
+      "learning_rate": 8.373279891045735e-05,
+      "loss": 0.1444,
+      "step": 854
+    },
+    {
+      "epoch": 0.3383458646616541,
+      "grad_norm": 0.6221755845055602,
+      "learning_rate": 8.368177924505504e-05,
+      "loss": 0.1343,
+      "step": 855
+    },
+    {
+      "epoch": 0.3383458646616541,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9021151008362027,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2757161557674408,
+      "eval_runtime": 4.9916,
+      "eval_samples_per_second": 6.01,
+      "eval_steps_per_second": 0.2,
+      "step": 855
+    },
+    {
+      "epoch": 0.33874159081915317,
+      "grad_norm": 0.7442770131734728,
+      "learning_rate": 8.363069529404102e-05,
+      "loss": 0.1787,
+      "step": 856
+    },
+    {
+      "epoch": 0.33913731697665217,
+      "grad_norm": 0.8298459969984038,
+      "learning_rate": 8.357954715491498e-05,
+      "loss": 0.1956,
+      "step": 857
+    },
+    {
+      "epoch": 0.33953304313415117,
+      "grad_norm": 0.8822403855159155,
+      "learning_rate": 8.352833492529914e-05,
+      "loss": 0.1922,
+      "step": 858
+    },
+    {
+      "epoch": 0.33992876929165017,
+      "grad_norm": 0.9979725148915223,
+      "learning_rate": 8.3477058702938e-05,
+      "loss": 0.1866,
+      "step": 859
+    },
+    {
+      "epoch": 0.34032449544914917,
+      "grad_norm": 0.6889519291640593,
+      "learning_rate": 8.342571858569826e-05,
+      "loss": 0.1687,
+      "step": 860
+    },
+    {
+      "epoch": 0.34032449544914917,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9008853910477127,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2668619751930237,
+      "eval_runtime": 4.8792,
+      "eval_samples_per_second": 6.149,
+      "eval_steps_per_second": 0.205,
+      "step": 860
+    },
+    {
+      "epoch": 0.3407202216066482,
+      "grad_norm": 0.8316984538300345,
+      "learning_rate": 8.337431467156851e-05,
+      "loss": 0.1574,
+      "step": 861
+    },
+    {
+      "epoch": 0.3411159477641472,
+      "grad_norm": 1.7234635973632797,
+      "learning_rate": 8.332284705865914e-05,
+      "loss": 0.2331,
+      "step": 862
+    },
+    {
+      "epoch": 0.3415116739216462,
+      "grad_norm": 0.9132787253556621,
+      "learning_rate": 8.327131584520207e-05,
+      "loss": 0.1717,
+      "step": 863
+    },
+    {
+      "epoch": 0.3419074000791452,
+      "grad_norm": 1.1689814264870746,
+      "learning_rate": 8.321972112955068e-05,
+      "loss": 0.2204,
+      "step": 864
+    },
+    {
+      "epoch": 0.3423031262366442,
+      "grad_norm": 0.668992889648423,
+      "learning_rate": 8.31680630101795e-05,
+      "loss": 0.1289,
+      "step": 865
+    },
+    {
+      "epoch": 0.3423031262366442,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8991637973438269,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2648111879825592,
+      "eval_runtime": 5.1813,
+      "eval_samples_per_second": 5.79,
+      "eval_steps_per_second": 0.193,
+      "step": 865
+    },
+    {
+      "epoch": 0.34269885239414327,
+      "grad_norm": 0.9898982801677739,
+      "learning_rate": 8.311634158568408e-05,
+      "loss": 0.2062,
+      "step": 866
+    },
+    {
+      "epoch": 0.34309457855164227,
+      "grad_norm": 0.6630768646564437,
+      "learning_rate": 8.306455695478081e-05,
+      "loss": 0.141,
+      "step": 867
+    },
+    {
+      "epoch": 0.34349030470914127,
+      "grad_norm": 1.3165642093943424,
+      "learning_rate": 8.301270921630673e-05,
+      "loss": 0.2335,
+      "step": 868
+    },
+    {
+      "epoch": 0.34388603086664027,
+      "grad_norm": 0.9142797355976449,
+      "learning_rate": 8.296079846921927e-05,
+      "loss": 0.153,
+      "step": 869
+    },
+    {
+      "epoch": 0.3442817570241393,
+      "grad_norm": 0.9216845264807406,
+      "learning_rate": 8.290882481259618e-05,
+      "loss": 0.1797,
+      "step": 870
+    },
+    {
+      "epoch": 0.3442817570241393,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.8984259714707329,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26598307490348816,
+      "eval_runtime": 5.1912,
+      "eval_samples_per_second": 5.779,
+      "eval_steps_per_second": 0.193,
+      "step": 870
+    },
+    {
+      "epoch": 0.3446774831816383,
+      "grad_norm": 0.8651769085395622,
+      "learning_rate": 8.285678834563524e-05,
+      "loss": 0.155,
+      "step": 871
+    },
+    {
+      "epoch": 0.3450732093391373,
+      "grad_norm": 0.9518289213674653,
+      "learning_rate": 8.280468916765415e-05,
+      "loss": 0.1035,
+      "step": 872
+    },
+    {
+      "epoch": 0.3454689354966363,
+      "grad_norm": 1.087527989751469,
+      "learning_rate": 8.275252737809028e-05,
+      "loss": 0.1987,
+      "step": 873
+    },
+    {
+      "epoch": 0.3458646616541353,
+      "grad_norm": 0.8612811027947653,
+      "learning_rate": 8.270030307650048e-05,
+      "loss": 0.1976,
+      "step": 874
+    },
+    {
+      "epoch": 0.3462603878116344,
+      "grad_norm": 0.8266407382637784,
+      "learning_rate": 8.264801636256094e-05,
+      "loss": 0.1474,
+      "step": 875
+    },
+    {
+      "epoch": 0.3462603878116344,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9038366945400885,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2710612118244171,
+      "eval_runtime": 5.1806,
+      "eval_samples_per_second": 5.791,
+      "eval_steps_per_second": 0.193,
+      "step": 875
+    },
+    {
+      "epoch": 0.3466561139691334,
+      "grad_norm": 1.2250109101178033,
+      "learning_rate": 8.259566733606696e-05,
+      "loss": 0.2165,
+      "step": 876
+    },
+    {
+      "epoch": 0.34705184012663237,
+      "grad_norm": 0.8999170721823463,
+      "learning_rate": 8.25432560969328e-05,
+      "loss": 0.1934,
+      "step": 877
+    },
+    {
+      "epoch": 0.34744756628413137,
+      "grad_norm": 1.2885561911684744,
+      "learning_rate": 8.24907827451914e-05,
+      "loss": 0.2555,
+      "step": 878
+    },
+    {
+      "epoch": 0.34784329244163037,
+      "grad_norm": 1.2109685924497229,
+      "learning_rate": 8.243824738099431e-05,
+      "loss": 0.2004,
+      "step": 879
+    },
+    {
+      "epoch": 0.3482390185991294,
+      "grad_norm": 1.298688275406524,
+      "learning_rate": 8.238565010461138e-05,
+      "loss": 0.2294,
+      "step": 880
+    },
+    {
+      "epoch": 0.3482390185991294,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9055582882439744,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2764648497104645,
+      "eval_runtime": 5.1409,
+      "eval_samples_per_second": 5.836,
+      "eval_steps_per_second": 0.195,
+      "step": 880
+    },
+    {
+      "epoch": 0.3486347447566284,
+      "grad_norm": 1.1408633103873533,
+      "learning_rate": 8.23329910164307e-05,
+      "loss": 0.2087,
+      "step": 881
+    },
+    {
+      "epoch": 0.3490304709141274,
+      "grad_norm": 1.1464720838539775,
+      "learning_rate": 8.228027021695827e-05,
+      "loss": 0.2062,
+      "step": 882
+    },
+    {
+      "epoch": 0.3494261970716264,
+      "grad_norm": 0.7193282757881734,
+      "learning_rate": 8.22274878068179e-05,
+      "loss": 0.153,
+      "step": 883
+    },
+    {
+      "epoch": 0.3498219232291254,
+      "grad_norm": 1.0106511876092554,
+      "learning_rate": 8.2174643886751e-05,
+      "loss": 0.2208,
+      "step": 884
+    },
+    {
+      "epoch": 0.3502176493866245,
+      "grad_norm": 0.9517391729236356,
+      "learning_rate": 8.212173855761636e-05,
+      "loss": 0.2146,
+      "step": 885
+    },
+    {
+      "epoch": 0.3502176493866245,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9080177078209543,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25589191913604736,
+      "eval_runtime": 4.7861,
+      "eval_samples_per_second": 6.268,
+      "eval_steps_per_second": 0.209,
+      "step": 885
+    },
+    {
+      "epoch": 0.3506133755441235,
+      "grad_norm": 0.8364283541995906,
+      "learning_rate": 8.206877192038995e-05,
+      "loss": 0.1736,
+      "step": 886
+    },
+    {
+      "epoch": 0.3510091017016225,
+      "grad_norm": 0.9185753485607663,
+      "learning_rate": 8.201574407616483e-05,
+      "loss": 0.2102,
+      "step": 887
+    },
+    {
+      "epoch": 0.35140482785912147,
+      "grad_norm": 0.7018609574067978,
+      "learning_rate": 8.196265512615081e-05,
+      "loss": 0.1564,
+      "step": 888
+    },
+    {
+      "epoch": 0.3518005540166205,
+      "grad_norm": 1.1693031030621928,
+      "learning_rate": 8.190950517167437e-05,
+      "loss": 0.221,
+      "step": 889
+    },
+    {
+      "epoch": 0.3521962801741195,
+      "grad_norm": 0.6653103853980346,
+      "learning_rate": 8.18562943141784e-05,
+      "loss": 0.1346,
+      "step": 890
+    },
+    {
+      "epoch": 0.3521962801741195,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9067879980324643,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2787109315395355,
+      "eval_runtime": 4.8288,
+      "eval_samples_per_second": 6.213,
+      "eval_steps_per_second": 0.207,
+      "step": 890
+    },
+    {
+      "epoch": 0.3525920063316185,
+      "grad_norm": 0.7886924397386983,
+      "learning_rate": 8.180302265522206e-05,
+      "loss": 0.208,
+      "step": 891
+    },
+    {
+      "epoch": 0.3529877324891175,
+      "grad_norm": 0.7837903777469855,
+      "learning_rate": 8.174969029648052e-05,
+      "loss": 0.1589,
+      "step": 892
+    },
+    {
+      "epoch": 0.3533834586466165,
+      "grad_norm": 0.9005986478126117,
+      "learning_rate": 8.169629733974482e-05,
+      "loss": 0.1926,
+      "step": 893
+    },
+    {
+      "epoch": 0.3537791848041156,
+      "grad_norm": 0.8139863060862231,
+      "learning_rate": 8.164284388692166e-05,
+      "loss": 0.1706,
+      "step": 894
+    },
+    {
+      "epoch": 0.3541749109616146,
+      "grad_norm": 0.6170196410524107,
+      "learning_rate": 8.158933004003319e-05,
+      "loss": 0.1529,
+      "step": 895
+    },
+    {
+      "epoch": 0.3541749109616146,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9070339399901624,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.28422850370407104,
+      "eval_runtime": 5.3817,
+      "eval_samples_per_second": 5.574,
+      "eval_steps_per_second": 0.186,
+      "step": 895
+    },
+    {
+      "epoch": 0.3545706371191136,
+      "grad_norm": 0.7476950704069479,
+      "learning_rate": 8.153575590121686e-05,
+      "loss": 0.1748,
+      "step": 896
+    },
+    {
+      "epoch": 0.3549663632766126,
+      "grad_norm": 0.8524765376473925,
+      "learning_rate": 8.148212157272517e-05,
+      "loss": 0.1749,
+      "step": 897
+    },
+    {
+      "epoch": 0.35536208943411157,
+      "grad_norm": 0.7538529262656093,
+      "learning_rate": 8.142842715692548e-05,
+      "loss": 0.1635,
+      "step": 898
+    },
+    {
+      "epoch": 0.3557578155916106,
+      "grad_norm": 0.8730864342562548,
+      "learning_rate": 8.137467275629988e-05,
+      "loss": 0.1708,
+      "step": 899
+    },
+    {
+      "epoch": 0.3561535417491096,
+      "grad_norm": 0.5626621536324666,
+      "learning_rate": 8.132085847344493e-05,
+      "loss": 0.1412,
+      "step": 900
+    },
+    {
+      "epoch": 0.3561535417491096,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.9026069847515986,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.2946940064430237,
+      "eval_runtime": 4.9661,
+      "eval_samples_per_second": 6.041,
+      "eval_steps_per_second": 0.201,
+      "step": 900
+    },
+    {
+      "epoch": 0.3565492679066086,
+      "grad_norm": 0.7534223585165879,
+      "learning_rate": 8.126698441107146e-05,
+      "loss": 0.178,
+      "step": 901
+    },
+    {
+      "epoch": 0.3569449940641076,
+      "grad_norm": 0.8770347695832404,
+      "learning_rate": 8.121305067200442e-05,
+      "loss": 0.1336,
+      "step": 902
+    },
+    {
+      "epoch": 0.3573407202216066,
+      "grad_norm": 0.895664182084698,
+      "learning_rate": 8.115905735918268e-05,
+      "loss": 0.1736,
+      "step": 903
+    },
+    {
+      "epoch": 0.3577364463791057,
+      "grad_norm": 0.8759322368558397,
+      "learning_rate": 8.110500457565873e-05,
+      "loss": 0.1802,
+      "step": 904
+    },
+    {
+      "epoch": 0.3581321725366047,
+      "grad_norm": 1.0048722558881418,
+      "learning_rate": 8.105089242459866e-05,
+      "loss": 0.147,
+      "step": 905
+    },
+    {
+      "epoch": 0.3581321725366047,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.8947368421052632,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2684570252895355,
+      "eval_runtime": 5.1537,
+      "eval_samples_per_second": 5.821,
+      "eval_steps_per_second": 0.194,
+      "step": 905
+    },
+    {
+      "epoch": 0.3585278986941037,
+      "grad_norm": 0.8539026591098068,
+      "learning_rate": 8.099672100928184e-05,
+      "loss": 0.2033,
+      "step": 906
+    },
+    {
+      "epoch": 0.3589236248516027,
+      "grad_norm": 1.3646544143578732,
+      "learning_rate": 8.094249043310073e-05,
+      "loss": 0.2432,
+      "step": 907
+    },
+    {
+      "epoch": 0.35931935100910173,
+      "grad_norm": 0.8815465613362381,
+      "learning_rate": 8.088820079956074e-05,
+      "loss": 0.1462,
+      "step": 908
+    },
+    {
+      "epoch": 0.3597150771666007,
+      "grad_norm": 0.8491536790059588,
+      "learning_rate": 8.083385221227997e-05,
+      "loss": 0.1465,
+      "step": 909
+    },
+    {
+      "epoch": 0.3601108033240997,
+      "grad_norm": 0.8261044063135888,
+      "learning_rate": 8.077944477498905e-05,
+      "loss": 0.154,
+      "step": 910
+    },
+    {
+      "epoch": 0.3601108033240997,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8937530742744713,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26663410663604736,
+      "eval_runtime": 5.2415,
+      "eval_samples_per_second": 5.724,
+      "eval_steps_per_second": 0.191,
+      "step": 910
+    },
+    {
+      "epoch": 0.3605065294815987,
+      "grad_norm": 0.9567908722972123,
+      "learning_rate": 8.072497859153091e-05,
+      "loss": 0.1667,
+      "step": 911
+    },
+    {
+      "epoch": 0.3609022556390977,
+      "grad_norm": 1.1472506022125033,
+      "learning_rate": 8.067045376586066e-05,
+      "loss": 0.2597,
+      "step": 912
+    },
+    {
+      "epoch": 0.3612979817965968,
+      "grad_norm": 1.0171193652971011,
+      "learning_rate": 8.061587040204528e-05,
+      "loss": 0.1249,
+      "step": 913
+    },
+    {
+      "epoch": 0.3616937079540958,
+      "grad_norm": 1.3550690920076445,
+      "learning_rate": 8.056122860426352e-05,
+      "loss": 0.2233,
+      "step": 914
+    },
+    {
+      "epoch": 0.3620894341115948,
+      "grad_norm": 0.8560245996279463,
+      "learning_rate": 8.050652847680562e-05,
+      "loss": 0.181,
+      "step": 915
+    },
+    {
+      "epoch": 0.3620894341115948,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.8935071323167733,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.31640625,
+      "eval_runtime": 5.1641,
+      "eval_samples_per_second": 5.809,
+      "eval_steps_per_second": 0.194,
+      "step": 915
+    },
+    {
+      "epoch": 0.3624851602690938,
+      "grad_norm": 1.34936282084295,
+      "learning_rate": 8.045177012407316e-05,
+      "loss": 0.1816,
+      "step": 916
+    },
+    {
+      "epoch": 0.3628808864265928,
+      "grad_norm": 1.0256281829092346,
+      "learning_rate": 8.039695365057887e-05,
+      "loss": 0.1906,
+      "step": 917
+    },
+    {
+      "epoch": 0.36327661258409183,
+      "grad_norm": 1.1601798823326257,
+      "learning_rate": 8.034207916094638e-05,
+      "loss": 0.2272,
+      "step": 918
+    },
+    {
+      "epoch": 0.36367233874159083,
+      "grad_norm": 0.8806699686211412,
+      "learning_rate": 8.028714675991006e-05,
+      "loss": 0.1842,
+      "step": 919
+    },
+    {
+      "epoch": 0.3640680648990898,
+      "grad_norm": 1.5865857329484852,
+      "learning_rate": 8.023215655231488e-05,
+      "loss": 0.292,
+      "step": 920
+    },
+    {
+      "epoch": 0.3640680648990898,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8915395966551894,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2671875059604645,
+      "eval_runtime": 4.946,
+      "eval_samples_per_second": 6.065,
+      "eval_steps_per_second": 0.202,
+      "step": 920
+    },
+    {
+      "epoch": 0.3644637910565888,
+      "grad_norm": 0.6705389484948697,
+      "learning_rate": 8.017710864311599e-05,
+      "loss": 0.1569,
+      "step": 921
+    },
+    {
+      "epoch": 0.3648595172140878,
+      "grad_norm": 1.0123403523097558,
+      "learning_rate": 8.012200313737881e-05,
+      "loss": 0.1477,
+      "step": 922
+    },
+    {
+      "epoch": 0.3652552433715869,
+      "grad_norm": 1.0947664605424559,
+      "learning_rate": 8.006684014027862e-05,
+      "loss": 0.247,
+      "step": 923
+    },
+    {
+      "epoch": 0.3656509695290859,
+      "grad_norm": 0.6980648657843986,
+      "learning_rate": 8.001161975710045e-05,
+      "loss": 0.128,
+      "step": 924
+    },
+    {
+      "epoch": 0.3660466956865849,
+      "grad_norm": 0.8033232131722131,
+      "learning_rate": 7.995634209323886e-05,
+      "loss": 0.221,
+      "step": 925
+    },
+    {
+      "epoch": 0.3660466956865849,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.896458435809149,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.26611328125,
+      "eval_runtime": 5.1601,
+      "eval_samples_per_second": 5.814,
+      "eval_steps_per_second": 0.194,
+      "step": 925
+    },
+    {
+      "epoch": 0.3664424218440839,
+      "grad_norm": 0.7763032809624354,
+      "learning_rate": 7.990100725419771e-05,
+      "loss": 0.1454,
+      "step": 926
+    },
+    {
+      "epoch": 0.36683814800158293,
+      "grad_norm": 1.1357204737601847,
+      "learning_rate": 7.984561534559003e-05,
+      "loss": 0.1841,
+      "step": 927
+    },
+    {
+      "epoch": 0.36723387415908193,
+      "grad_norm": 0.8015236100480437,
+      "learning_rate": 7.979016647313774e-05,
+      "loss": 0.1554,
+      "step": 928
+    },
+    {
+      "epoch": 0.36762960031658093,
+      "grad_norm": 0.8381641470220285,
+      "learning_rate": 7.97346607426715e-05,
+      "loss": 0.1334,
+      "step": 929
+    },
+    {
+      "epoch": 0.36802532647407993,
+      "grad_norm": 0.7889919595847641,
+      "learning_rate": 7.96790982601305e-05,
+      "loss": 0.1616,
+      "step": 930
+    },
+    {
+      "epoch": 0.36802532647407993,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9298245614035088,
+      "eval_PRM F1 AUC": 0.6005902606984752,
+      "eval_PRM F1 AUC (fixed)": 0.9050664043285784,
+      "eval_PRM F1 Neg": 0.3333333333333333,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.8760330578512396,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.21052631578947367,
+      "eval_loss": 0.32275390625,
+      "eval_runtime": 5.2216,
+      "eval_samples_per_second": 5.745,
+      "eval_steps_per_second": 0.192,
+      "step": 930
+    },
+    {
+      "epoch": 0.3684210526315789,
+      "grad_norm": 1.2137875075708977,
+      "learning_rate": 7.962347913156218e-05,
+      "loss": 0.1983,
+      "step": 931
+    },
+    {
+      "epoch": 0.368816778789078,
+      "grad_norm": 1.0212924006651691,
+      "learning_rate": 7.956780346312218e-05,
+      "loss": 0.2174,
+      "step": 932
+    },
+    {
+      "epoch": 0.369212504946577,
+      "grad_norm": 1.2280396662918818,
+      "learning_rate": 7.951207136107401e-05,
+      "loss": 0.2034,
+      "step": 933
+    },
+    {
+      "epoch": 0.369608231104076,
+      "grad_norm": 1.4206643849057659,
+      "learning_rate": 7.945628293178891e-05,
+      "loss": 0.2465,
+      "step": 934
+    },
+    {
+      "epoch": 0.370003957261575,
+      "grad_norm": 0.8171085263301563,
+      "learning_rate": 7.940043828174562e-05,
+      "loss": 0.1313,
+      "step": 935
+    },
+    {
+      "epoch": 0.370003957261575,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9124446630595179,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24602864682674408,
+      "eval_runtime": 5.1448,
+      "eval_samples_per_second": 5.831,
+      "eval_steps_per_second": 0.194,
+      "step": 935
+    },
+    {
+      "epoch": 0.370399683419074,
+      "grad_norm": 1.4021018408112313,
+      "learning_rate": 7.934453751753017e-05,
+      "loss": 0.1737,
+      "step": 936
+    },
+    {
+      "epoch": 0.37079540957657303,
+      "grad_norm": 1.8067271031971475,
+      "learning_rate": 7.928858074583569e-05,
+      "loss": 0.2164,
+      "step": 937
+    },
+    {
+      "epoch": 0.37119113573407203,
+      "grad_norm": 1.264366749628032,
+      "learning_rate": 7.923256807346224e-05,
+      "loss": 0.1756,
+      "step": 938
+    },
+    {
+      "epoch": 0.37158686189157103,
+      "grad_norm": 1.2378286555676006,
+      "learning_rate": 7.917649960731655e-05,
+      "loss": 0.1816,
+      "step": 939
+    },
+    {
+      "epoch": 0.37198258804907003,
+      "grad_norm": 0.7591404751997808,
+      "learning_rate": 7.912037545441182e-05,
+      "loss": 0.1421,
+      "step": 940
+    },
+    {
+      "epoch": 0.37198258804907003,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9146581406787998,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.24915364384651184,
+      "eval_runtime": 5.0582,
+      "eval_samples_per_second": 5.931,
+      "eval_steps_per_second": 0.198,
+      "step": 940
+    },
+    {
+      "epoch": 0.372378314206569,
+      "grad_norm": 0.9935140380300687,
+      "learning_rate": 7.906419572186756e-05,
+      "loss": 0.1339,
+      "step": 941
+    },
+    {
+      "epoch": 0.3727740403640681,
+      "grad_norm": 1.1058985799495225,
+      "learning_rate": 7.900796051690937e-05,
+      "loss": 0.2501,
+      "step": 942
+    },
+    {
+      "epoch": 0.3731697665215671,
+      "grad_norm": 0.7937010098446688,
+      "learning_rate": 7.895166994686869e-05,
+      "loss": 0.1948,
+      "step": 943
+    },
+    {
+      "epoch": 0.3735654926790661,
+      "grad_norm": 1.0455700003601043,
+      "learning_rate": 7.889532411918267e-05,
+      "loss": 0.1841,
+      "step": 944
+    },
+    {
+      "epoch": 0.3739612188365651,
+      "grad_norm": 0.9725602260528471,
+      "learning_rate": 7.88389231413939e-05,
+      "loss": 0.1684,
+      "step": 945
+    },
+    {
+      "epoch": 0.3739612188365651,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.933920704845815,
+      "eval_PRM F1 AUC": 0.6269060501721594,
+      "eval_PRM F1 AUC (fixed)": 0.9158878504672897,
+      "eval_PRM F1 Neg": 0.4,
+      "eval_PRM NPV": 0.8333333333333334,
+      "eval_PRM Precision": 0.8833333333333333,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.2631578947368421,
+      "eval_loss": 0.2781575620174408,
+      "eval_runtime": 5.0131,
+      "eval_samples_per_second": 5.984,
+      "eval_steps_per_second": 0.199,
+      "step": 945
+    },
+    {
+      "epoch": 0.37435694499406413,
+      "grad_norm": 1.078264910314406,
+      "learning_rate": 7.878246712115022e-05,
+      "loss": 0.2273,
+      "step": 946
+    },
+    {
+      "epoch": 0.37475267115156313,
+      "grad_norm": 1.0811931291171262,
+      "learning_rate": 7.872595616620458e-05,
+      "loss": 0.2198,
+      "step": 947
+    },
+    {
+      "epoch": 0.37514839730906213,
+      "grad_norm": 1.1226757702102015,
+      "learning_rate": 7.86693903844147e-05,
+      "loss": 0.2247,
+      "step": 948
+    },
+    {
+      "epoch": 0.37554412346656113,
+      "grad_norm": 1.0826415708689405,
+      "learning_rate": 7.861276988374302e-05,
+      "loss": 0.1979,
+      "step": 949
+    },
+    {
+      "epoch": 0.37593984962406013,
+      "grad_norm": 1.1862370372748008,
+      "learning_rate": 7.855609477225635e-05,
+      "loss": 0.2086,
+      "step": 950
+    },
+    {
+      "epoch": 0.37593984962406013,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9173635022134777,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2525065243244171,
+      "eval_runtime": 4.9205,
+      "eval_samples_per_second": 6.097,
+      "eval_steps_per_second": 0.203,
+      "step": 950
+    },
+    {
+      "epoch": 0.3763355757815592,
+      "grad_norm": 0.8486565289453545,
+      "learning_rate": 7.849936515812578e-05,
+      "loss": 0.2056,
+      "step": 951
+    },
+    {
+      "epoch": 0.3767313019390582,
+      "grad_norm": 0.7210638719103278,
+      "learning_rate": 7.844258114962642e-05,
+      "loss": 0.1255,
+      "step": 952
+    },
+    {
+      "epoch": 0.3771270280965572,
+      "grad_norm": 0.6569444304353967,
+      "learning_rate": 7.838574285513716e-05,
+      "loss": 0.1598,
+      "step": 953
+    },
+    {
+      "epoch": 0.3775227542540562,
+      "grad_norm": 0.9795940508799222,
+      "learning_rate": 7.832885038314053e-05,
+      "loss": 0.117,
+      "step": 954
+    },
+    {
+      "epoch": 0.3779184804115552,
+      "grad_norm": 0.9137163087822452,
+      "learning_rate": 7.82719038422225e-05,
+      "loss": 0.1754,
+      "step": 955
+    },
+    {
+      "epoch": 0.3779184804115552,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9168716182980816,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2566080689430237,
+      "eval_runtime": 4.9491,
+      "eval_samples_per_second": 6.062,
+      "eval_steps_per_second": 0.202,
+      "step": 955
+    },
+    {
+      "epoch": 0.37831420656905423,
+      "grad_norm": 1.3946163286152813,
+      "learning_rate": 7.821490334107216e-05,
+      "loss": 0.1732,
+      "step": 956
+    },
+    {
+      "epoch": 0.37870993272655323,
+      "grad_norm": 0.8957317042914218,
+      "learning_rate": 7.815784898848163e-05,
+      "loss": 0.2181,
+      "step": 957
+    },
+    {
+      "epoch": 0.37910565888405223,
+      "grad_norm": 1.2690009363253354,
+      "learning_rate": 7.810074089334581e-05,
+      "loss": 0.2025,
+      "step": 958
+    },
+    {
+      "epoch": 0.37950138504155123,
+      "grad_norm": 0.5657547196893011,
+      "learning_rate": 7.804357916466216e-05,
+      "loss": 0.0974,
+      "step": 959
+    },
+    {
+      "epoch": 0.37989711119905023,
+      "grad_norm": 0.9762911393922666,
+      "learning_rate": 7.798636391153056e-05,
+      "loss": 0.2395,
+      "step": 960
+    },
+    {
+      "epoch": 0.37989711119905023,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.9109690113133301,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.2858072817325592,
+      "eval_runtime": 5.1336,
+      "eval_samples_per_second": 5.844,
+      "eval_steps_per_second": 0.195,
+      "step": 960
+    },
+    {
+      "epoch": 0.3802928373565493,
+      "grad_norm": 1.047448753651798,
+      "learning_rate": 7.792909524315298e-05,
+      "loss": 0.22,
+      "step": 961
+    },
+    {
+      "epoch": 0.3806885635140483,
+      "grad_norm": 1.1084392876329912,
+      "learning_rate": 7.787177326883336e-05,
+      "loss": 0.1425,
+      "step": 962
+    },
+    {
+      "epoch": 0.3810842896715473,
+      "grad_norm": 1.350540964010863,
+      "learning_rate": 7.781439809797743e-05,
+      "loss": 0.2144,
+      "step": 963
+    },
+    {
+      "epoch": 0.3814800158290463,
+      "grad_norm": 1.0413842349607318,
+      "learning_rate": 7.775696984009236e-05,
+      "loss": 0.1588,
+      "step": 964
+    },
+    {
+      "epoch": 0.38187574198654534,
+      "grad_norm": 0.956582675892353,
+      "learning_rate": 7.769948860478669e-05,
+      "loss": 0.1631,
+      "step": 965
+    },
+    {
+      "epoch": 0.38187574198654534,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.911706837186424,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2758137881755829,
+      "eval_runtime": 4.7485,
+      "eval_samples_per_second": 6.318,
+      "eval_steps_per_second": 0.211,
+      "step": 965
+    },
+    {
+      "epoch": 0.38227146814404434,
+      "grad_norm": 0.8330337149079056,
+      "learning_rate": 7.764195450177011e-05,
+      "loss": 0.1409,
+      "step": 966
+    },
+    {
+      "epoch": 0.38266719430154333,
+      "grad_norm": 0.9879636926532511,
+      "learning_rate": 7.758436764085315e-05,
+      "loss": 0.187,
+      "step": 967
+    },
+    {
+      "epoch": 0.38306292045904233,
+      "grad_norm": 0.8126722501498516,
+      "learning_rate": 7.752672813194707e-05,
+      "loss": 0.1648,
+      "step": 968
+    },
+    {
+      "epoch": 0.38345864661654133,
+      "grad_norm": 0.9812482162780913,
+      "learning_rate": 7.746903608506362e-05,
+      "loss": 0.1817,
+      "step": 969
+    },
+    {
+      "epoch": 0.3838543727740404,
+      "grad_norm": 0.9625135680327048,
+      "learning_rate": 7.74112916103148e-05,
+      "loss": 0.1587,
+      "step": 970
+    },
+    {
+      "epoch": 0.3838543727740404,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9163797343826856,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24947915971279144,
+      "eval_runtime": 5.0624,
+      "eval_samples_per_second": 5.926,
+      "eval_steps_per_second": 0.198,
+      "step": 970
+    },
+    {
+      "epoch": 0.3842500989315394,
+      "grad_norm": 0.7805689586454879,
+      "learning_rate": 7.73534948179127e-05,
+      "loss": 0.1242,
+      "step": 971
+    },
+    {
+      "epoch": 0.3846458250890384,
+      "grad_norm": 1.1125621100367127,
+      "learning_rate": 7.729564581816923e-05,
+      "loss": 0.1905,
+      "step": 972
+    },
+    {
+      "epoch": 0.3850415512465374,
+      "grad_norm": 1.0460512273276006,
+      "learning_rate": 7.723774472149601e-05,
+      "loss": 0.1768,
+      "step": 973
+    },
+    {
+      "epoch": 0.3854372774040364,
+      "grad_norm": 0.9058358879564835,
+      "learning_rate": 7.717979163840401e-05,
+      "loss": 0.1469,
+      "step": 974
+    },
+    {
+      "epoch": 0.38583300356153544,
+      "grad_norm": 1.077238475230232,
+      "learning_rate": 7.712178667950346e-05,
+      "loss": 0.1348,
+      "step": 975
+    },
+    {
+      "epoch": 0.38583300356153544,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9181013280865715,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25013020634651184,
+      "eval_runtime": 4.8996,
+      "eval_samples_per_second": 6.123,
+      "eval_steps_per_second": 0.204,
+      "step": 975
+    },
+    {
+      "epoch": 0.38622872971903444,
+      "grad_norm": 1.0799868694732282,
+      "learning_rate": 7.706372995550361e-05,
+      "loss": 0.1533,
+      "step": 976
+    },
+    {
+      "epoch": 0.38662445587653343,
+      "grad_norm": 1.2633713733016638,
+      "learning_rate": 7.700562157721254e-05,
+      "loss": 0.2576,
+      "step": 977
+    },
+    {
+      "epoch": 0.38702018203403243,
+      "grad_norm": 1.069770180047322,
+      "learning_rate": 7.694746165553682e-05,
+      "loss": 0.1861,
+      "step": 978
+    },
+    {
+      "epoch": 0.38741590819153143,
+      "grad_norm": 0.8497199090648525,
+      "learning_rate": 7.688925030148149e-05,
+      "loss": 0.1686,
+      "step": 979
+    },
+    {
+      "epoch": 0.3878116343490305,
+      "grad_norm": 1.4547279595576492,
+      "learning_rate": 7.683098762614971e-05,
+      "loss": 0.2087,
+      "step": 980
+    },
+    {
+      "epoch": 0.3878116343490305,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9153959665518938,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2621419131755829,
+      "eval_runtime": 5.0453,
+      "eval_samples_per_second": 5.946,
+      "eval_steps_per_second": 0.198,
+      "step": 980
+    },
+    {
+      "epoch": 0.3882073605065295,
+      "grad_norm": 1.059626672976495,
+      "learning_rate": 7.677267374074262e-05,
+      "loss": 0.1883,
+      "step": 981
+    },
+    {
+      "epoch": 0.3886030866640285,
+      "grad_norm": 0.9351305620279964,
+      "learning_rate": 7.671430875655907e-05,
+      "loss": 0.1755,
+      "step": 982
+    },
+    {
+      "epoch": 0.3889988128215275,
+      "grad_norm": 0.4610310550817402,
+      "learning_rate": 7.665589278499547e-05,
+      "loss": 0.0865,
+      "step": 983
+    },
+    {
+      "epoch": 0.38939453897902654,
+      "grad_norm": 1.5068778942952485,
+      "learning_rate": 7.659742593754551e-05,
+      "loss": 0.3118,
+      "step": 984
+    },
+    {
+      "epoch": 0.38979026513652554,
+      "grad_norm": 1.2931522160932827,
+      "learning_rate": 7.653890832580002e-05,
+      "loss": 0.1822,
+      "step": 985
+    },
+    {
+      "epoch": 0.38979026513652554,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9082636497786523,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24667969346046448,
+      "eval_runtime": 5.548,
+      "eval_samples_per_second": 5.407,
+      "eval_steps_per_second": 0.18,
+      "step": 985
+    },
+    {
+      "epoch": 0.39018599129402454,
+      "grad_norm": 0.6926202905142572,
+      "learning_rate": 7.648034006144667e-05,
+      "loss": 0.1558,
+      "step": 986
+    },
+    {
+      "epoch": 0.39058171745152354,
+      "grad_norm": 0.6636695070528967,
+      "learning_rate": 7.642172125626986e-05,
+      "loss": 0.1385,
+      "step": 987
+    },
+    {
+      "epoch": 0.39097744360902253,
+      "grad_norm": 0.8028049784237185,
+      "learning_rate": 7.636305202215041e-05,
+      "loss": 0.1265,
+      "step": 988
+    },
+    {
+      "epoch": 0.3913731697665216,
+      "grad_norm": 0.7024509893389485,
+      "learning_rate": 7.630433247106543e-05,
+      "loss": 0.1471,
+      "step": 989
+    },
+    {
+      "epoch": 0.3917688959240206,
+      "grad_norm": 0.8983355345926901,
+      "learning_rate": 7.624556271508805e-05,
+      "loss": 0.2198,
+      "step": 990
+    },
+    {
+      "epoch": 0.3917688959240206,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9109690113133301,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.244140625,
+      "eval_runtime": 5.052,
+      "eval_samples_per_second": 5.938,
+      "eval_steps_per_second": 0.198,
+      "step": 990
+    },
+    {
+      "epoch": 0.3921646220815196,
+      "grad_norm": 1.0022856692403896,
+      "learning_rate": 7.61867428663872e-05,
+      "loss": 0.2446,
+      "step": 991
+    },
+    {
+      "epoch": 0.3925603482390186,
+      "grad_norm": 0.6454129825230569,
+      "learning_rate": 7.612787303722744e-05,
+      "loss": 0.1265,
+      "step": 992
+    },
+    {
+      "epoch": 0.3929560743965176,
+      "grad_norm": 0.8218286001550995,
+      "learning_rate": 7.606895333996871e-05,
+      "loss": 0.1633,
+      "step": 993
+    },
+    {
+      "epoch": 0.39335180055401664,
+      "grad_norm": 1.7572035348522699,
+      "learning_rate": 7.600998388706615e-05,
+      "loss": 0.1339,
+      "step": 994
+    },
+    {
+      "epoch": 0.39374752671151564,
+      "grad_norm": 0.7835985377610045,
+      "learning_rate": 7.595096479106985e-05,
+      "loss": 0.2012,
+      "step": 995
+    },
+    {
+      "epoch": 0.39374752671151564,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9139203148057058,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24492187798023224,
+      "eval_runtime": 5.2828,
+      "eval_samples_per_second": 5.679,
+      "eval_steps_per_second": 0.189,
+      "step": 995
+    },
+    {
+      "epoch": 0.39414325286901464,
+      "grad_norm": 1.0611986223039003,
+      "learning_rate": 7.589189616462465e-05,
+      "loss": 0.1715,
+      "step": 996
+    },
+    {
+      "epoch": 0.39453897902651364,
+      "grad_norm": 1.2109979184538513,
+      "learning_rate": 7.583277812046993e-05,
+      "loss": 0.2168,
+      "step": 997
+    },
+    {
+      "epoch": 0.3949347051840127,
+      "grad_norm": 0.9158287931741367,
+      "learning_rate": 7.577361077143939e-05,
+      "loss": 0.1774,
+      "step": 998
+    },
+    {
+      "epoch": 0.3953304313415117,
+      "grad_norm": 0.8044180426512219,
+      "learning_rate": 7.571439423046079e-05,
+      "loss": 0.1577,
+      "step": 999
+    },
+    {
+      "epoch": 0.3957261574990107,
+      "grad_norm": 1.0638141821573956,
+      "learning_rate": 7.565512861055589e-05,
+      "loss": 0.1678,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3957261574990107,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9131824889326119,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2607421875,
+      "eval_runtime": 5.2004,
+      "eval_samples_per_second": 5.769,
+      "eval_steps_per_second": 0.192,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3961218836565097,
+      "grad_norm": 0.6114920439497844,
+      "learning_rate": 7.559581402483999e-05,
+      "loss": 0.1404,
+      "step": 1001
+    },
+    {
+      "epoch": 0.3965176098140087,
+      "grad_norm": 0.5065952306864845,
+      "learning_rate": 7.553645058652193e-05,
+      "loss": 0.1233,
+      "step": 1002
+    },
+    {
+      "epoch": 0.39691333597150774,
+      "grad_norm": 1.359677724184506,
+      "learning_rate": 7.547703840890377e-05,
+      "loss": 0.1868,
+      "step": 1003
+    },
+    {
+      "epoch": 0.39730906212900674,
+      "grad_norm": 0.9047734904901806,
+      "learning_rate": 7.54175776053806e-05,
+      "loss": 0.1764,
+      "step": 1004
+    },
+    {
+      "epoch": 0.39770478828650574,
+      "grad_norm": 0.8728615920707045,
+      "learning_rate": 7.535806828944028e-05,
+      "loss": 0.1307,
+      "step": 1005
+    },
+    {
+      "epoch": 0.39770478828650574,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9151500245941957,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2756510376930237,
+      "eval_runtime": 5.172,
+      "eval_samples_per_second": 5.801,
+      "eval_steps_per_second": 0.193,
+      "step": 1005
+    },
+    {
+      "epoch": 0.39810051444400474,
+      "grad_norm": 0.9139078570646113,
+      "learning_rate": 7.529851057466336e-05,
+      "loss": 0.1817,
+      "step": 1006
+    },
+    {
+      "epoch": 0.39849624060150374,
+      "grad_norm": 1.1135123319023568,
+      "learning_rate": 7.523890457472261e-05,
+      "loss": 0.2115,
+      "step": 1007
+    },
+    {
+      "epoch": 0.3988919667590028,
+      "grad_norm": 1.3559851732994588,
+      "learning_rate": 7.517925040338312e-05,
+      "loss": 0.2417,
+      "step": 1008
+    },
+    {
+      "epoch": 0.3992876929165018,
+      "grad_norm": 0.7682760832279395,
+      "learning_rate": 7.511954817450181e-05,
+      "loss": 0.1244,
+      "step": 1009
+    },
+    {
+      "epoch": 0.3996834190740008,
+      "grad_norm": 0.8284102581750562,
+      "learning_rate": 7.505979800202739e-05,
+      "loss": 0.1473,
+      "step": 1010
+    },
+    {
+      "epoch": 0.3996834190740008,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9149040826364978,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2512369751930237,
+      "eval_runtime": 5.3038,
+      "eval_samples_per_second": 5.656,
+      "eval_steps_per_second": 0.189,
+      "step": 1010
+    },
+    {
+      "epoch": 0.4000791452314998,
+      "grad_norm": 0.9975694048937381,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.2158,
+      "step": 1011
+    },
+    {
+      "epoch": 0.4004748713889988,
+      "grad_norm": 0.8668827103037339,
+      "learning_rate": 7.494015428255116e-05,
+      "loss": 0.1822,
+      "step": 1012
+    },
+    {
+      "epoch": 0.40087059754649784,
+      "grad_norm": 0.6263729414635655,
+      "learning_rate": 7.488026096390339e-05,
+      "loss": 0.1099,
+      "step": 1013
+    },
+    {
+      "epoch": 0.40126632370399684,
+      "grad_norm": 0.7504103196205205,
+      "learning_rate": 7.482032015837009e-05,
+      "loss": 0.151,
+      "step": 1014
+    },
+    {
+      "epoch": 0.40166204986149584,
+      "grad_norm": 0.6650329577029296,
+      "learning_rate": 7.476033198035531e-05,
+      "loss": 0.1496,
+      "step": 1015
+    },
+    {
+      "epoch": 0.40166204986149584,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.911706837186424,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2530273497104645,
+      "eval_runtime": 4.872,
+      "eval_samples_per_second": 6.158,
+      "eval_steps_per_second": 0.205,
+      "step": 1015
+    },
+    {
+      "epoch": 0.40205777601899484,
+      "grad_norm": 0.7359735527288536,
+      "learning_rate": 7.470029654435349e-05,
+      "loss": 0.1315,
+      "step": 1016
+    },
+    {
+      "epoch": 0.4024535021764939,
+      "grad_norm": 0.8276551257497571,
+      "learning_rate": 7.464021396494925e-05,
+      "loss": 0.1375,
+      "step": 1017
+    },
+    {
+      "epoch": 0.4028492283339929,
+      "grad_norm": 1.214910283526394,
+      "learning_rate": 7.458008435681725e-05,
+      "loss": 0.2021,
+      "step": 1018
+    },
+    {
+      "epoch": 0.4032449544914919,
+      "grad_norm": 0.6157842160231813,
+      "learning_rate": 7.451990783472186e-05,
+      "loss": 0.1607,
+      "step": 1019
+    },
+    {
+      "epoch": 0.4036406806489909,
+      "grad_norm": 0.8111756497331858,
+      "learning_rate": 7.4459684513517e-05,
+      "loss": 0.1807,
+      "step": 1020
+    },
+    {
+      "epoch": 0.4036406806489909,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9109690113133301,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2736165225505829,
+      "eval_runtime": 5.1249,
+      "eval_samples_per_second": 5.854,
+      "eval_steps_per_second": 0.195,
+      "step": 1020
+    },
+    {
+      "epoch": 0.4040364068064899,
+      "grad_norm": 0.8675431607811697,
+      "learning_rate": 7.439941450814591e-05,
+      "loss": 0.19,
+      "step": 1021
+    },
+    {
+      "epoch": 0.40443213296398894,
+      "grad_norm": 1.2709001389564516,
+      "learning_rate": 7.433909793364093e-05,
+      "loss": 0.2242,
+      "step": 1022
+    },
+    {
+      "epoch": 0.40482785912148794,
+      "grad_norm": 1.0414325771646424,
+      "learning_rate": 7.427873490512334e-05,
+      "loss": 0.2457,
+      "step": 1023
+    },
+    {
+      "epoch": 0.40522358527898694,
+      "grad_norm": 1.02278098111723,
+      "learning_rate": 7.421832553780299e-05,
+      "loss": 0.1733,
+      "step": 1024
+    },
+    {
+      "epoch": 0.40561931143648594,
+      "grad_norm": 0.8813327683696582,
+      "learning_rate": 7.415786994697823e-05,
+      "loss": 0.1713,
+      "step": 1025
+    },
+    {
+      "epoch": 0.40561931143648594,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9030988686669945,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2758951783180237,
+      "eval_runtime": 5.1148,
+      "eval_samples_per_second": 5.865,
+      "eval_steps_per_second": 0.196,
+      "step": 1025
+    },
+    {
+      "epoch": 0.40601503759398494,
+      "grad_norm": 1.026290285158073,
+      "learning_rate": 7.40973682480356e-05,
+      "loss": 0.1695,
+      "step": 1026
+    },
+    {
+      "epoch": 0.406410763751484,
+      "grad_norm": 1.6127639759375876,
+      "learning_rate": 7.40368205564497e-05,
+      "loss": 0.2266,
+      "step": 1027
+    },
+    {
+      "epoch": 0.406806489908983,
+      "grad_norm": 0.7328498940865347,
+      "learning_rate": 7.397622698778286e-05,
+      "loss": 0.1516,
+      "step": 1028
+    },
+    {
+      "epoch": 0.407202216066482,
+      "grad_norm": 0.8014013512206176,
+      "learning_rate": 7.391558765768496e-05,
+      "loss": 0.1921,
+      "step": 1029
+    },
+    {
+      "epoch": 0.407597942223981,
+      "grad_norm": 0.6235870183727873,
+      "learning_rate": 7.38549026818933e-05,
+      "loss": 0.153,
+      "step": 1030
+    },
+    {
+      "epoch": 0.407597942223981,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.8930152484013772,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2869466245174408,
+      "eval_runtime": 4.9913,
+      "eval_samples_per_second": 6.011,
+      "eval_steps_per_second": 0.2,
+      "step": 1030
+    },
+    {
+      "epoch": 0.40799366838148,
+      "grad_norm": 0.6213657394884893,
+      "learning_rate": 7.379417217623221e-05,
+      "loss": 0.1483,
+      "step": 1031
+    },
+    {
+      "epoch": 0.40838939453897904,
+      "grad_norm": 0.9885060592813676,
+      "learning_rate": 7.373339625661295e-05,
+      "loss": 0.1945,
+      "step": 1032
+    },
+    {
+      "epoch": 0.40878512069647804,
+      "grad_norm": 0.7479553490173853,
+      "learning_rate": 7.367257503903349e-05,
+      "loss": 0.1333,
+      "step": 1033
+    },
+    {
+      "epoch": 0.40918084685397704,
+      "grad_norm": 0.6874306059404787,
+      "learning_rate": 7.361170863957822e-05,
+      "loss": 0.1059,
+      "step": 1034
+    },
+    {
+      "epoch": 0.40957657301147604,
+      "grad_norm": 0.7609920894097508,
+      "learning_rate": 7.355079717441777e-05,
+      "loss": 0.1407,
+      "step": 1035
+    },
+    {
+      "epoch": 0.40957657301147604,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.897688145597639,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2816406190395355,
+      "eval_runtime": 5.0679,
+      "eval_samples_per_second": 5.92,
+      "eval_steps_per_second": 0.197,
+      "step": 1035
+    },
+    {
+      "epoch": 0.4099722991689751,
+      "grad_norm": 0.7253695585907347,
+      "learning_rate": 7.348984075980882e-05,
+      "loss": 0.1325,
+      "step": 1036
+    },
+    {
+      "epoch": 0.4103680253264741,
+      "grad_norm": 1.0767579293816631,
+      "learning_rate": 7.342883951209377e-05,
+      "loss": 0.2081,
+      "step": 1037
+    },
+    {
+      "epoch": 0.4107637514839731,
+      "grad_norm": 1.0151996541820276,
+      "learning_rate": 7.336779354770066e-05,
+      "loss": 0.1648,
+      "step": 1038
+    },
+    {
+      "epoch": 0.4111594776414721,
+      "grad_norm": 1.5622694614536354,
+      "learning_rate": 7.330670298314281e-05,
+      "loss": 0.2698,
+      "step": 1039
+    },
+    {
+      "epoch": 0.4115552037989711,
+      "grad_norm": 0.7247536716568549,
+      "learning_rate": 7.324556793501875e-05,
+      "loss": 0.122,
+      "step": 1040
+    },
+    {
+      "epoch": 0.4115552037989711,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9062961141170683,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2953124940395355,
+      "eval_runtime": 5.0976,
+      "eval_samples_per_second": 5.885,
+      "eval_steps_per_second": 0.196,
+      "step": 1040
+    },
+    {
+      "epoch": 0.41195092995647015,
+      "grad_norm": 1.5536323648564274,
+      "learning_rate": 7.318438852001181e-05,
+      "loss": 0.1949,
+      "step": 1041
+    },
+    {
+      "epoch": 0.41234665611396915,
+      "grad_norm": 1.1662109969652108,
+      "learning_rate": 7.31231648548901e-05,
+      "loss": 0.1936,
+      "step": 1042
+    },
+    {
+      "epoch": 0.41274238227146814,
+      "grad_norm": 0.7970019561537186,
+      "learning_rate": 7.306189705650613e-05,
+      "loss": 0.1297,
+      "step": 1043
+    },
+    {
+      "epoch": 0.41313810842896714,
+      "grad_norm": 0.9094175309802561,
+      "learning_rate": 7.300058524179662e-05,
+      "loss": 0.1494,
+      "step": 1044
+    },
+    {
+      "epoch": 0.41353383458646614,
+      "grad_norm": 1.0860686234491435,
+      "learning_rate": 7.293922952778239e-05,
+      "loss": 0.1859,
+      "step": 1045
+    },
+    {
+      "epoch": 0.41353383458646614,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9070339399901624,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2765462100505829,
+      "eval_runtime": 5.2889,
+      "eval_samples_per_second": 5.672,
+      "eval_steps_per_second": 0.189,
+      "step": 1045
+    },
+    {
+      "epoch": 0.4139295607439652,
+      "grad_norm": 0.8547541676984697,
+      "learning_rate": 7.287783003156793e-05,
+      "loss": 0.1221,
+      "step": 1046
+    },
+    {
+      "epoch": 0.4143252869014642,
+      "grad_norm": 1.1990645073044954,
+      "learning_rate": 7.281638687034139e-05,
+      "loss": 0.2334,
+      "step": 1047
+    },
+    {
+      "epoch": 0.4147210130589632,
+      "grad_norm": 1.3926775085056746,
+      "learning_rate": 7.275490016137421e-05,
+      "loss": 0.1765,
+      "step": 1048
+    },
+    {
+      "epoch": 0.4151167392164622,
+      "grad_norm": 0.5881583902547192,
+      "learning_rate": 7.269337002202096e-05,
+      "loss": 0.0933,
+      "step": 1049
+    },
+    {
+      "epoch": 0.4155124653739612,
+      "grad_norm": 1.2824078894771334,
+      "learning_rate": 7.263179656971911e-05,
+      "loss": 0.2319,
+      "step": 1050
+    },
+    {
+      "epoch": 0.4155124653739612,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9163797343826857,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2482096403837204,
+      "eval_runtime": 4.8471,
+      "eval_samples_per_second": 6.189,
+      "eval_steps_per_second": 0.206,
+      "step": 1050
+    },
+    {
+      "epoch": 0.41590819153146025,
+      "grad_norm": 1.2143427034356677,
+      "learning_rate": 7.257017992198878e-05,
+      "loss": 0.1842,
+      "step": 1051
+    },
+    {
+      "epoch": 0.41630391768895925,
+      "grad_norm": 0.8681199136967512,
+      "learning_rate": 7.250852019643256e-05,
+      "loss": 0.1626,
+      "step": 1052
+    },
+    {
+      "epoch": 0.41669964384645825,
+      "grad_norm": 0.776003479898443,
+      "learning_rate": 7.244681751073522e-05,
+      "loss": 0.1441,
+      "step": 1053
+    },
+    {
+      "epoch": 0.41709537000395724,
+      "grad_norm": 0.8829476486837633,
+      "learning_rate": 7.238507198266356e-05,
+      "loss": 0.1614,
+      "step": 1054
+    },
+    {
+      "epoch": 0.4174910961614563,
+      "grad_norm": 0.6634719308376149,
+      "learning_rate": 7.232328373006613e-05,
+      "loss": 0.1719,
+      "step": 1055
+    },
+    {
+      "epoch": 0.4174910961614563,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9161337924249878,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24472656846046448,
+      "eval_runtime": 5.3797,
+      "eval_samples_per_second": 5.577,
+      "eval_steps_per_second": 0.186,
+      "step": 1055
+    },
+    {
+      "epoch": 0.4178868223189553,
+      "grad_norm": 0.7968457229963968,
+      "learning_rate": 7.226145287087302e-05,
+      "loss": 0.2202,
+      "step": 1056
+    },
+    {
+      "epoch": 0.4182825484764543,
+      "grad_norm": 0.7454144969172052,
+      "learning_rate": 7.219957952309567e-05,
+      "loss": 0.1569,
+      "step": 1057
+    },
+    {
+      "epoch": 0.4186782746339533,
+      "grad_norm": 0.692989164692621,
+      "learning_rate": 7.213766380482658e-05,
+      "loss": 0.1118,
+      "step": 1058
+    },
+    {
+      "epoch": 0.4190740007914523,
+      "grad_norm": 0.9460530113629996,
+      "learning_rate": 7.207570583423915e-05,
+      "loss": 0.1672,
+      "step": 1059
+    },
+    {
+      "epoch": 0.41946972694895135,
+      "grad_norm": 0.9249444937628459,
+      "learning_rate": 7.201370572958738e-05,
+      "loss": 0.1443,
+      "step": 1060
+    },
+    {
+      "epoch": 0.41946972694895135,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9104771273979341,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2552734315395355,
+      "eval_runtime": 5.1715,
+      "eval_samples_per_second": 5.801,
+      "eval_steps_per_second": 0.193,
+      "step": 1060
+    },
+    {
+      "epoch": 0.41986545310645035,
+      "grad_norm": 0.833714549579215,
+      "learning_rate": 7.195166360920574e-05,
+      "loss": 0.1976,
+      "step": 1061
+    },
+    {
+      "epoch": 0.42026117926394935,
+      "grad_norm": 1.0551741242274266,
+      "learning_rate": 7.188957959150886e-05,
+      "loss": 0.274,
+      "step": 1062
+    },
+    {
+      "epoch": 0.42065690542144835,
+      "grad_norm": 0.8056137694266688,
+      "learning_rate": 7.182745379499135e-05,
+      "loss": 0.1746,
+      "step": 1063
+    },
+    {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 1.0458729944535654,
+      "learning_rate": 7.176528633822752e-05,
+      "loss": 0.2019,
+      "step": 1064
+    },
+    {
+      "epoch": 0.4214483577364464,
+      "grad_norm": 1.043950105141731,
+      "learning_rate": 7.170307733987127e-05,
+      "loss": 0.1484,
+      "step": 1065
+    },
+    {
+      "epoch": 0.4214483577364464,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9053123462862765,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25533854961395264,
+      "eval_runtime": 4.8562,
+      "eval_samples_per_second": 6.178,
+      "eval_steps_per_second": 0.206,
+      "step": 1065
+    },
+    {
+      "epoch": 0.4218440838939454,
+      "grad_norm": 0.6169931967285929,
+      "learning_rate": 7.164082691865573e-05,
+      "loss": 0.1293,
+      "step": 1066
+    },
+    {
+      "epoch": 0.4222398100514444,
+      "grad_norm": 0.8953133811208986,
+      "learning_rate": 7.157853519339306e-05,
+      "loss": 0.2189,
+      "step": 1067
+    },
+    {
+      "epoch": 0.4226355362089434,
+      "grad_norm": 0.8655811306878989,
+      "learning_rate": 7.151620228297436e-05,
+      "loss": 0.159,
+      "step": 1068
+    },
+    {
+      "epoch": 0.4230312623664424,
+      "grad_norm": 1.1171323535229134,
+      "learning_rate": 7.145382830636924e-05,
+      "loss": 0.2128,
+      "step": 1069
+    },
+    {
+      "epoch": 0.42342698852394145,
+      "grad_norm": 1.3896583322187834,
+      "learning_rate": 7.139141338262573e-05,
+      "loss": 0.1971,
+      "step": 1070
+    },
+    {
+      "epoch": 0.42342698852394145,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.8996556812592228,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2591796815395355,
+      "eval_runtime": 5.0581,
+      "eval_samples_per_second": 5.931,
+      "eval_steps_per_second": 0.198,
+      "step": 1070
+    },
+    {
+      "epoch": 0.42382271468144045,
+      "grad_norm": 0.9660879797074645,
+      "learning_rate": 7.132895763087002e-05,
+      "loss": 0.1822,
+      "step": 1071
+    },
+    {
+      "epoch": 0.42421844083893945,
+      "grad_norm": 0.7917397034104919,
+      "learning_rate": 7.126646117030619e-05,
+      "loss": 0.1969,
+      "step": 1072
+    },
+    {
+      "epoch": 0.42461416699643845,
+      "grad_norm": 0.6248062171228119,
+      "learning_rate": 7.120392412021605e-05,
+      "loss": 0.1226,
+      "step": 1073
+    },
+    {
+      "epoch": 0.4250098931539375,
+      "grad_norm": 0.7682433865946915,
+      "learning_rate": 7.114134659995886e-05,
+      "loss": 0.134,
+      "step": 1074
+    },
+    {
+      "epoch": 0.4254056193114365,
+      "grad_norm": 0.6869070512744374,
+      "learning_rate": 7.107872872897113e-05,
+      "loss": 0.201,
+      "step": 1075
+    },
+    {
+      "epoch": 0.4254056193114365,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.896950319724545,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2595052123069763,
+      "eval_runtime": 5.1649,
+      "eval_samples_per_second": 5.808,
+      "eval_steps_per_second": 0.194,
+      "step": 1075
+    },
+    {
+      "epoch": 0.4258013454689355,
+      "grad_norm": 0.6164907856893128,
+      "learning_rate": 7.101607062676638e-05,
+      "loss": 0.1278,
+      "step": 1076
+    },
+    {
+      "epoch": 0.4261970716264345,
+      "grad_norm": 0.8867766154804855,
+      "learning_rate": 7.095337241293493e-05,
+      "loss": 0.1929,
+      "step": 1077
+    },
+    {
+      "epoch": 0.4265927977839335,
+      "grad_norm": 0.6227772743485064,
+      "learning_rate": 7.089063420714366e-05,
+      "loss": 0.1173,
+      "step": 1078
+    },
+    {
+      "epoch": 0.42698852394143255,
+      "grad_norm": 1.0871358330833987,
+      "learning_rate": 7.082785612913573e-05,
+      "loss": 0.2433,
+      "step": 1079
+    },
+    {
+      "epoch": 0.42738425009893155,
+      "grad_norm": 1.0032166621865515,
+      "learning_rate": 7.076503829873048e-05,
+      "loss": 0.2379,
+      "step": 1080
+    },
+    {
+      "epoch": 0.42738425009893155,
+      "eval_PRM Accuracy": 0.873015873015873,
+      "eval_PRM F1": 0.9272727272727272,
+      "eval_PRM F1 AUC": 0.6871618298081652,
+      "eval_PRM F1 AUC (fixed)": 0.8979340875553369,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.6153846153846154,
+      "eval_PRM Precision": 0.9026548672566371,
+      "eval_PRM Recall": 0.9532710280373832,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2586914002895355,
+      "eval_runtime": 5.0751,
+      "eval_samples_per_second": 5.911,
+      "eval_steps_per_second": 0.197,
+      "step": 1080
+    },
+    {
+      "epoch": 0.42777997625643055,
+      "grad_norm": 0.764980978700694,
+      "learning_rate": 7.070218083582306e-05,
+      "loss": 0.1599,
+      "step": 1081
+    },
+    {
+      "epoch": 0.42817570241392955,
+      "grad_norm": 0.8101485404714679,
+      "learning_rate": 7.063928386038428e-05,
+      "loss": 0.1558,
+      "step": 1082
+    },
+    {
+      "epoch": 0.42857142857142855,
+      "grad_norm": 0.78224904838527,
+      "learning_rate": 7.057634749246037e-05,
+      "loss": 0.1148,
+      "step": 1083
+    },
+    {
+      "epoch": 0.4289671547289276,
+      "grad_norm": 0.6475554533796173,
+      "learning_rate": 7.051337185217273e-05,
+      "loss": 0.1108,
+      "step": 1084
+    },
+    {
+      "epoch": 0.4293628808864266,
+      "grad_norm": 0.9462148739074969,
+      "learning_rate": 7.045035705971778e-05,
+      "loss": 0.2112,
+      "step": 1085
+    },
+    {
+      "epoch": 0.4293628808864266,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.896704377766847,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.27356770634651184,
+      "eval_runtime": 4.9386,
+      "eval_samples_per_second": 6.075,
+      "eval_steps_per_second": 0.202,
+      "step": 1085
+    },
+    {
+      "epoch": 0.4297586070439256,
+      "grad_norm": 0.8754379936540506,
+      "learning_rate": 7.038730323536655e-05,
+      "loss": 0.2021,
+      "step": 1086
+    },
+    {
+      "epoch": 0.4301543332014246,
+      "grad_norm": 1.0789109475816612,
+      "learning_rate": 7.032421049946467e-05,
+      "loss": 0.2107,
+      "step": 1087
+    },
+    {
+      "epoch": 0.4305500593589236,
+      "grad_norm": 0.592238816929124,
+      "learning_rate": 7.0261078972432e-05,
+      "loss": 0.1212,
+      "step": 1088
+    },
+    {
+      "epoch": 0.43094578551642265,
+      "grad_norm": 0.5522184724339104,
+      "learning_rate": 7.019790877476241e-05,
+      "loss": 0.1013,
+      "step": 1089
+    },
+    {
+      "epoch": 0.43134151167392165,
+      "grad_norm": 1.0574270528303438,
+      "learning_rate": 7.013470002702363e-05,
+      "loss": 0.1532,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43134151167392165,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.898180029513035,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2925618588924408,
+      "eval_runtime": 4.9335,
+      "eval_samples_per_second": 6.081,
+      "eval_steps_per_second": 0.203,
+      "step": 1090
+    },
+    {
+      "epoch": 0.43173723783142065,
+      "grad_norm": 0.7675040313831717,
+      "learning_rate": 7.007145284985694e-05,
+      "loss": 0.1504,
+      "step": 1091
+    },
+    {
+      "epoch": 0.43213296398891965,
+      "grad_norm": 0.7752955380783298,
+      "learning_rate": 7.000816736397695e-05,
+      "loss": 0.1395,
+      "step": 1092
+    },
+    {
+      "epoch": 0.4325286901464187,
+      "grad_norm": 0.9757693810994306,
+      "learning_rate": 6.994484369017143e-05,
+      "loss": 0.1866,
+      "step": 1093
+    },
+    {
+      "epoch": 0.4329244163039177,
+      "grad_norm": 1.1376595609453177,
+      "learning_rate": 6.988148194930099e-05,
+      "loss": 0.1804,
+      "step": 1094
+    },
+    {
+      "epoch": 0.4333201424614167,
+      "grad_norm": 0.667210832374645,
+      "learning_rate": 6.981808226229892e-05,
+      "loss": 0.1453,
+      "step": 1095
+    },
+    {
+      "epoch": 0.4333201424614167,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.9028529267092965,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2683919370174408,
+      "eval_runtime": 5.032,
+      "eval_samples_per_second": 5.962,
+      "eval_steps_per_second": 0.199,
+      "step": 1095
+    },
+    {
+      "epoch": 0.4337158686189157,
+      "grad_norm": 0.842522589665804,
+      "learning_rate": 6.975464475017093e-05,
+      "loss": 0.2022,
+      "step": 1096
+    },
+    {
+      "epoch": 0.4341115947764147,
+      "grad_norm": 1.2057974584412778,
+      "learning_rate": 6.969116953399496e-05,
+      "loss": 0.2223,
+      "step": 1097
+    },
+    {
+      "epoch": 0.43450732093391375,
+      "grad_norm": 1.0009068096875529,
+      "learning_rate": 6.962765673492083e-05,
+      "loss": 0.2061,
+      "step": 1098
+    },
+    {
+      "epoch": 0.43490304709141275,
+      "grad_norm": 0.853091167842377,
+      "learning_rate": 6.956410647417017e-05,
+      "loss": 0.1622,
+      "step": 1099
+    },
+    {
+      "epoch": 0.43529877324891175,
+      "grad_norm": 1.3196140461877635,
+      "learning_rate": 6.950051887303606e-05,
+      "loss": 0.2357,
+      "step": 1100
+    },
+    {
+      "epoch": 0.43529877324891175,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.9050664043285784,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2555338442325592,
+      "eval_runtime": 5.381,
+      "eval_samples_per_second": 5.575,
+      "eval_steps_per_second": 0.186,
+      "step": 1100
+    },
+    {
+      "epoch": 0.43569449940641075,
+      "grad_norm": 1.0593154206903501,
+      "learning_rate": 6.943689405288288e-05,
+      "loss": 0.2401,
+      "step": 1101
+    },
+    {
+      "epoch": 0.43609022556390975,
+      "grad_norm": 0.7128541908595966,
+      "learning_rate": 6.937323213514601e-05,
+      "loss": 0.1474,
+      "step": 1102
+    },
+    {
+      "epoch": 0.4364859517214088,
+      "grad_norm": 1.0864970238845069,
+      "learning_rate": 6.930953324133169e-05,
+      "loss": 0.1621,
+      "step": 1103
+    },
+    {
+      "epoch": 0.4368816778789078,
+      "grad_norm": 0.9761075426450818,
+      "learning_rate": 6.924579749301671e-05,
+      "loss": 0.1968,
+      "step": 1104
+    },
+    {
+      "epoch": 0.4372774040364068,
+      "grad_norm": 0.6152469458364157,
+      "learning_rate": 6.918202501184815e-05,
+      "loss": 0.1251,
+      "step": 1105
+    },
+    {
+      "epoch": 0.4372774040364068,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.909001475651746,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.2842773497104645,
+      "eval_runtime": 5.1837,
+      "eval_samples_per_second": 5.787,
+      "eval_steps_per_second": 0.193,
+      "step": 1105
+    },
+    {
+      "epoch": 0.4376731301939058,
+      "grad_norm": 0.6476226992411395,
+      "learning_rate": 6.911821591954328e-05,
+      "loss": 0.156,
+      "step": 1106
+    },
+    {
+      "epoch": 0.4380688563514048,
+      "grad_norm": 0.5750138955229323,
+      "learning_rate": 6.90543703378892e-05,
+      "loss": 0.0985,
+      "step": 1107
+    },
+    {
+      "epoch": 0.43846458250890386,
+      "grad_norm": 0.5221460846576396,
+      "learning_rate": 6.899048838874267e-05,
+      "loss": 0.1173,
+      "step": 1108
+    },
+    {
+      "epoch": 0.43886030866640285,
+      "grad_norm": 1.3222602938830674,
+      "learning_rate": 6.892657019402983e-05,
+      "loss": 0.2054,
+      "step": 1109
+    },
+    {
+      "epoch": 0.43925603482390185,
+      "grad_norm": 0.9310232343319954,
+      "learning_rate": 6.886261587574604e-05,
+      "loss": 0.1819,
+      "step": 1110
+    },
+    {
+      "epoch": 0.43925603482390185,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.9077717658632563,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.3307291567325592,
+      "eval_runtime": 5.0128,
+      "eval_samples_per_second": 5.985,
+      "eval_steps_per_second": 0.199,
+      "step": 1110
+    },
+    {
+      "epoch": 0.43965176098140085,
+      "grad_norm": 0.7050040817051295,
+      "learning_rate": 6.879862555595559e-05,
+      "loss": 0.1287,
+      "step": 1111
+    },
+    {
+      "epoch": 0.4400474871388999,
+      "grad_norm": 0.955967274178146,
+      "learning_rate": 6.87345993567915e-05,
+      "loss": 0.2285,
+      "step": 1112
+    },
+    {
+      "epoch": 0.4404432132963989,
+      "grad_norm": 0.9711233459670032,
+      "learning_rate": 6.867053740045521e-05,
+      "loss": 0.2061,
+      "step": 1113
+    },
+    {
+      "epoch": 0.4408389394538979,
+      "grad_norm": 1.0188610482149132,
+      "learning_rate": 6.860643980921648e-05,
+      "loss": 0.242,
+      "step": 1114
+    },
+    {
+      "epoch": 0.4412346656113969,
+      "grad_norm": 0.862920130020995,
+      "learning_rate": 6.854230670541306e-05,
+      "loss": 0.1311,
+      "step": 1115
+    },
+    {
+      "epoch": 0.4412346656113969,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9080177078209541,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2684895694255829,
+      "eval_runtime": 5.0392,
+      "eval_samples_per_second": 5.953,
+      "eval_steps_per_second": 0.198,
+      "step": 1115
+    },
+    {
+      "epoch": 0.4416303917688959,
+      "grad_norm": 0.6443102963178605,
+      "learning_rate": 6.847813821145045e-05,
+      "loss": 0.1215,
+      "step": 1116
+    },
+    {
+      "epoch": 0.44202611792639496,
+      "grad_norm": 1.0591525804588973,
+      "learning_rate": 6.841393444980177e-05,
+      "loss": 0.1923,
+      "step": 1117
+    },
+    {
+      "epoch": 0.44242184408389396,
+      "grad_norm": 1.1107267697369232,
+      "learning_rate": 6.834969554300732e-05,
+      "loss": 0.1976,
+      "step": 1118
+    },
+    {
+      "epoch": 0.44281757024139295,
+      "grad_norm": 1.50588141120044,
+      "learning_rate": 6.828542161367462e-05,
+      "loss": 0.1642,
+      "step": 1119
+    },
+    {
+      "epoch": 0.44321329639889195,
+      "grad_norm": 0.8918585278526379,
+      "learning_rate": 6.822111278447796e-05,
+      "loss": 0.1672,
+      "step": 1120
+    },
+    {
+      "epoch": 0.44321329639889195,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9013772749631087,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2665039002895355,
+      "eval_runtime": 5.1833,
+      "eval_samples_per_second": 5.788,
+      "eval_steps_per_second": 0.193,
+      "step": 1120
+    },
+    {
+      "epoch": 0.44360902255639095,
+      "grad_norm": 0.8871335582525137,
+      "learning_rate": 6.815676917815826e-05,
+      "loss": 0.2036,
+      "step": 1121
+    },
+    {
+      "epoch": 0.44400474871389,
+      "grad_norm": 0.665613125663357,
+      "learning_rate": 6.80923909175228e-05,
+      "loss": 0.1355,
+      "step": 1122
+    },
+    {
+      "epoch": 0.444400474871389,
+      "grad_norm": 1.118527707241081,
+      "learning_rate": 6.802797812544502e-05,
+      "loss": 0.2284,
+      "step": 1123
+    },
+    {
+      "epoch": 0.444796201028888,
+      "grad_norm": 1.0754073872799603,
+      "learning_rate": 6.796353092486427e-05,
+      "loss": 0.1771,
+      "step": 1124
+    },
+    {
+      "epoch": 0.445191927186387,
+      "grad_norm": 0.752453229662109,
+      "learning_rate": 6.789904943878554e-05,
+      "loss": 0.1554,
+      "step": 1125
+    },
+    {
+      "epoch": 0.445191927186387,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9075258239055584,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2969563901424408,
+      "eval_runtime": 5.3958,
+      "eval_samples_per_second": 5.56,
+      "eval_steps_per_second": 0.185,
+      "step": 1125
+    },
+    {
+      "epoch": 0.445587653343886,
+      "grad_norm": 1.0292726490257276,
+      "learning_rate": 6.783453379027931e-05,
+      "loss": 0.1752,
+      "step": 1126
+    },
+    {
+      "epoch": 0.44598337950138506,
+      "grad_norm": 0.6487250128911204,
+      "learning_rate": 6.776998410248122e-05,
+      "loss": 0.1306,
+      "step": 1127
+    },
+    {
+      "epoch": 0.44637910565888406,
+      "grad_norm": 0.529340671671959,
+      "learning_rate": 6.770540049859188e-05,
+      "loss": 0.1179,
+      "step": 1128
+    },
+    {
+      "epoch": 0.44677483181638306,
+      "grad_norm": 1.028411738180361,
+      "learning_rate": 6.764078310187668e-05,
+      "loss": 0.1545,
+      "step": 1129
+    },
+    {
+      "epoch": 0.44717055797388205,
+      "grad_norm": 1.107562885732197,
+      "learning_rate": 6.757613203566542e-05,
+      "loss": 0.2573,
+      "step": 1130
+    },
+    {
+      "epoch": 0.44717055797388205,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9067879980324643,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2767903506755829,
+      "eval_runtime": 5.0259,
+      "eval_samples_per_second": 5.969,
+      "eval_steps_per_second": 0.199,
+      "step": 1130
+    },
+    {
+      "epoch": 0.4475662841313811,
+      "grad_norm": 0.9861032570397578,
+      "learning_rate": 6.751144742335227e-05,
+      "loss": 0.1425,
+      "step": 1131
+    },
+    {
+      "epoch": 0.4479620102888801,
+      "grad_norm": 0.5368364700298076,
+      "learning_rate": 6.744672938839534e-05,
+      "loss": 0.0897,
+      "step": 1132
+    },
+    {
+      "epoch": 0.4483577364463791,
+      "grad_norm": 0.8859818818040079,
+      "learning_rate": 6.738197805431657e-05,
+      "loss": 0.1354,
+      "step": 1133
+    },
+    {
+      "epoch": 0.4487534626038781,
+      "grad_norm": 0.8886138342391837,
+      "learning_rate": 6.731719354470143e-05,
+      "loss": 0.1126,
+      "step": 1134
+    },
+    {
+      "epoch": 0.4491491887613771,
+      "grad_norm": 1.0256762689391408,
+      "learning_rate": 6.725237598319877e-05,
+      "loss": 0.2269,
+      "step": 1135
+    },
+    {
+      "epoch": 0.4491491887613771,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9094933595671423,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27778321504592896,
+      "eval_runtime": 5.122,
+      "eval_samples_per_second": 5.857,
+      "eval_steps_per_second": 0.195,
+      "step": 1135
+    },
+    {
+      "epoch": 0.44954491491887616,
+      "grad_norm": 1.0006349927217255,
+      "learning_rate": 6.718752549352045e-05,
+      "loss": 0.1332,
+      "step": 1136
+    },
+    {
+      "epoch": 0.44994064107637516,
+      "grad_norm": 0.7965441836026523,
+      "learning_rate": 6.71226421994412e-05,
+      "loss": 0.1701,
+      "step": 1137
+    },
+    {
+      "epoch": 0.45033636723387416,
+      "grad_norm": 0.9907952338440558,
+      "learning_rate": 6.70577262247984e-05,
+      "loss": 0.1673,
+      "step": 1138
+    },
+    {
+      "epoch": 0.45073209339137316,
+      "grad_norm": 0.8792094827217769,
+      "learning_rate": 6.699277769349174e-05,
+      "loss": 0.1658,
+      "step": 1139
+    },
+    {
+      "epoch": 0.45112781954887216,
+      "grad_norm": 0.8851569659333709,
+      "learning_rate": 6.69277967294831e-05,
+      "loss": 0.1622,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45112781954887216,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9131824889326119,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.29736328125,
+      "eval_runtime": 5.1163,
+      "eval_samples_per_second": 5.864,
+      "eval_steps_per_second": 0.195,
+      "step": 1140
+    },
+    {
+      "epoch": 0.4515235457063712,
+      "grad_norm": 0.8338521515796626,
+      "learning_rate": 6.686278345679625e-05,
+      "loss": 0.1387,
+      "step": 1141
+    },
+    {
+      "epoch": 0.4519192718638702,
+      "grad_norm": 1.0046475507637396,
+      "learning_rate": 6.679773799951662e-05,
+      "loss": 0.1604,
+      "step": 1142
+    },
+    {
+      "epoch": 0.4523149980213692,
+      "grad_norm": 0.8542707175038639,
+      "learning_rate": 6.673266048179103e-05,
+      "loss": 0.1597,
+      "step": 1143
+    },
+    {
+      "epoch": 0.4527107241788682,
+      "grad_norm": 0.8358989784559276,
+      "learning_rate": 6.666755102782758e-05,
+      "loss": 0.1187,
+      "step": 1144
+    },
+    {
+      "epoch": 0.45310645033636726,
+      "grad_norm": 1.2113148835473992,
+      "learning_rate": 6.660240976189523e-05,
+      "loss": 0.1893,
+      "step": 1145
+    },
+    {
+      "epoch": 0.45310645033636726,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9168716182980816,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.29277342557907104,
+      "eval_runtime": 5.2377,
+      "eval_samples_per_second": 5.728,
+      "eval_steps_per_second": 0.191,
+      "step": 1145
+    },
+    {
+      "epoch": 0.45350217649386626,
+      "grad_norm": 0.8994370250141286,
+      "learning_rate": 6.653723680832371e-05,
+      "loss": 0.1818,
+      "step": 1146
+    },
+    {
+      "epoch": 0.45389790265136526,
+      "grad_norm": 0.8110339616095306,
+      "learning_rate": 6.647203229150322e-05,
+      "loss": 0.1822,
+      "step": 1147
+    },
+    {
+      "epoch": 0.45429362880886426,
+      "grad_norm": 1.171659601524543,
+      "learning_rate": 6.640679633588421e-05,
+      "loss": 0.1953,
+      "step": 1148
+    },
+    {
+      "epoch": 0.45468935496636326,
+      "grad_norm": 1.4346097612938402,
+      "learning_rate": 6.63415290659771e-05,
+      "loss": 0.2195,
+      "step": 1149
+    },
+    {
+      "epoch": 0.4550850811238623,
+      "grad_norm": 0.5683693035673459,
+      "learning_rate": 6.627623060635214e-05,
+      "loss": 0.1676,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4550850811238623,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9195769798327595,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26215821504592896,
+      "eval_runtime": 5.1083,
+      "eval_samples_per_second": 5.873,
+      "eval_steps_per_second": 0.196,
+      "step": 1150
+    },
+    {
+      "epoch": 0.4554808072813613,
+      "grad_norm": 0.7216955630584146,
+      "learning_rate": 6.621090108163904e-05,
+      "loss": 0.1274,
+      "step": 1151
+    },
+    {
+      "epoch": 0.4558765334388603,
+      "grad_norm": 0.8874018323598207,
+      "learning_rate": 6.614554061652683e-05,
+      "loss": 0.1755,
+      "step": 1152
+    },
+    {
+      "epoch": 0.4562722595963593,
+      "grad_norm": 0.6308012982475653,
+      "learning_rate": 6.608014933576362e-05,
+      "loss": 0.14,
+      "step": 1153
+    },
+    {
+      "epoch": 0.4566679857538583,
+      "grad_norm": 0.8043056556053905,
+      "learning_rate": 6.601472736415629e-05,
+      "loss": 0.206,
+      "step": 1154
+    },
+    {
+      "epoch": 0.45706371191135736,
+      "grad_norm": 0.7532543042969924,
+      "learning_rate": 6.594927482657033e-05,
+      "loss": 0.1986,
+      "step": 1155
+    },
+    {
+      "epoch": 0.45706371191135736,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9185932120019675,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26184895634651184,
+      "eval_runtime": 5.153,
+      "eval_samples_per_second": 5.822,
+      "eval_steps_per_second": 0.194,
+      "step": 1155
+    },
+    {
+      "epoch": 0.45745943806885636,
+      "grad_norm": 0.6434595278635993,
+      "learning_rate": 6.588379184792954e-05,
+      "loss": 0.1657,
+      "step": 1156
+    },
+    {
+      "epoch": 0.45785516422635536,
+      "grad_norm": 0.6641560063692152,
+      "learning_rate": 6.581827855321587e-05,
+      "loss": 0.1387,
+      "step": 1157
+    },
+    {
+      "epoch": 0.45825089038385436,
+      "grad_norm": 0.8308891982185348,
+      "learning_rate": 6.575273506746905e-05,
+      "loss": 0.1578,
+      "step": 1158
+    },
+    {
+      "epoch": 0.45864661654135336,
+      "grad_norm": 1.2185339319181352,
+      "learning_rate": 6.568716151578653e-05,
+      "loss": 0.1864,
+      "step": 1159
+    },
+    {
+      "epoch": 0.4590423426988524,
+      "grad_norm": 0.81190074935988,
+      "learning_rate": 6.562155802332307e-05,
+      "loss": 0.1612,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4590423426988524,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9217904574520414,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25517576932907104,
+      "eval_runtime": 5.0096,
+      "eval_samples_per_second": 5.989,
+      "eval_steps_per_second": 0.2,
+      "step": 1160
+    },
+    {
+      "epoch": 0.4594380688563514,
+      "grad_norm": 0.7731972379632047,
+      "learning_rate": 6.555592471529059e-05,
+      "loss": 0.1795,
+      "step": 1161
+    },
+    {
+      "epoch": 0.4598337950138504,
+      "grad_norm": 1.4111703158541495,
+      "learning_rate": 6.549026171695799e-05,
+      "loss": 0.1628,
+      "step": 1162
+    },
+    {
+      "epoch": 0.4602295211713494,
+      "grad_norm": 0.9259779793654891,
+      "learning_rate": 6.54245691536507e-05,
+      "loss": 0.1814,
+      "step": 1163
+    },
+    {
+      "epoch": 0.46062524732884846,
+      "grad_norm": 0.8093043893412636,
+      "learning_rate": 6.535884715075067e-05,
+      "loss": 0.1556,
+      "step": 1164
+    },
+    {
+      "epoch": 0.46102097348634746,
+      "grad_norm": 1.2880839068274712,
+      "learning_rate": 6.529309583369605e-05,
+      "loss": 0.2285,
+      "step": 1165
+    },
+    {
+      "epoch": 0.46102097348634746,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9454545454545454,
+      "eval_PRM F1 AUC": 0.7491392031480572,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559273,
+      "eval_PRM F1 Neg": 0.625,
+      "eval_PRM NPV": 0.7692307692307693,
+      "eval_PRM Precision": 0.9203539823008849,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.5263157894736842,
+      "eval_loss": 0.24290364980697632,
+      "eval_runtime": 4.9763,
+      "eval_samples_per_second": 6.029,
+      "eval_steps_per_second": 0.201,
+      "step": 1165
+    },
+    {
+      "epoch": 0.46141669964384646,
+      "grad_norm": 1.2057938803953123,
+      "learning_rate": 6.522731532798091e-05,
+      "loss": 0.2585,
+      "step": 1166
+    },
+    {
+      "epoch": 0.46181242580134546,
+      "grad_norm": 1.261684806128178,
+      "learning_rate": 6.516150575915502e-05,
+      "loss": 0.2081,
+      "step": 1167
+    },
+    {
+      "epoch": 0.46220815195884446,
+      "grad_norm": 0.7961911508652638,
+      "learning_rate": 6.509566725282362e-05,
+      "loss": 0.1264,
+      "step": 1168
+    },
+    {
+      "epoch": 0.4626038781163435,
+      "grad_norm": 1.0289455243270862,
+      "learning_rate": 6.502979993464723e-05,
+      "loss": 0.1689,
+      "step": 1169
+    },
+    {
+      "epoch": 0.4629996042738425,
+      "grad_norm": 1.1324814023589889,
+      "learning_rate": 6.496390393034129e-05,
+      "loss": 0.1993,
+      "step": 1170
+    },
+    {
+      "epoch": 0.4629996042738425,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9220363994097394,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25183919072151184,
+      "eval_runtime": 5.2571,
+      "eval_samples_per_second": 5.707,
+      "eval_steps_per_second": 0.19,
+      "step": 1170
+    },
+    {
+      "epoch": 0.4633953304313415,
+      "grad_norm": 0.7775846183421931,
+      "learning_rate": 6.489797936567603e-05,
+      "loss": 0.1318,
+      "step": 1171
+    },
+    {
+      "epoch": 0.4637910565888405,
+      "grad_norm": 0.8403784984596453,
+      "learning_rate": 6.48320263664762e-05,
+      "loss": 0.1429,
+      "step": 1172
+    },
+    {
+      "epoch": 0.4641867827463395,
+      "grad_norm": 0.5494352155704674,
+      "learning_rate": 6.47660450586208e-05,
+      "loss": 0.0922,
+      "step": 1173
+    },
+    {
+      "epoch": 0.46458250890383856,
+      "grad_norm": 1.1300655946136449,
+      "learning_rate": 6.470003556804286e-05,
+      "loss": 0.1839,
+      "step": 1174
+    },
+    {
+      "epoch": 0.46497823506133756,
+      "grad_norm": 0.6693066955599658,
+      "learning_rate": 6.46339980207292e-05,
+      "loss": 0.1322,
+      "step": 1175
+    },
+    {
+      "epoch": 0.46497823506133756,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9212985735366453,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.28372395038604736,
+      "eval_runtime": 5.0356,
+      "eval_samples_per_second": 5.958,
+      "eval_steps_per_second": 0.199,
+      "step": 1175
+    },
+    {
+      "epoch": 0.46537396121883656,
+      "grad_norm": 1.7296410650735405,
+      "learning_rate": 6.456793254272023e-05,
+      "loss": 0.2192,
+      "step": 1176
+    },
+    {
+      "epoch": 0.46576968737633556,
+      "grad_norm": 2.457712266051786,
+      "learning_rate": 6.45018392601096e-05,
+      "loss": 0.1705,
+      "step": 1177
+    },
+    {
+      "epoch": 0.46616541353383456,
+      "grad_norm": 0.9573637613921339,
+      "learning_rate": 6.443571829904408e-05,
+      "loss": 0.1298,
+      "step": 1178
+    },
+    {
+      "epoch": 0.4665611396913336,
+      "grad_norm": 0.640223509839757,
+      "learning_rate": 6.436956978572324e-05,
+      "loss": 0.0881,
+      "step": 1179
+    },
+    {
+      "epoch": 0.4669568658488326,
+      "grad_norm": 1.223430170695839,
+      "learning_rate": 6.430339384639927e-05,
+      "loss": 0.1462,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4669568658488326,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9205607476635513,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.28129881620407104,
+      "eval_runtime": 4.9031,
+      "eval_samples_per_second": 6.119,
+      "eval_steps_per_second": 0.204,
+      "step": 1180
+    },
+    {
+      "epoch": 0.4673525920063316,
+      "grad_norm": 0.6648895831230512,
+      "learning_rate": 6.423719060737665e-05,
+      "loss": 0.1217,
+      "step": 1181
+    },
+    {
+      "epoch": 0.4677483181638306,
+      "grad_norm": 1.18671155334821,
+      "learning_rate": 6.417096019501203e-05,
+      "loss": 0.2012,
+      "step": 1182
+    },
+    {
+      "epoch": 0.46814404432132967,
+      "grad_norm": 1.644761369023588,
+      "learning_rate": 6.410470273571387e-05,
+      "loss": 0.3058,
+      "step": 1183
+    },
+    {
+      "epoch": 0.46853977047882867,
+      "grad_norm": 1.0696174108542842,
+      "learning_rate": 6.403841835594228e-05,
+      "loss": 0.1758,
+      "step": 1184
+    },
+    {
+      "epoch": 0.46893549663632766,
+      "grad_norm": 0.8647100282116553,
+      "learning_rate": 6.397210718220874e-05,
+      "loss": 0.1299,
+      "step": 1185
+    },
+    {
+      "epoch": 0.46893549663632766,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9195769798327595,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.2601887881755829,
+      "eval_runtime": 5.2108,
+      "eval_samples_per_second": 5.757,
+      "eval_steps_per_second": 0.192,
+      "step": 1185
+    },
+    {
+      "epoch": 0.46933122279382666,
+      "grad_norm": 1.0679510415952915,
+      "learning_rate": 6.390576934107589e-05,
+      "loss": 0.1404,
+      "step": 1186
+    },
+    {
+      "epoch": 0.46972694895132566,
+      "grad_norm": 1.0132937689229329,
+      "learning_rate": 6.383940495915723e-05,
+      "loss": 0.1398,
+      "step": 1187
+    },
+    {
+      "epoch": 0.4701226751088247,
+      "grad_norm": 1.419010378085849,
+      "learning_rate": 6.377301416311696e-05,
+      "loss": 0.1728,
+      "step": 1188
+    },
+    {
+      "epoch": 0.4705184012663237,
+      "grad_norm": 0.962856417397252,
+      "learning_rate": 6.370659707966967e-05,
+      "loss": 0.1484,
+      "step": 1189
+    },
+    {
+      "epoch": 0.4709141274238227,
+      "grad_norm": 1.1061821300016605,
+      "learning_rate": 6.36401538355801e-05,
+      "loss": 0.1897,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4709141274238227,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9171175602557796,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26953125,
+      "eval_runtime": 5.1337,
+      "eval_samples_per_second": 5.844,
+      "eval_steps_per_second": 0.195,
+      "step": 1190
+    },
+    {
+      "epoch": 0.4713098535813217,
+      "grad_norm": 0.9736006904333611,
+      "learning_rate": 6.357368455766299e-05,
+      "loss": 0.188,
+      "step": 1191
+    },
+    {
+      "epoch": 0.4717055797388207,
+      "grad_norm": 1.038184162387294,
+      "learning_rate": 6.350718937278269e-05,
+      "loss": 0.198,
+      "step": 1192
+    },
+    {
+      "epoch": 0.47210130589631977,
+      "grad_norm": 1.0768791841608756,
+      "learning_rate": 6.344066840785302e-05,
+      "loss": 0.2056,
+      "step": 1193
+    },
+    {
+      "epoch": 0.47249703205381877,
+      "grad_norm": 0.7131285423214887,
+      "learning_rate": 6.337412178983704e-05,
+      "loss": 0.1295,
+      "step": 1194
+    },
+    {
+      "epoch": 0.47289275821131777,
+      "grad_norm": 1.0602051510555484,
+      "learning_rate": 6.330754964574676e-05,
+      "loss": 0.2253,
+      "step": 1195
+    },
+    {
+      "epoch": 0.47289275821131777,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9178553861288735,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2586914002895355,
+      "eval_runtime": 4.8797,
+      "eval_samples_per_second": 6.148,
+      "eval_steps_per_second": 0.205,
+      "step": 1195
+    },
+    {
+      "epoch": 0.47328848436881676,
+      "grad_norm": 0.8869746342527639,
+      "learning_rate": 6.324095210264286e-05,
+      "loss": 0.2011,
+      "step": 1196
+    },
+    {
+      "epoch": 0.47368421052631576,
+      "grad_norm": 0.8780073055965166,
+      "learning_rate": 6.317432928763456e-05,
+      "loss": 0.1736,
+      "step": 1197
+    },
+    {
+      "epoch": 0.4740799366838148,
+      "grad_norm": 0.8397557045959201,
+      "learning_rate": 6.310768132787928e-05,
+      "loss": 0.1341,
+      "step": 1198
+    },
+    {
+      "epoch": 0.4744756628413138,
+      "grad_norm": 0.8010634043987951,
+      "learning_rate": 6.304100835058244e-05,
+      "loss": 0.1645,
+      "step": 1199
+    },
+    {
+      "epoch": 0.4748713889988128,
+      "grad_norm": 1.080326066602254,
+      "learning_rate": 6.29743104829972e-05,
+      "loss": 0.2335,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4748713889988128,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9183472700442695,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2522786557674408,
+      "eval_runtime": 4.9755,
+      "eval_samples_per_second": 6.03,
+      "eval_steps_per_second": 0.201,
+      "step": 1200
+    },
+    {
+      "epoch": 0.4752671151563118,
+      "grad_norm": 0.6436342751392566,
+      "learning_rate": 6.290758785242425e-05,
+      "loss": 0.1145,
+      "step": 1201
+    },
+    {
+      "epoch": 0.47566284131381087,
+      "grad_norm": 0.7496013707287245,
+      "learning_rate": 6.28408405862115e-05,
+      "loss": 0.2087,
+      "step": 1202
+    },
+    {
+      "epoch": 0.47605856747130987,
+      "grad_norm": 0.9089122119180205,
+      "learning_rate": 6.277406881175395e-05,
+      "loss": 0.1789,
+      "step": 1203
+    },
+    {
+      "epoch": 0.47645429362880887,
+      "grad_norm": 0.6394960085556239,
+      "learning_rate": 6.27072726564933e-05,
+      "loss": 0.1213,
+      "step": 1204
+    },
+    {
+      "epoch": 0.47685001978630787,
+      "grad_norm": 0.5094712700151979,
+      "learning_rate": 6.264045224791784e-05,
+      "loss": 0.1227,
+      "step": 1205
+    },
+    {
+      "epoch": 0.47685001978630787,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9131824889326119,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2726074159145355,
+      "eval_runtime": 5.1091,
+      "eval_samples_per_second": 5.872,
+      "eval_steps_per_second": 0.196,
+      "step": 1205
+    },
+    {
+      "epoch": 0.47724574594380686,
+      "grad_norm": 0.9731631552947037,
+      "learning_rate": 6.25736077135621e-05,
+      "loss": 0.2645,
+      "step": 1206
+    },
+    {
+      "epoch": 0.4776414721013059,
+      "grad_norm": 0.7602244579134391,
+      "learning_rate": 6.250673918100671e-05,
+      "loss": 0.2106,
+      "step": 1207
+    },
+    {
+      "epoch": 0.4780371982588049,
+      "grad_norm": 0.7384163745495891,
+      "learning_rate": 6.243984677787808e-05,
+      "loss": 0.1544,
+      "step": 1208
+    },
+    {
+      "epoch": 0.4784329244163039,
+      "grad_norm": 0.7262152689101322,
+      "learning_rate": 6.237293063184816e-05,
+      "loss": 0.1369,
+      "step": 1209
+    },
+    {
+      "epoch": 0.4788286505738029,
+      "grad_norm": 0.9026487803436578,
+      "learning_rate": 6.230599087063426e-05,
+      "loss": 0.2031,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4788286505738029,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9158878504672898,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.27071940898895264,
+      "eval_runtime": 4.8221,
+      "eval_samples_per_second": 6.221,
+      "eval_steps_per_second": 0.207,
+      "step": 1210
+    },
+    {
+      "epoch": 0.4792243767313019,
+      "grad_norm": 0.7188204065356958,
+      "learning_rate": 6.223902762199871e-05,
+      "loss": 0.1731,
+      "step": 1211
+    },
+    {
+      "epoch": 0.47962010288880097,
+      "grad_norm": 0.604930109786888,
+      "learning_rate": 6.21720410137487e-05,
+      "loss": 0.123,
+      "step": 1212
+    },
+    {
+      "epoch": 0.48001582904629997,
+      "grad_norm": 0.7829529833023485,
+      "learning_rate": 6.2105031173736e-05,
+      "loss": 0.1669,
+      "step": 1213
+    },
+    {
+      "epoch": 0.48041155520379897,
+      "grad_norm": 0.5953277695430208,
+      "learning_rate": 6.203799822985676e-05,
+      "loss": 0.1625,
+      "step": 1214
+    },
+    {
+      "epoch": 0.48080728136129797,
+      "grad_norm": 1.3415921184872912,
+      "learning_rate": 6.197094231005112e-05,
+      "loss": 0.2279,
+      "step": 1215
+    },
+    {
+      "epoch": 0.48080728136129797,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9198229217904574,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2523437440395355,
+      "eval_runtime": 5.0891,
+      "eval_samples_per_second": 5.895,
+      "eval_steps_per_second": 0.197,
+      "step": 1215
+    },
+    {
+      "epoch": 0.48120300751879697,
+      "grad_norm": 0.5714214948155252,
+      "learning_rate": 6.19038635423032e-05,
+      "loss": 0.0881,
+      "step": 1216
+    },
+    {
+      "epoch": 0.481598733676296,
+      "grad_norm": 0.8232087013423751,
+      "learning_rate": 6.183676205464062e-05,
+      "loss": 0.128,
+      "step": 1217
+    },
+    {
+      "epoch": 0.481994459833795,
+      "grad_norm": 0.7390902590751279,
+      "learning_rate": 6.176963797513443e-05,
+      "loss": 0.1316,
+      "step": 1218
+    },
+    {
+      "epoch": 0.482390185991294,
+      "grad_norm": 1.175398095573704,
+      "learning_rate": 6.170249143189878e-05,
+      "loss": 0.191,
+      "step": 1219
+    },
+    {
+      "epoch": 0.482785912148793,
+      "grad_norm": 1.0304710540061501,
+      "learning_rate": 6.16353225530907e-05,
+      "loss": 0.1252,
+      "step": 1220
+    },
+    {
+      "epoch": 0.482785912148793,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9210526315789473,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.2556803524494171,
+      "eval_runtime": 4.9947,
+      "eval_samples_per_second": 6.006,
+      "eval_steps_per_second": 0.2,
+      "step": 1220
+    },
+    {
+      "epoch": 0.48318163830629207,
+      "grad_norm": 0.937419113542309,
+      "learning_rate": 6.156813146690983e-05,
+      "loss": 0.1526,
+      "step": 1221
+    },
+    {
+      "epoch": 0.48357736446379107,
+      "grad_norm": 0.9944453358390976,
+      "learning_rate": 6.150091830159823e-05,
+      "loss": 0.1846,
+      "step": 1222
+    },
+    {
+      "epoch": 0.48397309062129007,
+      "grad_norm": 0.6237762702091242,
+      "learning_rate": 6.143368318544006e-05,
+      "loss": 0.1321,
+      "step": 1223
+    },
+    {
+      "epoch": 0.48436881677878907,
+      "grad_norm": 0.7716116048495874,
+      "learning_rate": 6.13664262467614e-05,
+      "loss": 0.1881,
+      "step": 1224
+    },
+    {
+      "epoch": 0.48476454293628807,
+      "grad_norm": 1.4999087967853473,
+      "learning_rate": 6.129914761393001e-05,
+      "loss": 0.2003,
+      "step": 1225
+    },
+    {
+      "epoch": 0.48476454293628807,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9212985735366453,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2835530638694763,
+      "eval_runtime": 5.1981,
+      "eval_samples_per_second": 5.771,
+      "eval_steps_per_second": 0.192,
+      "step": 1225
+    },
+    {
+      "epoch": 0.4851602690937871,
+      "grad_norm": 0.8185426730725777,
+      "learning_rate": 6.123184741535495e-05,
+      "loss": 0.1713,
+      "step": 1226
+    },
+    {
+      "epoch": 0.4855559952512861,
+      "grad_norm": 1.606934979187631,
+      "learning_rate": 6.11645257794866e-05,
+      "loss": 0.2313,
+      "step": 1227
+    },
+    {
+      "epoch": 0.4859517214087851,
+      "grad_norm": 1.4560090540493398,
+      "learning_rate": 6.109718283481611e-05,
+      "loss": 0.1796,
+      "step": 1228
+    },
+    {
+      "epoch": 0.4863474475662841,
+      "grad_norm": 1.7939926844544278,
+      "learning_rate": 6.1029818709875374e-05,
+      "loss": 0.1502,
+      "step": 1229
+    },
+    {
+      "epoch": 0.4867431737237831,
+      "grad_norm": 0.75349366658544,
+      "learning_rate": 6.0962433533236705e-05,
+      "loss": 0.1729,
+      "step": 1230
+    },
+    {
+      "epoch": 0.4867431737237831,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9225282833251353,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2630371153354645,
+      "eval_runtime": 5.0778,
+      "eval_samples_per_second": 5.908,
+      "eval_steps_per_second": 0.197,
+      "step": 1230
+    },
+    {
+      "epoch": 0.4871388998812822,
+      "grad_norm": 1.3218422672275125,
+      "learning_rate": 6.089502743351259e-05,
+      "loss": 0.1866,
+      "step": 1231
+    },
+    {
+      "epoch": 0.48753462603878117,
+      "grad_norm": 0.8852562021304003,
+      "learning_rate": 6.082760053935541e-05,
+      "loss": 0.1534,
+      "step": 1232
+    },
+    {
+      "epoch": 0.48793035219628017,
+      "grad_norm": 0.6898448573533574,
+      "learning_rate": 6.076015297945733e-05,
+      "loss": 0.1216,
+      "step": 1233
+    },
+    {
+      "epoch": 0.48832607835377917,
+      "grad_norm": 0.9071798587505693,
+      "learning_rate": 6.0692684882549864e-05,
+      "loss": 0.1783,
+      "step": 1234
+    },
+    {
+      "epoch": 0.48872180451127817,
+      "grad_norm": 0.8145988876723135,
+      "learning_rate": 6.062519637740378e-05,
+      "loss": 0.186,
+      "step": 1235
+    },
+    {
+      "epoch": 0.48872180451127817,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9193310378750614,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25060221552848816,
+      "eval_runtime": 5.1805,
+      "eval_samples_per_second": 5.791,
+      "eval_steps_per_second": 0.193,
+      "step": 1235
+    },
+    {
+      "epoch": 0.4891175306687772,
+      "grad_norm": 0.8525005363756072,
+      "learning_rate": 6.055768759282874e-05,
+      "loss": 0.2101,
+      "step": 1236
+    },
+    {
+      "epoch": 0.4895132568262762,
+      "grad_norm": 0.8566513028659172,
+      "learning_rate": 6.049015865767318e-05,
+      "loss": 0.2438,
+      "step": 1237
+    },
+    {
+      "epoch": 0.4899089829837752,
+      "grad_norm": 0.9041281750931823,
+      "learning_rate": 6.042260970082395e-05,
+      "loss": 0.1795,
+      "step": 1238
+    },
+    {
+      "epoch": 0.4903047091412742,
+      "grad_norm": 1.5277362926305358,
+      "learning_rate": 6.035504085120613e-05,
+      "loss": 0.2089,
+      "step": 1239
+    },
+    {
+      "epoch": 0.4907004352987733,
+      "grad_norm": 0.7355586067171286,
+      "learning_rate": 6.028745223778278e-05,
+      "loss": 0.1215,
+      "step": 1240
+    },
+    {
+      "epoch": 0.4907004352987733,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9215445154943434,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25515949726104736,
+      "eval_runtime": 4.9416,
+      "eval_samples_per_second": 6.071,
+      "eval_steps_per_second": 0.202,
+      "step": 1240
+    },
+    {
+      "epoch": 0.4910961614562723,
+      "grad_norm": 0.6044613239958214,
+      "learning_rate": 6.021984398955466e-05,
+      "loss": 0.1288,
+      "step": 1241
+    },
+    {
+      "epoch": 0.49149188761377127,
+      "grad_norm": 0.4668583351135625,
+      "learning_rate": 6.015221623555999e-05,
+      "loss": 0.1129,
+      "step": 1242
+    },
+    {
+      "epoch": 0.49188761377127027,
+      "grad_norm": 0.7636514561520606,
+      "learning_rate": 6.008456910487428e-05,
+      "loss": 0.1675,
+      "step": 1243
+    },
+    {
+      "epoch": 0.49228333992876927,
+      "grad_norm": 0.5837820138597654,
+      "learning_rate": 6.0016902726609945e-05,
+      "loss": 0.156,
+      "step": 1244
+    },
+    {
+      "epoch": 0.4926790660862683,
+      "grad_norm": 0.6329801625698934,
+      "learning_rate": 5.99492172299162e-05,
+      "loss": 0.1696,
+      "step": 1245
+    },
+    {
+      "epoch": 0.4926790660862683,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9188391539596655,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25678712129592896,
+      "eval_runtime": 4.9834,
+      "eval_samples_per_second": 6.02,
+      "eval_steps_per_second": 0.201,
+      "step": 1245
+    },
+    {
+      "epoch": 0.4930747922437673,
+      "grad_norm": 0.8750988690177731,
+      "learning_rate": 5.988151274397873e-05,
+      "loss": 0.1554,
+      "step": 1246
+    },
+    {
+      "epoch": 0.4934705184012663,
+      "grad_norm": 0.6724957460922982,
+      "learning_rate": 5.981378939801942e-05,
+      "loss": 0.1422,
+      "step": 1247
+    },
+    {
+      "epoch": 0.4938662445587653,
+      "grad_norm": 0.5411033303693988,
+      "learning_rate": 5.974604732129625e-05,
+      "loss": 0.0903,
+      "step": 1248
+    },
+    {
+      "epoch": 0.4942619707162643,
+      "grad_norm": 0.957114851322142,
+      "learning_rate": 5.967828664310283e-05,
+      "loss": 0.1617,
+      "step": 1249
+    },
+    {
+      "epoch": 0.4946576968737634,
+      "grad_norm": 0.9341282646903378,
+      "learning_rate": 5.961050749276838e-05,
+      "loss": 0.1471,
+      "step": 1250
+    },
+    {
+      "epoch": 0.4946576968737634,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9193310378750615,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27774250507354736,
+      "eval_runtime": 4.9448,
+      "eval_samples_per_second": 6.067,
+      "eval_steps_per_second": 0.202,
+      "step": 1250
+    },
+    {
+      "epoch": 0.4950534230312624,
+      "grad_norm": 1.3223040581761416,
+      "learning_rate": 5.9542709999657286e-05,
+      "loss": 0.1842,
+      "step": 1251
+    },
+    {
+      "epoch": 0.4954491491887614,
+      "grad_norm": 1.437478283294331,
+      "learning_rate": 5.947489429316904e-05,
+      "loss": 0.308,
+      "step": 1252
+    },
+    {
+      "epoch": 0.49584487534626037,
+      "grad_norm": 0.5766331287742914,
+      "learning_rate": 5.940706050273779e-05,
+      "loss": 0.1116,
+      "step": 1253
+    },
+    {
+      "epoch": 0.49624060150375937,
+      "grad_norm": 1.1308868121595035,
+      "learning_rate": 5.933920875783228e-05,
+      "loss": 0.1853,
+      "step": 1254
+    },
+    {
+      "epoch": 0.4966363276612584,
+      "grad_norm": 0.9996995330571914,
+      "learning_rate": 5.9271339187955475e-05,
+      "loss": 0.1985,
+      "step": 1255
+    },
+    {
+      "epoch": 0.4966363276612584,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9217904574520412,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25581055879592896,
+      "eval_runtime": 5.008,
+      "eval_samples_per_second": 5.99,
+      "eval_steps_per_second": 0.2,
+      "step": 1255
+    },
+    {
+      "epoch": 0.4970320538187574,
+      "grad_norm": 0.9358627128547623,
+      "learning_rate": 5.92034519226444e-05,
+      "loss": 0.1497,
+      "step": 1256
+    },
+    {
+      "epoch": 0.4974277799762564,
+      "grad_norm": 0.9593487068416724,
+      "learning_rate": 5.913554709146983e-05,
+      "loss": 0.1313,
+      "step": 1257
+    },
+    {
+      "epoch": 0.4978235061337554,
+      "grad_norm": 1.0474536600325186,
+      "learning_rate": 5.906762482403607e-05,
+      "loss": 0.2126,
+      "step": 1258
+    },
+    {
+      "epoch": 0.4982192322912545,
+      "grad_norm": 1.102967046342181,
+      "learning_rate": 5.8999685249980696e-05,
+      "loss": 0.1472,
+      "step": 1259
+    },
+    {
+      "epoch": 0.4986149584487535,
+      "grad_norm": 1.1540654096412584,
+      "learning_rate": 5.8931728498974336e-05,
+      "loss": 0.2085,
+      "step": 1260
+    },
+    {
+      "epoch": 0.4986149584487535,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9176094441711756,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2561849057674408,
+      "eval_runtime": 5.1348,
+      "eval_samples_per_second": 5.843,
+      "eval_steps_per_second": 0.195,
+      "step": 1260
+    },
+    {
+      "epoch": 0.4990106846062525,
+      "grad_norm": 0.7451620863660723,
+      "learning_rate": 5.88637547007204e-05,
+      "loss": 0.187,
+      "step": 1261
+    },
+    {
+      "epoch": 0.4994064107637515,
+      "grad_norm": 1.203363073854477,
+      "learning_rate": 5.8795763984954776e-05,
+      "loss": 0.1893,
+      "step": 1262
+    },
+    {
+      "epoch": 0.4998021369212505,
+      "grad_norm": 0.9754846271341009,
+      "learning_rate": 5.872775648144575e-05,
+      "loss": 0.155,
+      "step": 1263
+    },
+    {
+      "epoch": 0.5001978630787495,
+      "grad_norm": 0.7786825862926908,
+      "learning_rate": 5.8659732319993555e-05,
+      "loss": 0.1511,
+      "step": 1264
+    },
+    {
+      "epoch": 0.5005935892362485,
+      "grad_norm": 0.661736921313685,
+      "learning_rate": 5.859169163043027e-05,
+      "loss": 0.1661,
+      "step": 1265
+    },
+    {
+      "epoch": 0.5005935892362485,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9185932120019676,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2579589784145355,
+      "eval_runtime": 5.1381,
+      "eval_samples_per_second": 5.839,
+      "eval_steps_per_second": 0.195,
+      "step": 1265
+    },
+    {
+      "epoch": 0.5009893153937476,
+      "grad_norm": 0.9275708937695162,
+      "learning_rate": 5.852363454261949e-05,
+      "loss": 0.2063,
+      "step": 1266
+    },
+    {
+      "epoch": 0.5013850415512465,
+      "grad_norm": 1.0315629317183914,
+      "learning_rate": 5.845556118645612e-05,
+      "loss": 0.1732,
+      "step": 1267
+    },
+    {
+      "epoch": 0.5017807677087456,
+      "grad_norm": 0.596369131523145,
+      "learning_rate": 5.838747169186611e-05,
+      "loss": 0.1386,
+      "step": 1268
+    },
+    {
+      "epoch": 0.5021764938662445,
+      "grad_norm": 0.7515547987746115,
+      "learning_rate": 5.8319366188806256e-05,
+      "loss": 0.198,
+      "step": 1269
+    },
+    {
+      "epoch": 0.5025722200237436,
+      "grad_norm": 0.8318288446686654,
+      "learning_rate": 5.8251244807263825e-05,
+      "loss": 0.2171,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5025722200237436,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9166256763403837,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26656901836395264,
+      "eval_runtime": 5.0953,
+      "eval_samples_per_second": 5.888,
+      "eval_steps_per_second": 0.196,
+      "step": 1270
+    },
+    {
+      "epoch": 0.5029679461812426,
+      "grad_norm": 0.5201103992343463,
+      "learning_rate": 5.8183107677256456e-05,
+      "loss": 0.1517,
+      "step": 1271
+    },
+    {
+      "epoch": 0.5033636723387416,
+      "grad_norm": 0.8481231158609983,
+      "learning_rate": 5.81149549288318e-05,
+      "loss": 0.1871,
+      "step": 1272
+    },
+    {
+      "epoch": 0.5037593984962406,
+      "grad_norm": 1.5663429119778447,
+      "learning_rate": 5.804678669206738e-05,
+      "loss": 0.194,
+      "step": 1273
+    },
+    {
+      "epoch": 0.5041551246537396,
+      "grad_norm": 0.8604830694166269,
+      "learning_rate": 5.797860309707021e-05,
+      "loss": 0.1742,
+      "step": 1274
+    },
+    {
+      "epoch": 0.5045508508112386,
+      "grad_norm": 0.8594072493253806,
+      "learning_rate": 5.791040427397666e-05,
+      "loss": 0.2171,
+      "step": 1275
+    },
+    {
+      "epoch": 0.5045508508112386,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9166256763403837,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25244140625,
+      "eval_runtime": 5.2093,
+      "eval_samples_per_second": 5.759,
+      "eval_steps_per_second": 0.192,
+      "step": 1275
+    },
+    {
+      "epoch": 0.5049465769687377,
+      "grad_norm": 0.6676443115770968,
+      "learning_rate": 5.7842190352952143e-05,
+      "loss": 0.1343,
+      "step": 1276
+    },
+    {
+      "epoch": 0.5053423031262366,
+      "grad_norm": 0.6537613019710552,
+      "learning_rate": 5.777396146419093e-05,
+      "loss": 0.1525,
+      "step": 1277
+    },
+    {
+      "epoch": 0.5057380292837357,
+      "grad_norm": 0.6697577326441106,
+      "learning_rate": 5.770571773791579e-05,
+      "loss": 0.1574,
+      "step": 1278
+    },
+    {
+      "epoch": 0.5061337554412346,
+      "grad_norm": 0.7175588717606146,
+      "learning_rate": 5.7637459304377874e-05,
+      "loss": 0.1903,
+      "step": 1279
+    },
+    {
+      "epoch": 0.5065294815987337,
+      "grad_norm": 0.7088823285175888,
+      "learning_rate": 5.756918629385638e-05,
+      "loss": 0.1837,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5065294815987337,
+      "eval_PRM Accuracy": 0.8809523809523809,
+      "eval_PRM F1": 0.9321266968325792,
+      "eval_PRM F1 AUC": 0.6918347270044269,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5161290322580645,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9035087719298246,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24498698115348816,
+      "eval_runtime": 4.9719,
+      "eval_samples_per_second": 6.034,
+      "eval_steps_per_second": 0.201,
+      "step": 1280
+    },
+    {
+      "epoch": 0.5069252077562327,
+      "grad_norm": 0.49974458734644467,
+      "learning_rate": 5.75008988366583e-05,
+      "loss": 0.1076,
+      "step": 1281
+    },
+    {
+      "epoch": 0.5073209339137317,
+      "grad_norm": 0.8296951670736253,
+      "learning_rate": 5.743259706311827e-05,
+      "loss": 0.1806,
+      "step": 1282
+    },
+    {
+      "epoch": 0.5077166600712307,
+      "grad_norm": 0.8532139685636388,
+      "learning_rate": 5.736428110359815e-05,
+      "loss": 0.2065,
+      "step": 1283
+    },
+    {
+      "epoch": 0.5081123862287297,
+      "grad_norm": 0.7929357009673553,
+      "learning_rate": 5.7295951088486985e-05,
+      "loss": 0.12,
+      "step": 1284
+    },
+    {
+      "epoch": 0.5085081123862287,
+      "grad_norm": 0.9495138944443309,
+      "learning_rate": 5.722760714820057e-05,
+      "loss": 0.1592,
+      "step": 1285
+    },
+    {
+      "epoch": 0.5085081123862287,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9259714707329071,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25255534052848816,
+      "eval_runtime": 4.9432,
+      "eval_samples_per_second": 6.069,
+      "eval_steps_per_second": 0.202,
+      "step": 1285
+    },
+    {
+      "epoch": 0.5089038385437278,
+      "grad_norm": 0.9729834465528704,
+      "learning_rate": 5.7159249413181303e-05,
+      "loss": 0.1603,
+      "step": 1286
+    },
+    {
+      "epoch": 0.5092995647012267,
+      "grad_norm": 0.7720065464077377,
+      "learning_rate": 5.70908780138979e-05,
+      "loss": 0.1713,
+      "step": 1287
+    },
+    {
+      "epoch": 0.5096952908587258,
+      "grad_norm": 1.0286893487242033,
+      "learning_rate": 5.7022493080845194e-05,
+      "loss": 0.1964,
+      "step": 1288
+    },
+    {
+      "epoch": 0.5100910170162247,
+      "grad_norm": 1.3577615575193391,
+      "learning_rate": 5.69540947445438e-05,
+      "loss": 0.184,
+      "step": 1289
+    },
+    {
+      "epoch": 0.5104867431737238,
+      "grad_norm": 0.717904360817334,
+      "learning_rate": 5.688568313553994e-05,
+      "loss": 0.1305,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5104867431737238,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9291687161829808,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25586751103401184,
+      "eval_runtime": 4.9805,
+      "eval_samples_per_second": 6.023,
+      "eval_steps_per_second": 0.201,
+      "step": 1290
+    },
+    {
+      "epoch": 0.5108824693312228,
+      "grad_norm": 1.354644220707343,
+      "learning_rate": 5.681725838440515e-05,
+      "loss": 0.1903,
+      "step": 1291
+    },
+    {
+      "epoch": 0.5112781954887218,
+      "grad_norm": 0.7862713112744212,
+      "learning_rate": 5.6748820621736084e-05,
+      "loss": 0.137,
+      "step": 1292
+    },
+    {
+      "epoch": 0.5116739216462208,
+      "grad_norm": 1.1492624123949011,
+      "learning_rate": 5.66803699781542e-05,
+      "loss": 0.1922,
+      "step": 1293
+    },
+    {
+      "epoch": 0.5120696478037198,
+      "grad_norm": 0.7378456887339425,
+      "learning_rate": 5.661190658430556e-05,
+      "loss": 0.1559,
+      "step": 1294
+    },
+    {
+      "epoch": 0.5124653739612188,
+      "grad_norm": 0.7860158833261784,
+      "learning_rate": 5.654343057086053e-05,
+      "loss": 0.1682,
+      "step": 1295
+    },
+    {
+      "epoch": 0.5124653739612188,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9306443679291687,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2553955018520355,
+      "eval_runtime": 5.2157,
+      "eval_samples_per_second": 5.752,
+      "eval_steps_per_second": 0.192,
+      "step": 1295
+    },
+    {
+      "epoch": 0.5128611001187179,
+      "grad_norm": 0.86572065673799,
+      "learning_rate": 5.647494206851363e-05,
+      "loss": 0.1702,
+      "step": 1296
+    },
+    {
+      "epoch": 0.5132568262762168,
+      "grad_norm": 1.156236947293318,
+      "learning_rate": 5.640644120798312e-05,
+      "loss": 0.1988,
+      "step": 1297
+    },
+    {
+      "epoch": 0.5136525524337159,
+      "grad_norm": 0.5843493476289539,
+      "learning_rate": 5.6337928120010906e-05,
+      "loss": 0.1263,
+      "step": 1298
+    },
+    {
+      "epoch": 0.5140482785912148,
+      "grad_norm": 0.887632617337494,
+      "learning_rate": 5.626940293536225e-05,
+      "loss": 0.1914,
+      "step": 1299
+    },
+    {
+      "epoch": 0.5144440047487139,
+      "grad_norm": 0.7500639036464125,
+      "learning_rate": 5.620086578482544e-05,
+      "loss": 0.168,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5144440047487139,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9281849483521889,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25045573711395264,
+      "eval_runtime": 5.0426,
+      "eval_samples_per_second": 5.949,
+      "eval_steps_per_second": 0.198,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5148397309062129,
+      "grad_norm": 0.6875792767445299,
+      "learning_rate": 5.613231679921167e-05,
+      "loss": 0.1499,
+      "step": 1301
+    },
+    {
+      "epoch": 0.5152354570637119,
+      "grad_norm": 0.998674602427952,
+      "learning_rate": 5.606375610935466e-05,
+      "loss": 0.2302,
+      "step": 1302
+    },
+    {
+      "epoch": 0.5156311832212109,
+      "grad_norm": 1.3984470346937108,
+      "learning_rate": 5.5995183846110524e-05,
+      "loss": 0.1025,
+      "step": 1303
+    },
+    {
+      "epoch": 0.51602690937871,
+      "grad_norm": 0.600460557271782,
+      "learning_rate": 5.592660014035742e-05,
+      "loss": 0.0965,
+      "step": 1304
+    },
+    {
+      "epoch": 0.5164226355362089,
+      "grad_norm": 0.5812534636442083,
+      "learning_rate": 5.585800512299539e-05,
+      "loss": 0.1321,
+      "step": 1305
+    },
+    {
+      "epoch": 0.5164226355362089,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.928184948352189,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25369465351104736,
+      "eval_runtime": 5.1764,
+      "eval_samples_per_second": 5.796,
+      "eval_steps_per_second": 0.193,
+      "step": 1305
+    },
+    {
+      "epoch": 0.516818361693708,
+      "grad_norm": 0.7161989569890755,
+      "learning_rate": 5.578939892494601e-05,
+      "loss": 0.1496,
+      "step": 1306
+    },
+    {
+      "epoch": 0.5172140878512069,
+      "grad_norm": 1.3019151052338234,
+      "learning_rate": 5.572078167715225e-05,
+      "loss": 0.2622,
+      "step": 1307
+    },
+    {
+      "epoch": 0.517609814008706,
+      "grad_norm": 1.1099355163335185,
+      "learning_rate": 5.565215351057812e-05,
+      "loss": 0.1921,
+      "step": 1308
+    },
+    {
+      "epoch": 0.518005540166205,
+      "grad_norm": 0.7690316744376192,
+      "learning_rate": 5.5583514556208514e-05,
+      "loss": 0.1361,
+      "step": 1309
+    },
+    {
+      "epoch": 0.518401266323704,
+      "grad_norm": 0.9266420961344689,
+      "learning_rate": 5.5514864945048904e-05,
+      "loss": 0.1411,
+      "step": 1310
+    },
+    {
+      "epoch": 0.518401266323704,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9259714707329071,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2521321475505829,
+      "eval_runtime": 4.9673,
+      "eval_samples_per_second": 6.039,
+      "eval_steps_per_second": 0.201,
+      "step": 1310
+    },
+    {
+      "epoch": 0.518796992481203,
+      "grad_norm": 0.9336610327589714,
+      "learning_rate": 5.544620480812508e-05,
+      "loss": 0.1627,
+      "step": 1311
+    },
+    {
+      "epoch": 0.519192718638702,
+      "grad_norm": 4.357334786279429,
+      "learning_rate": 5.537753427648295e-05,
+      "loss": 0.1618,
+      "step": 1312
+    },
+    {
+      "epoch": 0.519588444796201,
+      "grad_norm": 1.2448446229084362,
+      "learning_rate": 5.5308853481188236e-05,
+      "loss": 0.1983,
+      "step": 1313
+    },
+    {
+      "epoch": 0.5199841709537001,
+      "grad_norm": 0.8612216114199529,
+      "learning_rate": 5.524016255332627e-05,
+      "loss": 0.2022,
+      "step": 1314
+    },
+    {
+      "epoch": 0.520379897111199,
+      "grad_norm": 1.0072577932443008,
+      "learning_rate": 5.517146162400171e-05,
+      "loss": 0.1807,
+      "step": 1315
+    },
+    {
+      "epoch": 0.520379897111199,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9294146581406788,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24965819716453552,
+      "eval_runtime": 5.1319,
+      "eval_samples_per_second": 5.846,
+      "eval_steps_per_second": 0.195,
+      "step": 1315
+    },
+    {
+      "epoch": 0.5207756232686981,
+      "grad_norm": 0.5895166175989843,
+      "learning_rate": 5.510275082433831e-05,
+      "loss": 0.1776,
+      "step": 1316
+    },
+    {
+      "epoch": 0.521171349426197,
+      "grad_norm": 1.0214312482867896,
+      "learning_rate": 5.503403028547867e-05,
+      "loss": 0.2498,
+      "step": 1317
+    },
+    {
+      "epoch": 0.5215670755836961,
+      "grad_norm": 0.6681968355440214,
+      "learning_rate": 5.4965300138583955e-05,
+      "loss": 0.1408,
+      "step": 1318
+    },
+    {
+      "epoch": 0.5219628017411951,
+      "grad_norm": 0.9072693257431519,
+      "learning_rate": 5.4896560514833675e-05,
+      "loss": 0.1919,
+      "step": 1319
+    },
+    {
+      "epoch": 0.5223585278986941,
+      "grad_norm": 0.5944097016353368,
+      "learning_rate": 5.4827811545425454e-05,
+      "loss": 0.1256,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5223585278986941,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.927693064436793,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24230143427848816,
+      "eval_runtime": 5.0758,
+      "eval_samples_per_second": 5.91,
+      "eval_steps_per_second": 0.197,
+      "step": 1320
+    },
+    {
+      "epoch": 0.5227542540561931,
+      "grad_norm": 0.9535350043066437,
+      "learning_rate": 5.475905336157473e-05,
+      "loss": 0.1568,
+      "step": 1321
+    },
+    {
+      "epoch": 0.5231499802136921,
+      "grad_norm": 0.5937254813773883,
+      "learning_rate": 5.4690286094514534e-05,
+      "loss": 0.1395,
+      "step": 1322
+    },
+    {
+      "epoch": 0.5235457063711911,
+      "grad_norm": 0.8128019433392004,
+      "learning_rate": 5.4621509875495216e-05,
+      "loss": 0.2007,
+      "step": 1323
+    },
+    {
+      "epoch": 0.5239414325286902,
+      "grad_norm": 0.8249606856756874,
+      "learning_rate": 5.4552724835784244e-05,
+      "loss": 0.1433,
+      "step": 1324
+    },
+    {
+      "epoch": 0.5243371586861891,
+      "grad_norm": 1.013367480163338,
+      "learning_rate": 5.448393110666588e-05,
+      "loss": 0.2529,
+      "step": 1325
+    },
+    {
+      "epoch": 0.5243371586861891,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9328578455484505,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24285481870174408,
+      "eval_runtime": 4.9824,
+      "eval_samples_per_second": 6.021,
+      "eval_steps_per_second": 0.201,
+      "step": 1325
+    },
+    {
+      "epoch": 0.5247328848436882,
+      "grad_norm": 0.6141285047427931,
+      "learning_rate": 5.441512881944104e-05,
+      "loss": 0.0966,
+      "step": 1326
+    },
+    {
+      "epoch": 0.5251286110011871,
+      "grad_norm": 0.7757912581343077,
+      "learning_rate": 5.434631810542687e-05,
+      "loss": 0.1561,
+      "step": 1327
+    },
+    {
+      "epoch": 0.5255243371586862,
+      "grad_norm": 0.735806126651385,
+      "learning_rate": 5.427749909595672e-05,
+      "loss": 0.1654,
+      "step": 1328
+    },
+    {
+      "epoch": 0.5259200633161852,
+      "grad_norm": 0.6099423731346483,
+      "learning_rate": 5.420867192237966e-05,
+      "loss": 0.1128,
+      "step": 1329
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.6502506382097482,
+      "learning_rate": 5.4139836716060435e-05,
+      "loss": 0.1568,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.261474609375,
+      "eval_runtime": 4.8722,
+      "eval_samples_per_second": 6.157,
+      "eval_steps_per_second": 0.205,
+      "step": 1330
+    },
+    {
+      "epoch": 0.5267115156311832,
+      "grad_norm": 0.5790046140681657,
+      "learning_rate": 5.407099360837905e-05,
+      "loss": 0.093,
+      "step": 1331
+    },
+    {
+      "epoch": 0.5271072417886822,
+      "grad_norm": 0.6318388717371626,
+      "learning_rate": 5.400214273073065e-05,
+      "loss": 0.1557,
+      "step": 1332
+    },
+    {
+      "epoch": 0.5275029679461812,
+      "grad_norm": 0.8645136276819803,
+      "learning_rate": 5.393328421452514e-05,
+      "loss": 0.1922,
+      "step": 1333
+    },
+    {
+      "epoch": 0.5278986941036803,
+      "grad_norm": 0.9952529685753582,
+      "learning_rate": 5.3864418191187074e-05,
+      "loss": 0.1561,
+      "step": 1334
+    },
+    {
+      "epoch": 0.5282944202611792,
+      "grad_norm": 0.7482900562617728,
+      "learning_rate": 5.3795544792155306e-05,
+      "loss": 0.1933,
+      "step": 1335
+    },
+    {
+      "epoch": 0.5282944202611792,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9323659616330547,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.28011882305145264,
+      "eval_runtime": 4.8456,
+      "eval_samples_per_second": 6.191,
+      "eval_steps_per_second": 0.206,
+      "step": 1335
+    },
+    {
+      "epoch": 0.5286901464186783,
+      "grad_norm": 0.7146309204853534,
+      "learning_rate": 5.372666414888274e-05,
+      "loss": 0.1487,
+      "step": 1336
+    },
+    {
+      "epoch": 0.5290858725761773,
+      "grad_norm": 0.969053059135273,
+      "learning_rate": 5.3657776392836175e-05,
+      "loss": 0.138,
+      "step": 1337
+    },
+    {
+      "epoch": 0.5294815987336763,
+      "grad_norm": 0.9919312007917611,
+      "learning_rate": 5.3588881655495914e-05,
+      "loss": 0.2185,
+      "step": 1338
+    },
+    {
+      "epoch": 0.5298773248911753,
+      "grad_norm": 0.7927749701448865,
+      "learning_rate": 5.351998006835562e-05,
+      "loss": 0.1439,
+      "step": 1339
+    },
+    {
+      "epoch": 0.5302730510486743,
+      "grad_norm": 0.72883730990061,
+      "learning_rate": 5.345107176292202e-05,
+      "loss": 0.1718,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5302730510486743,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9360550909985242,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2523437440395355,
+      "eval_runtime": 5.0493,
+      "eval_samples_per_second": 5.941,
+      "eval_steps_per_second": 0.198,
+      "step": 1340
+    },
+    {
+      "epoch": 0.5306687772061733,
+      "grad_norm": 0.714933077279408,
+      "learning_rate": 5.338215687071469e-05,
+      "loss": 0.1405,
+      "step": 1341
+    },
+    {
+      "epoch": 0.5310645033636724,
+      "grad_norm": 0.6629158241940782,
+      "learning_rate": 5.331323552326573e-05,
+      "loss": 0.1812,
+      "step": 1342
+    },
+    {
+      "epoch": 0.5314602295211713,
+      "grad_norm": 1.7162642692607628,
+      "learning_rate": 5.324430785211959e-05,
+      "loss": 0.1331,
+      "step": 1343
+    },
+    {
+      "epoch": 0.5318559556786704,
+      "grad_norm": 0.9605554159026668,
+      "learning_rate": 5.317537398883279e-05,
+      "loss": 0.1939,
+      "step": 1344
+    },
+    {
+      "epoch": 0.5322516818361693,
+      "grad_norm": 0.7107028280100226,
+      "learning_rate": 5.3106434064973665e-05,
+      "loss": 0.1627,
+      "step": 1345
+    },
+    {
+      "epoch": 0.5322516818361693,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9360550909985244,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.23561197519302368,
+      "eval_runtime": 5.3389,
+      "eval_samples_per_second": 5.619,
+      "eval_steps_per_second": 0.187,
+      "step": 1345
+    },
+    {
+      "epoch": 0.5326474079936684,
+      "grad_norm": 0.4776712304531224,
+      "learning_rate": 5.30374882121221e-05,
+      "loss": 0.1007,
+      "step": 1346
+    },
+    {
+      "epoch": 0.5330431341511674,
+      "grad_norm": 0.7613595761162486,
+      "learning_rate": 5.296853656186934e-05,
+      "loss": 0.1395,
+      "step": 1347
+    },
+    {
+      "epoch": 0.5334388603086664,
+      "grad_norm": 0.5843256358849226,
+      "learning_rate": 5.289957924581764e-05,
+      "loss": 0.0926,
+      "step": 1348
+    },
+    {
+      "epoch": 0.5338345864661654,
+      "grad_norm": 0.7437080927457614,
+      "learning_rate": 5.283061639558011e-05,
+      "loss": 0.1302,
+      "step": 1349
+    },
+    {
+      "epoch": 0.5342303126236644,
+      "grad_norm": 0.9662153859348727,
+      "learning_rate": 5.276164814278043e-05,
+      "loss": 0.2347,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5342303126236644,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9358091490408263,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.23479817807674408,
+      "eval_runtime": 5.0857,
+      "eval_samples_per_second": 5.899,
+      "eval_steps_per_second": 0.197,
+      "step": 1350
+    },
+    {
+      "epoch": 0.5346260387811634,
+      "grad_norm": 0.9800309890579693,
+      "learning_rate": 5.269267461905253e-05,
+      "loss": 0.1586,
+      "step": 1351
+    },
+    {
+      "epoch": 0.5350217649386625,
+      "grad_norm": 0.5288599921762195,
+      "learning_rate": 5.2623695956040445e-05,
+      "loss": 0.0806,
+      "step": 1352
+    },
+    {
+      "epoch": 0.5354174910961614,
+      "grad_norm": 0.7202248114934156,
+      "learning_rate": 5.2554712285398034e-05,
+      "loss": 0.1118,
+      "step": 1353
+    },
+    {
+      "epoch": 0.5358132172536605,
+      "grad_norm": 0.8436598977278604,
+      "learning_rate": 5.24857237387887e-05,
+      "loss": 0.1821,
+      "step": 1354
+    },
+    {
+      "epoch": 0.5362089434111594,
+      "grad_norm": 1.0124374717920286,
+      "learning_rate": 5.241673044788511e-05,
+      "loss": 0.1635,
+      "step": 1355
+    },
+    {
+      "epoch": 0.5362089434111594,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9340875553369404,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24814453721046448,
+      "eval_runtime": 5.1505,
+      "eval_samples_per_second": 5.825,
+      "eval_steps_per_second": 0.194,
+      "step": 1355
+    },
+    {
+      "epoch": 0.5366046695686585,
+      "grad_norm": 0.8502513369438582,
+      "learning_rate": 5.2347732544369055e-05,
+      "loss": 0.1412,
+      "step": 1356
+    },
+    {
+      "epoch": 0.5370003957261575,
+      "grad_norm": 0.637521845298401,
+      "learning_rate": 5.2278730159931076e-05,
+      "loss": 0.1309,
+      "step": 1357
+    },
+    {
+      "epoch": 0.5373961218836565,
+      "grad_norm": 0.620754515455489,
+      "learning_rate": 5.220972342627032e-05,
+      "loss": 0.0789,
+      "step": 1358
+    },
+    {
+      "epoch": 0.5377918480411555,
+      "grad_norm": 0.8561992125971556,
+      "learning_rate": 5.2140712475094166e-05,
+      "loss": 0.155,
+      "step": 1359
+    },
+    {
+      "epoch": 0.5381875741986545,
+      "grad_norm": 0.7793029962316026,
+      "learning_rate": 5.207169743811809e-05,
+      "loss": 0.1538,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5381875741986545,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9318740777176586,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2732340395450592,
+      "eval_runtime": 5.1088,
+      "eval_samples_per_second": 5.872,
+      "eval_steps_per_second": 0.196,
+      "step": 1360
+    },
+    {
+      "epoch": 0.5385833003561535,
+      "grad_norm": 1.273282783574179,
+      "learning_rate": 5.200267844706537e-05,
+      "loss": 0.1529,
+      "step": 1361
+    },
+    {
+      "epoch": 0.5389790265136526,
+      "grad_norm": 1.0368121518258484,
+      "learning_rate": 5.193365563366679e-05,
+      "loss": 0.1367,
+      "step": 1362
+    },
+    {
+      "epoch": 0.5393747526711515,
+      "grad_norm": 1.1829637162995341,
+      "learning_rate": 5.186462912966047e-05,
+      "loss": 0.1473,
+      "step": 1363
+    },
+    {
+      "epoch": 0.5397704788286506,
+      "grad_norm": 1.6414468370034483,
+      "learning_rate": 5.179559906679157e-05,
+      "loss": 0.3343,
+      "step": 1364
+    },
+    {
+      "epoch": 0.5401662049861495,
+      "grad_norm": 0.9841282699539626,
+      "learning_rate": 5.172656557681199e-05,
+      "loss": 0.1698,
+      "step": 1365
+    },
+    {
+      "epoch": 0.5401662049861495,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.927201180521397,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2699137330055237,
+      "eval_runtime": 5.2473,
+      "eval_samples_per_second": 5.717,
+      "eval_steps_per_second": 0.191,
+      "step": 1365
+    },
+    {
+      "epoch": 0.5405619311436486,
+      "grad_norm": 0.9916364237249542,
+      "learning_rate": 5.165752879148027e-05,
+      "loss": 0.1748,
+      "step": 1366
+    },
+    {
+      "epoch": 0.5409576573011476,
+      "grad_norm": 0.714329448951714,
+      "learning_rate": 5.1588488842561145e-05,
+      "loss": 0.1246,
+      "step": 1367
+    },
+    {
+      "epoch": 0.5413533834586466,
+      "grad_norm": 0.6980850194027967,
+      "learning_rate": 5.151944586182545e-05,
+      "loss": 0.1316,
+      "step": 1368
+    },
+    {
+      "epoch": 0.5417491096161456,
+      "grad_norm": 0.95637621536108,
+      "learning_rate": 5.145039998104974e-05,
+      "loss": 0.1662,
+      "step": 1369
+    },
+    {
+      "epoch": 0.5421448357736446,
+      "grad_norm": 0.8222591280009837,
+      "learning_rate": 5.13813513320162e-05,
+      "loss": 0.1549,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5421448357736446,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9240039350713232,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2532552182674408,
+      "eval_runtime": 5.2213,
+      "eval_samples_per_second": 5.746,
+      "eval_steps_per_second": 0.192,
+      "step": 1370
+    },
+    {
+      "epoch": 0.5425405619311436,
+      "grad_norm": 1.0064447608093403,
+      "learning_rate": 5.1312300046512205e-05,
+      "loss": 0.2727,
+      "step": 1371
+    },
+    {
+      "epoch": 0.5429362880886427,
+      "grad_norm": 0.881911766376721,
+      "learning_rate": 5.124324625633021e-05,
+      "loss": 0.2399,
+      "step": 1372
+    },
+    {
+      "epoch": 0.5433320142461416,
+      "grad_norm": 1.1208194862156973,
+      "learning_rate": 5.117419009326747e-05,
+      "loss": 0.1996,
+      "step": 1373
+    },
+    {
+      "epoch": 0.5437277404036407,
+      "grad_norm": 0.808982329347689,
+      "learning_rate": 5.110513168912571e-05,
+      "loss": 0.1733,
+      "step": 1374
+    },
+    {
+      "epoch": 0.5441234665611397,
+      "grad_norm": 1.0182816002803343,
+      "learning_rate": 5.1036071175710986e-05,
+      "loss": 0.159,
+      "step": 1375
+    },
+    {
+      "epoch": 0.5441234665611397,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9232661091982292,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25182291865348816,
+      "eval_runtime": 5.2107,
+      "eval_samples_per_second": 5.757,
+      "eval_steps_per_second": 0.192,
+      "step": 1375
+    },
+    {
+      "epoch": 0.5445191927186387,
+      "grad_norm": 0.7946278013386661,
+      "learning_rate": 5.096700868483334e-05,
+      "loss": 0.1722,
+      "step": 1376
+    },
+    {
+      "epoch": 0.5449149188761377,
+      "grad_norm": 0.9282126616781327,
+      "learning_rate": 5.0897944348306636e-05,
+      "loss": 0.1652,
+      "step": 1377
+    },
+    {
+      "epoch": 0.5453106450336367,
+      "grad_norm": 0.766439167370745,
+      "learning_rate": 5.082887829794819e-05,
+      "loss": 0.2082,
+      "step": 1378
+    },
+    {
+      "epoch": 0.5457063711911357,
+      "grad_norm": 0.5645815405697221,
+      "learning_rate": 5.075981066557866e-05,
+      "loss": 0.1239,
+      "step": 1379
+    },
+    {
+      "epoch": 0.5461020973486348,
+      "grad_norm": 0.5264690755334512,
+      "learning_rate": 5.069074158302167e-05,
+      "loss": 0.1362,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5461020973486348,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2627929747104645,
+      "eval_runtime": 4.9822,
+      "eval_samples_per_second": 6.021,
+      "eval_steps_per_second": 0.201,
+      "step": 1380
+    },
+    {
+      "epoch": 0.5464978235061337,
+      "grad_norm": 1.0207114387437277,
+      "learning_rate": 5.062167118210367e-05,
+      "loss": 0.1879,
+      "step": 1381
+    },
+    {
+      "epoch": 0.5468935496636328,
+      "grad_norm": 0.6584602367568244,
+      "learning_rate": 5.055259959465355e-05,
+      "loss": 0.1595,
+      "step": 1382
+    },
+    {
+      "epoch": 0.5472892758211317,
+      "grad_norm": 0.7447217151349483,
+      "learning_rate": 5.0483526952502545e-05,
+      "loss": 0.1597,
+      "step": 1383
+    },
+    {
+      "epoch": 0.5476850019786308,
+      "grad_norm": 0.5469315493385634,
+      "learning_rate": 5.041445338748383e-05,
+      "loss": 0.1202,
+      "step": 1384
+    },
+    {
+      "epoch": 0.5480807281361298,
+      "grad_norm": 0.4353024253384949,
+      "learning_rate": 5.0345379031432414e-05,
+      "loss": 0.0855,
+      "step": 1385
+    },
+    {
+      "epoch": 0.5480807281361298,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9230201672405313,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.26632487773895264,
+      "eval_runtime": 5.1525,
+      "eval_samples_per_second": 5.822,
+      "eval_steps_per_second": 0.194,
+      "step": 1385
+    },
+    {
+      "epoch": 0.5484764542936288,
+      "grad_norm": 0.6205684652893204,
+      "learning_rate": 5.027630401618475e-05,
+      "loss": 0.1464,
+      "step": 1386
+    },
+    {
+      "epoch": 0.5488721804511278,
+      "grad_norm": 0.6492098560521636,
+      "learning_rate": 5.020722847357858e-05,
+      "loss": 0.1266,
+      "step": 1387
+    },
+    {
+      "epoch": 0.5492679066086268,
+      "grad_norm": 0.7012703485540707,
+      "learning_rate": 5.0138152535452646e-05,
+      "loss": 0.1743,
+      "step": 1388
+    },
+    {
+      "epoch": 0.5496636327661258,
+      "grad_norm": 0.6900843534081865,
+      "learning_rate": 5.006907633364646e-05,
+      "loss": 0.1611,
+      "step": 1389
+    },
+    {
+      "epoch": 0.5500593589236249,
+      "grad_norm": 0.5831943666977494,
+      "learning_rate": 5e-05,
+      "loss": 0.1307,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5500593589236249,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9225282833251353,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.26818034052848816,
+      "eval_runtime": 4.8994,
+      "eval_samples_per_second": 6.123,
+      "eval_steps_per_second": 0.204,
+      "step": 1390
+    },
+    {
+      "epoch": 0.5504550850811238,
+      "grad_norm": 0.6964289018199051,
+      "learning_rate": 4.9930923666353565e-05,
+      "loss": 0.1317,
+      "step": 1391
+    },
+    {
+      "epoch": 0.5508508112386229,
+      "grad_norm": 1.179270365647178,
+      "learning_rate": 4.9861847464547366e-05,
+      "loss": 0.2332,
+      "step": 1392
+    },
+    {
+      "epoch": 0.5512465373961218,
+      "grad_norm": 0.9614488760271286,
+      "learning_rate": 4.9792771526421445e-05,
+      "loss": 0.2532,
+      "step": 1393
+    },
+    {
+      "epoch": 0.5516422635536209,
+      "grad_norm": 0.8409619610377148,
+      "learning_rate": 4.972369598381527e-05,
+      "loss": 0.1307,
+      "step": 1394
+    },
+    {
+      "epoch": 0.55203798971112,
+      "grad_norm": 1.0443315588015185,
+      "learning_rate": 4.96546209685676e-05,
+      "loss": 0.17,
+      "step": 1395
+    },
+    {
+      "epoch": 0.55203798971112,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867192,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2539225220680237,
+      "eval_runtime": 5.3734,
+      "eval_samples_per_second": 5.583,
+      "eval_steps_per_second": 0.186,
+      "step": 1395
+    },
+    {
+      "epoch": 0.5524337158686189,
+      "grad_norm": 0.8706957188656315,
+      "learning_rate": 4.958554661251616e-05,
+      "loss": 0.156,
+      "step": 1396
+    },
+    {
+      "epoch": 0.552829442026118,
+      "grad_norm": 0.7183250285424764,
+      "learning_rate": 4.9516473047497466e-05,
+      "loss": 0.1868,
+      "step": 1397
+    },
+    {
+      "epoch": 0.5532251681836169,
+      "grad_norm": 0.7443674979006363,
+      "learning_rate": 4.944740040534645e-05,
+      "loss": 0.0992,
+      "step": 1398
+    },
+    {
+      "epoch": 0.5536208943411159,
+      "grad_norm": 1.3328489845632765,
+      "learning_rate": 4.9378328817896347e-05,
+      "loss": 0.2437,
+      "step": 1399
+    },
+    {
+      "epoch": 0.554016620498615,
+      "grad_norm": 1.3291037097114378,
+      "learning_rate": 4.9309258416978346e-05,
+      "loss": 0.1573,
+      "step": 1400
+    },
+    {
+      "epoch": 0.554016620498615,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9363636363636364,
+      "eval_PRM F1 AUC": 0.7181505164781112,
+      "eval_PRM F1 AUC (fixed)": 0.9237579931136252,
+      "eval_PRM F1 Neg": 0.5625,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.911504424778761,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24594727158546448,
+      "eval_runtime": 5.1318,
+      "eval_samples_per_second": 5.846,
+      "eval_steps_per_second": 0.195,
+      "step": 1400
+    },
+    {
+      "epoch": 0.5544123466561139,
+      "grad_norm": 0.9587269897518773,
+      "learning_rate": 4.924018933442135e-05,
+      "loss": 0.1459,
+      "step": 1401
+    },
+    {
+      "epoch": 0.554808072813613,
+      "grad_norm": 0.9755434927012591,
+      "learning_rate": 4.917112170205183e-05,
+      "loss": 0.1475,
+      "step": 1402
+    },
+    {
+      "epoch": 0.5552037989711119,
+      "grad_norm": 1.0594524093028612,
+      "learning_rate": 4.9102055651693376e-05,
+      "loss": 0.1433,
+      "step": 1403
+    },
+    {
+      "epoch": 0.555599525128611,
+      "grad_norm": 0.8735588297754491,
+      "learning_rate": 4.9032991315166674e-05,
+      "loss": 0.1328,
+      "step": 1404
+    },
+    {
+      "epoch": 0.55599525128611,
+      "grad_norm": 1.0411603933175342,
+      "learning_rate": 4.896392882428901e-05,
+      "loss": 0.1903,
+      "step": 1405
+    },
+    {
+      "epoch": 0.55599525128611,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9237579931136252,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.2561849057674408,
+      "eval_runtime": 5.1098,
+      "eval_samples_per_second": 5.871,
+      "eval_steps_per_second": 0.196,
+      "step": 1405
+    },
+    {
+      "epoch": 0.556390977443609,
+      "grad_norm": 0.7558160732117621,
+      "learning_rate": 4.8894868310874296e-05,
+      "loss": 0.1363,
+      "step": 1406
+    },
+    {
+      "epoch": 0.556786703601108,
+      "grad_norm": 1.087986057357664,
+      "learning_rate": 4.882580990673253e-05,
+      "loss": 0.2294,
+      "step": 1407
+    },
+    {
+      "epoch": 0.557182429758607,
+      "grad_norm": 0.7499505977906048,
+      "learning_rate": 4.875675374366979e-05,
+      "loss": 0.1465,
+      "step": 1408
+    },
+    {
+      "epoch": 0.557578155916106,
+      "grad_norm": 0.5565413930327318,
+      "learning_rate": 4.868769995348781e-05,
+      "loss": 0.1133,
+      "step": 1409
+    },
+    {
+      "epoch": 0.5579738820736051,
+      "grad_norm": 0.9112737424658822,
+      "learning_rate": 4.861864866798381e-05,
+      "loss": 0.2037,
+      "step": 1410
+    },
+    {
+      "epoch": 0.5579738820736051,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559273,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.272705078125,
+      "eval_runtime": 4.8722,
+      "eval_samples_per_second": 6.157,
+      "eval_steps_per_second": 0.205,
+      "step": 1410
+    },
+    {
+      "epoch": 0.558369608231104,
+      "grad_norm": 0.7005516439911487,
+      "learning_rate": 4.854960001895027e-05,
+      "loss": 0.1165,
+      "step": 1411
+    },
+    {
+      "epoch": 0.5587653343886031,
+      "grad_norm": 1.0432235496789841,
+      "learning_rate": 4.848055413817456e-05,
+      "loss": 0.2053,
+      "step": 1412
+    },
+    {
+      "epoch": 0.5591610605461022,
+      "grad_norm": 0.8223197092288267,
+      "learning_rate": 4.841151115743887e-05,
+      "loss": 0.1914,
+      "step": 1413
+    },
+    {
+      "epoch": 0.5595567867036011,
+      "grad_norm": 0.8055827572405424,
+      "learning_rate": 4.8342471208519726e-05,
+      "loss": 0.198,
+      "step": 1414
+    },
+    {
+      "epoch": 0.5599525128611001,
+      "grad_norm": 0.6110964295792504,
+      "learning_rate": 4.827343442318801e-05,
+      "loss": 0.1333,
+      "step": 1415
+    },
+    {
+      "epoch": 0.5599525128611001,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9183472700442695,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2725585997104645,
+      "eval_runtime": 4.9694,
+      "eval_samples_per_second": 6.037,
+      "eval_steps_per_second": 0.201,
+      "step": 1415
+    },
+    {
+      "epoch": 0.5603482390185991,
+      "grad_norm": 0.6651429005914177,
+      "learning_rate": 4.8204400933208435e-05,
+      "loss": 0.141,
+      "step": 1416
+    },
+    {
+      "epoch": 0.5607439651760981,
+      "grad_norm": 0.7848321270052059,
+      "learning_rate": 4.8135370870339545e-05,
+      "loss": 0.1782,
+      "step": 1417
+    },
+    {
+      "epoch": 0.5611396913335972,
+      "grad_norm": 0.6317464845694473,
+      "learning_rate": 4.806634436633323e-05,
+      "loss": 0.0935,
+      "step": 1418
+    },
+    {
+      "epoch": 0.5615354174910961,
+      "grad_norm": 0.7907526877083627,
+      "learning_rate": 4.799732155293465e-05,
+      "loss": 0.1836,
+      "step": 1419
+    },
+    {
+      "epoch": 0.5619311436485952,
+      "grad_norm": 0.6640550306764561,
+      "learning_rate": 4.792830256188192e-05,
+      "loss": 0.1619,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5619311436485952,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9163797343826857,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.2805826961994171,
+      "eval_runtime": 4.9121,
+      "eval_samples_per_second": 6.107,
+      "eval_steps_per_second": 0.204,
+      "step": 1420
+    },
+    {
+      "epoch": 0.5623268698060941,
+      "grad_norm": 0.7439904275633714,
+      "learning_rate": 4.7859287524905845e-05,
+      "loss": 0.1455,
+      "step": 1421
+    },
+    {
+      "epoch": 0.5627225959635932,
+      "grad_norm": 0.6548890015560155,
+      "learning_rate": 4.77902765737297e-05,
+      "loss": 0.1152,
+      "step": 1422
+    },
+    {
+      "epoch": 0.5631183221210923,
+      "grad_norm": 0.7932007123944221,
+      "learning_rate": 4.772126984006892e-05,
+      "loss": 0.159,
+      "step": 1423
+    },
+    {
+      "epoch": 0.5635140482785912,
+      "grad_norm": 0.5210131523643514,
+      "learning_rate": 4.7652267455630956e-05,
+      "loss": 0.1193,
+      "step": 1424
+    },
+    {
+      "epoch": 0.5639097744360902,
+      "grad_norm": 0.6840097801346285,
+      "learning_rate": 4.75832695521149e-05,
+      "loss": 0.177,
+      "step": 1425
+    },
+    {
+      "epoch": 0.5639097744360902,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.913674372848008,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.29594725370407104,
+      "eval_runtime": 4.7302,
+      "eval_samples_per_second": 6.342,
+      "eval_steps_per_second": 0.211,
+      "step": 1425
+    },
+    {
+      "epoch": 0.5643055005935892,
+      "grad_norm": 0.50796355910448,
+      "learning_rate": 4.751427626121132e-05,
+      "loss": 0.1065,
+      "step": 1426
+    },
+    {
+      "epoch": 0.5647012267510882,
+      "grad_norm": 0.9355132053293667,
+      "learning_rate": 4.744528771460198e-05,
+      "loss": 0.2641,
+      "step": 1427
+    },
+    {
+      "epoch": 0.5650969529085873,
+      "grad_norm": 0.8288009372478395,
+      "learning_rate": 4.737630404395956e-05,
+      "loss": 0.1592,
+      "step": 1428
+    },
+    {
+      "epoch": 0.5654926790660862,
+      "grad_norm": 1.0511139835432355,
+      "learning_rate": 4.730732538094749e-05,
+      "loss": 0.2287,
+      "step": 1429
+    },
+    {
+      "epoch": 0.5658884052235853,
+      "grad_norm": 0.9805332296050199,
+      "learning_rate": 4.7238351857219587e-05,
+      "loss": 0.2655,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5658884052235853,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9158878504672897,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2774088680744171,
+      "eval_runtime": 4.9705,
+      "eval_samples_per_second": 6.036,
+      "eval_steps_per_second": 0.201,
+      "step": 1430
+    },
+    {
+      "epoch": 0.5662841313810842,
+      "grad_norm": 0.8497233652275535,
+      "learning_rate": 4.716938360441989e-05,
+      "loss": 0.1792,
+      "step": 1431
+    },
+    {
+      "epoch": 0.5666798575385833,
+      "grad_norm": 0.9016653471227217,
+      "learning_rate": 4.710042075418236e-05,
+      "loss": 0.2109,
+      "step": 1432
+    },
+    {
+      "epoch": 0.5670755836960824,
+      "grad_norm": 0.9136907075796074,
+      "learning_rate": 4.7031463438130676e-05,
+      "loss": 0.1663,
+      "step": 1433
+    },
+    {
+      "epoch": 0.5674713098535813,
+      "grad_norm": 0.6335276718866922,
+      "learning_rate": 4.69625117878779e-05,
+      "loss": 0.1477,
+      "step": 1434
+    },
+    {
+      "epoch": 0.5678670360110804,
+      "grad_norm": 0.8634019863960144,
+      "learning_rate": 4.6893565935026354e-05,
+      "loss": 0.1851,
+      "step": 1435
+    },
+    {
+      "epoch": 0.5678670360110804,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.911460895228726,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.2605631649494171,
+      "eval_runtime": 5.0125,
+      "eval_samples_per_second": 5.985,
+      "eval_steps_per_second": 0.2,
+      "step": 1435
+    },
+    {
+      "epoch": 0.5682627621685793,
+      "grad_norm": 0.8476459302256096,
+      "learning_rate": 4.682462601116724e-05,
+      "loss": 0.1887,
+      "step": 1436
+    },
+    {
+      "epoch": 0.5686584883260783,
+      "grad_norm": 0.6678185625512246,
+      "learning_rate": 4.6755692147880414e-05,
+      "loss": 0.1752,
+      "step": 1437
+    },
+    {
+      "epoch": 0.5690542144835774,
+      "grad_norm": 0.9778488158413574,
+      "learning_rate": 4.668676447673429e-05,
+      "loss": 0.1681,
+      "step": 1438
+    },
+    {
+      "epoch": 0.5694499406410763,
+      "grad_norm": 0.7171701498142868,
+      "learning_rate": 4.661784312928531e-05,
+      "loss": 0.1687,
+      "step": 1439
+    },
+    {
+      "epoch": 0.5698456667985754,
+      "grad_norm": 0.9745514696984362,
+      "learning_rate": 4.654892823707799e-05,
+      "loss": 0.1449,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5698456667985754,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9094933595671422,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27249348163604736,
+      "eval_runtime": 4.9637,
+      "eval_samples_per_second": 6.044,
+      "eval_steps_per_second": 0.201,
+      "step": 1440
+    },
+    {
+      "epoch": 0.5702413929560743,
+      "grad_norm": 0.5247733913400936,
+      "learning_rate": 4.648001993164438e-05,
+      "loss": 0.1247,
+      "step": 1441
+    },
+    {
+      "epoch": 0.5706371191135734,
+      "grad_norm": 0.6351217634295374,
+      "learning_rate": 4.64111183445041e-05,
+      "loss": 0.1404,
+      "step": 1442
+    },
+    {
+      "epoch": 0.5710328452710725,
+      "grad_norm": 0.912387304851361,
+      "learning_rate": 4.634222360716382e-05,
+      "loss": 0.2193,
+      "step": 1443
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.669024290034336,
+      "learning_rate": 4.6273335851117264e-05,
+      "loss": 0.119,
+      "step": 1444
+    },
+    {
+      "epoch": 0.5718242975860705,
+      "grad_norm": 0.6756909251503679,
+      "learning_rate": 4.620445520784472e-05,
+      "loss": 0.1421,
+      "step": 1445
+    },
+    {
+      "epoch": 0.5718242975860705,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.912444663059518,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.28372395038604736,
+      "eval_runtime": 5.161,
+      "eval_samples_per_second": 5.813,
+      "eval_steps_per_second": 0.194,
+      "step": 1445
+    },
+    {
+      "epoch": 0.5722200237435694,
+      "grad_norm": 0.6495760805922457,
+      "learning_rate": 4.613558180881294e-05,
+      "loss": 0.1447,
+      "step": 1446
+    },
+    {
+      "epoch": 0.5726157499010684,
+      "grad_norm": 1.3342175120483484,
+      "learning_rate": 4.606671578547488e-05,
+      "loss": 0.2212,
+      "step": 1447
+    },
+    {
+      "epoch": 0.5730114760585675,
+      "grad_norm": 1.4066531024943802,
+      "learning_rate": 4.599785726926936e-05,
+      "loss": 0.155,
+      "step": 1448
+    },
+    {
+      "epoch": 0.5734072022160664,
+      "grad_norm": 0.8988606186444456,
+      "learning_rate": 4.5929006391620963e-05,
+      "loss": 0.1747,
+      "step": 1449
+    },
+    {
+      "epoch": 0.5738029283735655,
+      "grad_norm": 1.042090192375632,
+      "learning_rate": 4.586016328393956e-05,
+      "loss": 0.1892,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5738029283735655,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9092474176094442,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27527669072151184,
+      "eval_runtime": 5.2233,
+      "eval_samples_per_second": 5.743,
+      "eval_steps_per_second": 0.191,
+      "step": 1450
+    },
+    {
+      "epoch": 0.5741986545310646,
+      "grad_norm": 0.8340287374857285,
+      "learning_rate": 4.5791328077620344e-05,
+      "loss": 0.2,
+      "step": 1451
+    },
+    {
+      "epoch": 0.5745943806885635,
+      "grad_norm": 0.5712425283337229,
+      "learning_rate": 4.572250090404328e-05,
+      "loss": 0.108,
+      "step": 1452
+    },
+    {
+      "epoch": 0.5749901068460626,
+      "grad_norm": 0.7860448870357001,
+      "learning_rate": 4.565368189457313e-05,
+      "loss": 0.1804,
+      "step": 1453
+    },
+    {
+      "epoch": 0.5753858330035615,
+      "grad_norm": 0.7547134700304947,
+      "learning_rate": 4.558487118055898e-05,
+      "loss": 0.1593,
+      "step": 1454
+    },
+    {
+      "epoch": 0.5757815591610606,
+      "grad_norm": 0.7786650935872544,
+      "learning_rate": 4.551606889333412e-05,
+      "loss": 0.1643,
+      "step": 1455
+    },
+    {
+      "epoch": 0.5757815591610606,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9129365469749139,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27094727754592896,
+      "eval_runtime": 5.077,
+      "eval_samples_per_second": 5.909,
+      "eval_steps_per_second": 0.197,
+      "step": 1455
+    },
+    {
+      "epoch": 0.5761772853185596,
+      "grad_norm": 1.0707203810407482,
+      "learning_rate": 4.5447275164215774e-05,
+      "loss": 0.2864,
+      "step": 1456
+    },
+    {
+      "epoch": 0.5765730114760586,
+      "grad_norm": 1.011582014402992,
+      "learning_rate": 4.5378490124504796e-05,
+      "loss": 0.2171,
+      "step": 1457
+    },
+    {
+      "epoch": 0.5769687376335576,
+      "grad_norm": 0.5118060660813321,
+      "learning_rate": 4.5309713905485485e-05,
+      "loss": 0.1271,
+      "step": 1458
+    },
+    {
+      "epoch": 0.5773644637910565,
+      "grad_norm": 0.6603286494289827,
+      "learning_rate": 4.5240946638425275e-05,
+      "loss": 0.0937,
+      "step": 1459
+    },
+    {
+      "epoch": 0.5777601899485556,
+      "grad_norm": 0.8449186302396923,
+      "learning_rate": 4.517218845457456e-05,
+      "loss": 0.1659,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5777601899485556,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9134284308903099,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.2576334774494171,
+      "eval_runtime": 4.6594,
+      "eval_samples_per_second": 6.439,
+      "eval_steps_per_second": 0.215,
+      "step": 1460
+    },
+    {
+      "epoch": 0.5781559161060547,
+      "grad_norm": 0.9444435138941004,
+      "learning_rate": 4.510343948516633e-05,
+      "loss": 0.1728,
+      "step": 1461
+    },
+    {
+      "epoch": 0.5785516422635536,
+      "grad_norm": 0.9202527050846183,
+      "learning_rate": 4.503469986141606e-05,
+      "loss": 0.1559,
+      "step": 1462
+    },
+    {
+      "epoch": 0.5789473684210527,
+      "grad_norm": 1.06639477686937,
+      "learning_rate": 4.496596971452135e-05,
+      "loss": 0.1827,
+      "step": 1463
+    },
+    {
+      "epoch": 0.5793430945785516,
+      "grad_norm": 0.9217869641675038,
+      "learning_rate": 4.489724917566169e-05,
+      "loss": 0.2029,
+      "step": 1464
+    },
+    {
+      "epoch": 0.5797388207360507,
+      "grad_norm": 0.7137614982060287,
+      "learning_rate": 4.48285383759983e-05,
+      "loss": 0.1434,
+      "step": 1465
+    },
+    {
+      "epoch": 0.5797388207360507,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9136743728480079,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26907551288604736,
+      "eval_runtime": 4.813,
+      "eval_samples_per_second": 6.233,
+      "eval_steps_per_second": 0.208,
+      "step": 1465
+    },
+    {
+      "epoch": 0.5801345468935497,
+      "grad_norm": 0.6495924860334613,
+      "learning_rate": 4.475983744667374e-05,
+      "loss": 0.1239,
+      "step": 1466
+    },
+    {
+      "epoch": 0.5805302730510487,
+      "grad_norm": 1.034444912832059,
+      "learning_rate": 4.4691146518811775e-05,
+      "loss": 0.2245,
+      "step": 1467
+    },
+    {
+      "epoch": 0.5809259992085477,
+      "grad_norm": 0.6767046143862024,
+      "learning_rate": 4.462246572351706e-05,
+      "loss": 0.1222,
+      "step": 1468
+    },
+    {
+      "epoch": 0.5813217253660466,
+      "grad_norm": 1.072372080188341,
+      "learning_rate": 4.4553795191874924e-05,
+      "loss": 0.1389,
+      "step": 1469
+    },
+    {
+      "epoch": 0.5817174515235457,
+      "grad_norm": 1.1485374040001943,
+      "learning_rate": 4.44851350549511e-05,
+      "loss": 0.1903,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5817174515235457,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9171175602557796,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.27096354961395264,
+      "eval_runtime": 5.1197,
+      "eval_samples_per_second": 5.86,
+      "eval_steps_per_second": 0.195,
+      "step": 1470
+    },
+    {
+      "epoch": 0.5821131776810448,
+      "grad_norm": 0.7567450455374135,
+      "learning_rate": 4.441648544379149e-05,
+      "loss": 0.103,
+      "step": 1471
+    },
+    {
+      "epoch": 0.5825089038385437,
+      "grad_norm": 0.8594857474655224,
+      "learning_rate": 4.434784648942191e-05,
+      "loss": 0.1841,
+      "step": 1472
+    },
+    {
+      "epoch": 0.5829046299960428,
+      "grad_norm": 0.9155088266130493,
+      "learning_rate": 4.4279218322847764e-05,
+      "loss": 0.1701,
+      "step": 1473
+    },
+    {
+      "epoch": 0.5833003561535417,
+      "grad_norm": 1.1203155731027175,
+      "learning_rate": 4.421060107505401e-05,
+      "loss": 0.1956,
+      "step": 1474
+    },
+    {
+      "epoch": 0.5836960823110408,
+      "grad_norm": 0.8844476319633571,
+      "learning_rate": 4.4141994877004614e-05,
+      "loss": 0.1675,
+      "step": 1475
+    },
+    {
+      "epoch": 0.5836960823110408,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9146581406787997,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2571614682674408,
+      "eval_runtime": 5.1197,
+      "eval_samples_per_second": 5.86,
+      "eval_steps_per_second": 0.195,
+      "step": 1475
+    },
+    {
+      "epoch": 0.5840918084685398,
+      "grad_norm": 0.5634285985467712,
+      "learning_rate": 4.407339985964259e-05,
+      "loss": 0.1058,
+      "step": 1476
+    },
+    {
+      "epoch": 0.5844875346260388,
+      "grad_norm": 0.6202564881147808,
+      "learning_rate": 4.400481615388948e-05,
+      "loss": 0.1305,
+      "step": 1477
+    },
+    {
+      "epoch": 0.5848832607835378,
+      "grad_norm": 0.6819460695044784,
+      "learning_rate": 4.393624389064535e-05,
+      "loss": 0.1317,
+      "step": 1478
+    },
+    {
+      "epoch": 0.5852789869410367,
+      "grad_norm": 0.7076236758791421,
+      "learning_rate": 4.3867683200788334e-05,
+      "loss": 0.1334,
+      "step": 1479
+    },
+    {
+      "epoch": 0.5856747130985358,
+      "grad_norm": 0.8389500782567075,
+      "learning_rate": 4.379913421517458e-05,
+      "loss": 0.1912,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5856747130985358,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9171175602557796,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24899087846279144,
+      "eval_runtime": 5.1697,
+      "eval_samples_per_second": 5.803,
+      "eval_steps_per_second": 0.193,
+      "step": 1480
+    },
+    {
+      "epoch": 0.5860704392560349,
+      "grad_norm": 0.6436330738749902,
+      "learning_rate": 4.373059706463778e-05,
+      "loss": 0.1321,
+      "step": 1481
+    },
+    {
+      "epoch": 0.5864661654135338,
+      "grad_norm": 0.6924271461607078,
+      "learning_rate": 4.3662071879989106e-05,
+      "loss": 0.1403,
+      "step": 1482
+    },
+    {
+      "epoch": 0.5868618915710329,
+      "grad_norm": 0.636498167300724,
+      "learning_rate": 4.359355879201691e-05,
+      "loss": 0.1228,
+      "step": 1483
+    },
+    {
+      "epoch": 0.5872576177285319,
+      "grad_norm": 0.6873484766774083,
+      "learning_rate": 4.352505793148639e-05,
+      "loss": 0.1482,
+      "step": 1484
+    },
+    {
+      "epoch": 0.5876533438860309,
+      "grad_norm": 0.7277647544954131,
+      "learning_rate": 4.345656942913947e-05,
+      "loss": 0.1338,
+      "step": 1485
+    },
+    {
+      "epoch": 0.5876533438860309,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9203148057058533,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24363607168197632,
+      "eval_runtime": 5.0491,
+      "eval_samples_per_second": 5.942,
+      "eval_steps_per_second": 0.198,
+      "step": 1485
+    },
+    {
+      "epoch": 0.5880490700435299,
+      "grad_norm": 0.7693659732023566,
+      "learning_rate": 4.338809341569444e-05,
+      "loss": 0.1827,
+      "step": 1486
+    },
+    {
+      "epoch": 0.5884447962010289,
+      "grad_norm": 0.5139220236767955,
+      "learning_rate": 4.331963002184581e-05,
+      "loss": 0.0884,
+      "step": 1487
+    },
+    {
+      "epoch": 0.5888405223585279,
+      "grad_norm": 0.9802724030952206,
+      "learning_rate": 4.325117937826392e-05,
+      "loss": 0.173,
+      "step": 1488
+    },
+    {
+      "epoch": 0.589236248516027,
+      "grad_norm": 0.9771942738582647,
+      "learning_rate": 4.318274161559487e-05,
+      "loss": 0.1293,
+      "step": 1489
+    },
+    {
+      "epoch": 0.5896319746735259,
+      "grad_norm": 0.6788382452535272,
+      "learning_rate": 4.311431686446009e-05,
+      "loss": 0.175,
+      "step": 1490
+    },
+    {
+      "epoch": 0.5896319746735259,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.925971470732907,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25011393427848816,
+      "eval_runtime": 4.9535,
+      "eval_samples_per_second": 6.056,
+      "eval_steps_per_second": 0.202,
+      "step": 1490
+    },
+    {
+      "epoch": 0.590027700831025,
+      "grad_norm": 0.836904014287633,
+      "learning_rate": 4.304590525545622e-05,
+      "loss": 0.1417,
+      "step": 1491
+    },
+    {
+      "epoch": 0.5904234269885239,
+      "grad_norm": 0.5901206021280098,
+      "learning_rate": 4.297750691915482e-05,
+      "loss": 0.1158,
+      "step": 1492
+    },
+    {
+      "epoch": 0.590819153146023,
+      "grad_norm": 0.7479267042211478,
+      "learning_rate": 4.29091219861021e-05,
+      "loss": 0.1242,
+      "step": 1493
+    },
+    {
+      "epoch": 0.591214879303522,
+      "grad_norm": 0.830915379528522,
+      "learning_rate": 4.2840750586818715e-05,
+      "loss": 0.1339,
+      "step": 1494
+    },
+    {
+      "epoch": 0.591610605461021,
+      "grad_norm": 0.977506335489616,
+      "learning_rate": 4.2772392851799434e-05,
+      "loss": 0.148,
+      "step": 1495
+    },
+    {
+      "epoch": 0.591610605461021,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.927693064436793,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2668701112270355,
+      "eval_runtime": 5.0937,
+      "eval_samples_per_second": 5.89,
+      "eval_steps_per_second": 0.196,
+      "step": 1495
+    },
+    {
+      "epoch": 0.59200633161852,
+      "grad_norm": 0.9644103285471061,
+      "learning_rate": 4.270404891151302e-05,
+      "loss": 0.16,
+      "step": 1496
+    },
+    {
+      "epoch": 0.592402057776019,
+      "grad_norm": 0.7609870060261933,
+      "learning_rate": 4.263571889640184e-05,
+      "loss": 0.1088,
+      "step": 1497
+    },
+    {
+      "epoch": 0.592797783933518,
+      "grad_norm": 0.7930472471362493,
+      "learning_rate": 4.256740293688175e-05,
+      "loss": 0.1352,
+      "step": 1498
+    },
+    {
+      "epoch": 0.5931935100910171,
+      "grad_norm": 0.7699152694294746,
+      "learning_rate": 4.249910116334171e-05,
+      "loss": 0.1485,
+      "step": 1499
+    },
+    {
+      "epoch": 0.593589236248516,
+      "grad_norm": 0.8323189521119218,
+      "learning_rate": 4.2430813706143636e-05,
+      "loss": 0.1234,
+      "step": 1500
+    },
+    {
+      "epoch": 0.593589236248516,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9335956714215445,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26510417461395264,
+      "eval_runtime": 5.212,
+      "eval_samples_per_second": 5.756,
+      "eval_steps_per_second": 0.192,
+      "step": 1500
+    },
+    {
+      "epoch": 0.5939849624060151,
+      "grad_norm": 0.9657162594443577,
+      "learning_rate": 4.236254069562213e-05,
+      "loss": 0.1377,
+      "step": 1501
+    },
+    {
+      "epoch": 0.594380688563514,
+      "grad_norm": 0.8362494293065121,
+      "learning_rate": 4.2294282262084215e-05,
+      "loss": 0.1602,
+      "step": 1502
+    },
+    {
+      "epoch": 0.5947764147210131,
+      "grad_norm": 1.09110093143604,
+      "learning_rate": 4.2226038535809084e-05,
+      "loss": 0.185,
+      "step": 1503
+    },
+    {
+      "epoch": 0.5951721408785121,
+      "grad_norm": 0.9265133499115938,
+      "learning_rate": 4.2157809647047855e-05,
+      "loss": 0.1589,
+      "step": 1504
+    },
+    {
+      "epoch": 0.5955678670360111,
+      "grad_norm": 0.9512366675900349,
+      "learning_rate": 4.208959572602336e-05,
+      "loss": 0.1688,
+      "step": 1505
+    },
+    {
+      "epoch": 0.5955678670360111,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9363636363636364,
+      "eval_PRM F1 AUC": 0.7181505164781112,
+      "eval_PRM F1 AUC (fixed)": 0.9323659616330546,
+      "eval_PRM F1 Neg": 0.5625,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.911504424778761,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24205729365348816,
+      "eval_runtime": 5.0521,
+      "eval_samples_per_second": 5.938,
+      "eval_steps_per_second": 0.198,
+      "step": 1505
+    },
+    {
+      "epoch": 0.5959635931935101,
+      "grad_norm": 0.8347863770857155,
+      "learning_rate": 4.2021396902929796e-05,
+      "loss": 0.1074,
+      "step": 1506
+    },
+    {
+      "epoch": 0.596359319351009,
+      "grad_norm": 0.9174571416952996,
+      "learning_rate": 4.195321330793264e-05,
+      "loss": 0.1365,
+      "step": 1507
+    },
+    {
+      "epoch": 0.5967550455085081,
+      "grad_norm": 0.961727521958764,
+      "learning_rate": 4.1885045071168216e-05,
+      "loss": 0.1801,
+      "step": 1508
+    },
+    {
+      "epoch": 0.5971507716660072,
+      "grad_norm": 1.5596445200441809,
+      "learning_rate": 4.1816892322743555e-05,
+      "loss": 0.2624,
+      "step": 1509
+    },
+    {
+      "epoch": 0.5975464978235061,
+      "grad_norm": 1.2274557057587892,
+      "learning_rate": 4.1748755192736194e-05,
+      "loss": 0.2332,
+      "step": 1510
+    },
+    {
+      "epoch": 0.5975464978235061,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9363636363636364,
+      "eval_PRM F1 AUC": 0.7181505164781112,
+      "eval_PRM F1 AUC (fixed)": 0.926709296606001,
+      "eval_PRM F1 Neg": 0.5625,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.911504424778761,
+      "eval_PRM Recall": 0.9626168224299065,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.23916015028953552,
+      "eval_runtime": 4.9892,
+      "eval_samples_per_second": 6.013,
+      "eval_steps_per_second": 0.2,
+      "step": 1510
+    },
+    {
+      "epoch": 0.5979422239810052,
+      "grad_norm": 0.983222930061282,
+      "learning_rate": 4.168063381119375e-05,
+      "loss": 0.1546,
+      "step": 1511
+    },
+    {
+      "epoch": 0.5983379501385041,
+      "grad_norm": 0.865980475019263,
+      "learning_rate": 4.1612528308133895e-05,
+      "loss": 0.1249,
+      "step": 1512
+    },
+    {
+      "epoch": 0.5987336762960032,
+      "grad_norm": 1.128120691530934,
+      "learning_rate": 4.154443881354388e-05,
+      "loss": 0.1437,
+      "step": 1513
+    },
+    {
+      "epoch": 0.5991294024535022,
+      "grad_norm": 0.8569085474043757,
+      "learning_rate": 4.147636545738053e-05,
+      "loss": 0.1311,
+      "step": 1514
+    },
+    {
+      "epoch": 0.5995251286110012,
+      "grad_norm": 0.6451534056624597,
+      "learning_rate": 4.1408308369569734e-05,
+      "loss": 0.1258,
+      "step": 1515
+    },
+    {
+      "epoch": 0.5995251286110012,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9212985735366453,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24664713442325592,
+      "eval_runtime": 4.8704,
+      "eval_samples_per_second": 6.16,
+      "eval_steps_per_second": 0.205,
+      "step": 1515
+    },
+    {
+      "epoch": 0.5999208547685002,
+      "grad_norm": 0.6635836615247669,
+      "learning_rate": 4.134026768000646e-05,
+      "loss": 0.1482,
+      "step": 1516
+    },
+    {
+      "epoch": 0.6003165809259992,
+      "grad_norm": 0.6741555214082703,
+      "learning_rate": 4.1272243518554274e-05,
+      "loss": 0.1292,
+      "step": 1517
+    },
+    {
+      "epoch": 0.6007123070834982,
+      "grad_norm": 0.7726731361403109,
+      "learning_rate": 4.120423601504523e-05,
+      "loss": 0.1346,
+      "step": 1518
+    },
+    {
+      "epoch": 0.6011080332409973,
+      "grad_norm": 0.6613645124365088,
+      "learning_rate": 4.113624529927963e-05,
+      "loss": 0.1275,
+      "step": 1519
+    },
+    {
+      "epoch": 0.6015037593984962,
+      "grad_norm": 0.42239658530944607,
+      "learning_rate": 4.106827150102567e-05,
+      "loss": 0.1068,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6015037593984962,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9375,
+      "eval_PRM F1 AUC": 0.6748647319232661,
+      "eval_PRM F1 AUC (fixed)": 0.9188391539596655,
+      "eval_PRM F1 Neg": 0.5,
+      "eval_PRM NPV": 0.7777777777777778,
+      "eval_PRM Precision": 0.8974358974358975,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.26232096552848816,
+      "eval_runtime": 4.9996,
+      "eval_samples_per_second": 6.001,
+      "eval_steps_per_second": 0.2,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6018994855559953,
+      "grad_norm": 0.6899929167806808,
+      "learning_rate": 4.1000314750019316e-05,
+      "loss": 0.1451,
+      "step": 1521
+    },
+    {
+      "epoch": 0.6022952117134943,
+      "grad_norm": 1.062108164021016,
+      "learning_rate": 4.093237517596394e-05,
+      "loss": 0.2167,
+      "step": 1522
+    },
+    {
+      "epoch": 0.6026909378709933,
+      "grad_norm": 0.8301629620237868,
+      "learning_rate": 4.086445290853018e-05,
+      "loss": 0.1325,
+      "step": 1523
+    },
+    {
+      "epoch": 0.6030866640284923,
+      "grad_norm": 0.6187463221157489,
+      "learning_rate": 4.079654807735559e-05,
+      "loss": 0.101,
+      "step": 1524
+    },
+    {
+      "epoch": 0.6034823901859913,
+      "grad_norm": 0.9698425710140381,
+      "learning_rate": 4.0728660812044536e-05,
+      "loss": 0.1506,
+      "step": 1525
+    },
+    {
+      "epoch": 0.6034823901859913,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9166256763403837,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2593750059604645,
+      "eval_runtime": 5.1491,
+      "eval_samples_per_second": 5.826,
+      "eval_steps_per_second": 0.194,
+      "step": 1525
+    },
+    {
+      "epoch": 0.6038781163434903,
+      "grad_norm": 0.8549946171718574,
+      "learning_rate": 4.066079124216775e-05,
+      "loss": 0.1602,
+      "step": 1526
+    },
+    {
+      "epoch": 0.6042738425009894,
+      "grad_norm": 0.925905508424247,
+      "learning_rate": 4.059293949726222e-05,
+      "loss": 0.158,
+      "step": 1527
+    },
+    {
+      "epoch": 0.6046695686584883,
+      "grad_norm": 0.7941244976149617,
+      "learning_rate": 4.052510570683098e-05,
+      "loss": 0.1513,
+      "step": 1528
+    },
+    {
+      "epoch": 0.6050652948159874,
+      "grad_norm": 0.825734372484861,
+      "learning_rate": 4.045729000034271e-05,
+      "loss": 0.1223,
+      "step": 1529
+    },
+    {
+      "epoch": 0.6054610209734863,
+      "grad_norm": 0.9572101878662733,
+      "learning_rate": 4.0389492507231635e-05,
+      "loss": 0.1524,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6054610209734863,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9193310378750615,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24744465947151184,
+      "eval_runtime": 5.2706,
+      "eval_samples_per_second": 5.692,
+      "eval_steps_per_second": 0.19,
+      "step": 1530
+    },
+    {
+      "epoch": 0.6058567471309854,
+      "grad_norm": 0.9916901134432358,
+      "learning_rate": 4.0321713356897176e-05,
+      "loss": 0.145,
+      "step": 1531
+    },
+    {
+      "epoch": 0.6062524732884844,
+      "grad_norm": 0.8939529906807856,
+      "learning_rate": 4.025395267870376e-05,
+      "loss": 0.1485,
+      "step": 1532
+    },
+    {
+      "epoch": 0.6066481994459834,
+      "grad_norm": 1.0505352006228945,
+      "learning_rate": 4.0186210601980575e-05,
+      "loss": 0.151,
+      "step": 1533
+    },
+    {
+      "epoch": 0.6070439256034824,
+      "grad_norm": 1.8656784491331981,
+      "learning_rate": 4.011848725602129e-05,
+      "loss": 0.1519,
+      "step": 1534
+    },
+    {
+      "epoch": 0.6074396517609814,
+      "grad_norm": 0.8564592800051644,
+      "learning_rate": 4.005078277008381e-05,
+      "loss": 0.1328,
+      "step": 1535
+    },
+    {
+      "epoch": 0.6074396517609814,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9190850959173635,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24637044966220856,
+      "eval_runtime": 5.0085,
+      "eval_samples_per_second": 5.99,
+      "eval_steps_per_second": 0.2,
+      "step": 1535
+    },
+    {
+      "epoch": 0.6078353779184804,
+      "grad_norm": 0.9204410340492978,
+      "learning_rate": 3.998309727339006e-05,
+      "loss": 0.1744,
+      "step": 1536
+    },
+    {
+      "epoch": 0.6082311040759795,
+      "grad_norm": 0.48482758018876304,
+      "learning_rate": 3.991543089512574e-05,
+      "loss": 0.0687,
+      "step": 1537
+    },
+    {
+      "epoch": 0.6086268302334784,
+      "grad_norm": 0.852226247973999,
+      "learning_rate": 3.984778376444001e-05,
+      "loss": 0.1466,
+      "step": 1538
+    },
+    {
+      "epoch": 0.6090225563909775,
+      "grad_norm": 0.9733601758719616,
+      "learning_rate": 3.9780156010445355e-05,
+      "loss": 0.1693,
+      "step": 1539
+    },
+    {
+      "epoch": 0.6094182825484764,
+      "grad_norm": 0.8396406312102926,
+      "learning_rate": 3.9712547762217226e-05,
+      "loss": 0.1784,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6094182825484764,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9459459459459459,
+      "eval_PRM F1 AUC": 0.7274963108706345,
+      "eval_PRM F1 AUC (fixed)": 0.9208066896212493,
+      "eval_PRM F1 Neg": 0.6,
+      "eval_PRM NPV": 0.8181818181818182,
+      "eval_PRM Precision": 0.9130434782608695,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.25515949726104736,
+      "eval_runtime": 5.1802,
+      "eval_samples_per_second": 5.791,
+      "eval_steps_per_second": 0.193,
+      "step": 1540
+    },
+    {
+      "epoch": 0.6098140087059755,
+      "grad_norm": 0.9999142064520963,
+      "learning_rate": 3.964495914879387e-05,
+      "loss": 0.1948,
+      "step": 1541
+    },
+    {
+      "epoch": 0.6102097348634745,
+      "grad_norm": 0.8574450866660717,
+      "learning_rate": 3.957739029917605e-05,
+      "loss": 0.1099,
+      "step": 1542
+    },
+    {
+      "epoch": 0.6106054610209735,
+      "grad_norm": 0.7354426980780667,
+      "learning_rate": 3.950984134232683e-05,
+      "loss": 0.1091,
+      "step": 1543
+    },
+    {
+      "epoch": 0.6110011871784725,
+      "grad_norm": 1.0571908132710006,
+      "learning_rate": 3.9442312407171285e-05,
+      "loss": 0.1914,
+      "step": 1544
+    },
+    {
+      "epoch": 0.6113969133359715,
+      "grad_norm": 0.9269918154343854,
+      "learning_rate": 3.9374803622596236e-05,
+      "loss": 0.1852,
+      "step": 1545
+    },
+    {
+      "epoch": 0.6113969133359715,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9459459459459459,
+      "eval_PRM F1 AUC": 0.7274963108706345,
+      "eval_PRM F1 AUC (fixed)": 0.9225282833251353,
+      "eval_PRM F1 Neg": 0.6,
+      "eval_PRM NPV": 0.8181818181818182,
+      "eval_PRM Precision": 0.9130434782608695,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.25353190302848816,
+      "eval_runtime": 4.7575,
+      "eval_samples_per_second": 6.306,
+      "eval_steps_per_second": 0.21,
+      "step": 1545
+    },
+    {
+      "epoch": 0.6117926394934705,
+      "grad_norm": 0.9111487612122596,
+      "learning_rate": 3.930731511745015e-05,
+      "loss": 0.1544,
+      "step": 1546
+    },
+    {
+      "epoch": 0.6121883656509696,
+      "grad_norm": 0.7061738249095735,
+      "learning_rate": 3.923984702054266e-05,
+      "loss": 0.1204,
+      "step": 1547
+    },
+    {
+      "epoch": 0.6125840918084685,
+      "grad_norm": 0.7124853702930833,
+      "learning_rate": 3.917239946064459e-05,
+      "loss": 0.1337,
+      "step": 1548
+    },
+    {
+      "epoch": 0.6129798179659676,
+      "grad_norm": 0.5098215114351303,
+      "learning_rate": 3.910497256648742e-05,
+      "loss": 0.095,
+      "step": 1549
+    },
+    {
+      "epoch": 0.6133755441234665,
+      "grad_norm": 0.6290031867916469,
+      "learning_rate": 3.903756646676331e-05,
+      "loss": 0.1415,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6133755441234665,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9220363994097392,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24627278745174408,
+      "eval_runtime": 4.9771,
+      "eval_samples_per_second": 6.028,
+      "eval_steps_per_second": 0.201,
+      "step": 1550
+    },
+    {
+      "epoch": 0.6137712702809656,
+      "grad_norm": 1.9656948899813809,
+      "learning_rate": 3.897018129012462e-05,
+      "loss": 0.2101,
+      "step": 1551
+    },
+    {
+      "epoch": 0.6141669964384646,
+      "grad_norm": 1.030881832929198,
+      "learning_rate": 3.89028171651839e-05,
+      "loss": 0.1652,
+      "step": 1552
+    },
+    {
+      "epoch": 0.6145627225959636,
+      "grad_norm": 0.8262573746782119,
+      "learning_rate": 3.883547422051343e-05,
+      "loss": 0.1777,
+      "step": 1553
+    },
+    {
+      "epoch": 0.6149584487534626,
+      "grad_norm": 0.7733978134798383,
+      "learning_rate": 3.8768152584645045e-05,
+      "loss": 0.1182,
+      "step": 1554
+    },
+    {
+      "epoch": 0.6153541749109616,
+      "grad_norm": 0.768337290299473,
+      "learning_rate": 3.870085238607002e-05,
+      "loss": 0.1392,
+      "step": 1555
+    },
+    {
+      "epoch": 0.6153541749109616,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9222823413674373,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24786783754825592,
+      "eval_runtime": 4.6683,
+      "eval_samples_per_second": 6.426,
+      "eval_steps_per_second": 0.214,
+      "step": 1555
+    },
+    {
+      "epoch": 0.6157499010684606,
+      "grad_norm": 0.7888434873726559,
+      "learning_rate": 3.86335737532386e-05,
+      "loss": 0.1641,
+      "step": 1556
+    },
+    {
+      "epoch": 0.6161456272259597,
+      "grad_norm": 1.7799382949674674,
+      "learning_rate": 3.8566316814559955e-05,
+      "loss": 0.2277,
+      "step": 1557
+    },
+    {
+      "epoch": 0.6165413533834586,
+      "grad_norm": 1.6850091612061884,
+      "learning_rate": 3.8499081698401786e-05,
+      "loss": 0.2123,
+      "step": 1558
+    },
+    {
+      "epoch": 0.6169370795409577,
+      "grad_norm": 1.1612977554282127,
+      "learning_rate": 3.843186853309018e-05,
+      "loss": 0.1833,
+      "step": 1559
+    },
+    {
+      "epoch": 0.6173328056984567,
+      "grad_norm": 0.8620798718482171,
+      "learning_rate": 3.836467744690931e-05,
+      "loss": 0.1441,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6173328056984567,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9227742252828334,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2503255307674408,
+      "eval_runtime": 4.9088,
+      "eval_samples_per_second": 6.111,
+      "eval_steps_per_second": 0.204,
+      "step": 1560
+    },
+    {
+      "epoch": 0.6177285318559557,
+      "grad_norm": 0.5741179519626246,
+      "learning_rate": 3.829750856810123e-05,
+      "loss": 0.0854,
+      "step": 1561
+    },
+    {
+      "epoch": 0.6181242580134547,
+      "grad_norm": 0.6628778408364507,
+      "learning_rate": 3.823036202486559e-05,
+      "loss": 0.1235,
+      "step": 1562
+    },
+    {
+      "epoch": 0.6185199841709537,
+      "grad_norm": 0.6088495108954647,
+      "learning_rate": 3.81632379453594e-05,
+      "loss": 0.1169,
+      "step": 1563
+    },
+    {
+      "epoch": 0.6189157103284527,
+      "grad_norm": 0.5917842799427135,
+      "learning_rate": 3.809613645769682e-05,
+      "loss": 0.0955,
+      "step": 1564
+    },
+    {
+      "epoch": 0.6193114364859518,
+      "grad_norm": 0.5480350336060075,
+      "learning_rate": 3.8029057689948885e-05,
+      "loss": 0.1124,
+      "step": 1565
+    },
+    {
+      "epoch": 0.6193114364859518,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559272,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25939127802848816,
+      "eval_runtime": 5.1571,
+      "eval_samples_per_second": 5.817,
+      "eval_steps_per_second": 0.194,
+      "step": 1565
+    },
+    {
+      "epoch": 0.6197071626434507,
+      "grad_norm": 0.8035889475920374,
+      "learning_rate": 3.796200177014326e-05,
+      "loss": 0.1421,
+      "step": 1566
+    },
+    {
+      "epoch": 0.6201028888009498,
+      "grad_norm": 1.3907990943178097,
+      "learning_rate": 3.789496882626399e-05,
+      "loss": 0.2392,
+      "step": 1567
+    },
+    {
+      "epoch": 0.6204986149584487,
+      "grad_norm": 0.7660525536909165,
+      "learning_rate": 3.782795898625131e-05,
+      "loss": 0.1264,
+      "step": 1568
+    },
+    {
+      "epoch": 0.6208943411159478,
+      "grad_norm": 0.8500644692001158,
+      "learning_rate": 3.7760972378001304e-05,
+      "loss": 0.1652,
+      "step": 1569
+    },
+    {
+      "epoch": 0.6212900672734468,
+      "grad_norm": 1.4035006307606788,
+      "learning_rate": 3.7694009129365756e-05,
+      "loss": 0.3161,
+      "step": 1570
+    },
+    {
+      "epoch": 0.6212900672734468,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9232661091982293,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2596191465854645,
+      "eval_runtime": 5.0954,
+      "eval_samples_per_second": 5.888,
+      "eval_steps_per_second": 0.196,
+      "step": 1570
+    },
+    {
+      "epoch": 0.6216857934309458,
+      "grad_norm": 1.5819492572117542,
+      "learning_rate": 3.7627069368151845e-05,
+      "loss": 0.1741,
+      "step": 1571
+    },
+    {
+      "epoch": 0.6220815195884448,
+      "grad_norm": 0.9237331419482251,
+      "learning_rate": 3.756015322212193e-05,
+      "loss": 0.2366,
+      "step": 1572
+    },
+    {
+      "epoch": 0.6224772457459438,
+      "grad_norm": 0.818173417363629,
+      "learning_rate": 3.749326081899329e-05,
+      "loss": 0.1711,
+      "step": 1573
+    },
+    {
+      "epoch": 0.6228729719034428,
+      "grad_norm": 0.9082183165469345,
+      "learning_rate": 3.742639228643791e-05,
+      "loss": 0.1663,
+      "step": 1574
+    },
+    {
+      "epoch": 0.6232686980609419,
+      "grad_norm": 1.0668296407053135,
+      "learning_rate": 3.735954775208218e-05,
+      "loss": 0.1689,
+      "step": 1575
+    },
+    {
+      "epoch": 0.6232686980609419,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9215445154943434,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24464517831802368,
+      "eval_runtime": 5.182,
+      "eval_samples_per_second": 5.789,
+      "eval_steps_per_second": 0.193,
+      "step": 1575
+    },
+    {
+      "epoch": 0.6236644242184408,
+      "grad_norm": 0.6640194797498201,
+      "learning_rate": 3.729272734350671e-05,
+      "loss": 0.1371,
+      "step": 1576
+    },
+    {
+      "epoch": 0.6240601503759399,
+      "grad_norm": 0.662503330902093,
+      "learning_rate": 3.722593118824606e-05,
+      "loss": 0.1749,
+      "step": 1577
+    },
+    {
+      "epoch": 0.6244558765334388,
+      "grad_norm": 0.7087841794401485,
+      "learning_rate": 3.715915941378849e-05,
+      "loss": 0.1457,
+      "step": 1578
+    },
+    {
+      "epoch": 0.6248516026909379,
+      "grad_norm": 0.8161266288908837,
+      "learning_rate": 3.709241214757576e-05,
+      "loss": 0.1333,
+      "step": 1579
+    },
+    {
+      "epoch": 0.6252473288484369,
+      "grad_norm": 1.161517248433403,
+      "learning_rate": 3.7025689517002826e-05,
+      "loss": 0.1719,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6252473288484369,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9247417609444171,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24296875298023224,
+      "eval_runtime": 5.1606,
+      "eval_samples_per_second": 5.813,
+      "eval_steps_per_second": 0.194,
+      "step": 1580
+    },
+    {
+      "epoch": 0.6256430550059359,
+      "grad_norm": 0.8915166708051876,
+      "learning_rate": 3.695899164941757e-05,
+      "loss": 0.1565,
+      "step": 1581
+    },
+    {
+      "epoch": 0.6260387811634349,
+      "grad_norm": 0.7275993274960687,
+      "learning_rate": 3.689231867212074e-05,
+      "loss": 0.1502,
+      "step": 1582
+    },
+    {
+      "epoch": 0.6264345073209339,
+      "grad_norm": 0.9882838418687355,
+      "learning_rate": 3.682567071236544e-05,
+      "loss": 0.2004,
+      "step": 1583
+    },
+    {
+      "epoch": 0.6268302334784329,
+      "grad_norm": 0.8497961365729795,
+      "learning_rate": 3.675904789735716e-05,
+      "loss": 0.1872,
+      "step": 1584
+    },
+    {
+      "epoch": 0.627225959635932,
+      "grad_norm": 0.6654183776206689,
+      "learning_rate": 3.6692450354253246e-05,
+      "loss": 0.0944,
+      "step": 1585
+    },
+    {
+      "epoch": 0.627225959635932,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.926955238563699,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2514811158180237,
+      "eval_runtime": 4.9184,
+      "eval_samples_per_second": 6.1,
+      "eval_steps_per_second": 0.203,
+      "step": 1585
+    },
+    {
+      "epoch": 0.6276216857934309,
+      "grad_norm": 0.7505532563868831,
+      "learning_rate": 3.6625878210162966e-05,
+      "loss": 0.1643,
+      "step": 1586
+    },
+    {
+      "epoch": 0.62801741195093,
+      "grad_norm": 0.8802668321523966,
+      "learning_rate": 3.6559331592147e-05,
+      "loss": 0.1757,
+      "step": 1587
+    },
+    {
+      "epoch": 0.6284131381084289,
+      "grad_norm": 0.8812587374045024,
+      "learning_rate": 3.649281062721733e-05,
+      "loss": 0.1443,
+      "step": 1588
+    },
+    {
+      "epoch": 0.628808864265928,
+      "grad_norm": 0.6010125850815679,
+      "learning_rate": 3.642631544233703e-05,
+      "loss": 0.1327,
+      "step": 1589
+    },
+    {
+      "epoch": 0.629204590423427,
+      "grad_norm": 0.7077558998839296,
+      "learning_rate": 3.63598461644199e-05,
+      "loss": 0.1166,
+      "step": 1590
+    },
+    {
+      "epoch": 0.629204590423427,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9272011805213969,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2510579526424408,
+      "eval_runtime": 5.3252,
+      "eval_samples_per_second": 5.634,
+      "eval_steps_per_second": 0.188,
+      "step": 1590
+    },
+    {
+      "epoch": 0.629600316580926,
+      "grad_norm": 0.949185022980317,
+      "learning_rate": 3.6293402920330346e-05,
+      "loss": 0.1688,
+      "step": 1591
+    },
+    {
+      "epoch": 0.629996042738425,
+      "grad_norm": 0.6186071728252178,
+      "learning_rate": 3.622698583688304e-05,
+      "loss": 0.1791,
+      "step": 1592
+    },
+    {
+      "epoch": 0.630391768895924,
+      "grad_norm": 0.6304083801077957,
+      "learning_rate": 3.616059504084278e-05,
+      "loss": 0.1244,
+      "step": 1593
+    },
+    {
+      "epoch": 0.630787495053423,
+      "grad_norm": 0.7062535416501295,
+      "learning_rate": 3.609423065892412e-05,
+      "loss": 0.1491,
+      "step": 1594
+    },
+    {
+      "epoch": 0.6311832212109221,
+      "grad_norm": 0.719747570030943,
+      "learning_rate": 3.6027892817791275e-05,
+      "loss": 0.1908,
+      "step": 1595
+    },
+    {
+      "epoch": 0.6311832212109221,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2559244930744171,
+      "eval_runtime": 4.871,
+      "eval_samples_per_second": 6.159,
+      "eval_steps_per_second": 0.205,
+      "step": 1595
+    },
+    {
+      "epoch": 0.631578947368421,
+      "grad_norm": 0.5650329560203284,
+      "learning_rate": 3.5961581644057744e-05,
+      "loss": 0.1409,
+      "step": 1596
+    },
+    {
+      "epoch": 0.6319746735259201,
+      "grad_norm": 1.0987871409912282,
+      "learning_rate": 3.589529726428615e-05,
+      "loss": 0.1846,
+      "step": 1597
+    },
+    {
+      "epoch": 0.6323703996834191,
+      "grad_norm": 0.8728289476461197,
+      "learning_rate": 3.5829039804988e-05,
+      "loss": 0.1761,
+      "step": 1598
+    },
+    {
+      "epoch": 0.6327661258409181,
+      "grad_norm": 0.8223132300459512,
+      "learning_rate": 3.576280939262336e-05,
+      "loss": 0.1184,
+      "step": 1599
+    },
+    {
+      "epoch": 0.6331618519984171,
+      "grad_norm": 0.7745023100215828,
+      "learning_rate": 3.5696606153600754e-05,
+      "loss": 0.1541,
+      "step": 1600
+    },
+    {
+      "epoch": 0.6331618519984171,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9249877029021151,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24694010615348816,
+      "eval_runtime": 4.9804,
+      "eval_samples_per_second": 6.024,
+      "eval_steps_per_second": 0.201,
+      "step": 1600
+    },
+    {
+      "epoch": 0.6335575781559161,
+      "grad_norm": 0.618237545390577,
+      "learning_rate": 3.563043021427677e-05,
+      "loss": 0.103,
+      "step": 1601
+    },
+    {
+      "epoch": 0.6339533043134151,
+      "grad_norm": 0.760799307925824,
+      "learning_rate": 3.556428170095593e-05,
+      "loss": 0.1676,
+      "step": 1602
+    },
+    {
+      "epoch": 0.6343490304709142,
+      "grad_norm": 0.9756936827721346,
+      "learning_rate": 3.5498160739890404e-05,
+      "loss": 0.176,
+      "step": 1603
+    },
+    {
+      "epoch": 0.6347447566284131,
+      "grad_norm": 0.7292806996057538,
+      "learning_rate": 3.5432067457279775e-05,
+      "loss": 0.1387,
+      "step": 1604
+    },
+    {
+      "epoch": 0.6351404827859122,
+      "grad_norm": 0.7944460992734116,
+      "learning_rate": 3.5366001979270805e-05,
+      "loss": 0.1501,
+      "step": 1605
+    },
+    {
+      "epoch": 0.6351404827859122,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867191,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24435220658779144,
+      "eval_runtime": 5.2837,
+      "eval_samples_per_second": 5.678,
+      "eval_steps_per_second": 0.189,
+      "step": 1605
+    },
+    {
+      "epoch": 0.6355362089434111,
+      "grad_norm": 0.9692676907945897,
+      "learning_rate": 3.529996443195714e-05,
+      "loss": 0.1493,
+      "step": 1606
+    },
+    {
+      "epoch": 0.6359319351009102,
+      "grad_norm": 0.6194671017107998,
+      "learning_rate": 3.523395494137921e-05,
+      "loss": 0.1512,
+      "step": 1607
+    },
+    {
+      "epoch": 0.6363276612584092,
+      "grad_norm": 0.7070073655609458,
+      "learning_rate": 3.5167973633523804e-05,
+      "loss": 0.1004,
+      "step": 1608
+    },
+    {
+      "epoch": 0.6367233874159082,
+      "grad_norm": 0.8890423393855097,
+      "learning_rate": 3.510202063432397e-05,
+      "loss": 0.1157,
+      "step": 1609
+    },
+    {
+      "epoch": 0.6371191135734072,
+      "grad_norm": 0.8414660654124163,
+      "learning_rate": 3.503609606965872e-05,
+      "loss": 0.1984,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6371191135734072,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9240039350713231,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25208333134651184,
+      "eval_runtime": 4.9037,
+      "eval_samples_per_second": 6.118,
+      "eval_steps_per_second": 0.204,
+      "step": 1610
+    },
+    {
+      "epoch": 0.6375148397309062,
+      "grad_norm": 1.2827861941865317,
+      "learning_rate": 3.497020006535278e-05,
+      "loss": 0.2692,
+      "step": 1611
+    },
+    {
+      "epoch": 0.6379105658884052,
+      "grad_norm": 0.9299602619133756,
+      "learning_rate": 3.4904332747176373e-05,
+      "loss": 0.1413,
+      "step": 1612
+    },
+    {
+      "epoch": 0.6383062920459043,
+      "grad_norm": 0.9253425223596159,
+      "learning_rate": 3.483849424084499e-05,
+      "loss": 0.1619,
+      "step": 1613
+    },
+    {
+      "epoch": 0.6387020182034032,
+      "grad_norm": 1.653405104104079,
+      "learning_rate": 3.477268467201911e-05,
+      "loss": 0.2736,
+      "step": 1614
+    },
+    {
+      "epoch": 0.6390977443609023,
+      "grad_norm": 1.153863457706101,
+      "learning_rate": 3.470690416630395e-05,
+      "loss": 0.1732,
+      "step": 1615
+    },
+    {
+      "epoch": 0.6390977443609023,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9230201672405312,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25019532442092896,
+      "eval_runtime": 5.1233,
+      "eval_samples_per_second": 5.856,
+      "eval_steps_per_second": 0.195,
+      "step": 1615
+    },
+    {
+      "epoch": 0.6394934705184012,
+      "grad_norm": 0.9692509270708172,
+      "learning_rate": 3.4641152849249346e-05,
+      "loss": 0.1829,
+      "step": 1616
+    },
+    {
+      "epoch": 0.6398891966759003,
+      "grad_norm": 0.8552004445245153,
+      "learning_rate": 3.457543084634932e-05,
+      "loss": 0.1357,
+      "step": 1617
+    },
+    {
+      "epoch": 0.6402849228333993,
+      "grad_norm": 0.8423305232122711,
+      "learning_rate": 3.4509738283042046e-05,
+      "loss": 0.1286,
+      "step": 1618
+    },
+    {
+      "epoch": 0.6406806489908983,
+      "grad_norm": 1.0444060825385282,
+      "learning_rate": 3.44440752847094e-05,
+      "loss": 0.1623,
+      "step": 1619
+    },
+    {
+      "epoch": 0.6410763751483973,
+      "grad_norm": 1.0332518155086392,
+      "learning_rate": 3.437844197667696e-05,
+      "loss": 0.1784,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6410763751483973,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9459459459459459,
+      "eval_PRM F1 AUC": 0.7274963108706345,
+      "eval_PRM F1 AUC (fixed)": 0.9200688637481553,
+      "eval_PRM F1 Neg": 0.6,
+      "eval_PRM NPV": 0.8181818181818182,
+      "eval_PRM Precision": 0.9130434782608695,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.24469400942325592,
+      "eval_runtime": 5.1993,
+      "eval_samples_per_second": 5.77,
+      "eval_steps_per_second": 0.192,
+      "step": 1620
+    },
+    {
+      "epoch": 0.6414721013058963,
+      "grad_norm": 0.5817713233669263,
+      "learning_rate": 3.431283848421347e-05,
+      "loss": 0.0917,
+      "step": 1621
+    },
+    {
+      "epoch": 0.6418678274633953,
+      "grad_norm": 0.6813452022057115,
+      "learning_rate": 3.4247264932530964e-05,
+      "loss": 0.1173,
+      "step": 1622
+    },
+    {
+      "epoch": 0.6422635536208944,
+      "grad_norm": 1.0405022904962467,
+      "learning_rate": 3.418172144678416e-05,
+      "loss": 0.1629,
+      "step": 1623
+    },
+    {
+      "epoch": 0.6426592797783933,
+      "grad_norm": 1.014668822575636,
+      "learning_rate": 3.4116208152070473e-05,
+      "loss": 0.1649,
+      "step": 1624
+    },
+    {
+      "epoch": 0.6430550059358924,
+      "grad_norm": 0.6041421991100032,
+      "learning_rate": 3.4050725173429695e-05,
+      "loss": 0.12,
+      "step": 1625
+    },
+    {
+      "epoch": 0.6430550059358924,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9188391539596655,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2541666626930237,
+      "eval_runtime": 4.9228,
+      "eval_samples_per_second": 6.094,
+      "eval_steps_per_second": 0.203,
+      "step": 1625
+    },
+    {
+      "epoch": 0.6434507320933913,
+      "grad_norm": 0.6045546392702725,
+      "learning_rate": 3.3985272635843725e-05,
+      "loss": 0.1427,
+      "step": 1626
+    },
+    {
+      "epoch": 0.6438464582508904,
+      "grad_norm": 0.8189187484681875,
+      "learning_rate": 3.39198506642364e-05,
+      "loss": 0.1963,
+      "step": 1627
+    },
+    {
+      "epoch": 0.6442421844083894,
+      "grad_norm": 0.7773420731827327,
+      "learning_rate": 3.3854459383473174e-05,
+      "loss": 0.1648,
+      "step": 1628
+    },
+    {
+      "epoch": 0.6446379105658884,
+      "grad_norm": 0.8912136359019834,
+      "learning_rate": 3.378909891836098e-05,
+      "loss": 0.1877,
+      "step": 1629
+    },
+    {
+      "epoch": 0.6450336367233874,
+      "grad_norm": 0.7129557098247674,
+      "learning_rate": 3.372376939364787e-05,
+      "loss": 0.1346,
+      "step": 1630
+    },
+    {
+      "epoch": 0.6450336367233874,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9149040826364978,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.267578125,
+      "eval_runtime": 4.7079,
+      "eval_samples_per_second": 6.372,
+      "eval_steps_per_second": 0.212,
+      "step": 1630
+    },
+    {
+      "epoch": 0.6454293628808865,
+      "grad_norm": 0.8812031044552366,
+      "learning_rate": 3.36584709340229e-05,
+      "loss": 0.2078,
+      "step": 1631
+    },
+    {
+      "epoch": 0.6458250890383854,
+      "grad_norm": 0.6538499392032535,
+      "learning_rate": 3.3593203664115807e-05,
+      "loss": 0.1142,
+      "step": 1632
+    },
+    {
+      "epoch": 0.6462208151958845,
+      "grad_norm": 0.5942485118920212,
+      "learning_rate": 3.352796770849679e-05,
+      "loss": 0.1433,
+      "step": 1633
+    },
+    {
+      "epoch": 0.6466165413533834,
+      "grad_norm": 0.6144719088984341,
+      "learning_rate": 3.3462763191676305e-05,
+      "loss": 0.1222,
+      "step": 1634
+    },
+    {
+      "epoch": 0.6470122675108825,
+      "grad_norm": 0.8327972854183461,
+      "learning_rate": 3.339759023810478e-05,
+      "loss": 0.1813,
+      "step": 1635
+    },
+    {
+      "epoch": 0.6470122675108825,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9380530973451328,
+      "eval_PRM F1 AUC": 0.6532218396458436,
+      "eval_PRM F1 AUC (fixed)": 0.9141662567634039,
+      "eval_PRM F1 Neg": 0.46153846153846156,
+      "eval_PRM NPV": 0.8571428571428571,
+      "eval_PRM Precision": 0.8907563025210085,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3157894736842105,
+      "eval_loss": 0.2788737118244171,
+      "eval_runtime": 5.1964,
+      "eval_samples_per_second": 5.773,
+      "eval_steps_per_second": 0.192,
+      "step": 1635
+    },
+    {
+      "epoch": 0.6474079936683815,
+      "grad_norm": 0.6650308669705507,
+      "learning_rate": 3.3332448972172434e-05,
+      "loss": 0.1413,
+      "step": 1636
+    },
+    {
+      "epoch": 0.6478037198258805,
+      "grad_norm": 1.0840000308928164,
+      "learning_rate": 3.3267339518208976e-05,
+      "loss": 0.1912,
+      "step": 1637
+    },
+    {
+      "epoch": 0.6481994459833795,
+      "grad_norm": 0.787224505067319,
+      "learning_rate": 3.32022620004834e-05,
+      "loss": 0.1697,
+      "step": 1638
+    },
+    {
+      "epoch": 0.6485951721408785,
+      "grad_norm": 0.7664209452418511,
+      "learning_rate": 3.313721654320375e-05,
+      "loss": 0.1555,
+      "step": 1639
+    },
+    {
+      "epoch": 0.6489908982983775,
+      "grad_norm": 0.7503675496270195,
+      "learning_rate": 3.30722032705169e-05,
+      "loss": 0.1867,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6489908982983775,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9136743728480079,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2711588442325592,
+      "eval_runtime": 5.0687,
+      "eval_samples_per_second": 5.919,
+      "eval_steps_per_second": 0.197,
+      "step": 1640
+    },
+    {
+      "epoch": 0.6493866244558766,
+      "grad_norm": 0.8394211100379778,
+      "learning_rate": 3.300722230650827e-05,
+      "loss": 0.1712,
+      "step": 1641
+    },
+    {
+      "epoch": 0.6497823506133755,
+      "grad_norm": 0.7218193739223439,
+      "learning_rate": 3.294227377520161e-05,
+      "loss": 0.1561,
+      "step": 1642
+    },
+    {
+      "epoch": 0.6501780767708746,
+      "grad_norm": 0.7586954516919955,
+      "learning_rate": 3.2877357800558804e-05,
+      "loss": 0.123,
+      "step": 1643
+    },
+    {
+      "epoch": 0.6505738029283735,
+      "grad_norm": 1.186653808526199,
+      "learning_rate": 3.281247450647956e-05,
+      "loss": 0.2529,
+      "step": 1644
+    },
+    {
+      "epoch": 0.6509695290858726,
+      "grad_norm": 0.857976019099429,
+      "learning_rate": 3.274762401680124e-05,
+      "loss": 0.1382,
+      "step": 1645
+    },
+    {
+      "epoch": 0.6509695290858726,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9151500245941958,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25605469942092896,
+      "eval_runtime": 5.1437,
+      "eval_samples_per_second": 5.832,
+      "eval_steps_per_second": 0.194,
+      "step": 1645
+    },
+    {
+      "epoch": 0.6513652552433716,
+      "grad_norm": 0.7480119711488435,
+      "learning_rate": 3.268280645529857e-05,
+      "loss": 0.1258,
+      "step": 1646
+    },
+    {
+      "epoch": 0.6517609814008706,
+      "grad_norm": 1.0612554222669093,
+      "learning_rate": 3.2618021945683455e-05,
+      "loss": 0.1888,
+      "step": 1647
+    },
+    {
+      "epoch": 0.6521567075583696,
+      "grad_norm": 1.218558267882022,
+      "learning_rate": 3.255327061160467e-05,
+      "loss": 0.2162,
+      "step": 1648
+    },
+    {
+      "epoch": 0.6525524337158686,
+      "grad_norm": 0.9550403767591656,
+      "learning_rate": 3.2488552576647746e-05,
+      "loss": 0.1804,
+      "step": 1649
+    },
+    {
+      "epoch": 0.6529481598733676,
+      "grad_norm": 0.8075922213497077,
+      "learning_rate": 3.24238679643346e-05,
+      "loss": 0.1678,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6529481598733676,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9411764705882353,
+      "eval_PRM F1 AUC": 0.7228234136743729,
+      "eval_PRM F1 AUC (fixed)": 0.9153959665518936,
+      "eval_PRM F1 Neg": 0.5806451612903226,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9122807017543859,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.47368421052631576,
+      "eval_loss": 0.2516927123069763,
+      "eval_runtime": 5.3396,
+      "eval_samples_per_second": 5.618,
+      "eval_steps_per_second": 0.187,
+      "step": 1650
+    },
+    {
+      "epoch": 0.6533438860308667,
+      "grad_norm": 1.1759267766414092,
+      "learning_rate": 3.235921689812334e-05,
+      "loss": 0.2797,
+      "step": 1651
+    },
+    {
+      "epoch": 0.6537396121883656,
+      "grad_norm": 0.9986688104463152,
+      "learning_rate": 3.229459950140814e-05,
+      "loss": 0.2049,
+      "step": 1652
+    },
+    {
+      "epoch": 0.6541353383458647,
+      "grad_norm": 1.1000952924471674,
+      "learning_rate": 3.22300158975188e-05,
+      "loss": 0.1558,
+      "step": 1653
+    },
+    {
+      "epoch": 0.6545310645033636,
+      "grad_norm": 0.9164561969127896,
+      "learning_rate": 3.2165466209720705e-05,
+      "loss": 0.1374,
+      "step": 1654
+    },
+    {
+      "epoch": 0.6549267906608627,
+      "grad_norm": 0.7527894698896691,
+      "learning_rate": 3.210095056121446e-05,
+      "loss": 0.1584,
+      "step": 1655
+    },
+    {
+      "epoch": 0.6549267906608627,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9149040826364978,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2583984434604645,
+      "eval_runtime": 5.0874,
+      "eval_samples_per_second": 5.897,
+      "eval_steps_per_second": 0.197,
+      "step": 1655
+    },
+    {
+      "epoch": 0.6553225168183617,
+      "grad_norm": 0.8170571291583314,
+      "learning_rate": 3.203646907513575e-05,
+      "loss": 0.1419,
+      "step": 1656
+    },
+    {
+      "epoch": 0.6557182429758607,
+      "grad_norm": 0.5939985859431135,
+      "learning_rate": 3.197202187455498e-05,
+      "loss": 0.1275,
+      "step": 1657
+    },
+    {
+      "epoch": 0.6561139691333597,
+      "grad_norm": 0.8939795146819883,
+      "learning_rate": 3.1907609082477215e-05,
+      "loss": 0.1489,
+      "step": 1658
+    },
+    {
+      "epoch": 0.6565096952908587,
+      "grad_norm": 1.044116217452929,
+      "learning_rate": 3.184323082184176e-05,
+      "loss": 0.1904,
+      "step": 1659
+    },
+    {
+      "epoch": 0.6569054214483577,
+      "grad_norm": 0.6819371138436929,
+      "learning_rate": 3.1778887215522044e-05,
+      "loss": 0.1223,
+      "step": 1660
+    },
+    {
+      "epoch": 0.6569054214483577,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9422222222222222,
+      "eval_PRM F1 AUC": 0.6795376291195278,
+      "eval_PRM F1 AUC (fixed)": 0.9107230693556321,
+      "eval_PRM F1 Neg": 0.5185185185185185,
+      "eval_PRM NPV": 0.875,
+      "eval_PRM Precision": 0.8983050847457628,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.3684210526315789,
+      "eval_loss": 0.27617186307907104,
+      "eval_runtime": 4.8275,
+      "eval_samples_per_second": 6.214,
+      "eval_steps_per_second": 0.207,
+      "step": 1660
+    },
+    {
+      "epoch": 0.6573011476058568,
+      "grad_norm": 0.911899996276412,
+      "learning_rate": 3.171457838632539e-05,
+      "loss": 0.2473,
+      "step": 1661
+    },
+    {
+      "epoch": 0.6576968737633557,
+      "grad_norm": 0.9490085475168927,
+      "learning_rate": 3.165030445699269e-05,
+      "loss": 0.1727,
+      "step": 1662
+    },
+    {
+      "epoch": 0.6580925999208548,
+      "grad_norm": 0.8297175488221508,
+      "learning_rate": 3.158606555019826e-05,
+      "loss": 0.1458,
+      "step": 1663
+    },
+    {
+      "epoch": 0.6584883260783537,
+      "grad_norm": 0.6378900203189766,
+      "learning_rate": 3.1521861788549544e-05,
+      "loss": 0.1568,
+      "step": 1664
+    },
+    {
+      "epoch": 0.6588840522358528,
+      "grad_norm": 0.930754440456445,
+      "learning_rate": 3.145769329458695e-05,
+      "loss": 0.1168,
+      "step": 1665
+    },
+    {
+      "epoch": 0.6588840522358528,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9117068371864241,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26559245586395264,
+      "eval_runtime": 5.3569,
+      "eval_samples_per_second": 5.6,
+      "eval_steps_per_second": 0.187,
+      "step": 1665
+    },
+    {
+      "epoch": 0.6592797783933518,
+      "grad_norm": 0.637509194436935,
+      "learning_rate": 3.139356019078352e-05,
+      "loss": 0.1563,
+      "step": 1666
+    },
+    {
+      "epoch": 0.6596755045508508,
+      "grad_norm": 0.8084565735950835,
+      "learning_rate": 3.13294625995448e-05,
+      "loss": 0.1052,
+      "step": 1667
+    },
+    {
+      "epoch": 0.6600712307083498,
+      "grad_norm": 0.6143164711886805,
+      "learning_rate": 3.126540064320853e-05,
+      "loss": 0.121,
+      "step": 1668
+    },
+    {
+      "epoch": 0.6604669568658489,
+      "grad_norm": 0.9445339911627708,
+      "learning_rate": 3.120137444404442e-05,
+      "loss": 0.2158,
+      "step": 1669
+    },
+    {
+      "epoch": 0.6608626830233478,
+      "grad_norm": 0.5929224640844797,
+      "learning_rate": 3.1137384124253974e-05,
+      "loss": 0.1536,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6608626830233478,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.91096901131333,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2622233033180237,
+      "eval_runtime": 5.0428,
+      "eval_samples_per_second": 5.949,
+      "eval_steps_per_second": 0.198,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6612584091808469,
+      "grad_norm": 0.7841873576164498,
+      "learning_rate": 3.107342980597019e-05,
+      "loss": 0.1054,
+      "step": 1671
+    },
+    {
+      "epoch": 0.6616541353383458,
+      "grad_norm": 0.70820798306573,
+      "learning_rate": 3.1009511611257354e-05,
+      "loss": 0.1291,
+      "step": 1672
+    },
+    {
+      "epoch": 0.6620498614958449,
+      "grad_norm": 0.846618243132325,
+      "learning_rate": 3.0945629662110805e-05,
+      "loss": 0.14,
+      "step": 1673
+    },
+    {
+      "epoch": 0.6624455876533439,
+      "grad_norm": 0.6411665715812614,
+      "learning_rate": 3.088178408045672e-05,
+      "loss": 0.1403,
+      "step": 1674
+    },
+    {
+      "epoch": 0.6628413138108429,
+      "grad_norm": 0.7870212728656223,
+      "learning_rate": 3.0817974988151846e-05,
+      "loss": 0.1485,
+      "step": 1675
+    },
+    {
+      "epoch": 0.6628413138108429,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.911460895228726,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2684732973575592,
+      "eval_runtime": 5.0451,
+      "eval_samples_per_second": 5.946,
+      "eval_steps_per_second": 0.198,
+      "step": 1675
+    },
+    {
+      "epoch": 0.6632370399683419,
+      "grad_norm": 0.6406667783607488,
+      "learning_rate": 3.075420250698331e-05,
+      "loss": 0.1117,
+      "step": 1676
+    },
+    {
+      "epoch": 0.6636327661258409,
+      "grad_norm": 1.0351196536488345,
+      "learning_rate": 3.069046675866831e-05,
+      "loss": 0.0966,
+      "step": 1677
+    },
+    {
+      "epoch": 0.6640284922833399,
+      "grad_norm": 1.2950462103388103,
+      "learning_rate": 3.062676786485399e-05,
+      "loss": 0.2094,
+      "step": 1678
+    },
+    {
+      "epoch": 0.664424218440839,
+      "grad_norm": 0.8393167820905282,
+      "learning_rate": 3.0563105947117147e-05,
+      "loss": 0.184,
+      "step": 1679
+    },
+    {
+      "epoch": 0.6648199445983379,
+      "grad_norm": 1.2406977099661578,
+      "learning_rate": 3.0499481126963947e-05,
+      "loss": 0.2081,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6648199445983379,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.909985243482538,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2720377743244171,
+      "eval_runtime": 5.0297,
+      "eval_samples_per_second": 5.965,
+      "eval_steps_per_second": 0.199,
+      "step": 1680
+    },
+    {
+      "epoch": 0.665215670755837,
+      "grad_norm": 0.6777976461634672,
+      "learning_rate": 3.0435893525829846e-05,
+      "loss": 0.1085,
+      "step": 1681
+    },
+    {
+      "epoch": 0.6656113969133359,
+      "grad_norm": 0.9067404798371308,
+      "learning_rate": 3.0372343265079172e-05,
+      "loss": 0.1577,
+      "step": 1682
+    },
+    {
+      "epoch": 0.666007123070835,
+      "grad_norm": 0.7576189170624374,
+      "learning_rate": 3.030883046600505e-05,
+      "loss": 0.1117,
+      "step": 1683
+    },
+    {
+      "epoch": 0.666402849228334,
+      "grad_norm": 0.8810048708597216,
+      "learning_rate": 3.0245355249829055e-05,
+      "loss": 0.1513,
+      "step": 1684
+    },
+    {
+      "epoch": 0.666798575385833,
+      "grad_norm": 0.8002553330291301,
+      "learning_rate": 3.018191773770108e-05,
+      "loss": 0.1716,
+      "step": 1685
+    },
+    {
+      "epoch": 0.666798575385833,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9131824889326119,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27470701932907104,
+      "eval_runtime": 5.0441,
+      "eval_samples_per_second": 5.947,
+      "eval_steps_per_second": 0.198,
+      "step": 1685
+    },
+    {
+      "epoch": 0.667194301543332,
+      "grad_norm": 0.9254054059954825,
+      "learning_rate": 3.011851805069904e-05,
+      "loss": 0.1289,
+      "step": 1686
+    },
+    {
+      "epoch": 0.667590027700831,
+      "grad_norm": 1.0204182931034567,
+      "learning_rate": 3.005515630982858e-05,
+      "loss": 0.2235,
+      "step": 1687
+    },
+    {
+      "epoch": 0.66798575385833,
+      "grad_norm": 0.5220672838150713,
+      "learning_rate": 2.9991832636023065e-05,
+      "loss": 0.1091,
+      "step": 1688
+    },
+    {
+      "epoch": 0.6683814800158291,
+      "grad_norm": 0.661670531815788,
+      "learning_rate": 2.9928547150143066e-05,
+      "loss": 0.1099,
+      "step": 1689
+    },
+    {
+      "epoch": 0.668777206173328,
+      "grad_norm": 0.6758057965250595,
+      "learning_rate": 2.9865299972976386e-05,
+      "loss": 0.1459,
+      "step": 1690
+    },
+    {
+      "epoch": 0.668777206173328,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9141662567634039,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.27224934101104736,
+      "eval_runtime": 5.0298,
+      "eval_samples_per_second": 5.964,
+      "eval_steps_per_second": 0.199,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6691729323308271,
+      "grad_norm": 0.7757461204124356,
+      "learning_rate": 2.980209122523759e-05,
+      "loss": 0.1301,
+      "step": 1691
+    },
+    {
+      "epoch": 0.669568658488326,
+      "grad_norm": 0.9072837541279577,
+      "learning_rate": 2.9738921027568024e-05,
+      "loss": 0.1435,
+      "step": 1692
+    },
+    {
+      "epoch": 0.6699643846458251,
+      "grad_norm": 0.9186257200102006,
+      "learning_rate": 2.9675789500535328e-05,
+      "loss": 0.2005,
+      "step": 1693
+    },
+    {
+      "epoch": 0.6703601108033241,
+      "grad_norm": 0.8616896608654981,
+      "learning_rate": 2.9612696764633465e-05,
+      "loss": 0.161,
+      "step": 1694
+    },
+    {
+      "epoch": 0.6707558369608231,
+      "grad_norm": 1.4746013378335232,
+      "learning_rate": 2.9549642940282246e-05,
+      "loss": 0.2358,
+      "step": 1695
+    },
+    {
+      "epoch": 0.6707558369608231,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9156419085095917,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2687825560569763,
+      "eval_runtime": 5.075,
+      "eval_samples_per_second": 5.911,
+      "eval_steps_per_second": 0.197,
+      "step": 1695
+    },
+    {
+      "epoch": 0.6711515631183221,
+      "grad_norm": 0.9346803410165002,
+      "learning_rate": 2.9486628147827273e-05,
+      "loss": 0.1895,
+      "step": 1696
+    },
+    {
+      "epoch": 0.6715472892758211,
+      "grad_norm": 0.6807351729965638,
+      "learning_rate": 2.9423652507539655e-05,
+      "loss": 0.0793,
+      "step": 1697
+    },
+    {
+      "epoch": 0.6719430154333201,
+      "grad_norm": 0.7741113757155825,
+      "learning_rate": 2.936071613961574e-05,
+      "loss": 0.1577,
+      "step": 1698
+    },
+    {
+      "epoch": 0.6723387415908192,
+      "grad_norm": 0.8259174954237541,
+      "learning_rate": 2.9297819164176965e-05,
+      "loss": 0.1474,
+      "step": 1699
+    },
+    {
+      "epoch": 0.6727344677483181,
+      "grad_norm": 0.8518234679048291,
+      "learning_rate": 2.923496170126953e-05,
+      "loss": 0.1675,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6727344677483181,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9168716182980816,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26111653447151184,
+      "eval_runtime": 4.8927,
+      "eval_samples_per_second": 6.132,
+      "eval_steps_per_second": 0.204,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6731301939058172,
+      "grad_norm": 0.865580062633823,
+      "learning_rate": 2.9172143870864276e-05,
+      "loss": 0.1897,
+      "step": 1701
+    },
+    {
+      "epoch": 0.6735259200633161,
+      "grad_norm": 0.8018772939654772,
+      "learning_rate": 2.9109365792856358e-05,
+      "loss": 0.1721,
+      "step": 1702
+    },
+    {
+      "epoch": 0.6739216462208152,
+      "grad_norm": 0.9636502380662514,
+      "learning_rate": 2.9046627587065066e-05,
+      "loss": 0.2111,
+      "step": 1703
+    },
+    {
+      "epoch": 0.6743173723783142,
+      "grad_norm": 0.628670255003344,
+      "learning_rate": 2.898392937323364e-05,
+      "loss": 0.1376,
+      "step": 1704
+    },
+    {
+      "epoch": 0.6747130985358132,
+      "grad_norm": 0.5608547698521629,
+      "learning_rate": 2.8921271271028894e-05,
+      "loss": 0.1496,
+      "step": 1705
+    },
+    {
+      "epoch": 0.6747130985358132,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9163797343826857,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2604817748069763,
+      "eval_runtime": 5.0308,
+      "eval_samples_per_second": 5.963,
+      "eval_steps_per_second": 0.199,
+      "step": 1705
+    },
+    {
+      "epoch": 0.6751088246933122,
+      "grad_norm": 0.7759052906685112,
+      "learning_rate": 2.8858653400041176e-05,
+      "loss": 0.1208,
+      "step": 1706
+    },
+    {
+      "epoch": 0.6755045508508113,
+      "grad_norm": 0.8981517224223691,
+      "learning_rate": 2.8796075879783956e-05,
+      "loss": 0.1704,
+      "step": 1707
+    },
+    {
+      "epoch": 0.6759002770083102,
+      "grad_norm": 0.7044619459285052,
+      "learning_rate": 2.873353882969382e-05,
+      "loss": 0.1491,
+      "step": 1708
+    },
+    {
+      "epoch": 0.6762960031658093,
+      "grad_norm": 0.683527284408525,
+      "learning_rate": 2.8671042369129984e-05,
+      "loss": 0.1486,
+      "step": 1709
+    },
+    {
+      "epoch": 0.6766917293233082,
+      "grad_norm": 0.636836018681674,
+      "learning_rate": 2.860858661737428e-05,
+      "loss": 0.1064,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6766917293233082,
+      "eval_PRM Accuracy": 0.9047619047619048,
+      "eval_PRM F1": 0.9464285714285714,
+      "eval_PRM F1 AUC": 0.7058534185932119,
+      "eval_PRM F1 AUC (fixed)": 0.9168716182980816,
+      "eval_PRM F1 Neg": 0.5714285714285714,
+      "eval_PRM NPV": 0.8888888888888888,
+      "eval_PRM Precision": 0.905982905982906,
+      "eval_PRM Recall": 0.9906542056074766,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26404622197151184,
+      "eval_runtime": 5.008,
+      "eval_samples_per_second": 5.99,
+      "eval_steps_per_second": 0.2,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6770874554808073,
+      "grad_norm": 0.720224307516925,
+      "learning_rate": 2.8546171693630746e-05,
+      "loss": 0.1262,
+      "step": 1711
+    },
+    {
+      "epoch": 0.6774831816383063,
+      "grad_norm": 1.0411798156204677,
+      "learning_rate": 2.8483797717025646e-05,
+      "loss": 0.2297,
+      "step": 1712
+    },
+    {
+      "epoch": 0.6778789077958053,
+      "grad_norm": 0.6920023428702126,
+      "learning_rate": 2.8421464806606955e-05,
+      "loss": 0.1539,
+      "step": 1713
+    },
+    {
+      "epoch": 0.6782746339533043,
+      "grad_norm": 0.5545419355580743,
+      "learning_rate": 2.8359173081344305e-05,
+      "loss": 0.116,
+      "step": 1714
+    },
+    {
+      "epoch": 0.6786703601108033,
+      "grad_norm": 0.8240655113494316,
+      "learning_rate": 2.8296922660128744e-05,
+      "loss": 0.1782,
+      "step": 1715
+    },
+    {
+      "epoch": 0.6786703601108033,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9161337924249877,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26171875,
+      "eval_runtime": 5.0985,
+      "eval_samples_per_second": 5.884,
+      "eval_steps_per_second": 0.196,
+      "step": 1715
+    },
+    {
+      "epoch": 0.6790660862683023,
+      "grad_norm": 0.4868084574715076,
+      "learning_rate": 2.8234713661772484e-05,
+      "loss": 0.1194,
+      "step": 1716
+    },
+    {
+      "epoch": 0.6794618124258014,
+      "grad_norm": 0.8951421410496175,
+      "learning_rate": 2.8172546205008683e-05,
+      "loss": 0.1816,
+      "step": 1717
+    },
+    {
+      "epoch": 0.6798575385833003,
+      "grad_norm": 0.6162112563533695,
+      "learning_rate": 2.8110420408491155e-05,
+      "loss": 0.1399,
+      "step": 1718
+    },
+    {
+      "epoch": 0.6802532647407994,
+      "grad_norm": 0.5854854751130102,
+      "learning_rate": 2.8048336390794272e-05,
+      "loss": 0.1078,
+      "step": 1719
+    },
+    {
+      "epoch": 0.6806489908982983,
+      "grad_norm": 1.1250226870307858,
+      "learning_rate": 2.7986294270412623e-05,
+      "loss": 0.1581,
+      "step": 1720
+    },
+    {
+      "epoch": 0.6806489908982983,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9205607476635514,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2596842348575592,
+      "eval_runtime": 4.974,
+      "eval_samples_per_second": 6.031,
+      "eval_steps_per_second": 0.201,
+      "step": 1720
+    },
+    {
+      "epoch": 0.6810447170557974,
+      "grad_norm": 0.7806054956941448,
+      "learning_rate": 2.7924294165760878e-05,
+      "loss": 0.156,
+      "step": 1721
+    },
+    {
+      "epoch": 0.6814404432132964,
+      "grad_norm": 0.674313727078266,
+      "learning_rate": 2.7862336195173434e-05,
+      "loss": 0.1257,
+      "step": 1722
+    },
+    {
+      "epoch": 0.6818361693707954,
+      "grad_norm": 0.6485236002241265,
+      "learning_rate": 2.7800420476904337e-05,
+      "loss": 0.1732,
+      "step": 1723
+    },
+    {
+      "epoch": 0.6822318955282944,
+      "grad_norm": 0.681551541340875,
+      "learning_rate": 2.7738547129127002e-05,
+      "loss": 0.141,
+      "step": 1724
+    },
+    {
+      "epoch": 0.6826276216857934,
+      "grad_norm": 0.8048197093631744,
+      "learning_rate": 2.767671626993389e-05,
+      "loss": 0.1887,
+      "step": 1725
+    },
+    {
+      "epoch": 0.6826276216857934,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559273,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25377604365348816,
+      "eval_runtime": 5.0154,
+      "eval_samples_per_second": 5.982,
+      "eval_steps_per_second": 0.199,
+      "step": 1725
+    },
+    {
+      "epoch": 0.6830233478432924,
+      "grad_norm": 0.511532489871784,
+      "learning_rate": 2.761492801733645e-05,
+      "loss": 0.1343,
+      "step": 1726
+    },
+    {
+      "epoch": 0.6834190740007915,
+      "grad_norm": 0.7276985441022853,
+      "learning_rate": 2.7553182489264777e-05,
+      "loss": 0.1197,
+      "step": 1727
+    },
+    {
+      "epoch": 0.6838148001582904,
+      "grad_norm": 0.7133094318026139,
+      "learning_rate": 2.7491479803567453e-05,
+      "loss": 0.1287,
+      "step": 1728
+    },
+    {
+      "epoch": 0.6842105263157895,
+      "grad_norm": 0.6382113995112451,
+      "learning_rate": 2.7429820078011214e-05,
+      "loss": 0.1002,
+      "step": 1729
+    },
+    {
+      "epoch": 0.6846062524732884,
+      "grad_norm": 0.8298623384619986,
+      "learning_rate": 2.7368203430280887e-05,
+      "loss": 0.1568,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6846062524732884,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9249877029021151,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25410157442092896,
+      "eval_runtime": 4.7666,
+      "eval_samples_per_second": 6.294,
+      "eval_steps_per_second": 0.21,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6850019786307875,
+      "grad_norm": 0.7297730751344316,
+      "learning_rate": 2.7306629977979047e-05,
+      "loss": 0.1657,
+      "step": 1731
+    },
+    {
+      "epoch": 0.6853977047882865,
+      "grad_norm": 0.7895304169120664,
+      "learning_rate": 2.7245099838625805e-05,
+      "loss": 0.1448,
+      "step": 1732
+    },
+    {
+      "epoch": 0.6857934309457855,
+      "grad_norm": 0.64222364456738,
+      "learning_rate": 2.718361312965862e-05,
+      "loss": 0.1285,
+      "step": 1733
+    },
+    {
+      "epoch": 0.6861891571032845,
+      "grad_norm": 0.854080149749247,
+      "learning_rate": 2.7122169968432075e-05,
+      "loss": 0.148,
+      "step": 1734
+    },
+    {
+      "epoch": 0.6865848832607835,
+      "grad_norm": 0.5438629153282041,
+      "learning_rate": 2.7060770472217634e-05,
+      "loss": 0.0757,
+      "step": 1735
+    },
+    {
+      "epoch": 0.6865848832607835,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867192,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26378580927848816,
+      "eval_runtime": 5.249,
+      "eval_samples_per_second": 5.715,
+      "eval_steps_per_second": 0.191,
+      "step": 1735
+    },
+    {
+      "epoch": 0.6869806094182825,
+      "grad_norm": 1.546583182361692,
+      "learning_rate": 2.6999414758203378e-05,
+      "loss": 0.338,
+      "step": 1736
+    },
+    {
+      "epoch": 0.6873763355757816,
+      "grad_norm": 0.8952895203955109,
+      "learning_rate": 2.693810294349388e-05,
+      "loss": 0.1339,
+      "step": 1737
+    },
+    {
+      "epoch": 0.6877720617332805,
+      "grad_norm": 0.7588467325194502,
+      "learning_rate": 2.6876835145109892e-05,
+      "loss": 0.1069,
+      "step": 1738
+    },
+    {
+      "epoch": 0.6881677878907796,
+      "grad_norm": 0.7889025780600908,
+      "learning_rate": 2.681561147998819e-05,
+      "loss": 0.1769,
+      "step": 1739
+    },
+    {
+      "epoch": 0.6885635140482786,
+      "grad_norm": 0.7935678416988543,
+      "learning_rate": 2.6754432064981285e-05,
+      "loss": 0.143,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6885635140482786,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9240039350713232,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2676757872104645,
+      "eval_runtime": 4.9345,
+      "eval_samples_per_second": 6.08,
+      "eval_steps_per_second": 0.203,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6889592402057776,
+      "grad_norm": 0.7456709906093306,
+      "learning_rate": 2.6693297016857188e-05,
+      "loss": 0.1362,
+      "step": 1741
+    },
+    {
+      "epoch": 0.6893549663632766,
+      "grad_norm": 0.7079420886195056,
+      "learning_rate": 2.6632206452299363e-05,
+      "loss": 0.1209,
+      "step": 1742
+    },
+    {
+      "epoch": 0.6897506925207756,
+      "grad_norm": 0.9708123609399834,
+      "learning_rate": 2.657116048790624e-05,
+      "loss": 0.1855,
+      "step": 1743
+    },
+    {
+      "epoch": 0.6901464186782746,
+      "grad_norm": 0.5300513302107794,
+      "learning_rate": 2.6510159240191202e-05,
+      "loss": 0.0694,
+      "step": 1744
+    },
+    {
+      "epoch": 0.6905421448357737,
+      "grad_norm": 0.8486731736527329,
+      "learning_rate": 2.6449202825582214e-05,
+      "loss": 0.1405,
+      "step": 1745
+    },
+    {
+      "epoch": 0.6905421448357737,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.924987702902115,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25743815302848816,
+      "eval_runtime": 4.9178,
+      "eval_samples_per_second": 6.1,
+      "eval_steps_per_second": 0.203,
+      "step": 1745
+    },
+    {
+      "epoch": 0.6909378709932726,
+      "grad_norm": 0.7293208210838185,
+      "learning_rate": 2.6388291360421784e-05,
+      "loss": 0.1058,
+      "step": 1746
+    },
+    {
+      "epoch": 0.6913335971507717,
+      "grad_norm": 0.9367885722104417,
+      "learning_rate": 2.6327424960966506e-05,
+      "loss": 0.1731,
+      "step": 1747
+    },
+    {
+      "epoch": 0.6917293233082706,
+      "grad_norm": 0.8230177951764005,
+      "learning_rate": 2.6266603743387063e-05,
+      "loss": 0.1624,
+      "step": 1748
+    },
+    {
+      "epoch": 0.6921250494657697,
+      "grad_norm": 0.8599648213964229,
+      "learning_rate": 2.6205827823767808e-05,
+      "loss": 0.172,
+      "step": 1749
+    },
+    {
+      "epoch": 0.6925207756232687,
+      "grad_norm": 1.4015577323791675,
+      "learning_rate": 2.6145097318106703e-05,
+      "loss": 0.1821,
+      "step": 1750
+    },
+    {
+      "epoch": 0.6925207756232687,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.926709296606001,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24737955629825592,
+      "eval_runtime": 5.0107,
+      "eval_samples_per_second": 5.987,
+      "eval_steps_per_second": 0.2,
+      "step": 1750
+    },
+    {
+      "epoch": 0.6929165017807677,
+      "grad_norm": 0.8213547178755115,
+      "learning_rate": 2.6084412342315047e-05,
+      "loss": 0.1296,
+      "step": 1751
+    },
+    {
+      "epoch": 0.6933122279382667,
+      "grad_norm": 0.895677585669731,
+      "learning_rate": 2.6023773012217155e-05,
+      "loss": 0.1337,
+      "step": 1752
+    },
+    {
+      "epoch": 0.6937079540957657,
+      "grad_norm": 0.7500314355880874,
+      "learning_rate": 2.5963179443550302e-05,
+      "loss": 0.1432,
+      "step": 1753
+    },
+    {
+      "epoch": 0.6941036802532647,
+      "grad_norm": 0.7663835868461323,
+      "learning_rate": 2.5902631751964395e-05,
+      "loss": 0.1433,
+      "step": 1754
+    },
+    {
+      "epoch": 0.6944994064107638,
+      "grad_norm": 0.6415386826257503,
+      "learning_rate": 2.5842130053021796e-05,
+      "loss": 0.1183,
+      "step": 1755
+    },
+    {
+      "epoch": 0.6944994064107638,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.925725528775209,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24721679091453552,
+      "eval_runtime": 5.0417,
+      "eval_samples_per_second": 5.95,
+      "eval_steps_per_second": 0.198,
+      "step": 1755
+    },
+    {
+      "epoch": 0.6948951325682627,
+      "grad_norm": 0.8139877789577366,
+      "learning_rate": 2.5781674462197026e-05,
+      "loss": 0.121,
+      "step": 1756
+    },
+    {
+      "epoch": 0.6952908587257618,
+      "grad_norm": 1.0306803509659623,
+      "learning_rate": 2.5721265094876667e-05,
+      "loss": 0.2132,
+      "step": 1757
+    },
+    {
+      "epoch": 0.6956865848832607,
+      "grad_norm": 0.8762892272087696,
+      "learning_rate": 2.5660902066359084e-05,
+      "loss": 0.141,
+      "step": 1758
+    },
+    {
+      "epoch": 0.6960823110407598,
+      "grad_norm": 0.7660744154803971,
+      "learning_rate": 2.560058549185412e-05,
+      "loss": 0.1398,
+      "step": 1759
+    },
+    {
+      "epoch": 0.6964780371982588,
+      "grad_norm": 0.7147658527017271,
+      "learning_rate": 2.5540315486483024e-05,
+      "loss": 0.1315,
+      "step": 1760
+    },
+    {
+      "epoch": 0.6964780371982588,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9247417609444171,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2645833194255829,
+      "eval_runtime": 4.9154,
+      "eval_samples_per_second": 6.103,
+      "eval_steps_per_second": 0.203,
+      "step": 1760
+    },
+    {
+      "epoch": 0.6968737633557578,
+      "grad_norm": 1.2225769121031047,
+      "learning_rate": 2.5480092165278153e-05,
+      "loss": 0.1484,
+      "step": 1761
+    },
+    {
+      "epoch": 0.6972694895132568,
+      "grad_norm": 0.9689444469951302,
+      "learning_rate": 2.5419915643182767e-05,
+      "loss": 0.1865,
+      "step": 1762
+    },
+    {
+      "epoch": 0.6976652156707558,
+      "grad_norm": 0.7512090628721629,
+      "learning_rate": 2.5359786035050758e-05,
+      "loss": 0.1002,
+      "step": 1763
+    },
+    {
+      "epoch": 0.6980609418282548,
+      "grad_norm": 1.1961229065190835,
+      "learning_rate": 2.5299703455646516e-05,
+      "loss": 0.2278,
+      "step": 1764
+    },
+    {
+      "epoch": 0.6984566679857539,
+      "grad_norm": 0.7141828849380475,
+      "learning_rate": 2.523966801964468e-05,
+      "loss": 0.1256,
+      "step": 1765
+    },
+    {
+      "epoch": 0.6984566679857539,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559273,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2701985538005829,
+      "eval_runtime": 5.1744,
+      "eval_samples_per_second": 5.798,
+      "eval_steps_per_second": 0.193,
+      "step": 1765
+    },
+    {
+      "epoch": 0.6988523941432528,
+      "grad_norm": 0.6444027672175999,
+      "learning_rate": 2.5179679841629912e-05,
+      "loss": 0.1499,
+      "step": 1766
+    },
+    {
+      "epoch": 0.6992481203007519,
+      "grad_norm": 0.7062316084910141,
+      "learning_rate": 2.5119739036096613e-05,
+      "loss": 0.1173,
+      "step": 1767
+    },
+    {
+      "epoch": 0.6996438464582508,
+      "grad_norm": 0.6749115445084526,
+      "learning_rate": 2.5059845717448843e-05,
+      "loss": 0.1557,
+      "step": 1768
+    },
+    {
+      "epoch": 0.7000395726157499,
+      "grad_norm": 0.6497584235201437,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.1299,
+      "step": 1769
+    },
+    {
+      "epoch": 0.700435298773249,
+      "grad_norm": 0.8393825442091659,
+      "learning_rate": 2.4940201997972628e-05,
+      "loss": 0.1569,
+      "step": 1770
+    },
+    {
+      "epoch": 0.700435298773249,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9237579931136252,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25867512822151184,
+      "eval_runtime": 5.0511,
+      "eval_samples_per_second": 5.939,
+      "eval_steps_per_second": 0.198,
+      "step": 1770
+    },
+    {
+      "epoch": 0.7008310249307479,
+      "grad_norm": 0.63761849969483,
+      "learning_rate": 2.488045182549819e-05,
+      "loss": 0.1468,
+      "step": 1771
+    },
+    {
+      "epoch": 0.701226751088247,
+      "grad_norm": 0.8124455455201907,
+      "learning_rate": 2.482074959661688e-05,
+      "loss": 0.1688,
+      "step": 1772
+    },
+    {
+      "epoch": 0.7016224772457459,
+      "grad_norm": 0.6621442684502544,
+      "learning_rate": 2.4761095425277396e-05,
+      "loss": 0.1238,
+      "step": 1773
+    },
+    {
+      "epoch": 0.702018203403245,
+      "grad_norm": 0.67223349223692,
+      "learning_rate": 2.4701489425336667e-05,
+      "loss": 0.1468,
+      "step": 1774
+    },
+    {
+      "epoch": 0.702413929560744,
+      "grad_norm": 0.9470100625396481,
+      "learning_rate": 2.4641931710559717e-05,
+      "loss": 0.1998,
+      "step": 1775
+    },
+    {
+      "epoch": 0.702413929560744,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9252336448598131,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25634765625,
+      "eval_runtime": 5.105,
+      "eval_samples_per_second": 5.877,
+      "eval_steps_per_second": 0.196,
+      "step": 1775
+    },
+    {
+      "epoch": 0.7028096557182429,
+      "grad_norm": 0.5177412924220431,
+      "learning_rate": 2.4582422394619427e-05,
+      "loss": 0.0948,
+      "step": 1776
+    },
+    {
+      "epoch": 0.703205381875742,
+      "grad_norm": 0.9312128661947334,
+      "learning_rate": 2.4522961591096246e-05,
+      "loss": 0.2638,
+      "step": 1777
+    },
+    {
+      "epoch": 0.703601108033241,
+      "grad_norm": 0.7647043055460352,
+      "learning_rate": 2.4463549413478098e-05,
+      "loss": 0.1438,
+      "step": 1778
+    },
+    {
+      "epoch": 0.70399683419074,
+      "grad_norm": 0.6273222039671842,
+      "learning_rate": 2.4404185975160014e-05,
+      "loss": 0.1199,
+      "step": 1779
+    },
+    {
+      "epoch": 0.704392560348239,
+      "grad_norm": 0.7129719221346945,
+      "learning_rate": 2.4344871389444128e-05,
+      "loss": 0.1454,
+      "step": 1780
+    },
+    {
+      "epoch": 0.704392560348239,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9262174126906051,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25882160663604736,
+      "eval_runtime": 5.0527,
+      "eval_samples_per_second": 5.937,
+      "eval_steps_per_second": 0.198,
+      "step": 1780
+    },
+    {
+      "epoch": 0.704788286505738,
+      "grad_norm": 0.6907453496234908,
+      "learning_rate": 2.4285605769539204e-05,
+      "loss": 0.1299,
+      "step": 1781
+    },
+    {
+      "epoch": 0.705184012663237,
+      "grad_norm": 1.2220258745951802,
+      "learning_rate": 2.4226389228560635e-05,
+      "loss": 0.2075,
+      "step": 1782
+    },
+    {
+      "epoch": 0.7055797388207361,
+      "grad_norm": 0.7463989674103331,
+      "learning_rate": 2.416722187953006e-05,
+      "loss": 0.1232,
+      "step": 1783
+    },
+    {
+      "epoch": 0.705975464978235,
+      "grad_norm": 1.1653777092299322,
+      "learning_rate": 2.410810383537535e-05,
+      "loss": 0.1392,
+      "step": 1784
+    },
+    {
+      "epoch": 0.7063711911357341,
+      "grad_norm": 0.720711674773519,
+      "learning_rate": 2.4049035208930172e-05,
+      "loss": 0.1251,
+      "step": 1785
+    },
+    {
+      "epoch": 0.7063711911357341,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9240039350713232,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2592610716819763,
+      "eval_runtime": 4.948,
+      "eval_samples_per_second": 6.063,
+      "eval_steps_per_second": 0.202,
+      "step": 1785
+    },
+    {
+      "epoch": 0.706766917293233,
+      "grad_norm": 1.082201267832487,
+      "learning_rate": 2.3990016112933866e-05,
+      "loss": 0.1548,
+      "step": 1786
+    },
+    {
+      "epoch": 0.7071626434507321,
+      "grad_norm": 0.7361189228404685,
+      "learning_rate": 2.3931046660031302e-05,
+      "loss": 0.1313,
+      "step": 1787
+    },
+    {
+      "epoch": 0.7075583696082312,
+      "grad_norm": 0.6002673608478755,
+      "learning_rate": 2.3872126962772572e-05,
+      "loss": 0.1205,
+      "step": 1788
+    },
+    {
+      "epoch": 0.7079540957657301,
+      "grad_norm": 0.8081772236953343,
+      "learning_rate": 2.3813257133612827e-05,
+      "loss": 0.1296,
+      "step": 1789
+    },
+    {
+      "epoch": 0.7083498219232292,
+      "grad_norm": 0.6377485509465721,
+      "learning_rate": 2.3754437284911968e-05,
+      "loss": 0.1204,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7083498219232292,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9222823413674373,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2582031190395355,
+      "eval_runtime": 5.3866,
+      "eval_samples_per_second": 5.569,
+      "eval_steps_per_second": 0.186,
+      "step": 1790
+    },
+    {
+      "epoch": 0.7087455480807281,
+      "grad_norm": 0.7771426302698183,
+      "learning_rate": 2.3695667528934573e-05,
+      "loss": 0.2042,
+      "step": 1791
+    },
+    {
+      "epoch": 0.7091412742382271,
+      "grad_norm": 1.0587475144545846,
+      "learning_rate": 2.3636947977849592e-05,
+      "loss": 0.1252,
+      "step": 1792
+    },
+    {
+      "epoch": 0.7095370003957262,
+      "grad_norm": 0.8953630043511814,
+      "learning_rate": 2.357827874373017e-05,
+      "loss": 0.1485,
+      "step": 1793
+    },
+    {
+      "epoch": 0.7099327265532251,
+      "grad_norm": 0.8444992471566256,
+      "learning_rate": 2.3519659938553352e-05,
+      "loss": 0.1114,
+      "step": 1794
+    },
+    {
+      "epoch": 0.7103284527107242,
+      "grad_norm": 0.7966988460144155,
+      "learning_rate": 2.3461091674199998e-05,
+      "loss": 0.1302,
+      "step": 1795
+    },
+    {
+      "epoch": 0.7103284527107242,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9220363994097392,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2626139223575592,
+      "eval_runtime": 4.9067,
+      "eval_samples_per_second": 6.114,
+      "eval_steps_per_second": 0.204,
+      "step": 1795
+    },
+    {
+      "epoch": 0.7107241788682231,
+      "grad_norm": 1.1093509103818675,
+      "learning_rate": 2.3402574062454508e-05,
+      "loss": 0.169,
+      "step": 1796
+    },
+    {
+      "epoch": 0.7111199050257222,
+      "grad_norm": 0.881446740725918,
+      "learning_rate": 2.334410721500454e-05,
+      "loss": 0.1697,
+      "step": 1797
+    },
+    {
+      "epoch": 0.7115156311832213,
+      "grad_norm": 0.6022257229410424,
+      "learning_rate": 2.3285691243440927e-05,
+      "loss": 0.1271,
+      "step": 1798
+    },
+    {
+      "epoch": 0.7119113573407202,
+      "grad_norm": 1.344850322664759,
+      "learning_rate": 2.3227326259257376e-05,
+      "loss": 0.1287,
+      "step": 1799
+    },
+    {
+      "epoch": 0.7123070834982193,
+      "grad_norm": 1.091061527984674,
+      "learning_rate": 2.3169012373850298e-05,
+      "loss": 0.2232,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7123070834982193,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9208066896212493,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2690592408180237,
+      "eval_runtime": 5.2356,
+      "eval_samples_per_second": 5.73,
+      "eval_steps_per_second": 0.191,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7127028096557182,
+      "grad_norm": 0.7667643167333761,
+      "learning_rate": 2.311074969851852e-05,
+      "loss": 0.1154,
+      "step": 1801
+    },
+    {
+      "epoch": 0.7130985358132172,
+      "grad_norm": 0.7235188347019936,
+      "learning_rate": 2.3052538344463187e-05,
+      "loss": 0.1441,
+      "step": 1802
+    },
+    {
+      "epoch": 0.7134942619707163,
+      "grad_norm": 1.061901458017209,
+      "learning_rate": 2.2994378422787488e-05,
+      "loss": 0.2128,
+      "step": 1803
+    },
+    {
+      "epoch": 0.7138899881282152,
+      "grad_norm": 0.6174006163424876,
+      "learning_rate": 2.293627004449639e-05,
+      "loss": 0.1069,
+      "step": 1804
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 0.78110244288932,
+      "learning_rate": 2.2878213320496545e-05,
+      "loss": 0.155,
+      "step": 1805
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9225282833251353,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2673177123069763,
+      "eval_runtime": 4.9645,
+      "eval_samples_per_second": 6.043,
+      "eval_steps_per_second": 0.201,
+      "step": 1805
+    },
+    {
+      "epoch": 0.7146814404432132,
+      "grad_norm": 0.6647177984305762,
+      "learning_rate": 2.2820208361596e-05,
+      "loss": 0.0922,
+      "step": 1806
+    },
+    {
+      "epoch": 0.7150771666007123,
+      "grad_norm": 0.872976643708582,
+      "learning_rate": 2.2762255278504007e-05,
+      "loss": 0.1663,
+      "step": 1807
+    },
+    {
+      "epoch": 0.7154728927582114,
+      "grad_norm": 1.2288784922197935,
+      "learning_rate": 2.2704354181830767e-05,
+      "loss": 0.2664,
+      "step": 1808
+    },
+    {
+      "epoch": 0.7158686189157103,
+      "grad_norm": 0.9915164163328413,
+      "learning_rate": 2.26465051820873e-05,
+      "loss": 0.1897,
+      "step": 1809
+    },
+    {
+      "epoch": 0.7162643450732094,
+      "grad_norm": 0.8193256350929381,
+      "learning_rate": 2.2588708389685193e-05,
+      "loss": 0.1727,
+      "step": 1810
+    },
+    {
+      "epoch": 0.7162643450732094,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9198229217904573,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26705729961395264,
+      "eval_runtime": 5.045,
+      "eval_samples_per_second": 5.946,
+      "eval_steps_per_second": 0.198,
+      "step": 1810
+    },
+    {
+      "epoch": 0.7166600712307083,
+      "grad_norm": 0.7925793957129699,
+      "learning_rate": 2.2530963914936387e-05,
+      "loss": 0.1755,
+      "step": 1811
+    },
+    {
+      "epoch": 0.7170557973882073,
+      "grad_norm": 0.616622678794837,
+      "learning_rate": 2.247327186805295e-05,
+      "loss": 0.1209,
+      "step": 1812
+    },
+    {
+      "epoch": 0.7174515235457064,
+      "grad_norm": 1.0347749318007307,
+      "learning_rate": 2.2415632359146856e-05,
+      "loss": 0.1541,
+      "step": 1813
+    },
+    {
+      "epoch": 0.7178472497032053,
+      "grad_norm": 0.9997970613006104,
+      "learning_rate": 2.2358045498229907e-05,
+      "loss": 0.1933,
+      "step": 1814
+    },
+    {
+      "epoch": 0.7182429758607044,
+      "grad_norm": 0.7938038481406889,
+      "learning_rate": 2.2300511395213313e-05,
+      "loss": 0.1557,
+      "step": 1815
+    },
+    {
+      "epoch": 0.7182429758607044,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9185932120019674,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26321613788604736,
+      "eval_runtime": 5.0179,
+      "eval_samples_per_second": 5.979,
+      "eval_steps_per_second": 0.199,
+      "step": 1815
+    },
+    {
+      "epoch": 0.7186387020182035,
+      "grad_norm": 0.9984300276074307,
+      "learning_rate": 2.224303015990767e-05,
+      "loss": 0.1988,
+      "step": 1816
+    },
+    {
+      "epoch": 0.7190344281757024,
+      "grad_norm": 0.6968040595401331,
+      "learning_rate": 2.218560190202257e-05,
+      "loss": 0.1731,
+      "step": 1817
+    },
+    {
+      "epoch": 0.7194301543332015,
+      "grad_norm": 0.8232047773138893,
+      "learning_rate": 2.2128226731166633e-05,
+      "loss": 0.2086,
+      "step": 1818
+    },
+    {
+      "epoch": 0.7198258804907004,
+      "grad_norm": 0.8184708896147453,
+      "learning_rate": 2.2070904756847022e-05,
+      "loss": 0.1338,
+      "step": 1819
+    },
+    {
+      "epoch": 0.7202216066481995,
+      "grad_norm": 0.8360658863409396,
+      "learning_rate": 2.2013636088469458e-05,
+      "loss": 0.1531,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7202216066481995,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9200688637481553,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2569010555744171,
+      "eval_runtime": 5.0502,
+      "eval_samples_per_second": 5.94,
+      "eval_steps_per_second": 0.198,
+      "step": 1820
+    },
+    {
+      "epoch": 0.7206173328056985,
+      "grad_norm": 0.935689418520536,
+      "learning_rate": 2.1956420835337848e-05,
+      "loss": 0.2041,
+      "step": 1821
+    },
+    {
+      "epoch": 0.7210130589631975,
+      "grad_norm": 0.547843002459468,
+      "learning_rate": 2.1899259106654215e-05,
+      "loss": 0.1169,
+      "step": 1822
+    },
+    {
+      "epoch": 0.7214087851206965,
+      "grad_norm": 0.7938716875293297,
+      "learning_rate": 2.1842151011518413e-05,
+      "loss": 0.1683,
+      "step": 1823
+    },
+    {
+      "epoch": 0.7218045112781954,
+      "grad_norm": 0.7053770656801953,
+      "learning_rate": 2.1785096658927873e-05,
+      "loss": 0.1654,
+      "step": 1824
+    },
+    {
+      "epoch": 0.7222002374356945,
+      "grad_norm": 0.7629462495716527,
+      "learning_rate": 2.1728096157777517e-05,
+      "loss": 0.1363,
+      "step": 1825
+    },
+    {
+      "epoch": 0.7222002374356945,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9210526315789473,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2576334774494171,
+      "eval_runtime": 5.0,
+      "eval_samples_per_second": 6.0,
+      "eval_steps_per_second": 0.2,
+      "step": 1825
+    },
+    {
+      "epoch": 0.7225959635931936,
+      "grad_norm": 0.5864294821965705,
+      "learning_rate": 2.1671149616859466e-05,
+      "loss": 0.1087,
+      "step": 1826
+    },
+    {
+      "epoch": 0.7229916897506925,
+      "grad_norm": 0.7113916442051033,
+      "learning_rate": 2.161425714486286e-05,
+      "loss": 0.1104,
+      "step": 1827
+    },
+    {
+      "epoch": 0.7233874159081916,
+      "grad_norm": 0.5509631675986841,
+      "learning_rate": 2.1557418850373602e-05,
+      "loss": 0.1245,
+      "step": 1828
+    },
+    {
+      "epoch": 0.7237831420656905,
+      "grad_norm": 0.7648877569661009,
+      "learning_rate": 2.1500634841874224e-05,
+      "loss": 0.1545,
+      "step": 1829
+    },
+    {
+      "epoch": 0.7241788682231896,
+      "grad_norm": 0.8304892719391077,
+      "learning_rate": 2.144390522774367e-05,
+      "loss": 0.1897,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7241788682231896,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9227742252828331,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26695963740348816,
+      "eval_runtime": 5.2719,
+      "eval_samples_per_second": 5.691,
+      "eval_steps_per_second": 0.19,
+      "step": 1830
+    },
+    {
+      "epoch": 0.7245745943806886,
+      "grad_norm": 1.222408327159709,
+      "learning_rate": 2.1387230116257e-05,
+      "loss": 0.1842,
+      "step": 1831
+    },
+    {
+      "epoch": 0.7249703205381876,
+      "grad_norm": 0.8785348974216282,
+      "learning_rate": 2.1330609615585308e-05,
+      "loss": 0.2035,
+      "step": 1832
+    },
+    {
+      "epoch": 0.7253660466956866,
+      "grad_norm": 1.2074994467319153,
+      "learning_rate": 2.1274043833795426e-05,
+      "loss": 0.1578,
+      "step": 1833
+    },
+    {
+      "epoch": 0.7257617728531855,
+      "grad_norm": 1.011105442602931,
+      "learning_rate": 2.1217532878849787e-05,
+      "loss": 0.2353,
+      "step": 1834
+    },
+    {
+      "epoch": 0.7261574990106846,
+      "grad_norm": 0.6063287756839674,
+      "learning_rate": 2.1161076858606115e-05,
+      "loss": 0.1467,
+      "step": 1835
+    },
+    {
+      "epoch": 0.7261574990106846,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9222823413674373,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26762694120407104,
+      "eval_runtime": 4.963,
+      "eval_samples_per_second": 6.045,
+      "eval_steps_per_second": 0.201,
+      "step": 1835
+    },
+    {
+      "epoch": 0.7265532251681837,
+      "grad_norm": 0.8788623002340055,
+      "learning_rate": 2.1104675880817337e-05,
+      "loss": 0.1898,
+      "step": 1836
+    },
+    {
+      "epoch": 0.7269489513256826,
+      "grad_norm": 0.8949887512219598,
+      "learning_rate": 2.104833005313131e-05,
+      "loss": 0.2223,
+      "step": 1837
+    },
+    {
+      "epoch": 0.7273446774831817,
+      "grad_norm": 0.4545095104266266,
+      "learning_rate": 2.0992039483090647e-05,
+      "loss": 0.088,
+      "step": 1838
+    },
+    {
+      "epoch": 0.7277404036406806,
+      "grad_norm": 1.3154146779466707,
+      "learning_rate": 2.0935804278132448e-05,
+      "loss": 0.2578,
+      "step": 1839
+    },
+    {
+      "epoch": 0.7281361297981797,
+      "grad_norm": 0.7802206534168505,
+      "learning_rate": 2.087962454558819e-05,
+      "loss": 0.1472,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7281361297981797,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9227742252828333,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26087239384651184,
+      "eval_runtime": 5.1355,
+      "eval_samples_per_second": 5.842,
+      "eval_steps_per_second": 0.195,
+      "step": 1840
+    },
+    {
+      "epoch": 0.7285318559556787,
+      "grad_norm": 0.6682288985252659,
+      "learning_rate": 2.0823500392683476e-05,
+      "loss": 0.1218,
+      "step": 1841
+    },
+    {
+      "epoch": 0.7289275821131777,
+      "grad_norm": 1.0532540165424913,
+      "learning_rate": 2.0767431926537766e-05,
+      "loss": 0.2032,
+      "step": 1842
+    },
+    {
+      "epoch": 0.7293233082706767,
+      "grad_norm": 0.706851700973422,
+      "learning_rate": 2.071141925416431e-05,
+      "loss": 0.1291,
+      "step": 1843
+    },
+    {
+      "epoch": 0.7297190344281757,
+      "grad_norm": 1.611661542363454,
+      "learning_rate": 2.0655462482469833e-05,
+      "loss": 0.1793,
+      "step": 1844
+    },
+    {
+      "epoch": 0.7301147605856747,
+      "grad_norm": 0.752767555773831,
+      "learning_rate": 2.0599561718254397e-05,
+      "loss": 0.1381,
+      "step": 1845
+    },
+    {
+      "epoch": 0.7301147605856747,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559272,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2558431029319763,
+      "eval_runtime": 4.8512,
+      "eval_samples_per_second": 6.184,
+      "eval_steps_per_second": 0.206,
+      "step": 1845
+    },
+    {
+      "epoch": 0.7305104867431738,
+      "grad_norm": 0.8808783337543461,
+      "learning_rate": 2.0543717068211093e-05,
+      "loss": 0.1647,
+      "step": 1846
+    },
+    {
+      "epoch": 0.7309062129006727,
+      "grad_norm": 0.7959998264879183,
+      "learning_rate": 2.048792863892599e-05,
+      "loss": 0.2045,
+      "step": 1847
+    },
+    {
+      "epoch": 0.7313019390581718,
+      "grad_norm": 1.598833931971828,
+      "learning_rate": 2.043219653687784e-05,
+      "loss": 0.1503,
+      "step": 1848
+    },
+    {
+      "epoch": 0.7316976652156707,
+      "grad_norm": 0.8894720772872597,
+      "learning_rate": 2.0376520868437838e-05,
+      "loss": 0.1218,
+      "step": 1849
+    },
+    {
+      "epoch": 0.7320933913731698,
+      "grad_norm": 1.0993024233554871,
+      "learning_rate": 2.0320901739869537e-05,
+      "loss": 0.203,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7320933913731698,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9217904574520412,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25882160663604736,
+      "eval_runtime": 5.1301,
+      "eval_samples_per_second": 5.848,
+      "eval_steps_per_second": 0.195,
+      "step": 1850
+    },
+    {
+      "epoch": 0.7324891175306688,
+      "grad_norm": 0.7854335067265968,
+      "learning_rate": 2.026533925732849e-05,
+      "loss": 0.2077,
+      "step": 1851
+    },
+    {
+      "epoch": 0.7328848436881678,
+      "grad_norm": 0.7090756283038675,
+      "learning_rate": 2.0209833526862267e-05,
+      "loss": 0.1111,
+      "step": 1852
+    },
+    {
+      "epoch": 0.7332805698456668,
+      "grad_norm": 1.0333691573481174,
+      "learning_rate": 2.0154384654409975e-05,
+      "loss": 0.2353,
+      "step": 1853
+    },
+    {
+      "epoch": 0.7336762960031659,
+      "grad_norm": 0.7562127657862519,
+      "learning_rate": 2.009899274580231e-05,
+      "loss": 0.1349,
+      "step": 1854
+    },
+    {
+      "epoch": 0.7340720221606648,
+      "grad_norm": 0.8448709028126433,
+      "learning_rate": 2.0043657906761142e-05,
+      "loss": 0.1642,
+      "step": 1855
+    },
+    {
+      "epoch": 0.7340720221606648,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9205607476635513,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26012369990348816,
+      "eval_runtime": 5.1147,
+      "eval_samples_per_second": 5.865,
+      "eval_steps_per_second": 0.196,
+      "step": 1855
+    },
+    {
+      "epoch": 0.7344677483181639,
+      "grad_norm": 0.5946066961791077,
+      "learning_rate": 1.998838024289956e-05,
+      "loss": 0.1345,
+      "step": 1856
+    },
+    {
+      "epoch": 0.7348634744756628,
+      "grad_norm": 0.5412120416126538,
+      "learning_rate": 1.9933159859721408e-05,
+      "loss": 0.1063,
+      "step": 1857
+    },
+    {
+      "epoch": 0.7352592006331619,
+      "grad_norm": 0.562011803081114,
+      "learning_rate": 1.9877996862621207e-05,
+      "loss": 0.1434,
+      "step": 1858
+    },
+    {
+      "epoch": 0.7356549267906609,
+      "grad_norm": 0.6991284129518043,
+      "learning_rate": 1.9822891356884022e-05,
+      "loss": 0.1797,
+      "step": 1859
+    },
+    {
+      "epoch": 0.7360506529481599,
+      "grad_norm": 0.6700773353560388,
+      "learning_rate": 1.9767843447685137e-05,
+      "loss": 0.1359,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7360506529481599,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9232661091982292,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2613281309604645,
+      "eval_runtime": 4.9601,
+      "eval_samples_per_second": 6.048,
+      "eval_steps_per_second": 0.202,
+      "step": 1860
+    },
+    {
+      "epoch": 0.7364463791056589,
+      "grad_norm": 0.7397056952998681,
+      "learning_rate": 1.971285324008994e-05,
+      "loss": 0.1528,
+      "step": 1861
+    },
+    {
+      "epoch": 0.7368421052631579,
+      "grad_norm": 0.685117972157196,
+      "learning_rate": 1.9657920839053634e-05,
+      "loss": 0.1357,
+      "step": 1862
+    },
+    {
+      "epoch": 0.7372378314206569,
+      "grad_norm": 0.5866163026587115,
+      "learning_rate": 1.9603046349421146e-05,
+      "loss": 0.1265,
+      "step": 1863
+    },
+    {
+      "epoch": 0.737633557578156,
+      "grad_norm": 0.5574623985714691,
+      "learning_rate": 1.954822987592685e-05,
+      "loss": 0.1357,
+      "step": 1864
+    },
+    {
+      "epoch": 0.7380292837356549,
+      "grad_norm": 0.6801805629067953,
+      "learning_rate": 1.9493471523194402e-05,
+      "loss": 0.1537,
+      "step": 1865
+    },
+    {
+      "epoch": 0.7380292837356549,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559272,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2666829526424408,
+      "eval_runtime": 4.9638,
+      "eval_samples_per_second": 6.044,
+      "eval_steps_per_second": 0.201,
+      "step": 1865
+    },
+    {
+      "epoch": 0.738425009893154,
+      "grad_norm": 0.6890667000540105,
+      "learning_rate": 1.9438771395736495e-05,
+      "loss": 0.1701,
+      "step": 1866
+    },
+    {
+      "epoch": 0.7388207360506529,
+      "grad_norm": 0.7013380568225412,
+      "learning_rate": 1.938412959795472e-05,
+      "loss": 0.1766,
+      "step": 1867
+    },
+    {
+      "epoch": 0.739216462208152,
+      "grad_norm": 0.8407166916867785,
+      "learning_rate": 1.9329546234139356e-05,
+      "loss": 0.2045,
+      "step": 1868
+    },
+    {
+      "epoch": 0.739612188365651,
+      "grad_norm": 0.6777612034422675,
+      "learning_rate": 1.92750214084691e-05,
+      "loss": 0.158,
+      "step": 1869
+    },
+    {
+      "epoch": 0.74000791452315,
+      "grad_norm": 0.6925321769242335,
+      "learning_rate": 1.9220555225010966e-05,
+      "loss": 0.1199,
+      "step": 1870
+    },
+    {
+      "epoch": 0.74000791452315,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9237579931136252,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2687825560569763,
+      "eval_runtime": 4.7512,
+      "eval_samples_per_second": 6.314,
+      "eval_steps_per_second": 0.21,
+      "step": 1870
+    },
+    {
+      "epoch": 0.740403640680649,
+      "grad_norm": 0.6418918195567985,
+      "learning_rate": 1.9166147787720036e-05,
+      "loss": 0.1172,
+      "step": 1871
+    },
+    {
+      "epoch": 0.740799366838148,
+      "grad_norm": 0.8511457143116246,
+      "learning_rate": 1.9111799200439267e-05,
+      "loss": 0.156,
+      "step": 1872
+    },
+    {
+      "epoch": 0.741195092995647,
+      "grad_norm": 0.593750232907013,
+      "learning_rate": 1.9057509566899266e-05,
+      "loss": 0.1287,
+      "step": 1873
+    },
+    {
+      "epoch": 0.7415908191531461,
+      "grad_norm": 0.9645618491293677,
+      "learning_rate": 1.900327899071816e-05,
+      "loss": 0.215,
+      "step": 1874
+    },
+    {
+      "epoch": 0.741986545310645,
+      "grad_norm": 0.6291843933593182,
+      "learning_rate": 1.8949107575401347e-05,
+      "loss": 0.1238,
+      "step": 1875
+    },
+    {
+      "epoch": 0.741986545310645,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.925725528775209,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2700358033180237,
+      "eval_runtime": 5.0433,
+      "eval_samples_per_second": 5.949,
+      "eval_steps_per_second": 0.198,
+      "step": 1875
+    },
+    {
+      "epoch": 0.7423822714681441,
+      "grad_norm": 0.7887121603574619,
+      "learning_rate": 1.8894995424341285e-05,
+      "loss": 0.1871,
+      "step": 1876
+    },
+    {
+      "epoch": 0.742777997625643,
+      "grad_norm": 0.7646745464288452,
+      "learning_rate": 1.8840942640817338e-05,
+      "loss": 0.1718,
+      "step": 1877
+    },
+    {
+      "epoch": 0.7431737237831421,
+      "grad_norm": 1.013361402933889,
+      "learning_rate": 1.8786949327995574e-05,
+      "loss": 0.1739,
+      "step": 1878
+    },
+    {
+      "epoch": 0.7435694499406411,
+      "grad_norm": 0.6718042298138901,
+      "learning_rate": 1.873301558892855e-05,
+      "loss": 0.1057,
+      "step": 1879
+    },
+    {
+      "epoch": 0.7439651760981401,
+      "grad_norm": 0.8412749202429344,
+      "learning_rate": 1.8679141526555078e-05,
+      "loss": 0.1897,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7439651760981401,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9281849483521889,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26184895634651184,
+      "eval_runtime": 4.8657,
+      "eval_samples_per_second": 6.166,
+      "eval_steps_per_second": 0.206,
+      "step": 1880
+    },
+    {
+      "epoch": 0.7443609022556391,
+      "grad_norm": 1.2701465098908922,
+      "learning_rate": 1.862532724370012e-05,
+      "loss": 0.3103,
+      "step": 1881
+    },
+    {
+      "epoch": 0.744756628413138,
+      "grad_norm": 0.5270005801702822,
+      "learning_rate": 1.857157284307452e-05,
+      "loss": 0.1239,
+      "step": 1882
+    },
+    {
+      "epoch": 0.7451523545706371,
+      "grad_norm": 0.6226596056956873,
+      "learning_rate": 1.8517878427274848e-05,
+      "loss": 0.1416,
+      "step": 1883
+    },
+    {
+      "epoch": 0.7455480807281362,
+      "grad_norm": 0.6289485615149631,
+      "learning_rate": 1.8464244098783163e-05,
+      "loss": 0.1187,
+      "step": 1884
+    },
+    {
+      "epoch": 0.7459438068856351,
+      "grad_norm": 0.7071818164504134,
+      "learning_rate": 1.84106699599668e-05,
+      "loss": 0.1958,
+      "step": 1885
+    },
+    {
+      "epoch": 0.7459438068856351,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.923757993113625,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2503092586994171,
+      "eval_runtime": 4.8571,
+      "eval_samples_per_second": 6.176,
+      "eval_steps_per_second": 0.206,
+      "step": 1885
+    },
+    {
+      "epoch": 0.7463395330431342,
+      "grad_norm": 0.7457821761487807,
+      "learning_rate": 1.8357156113078357e-05,
+      "loss": 0.173,
+      "step": 1886
+    },
+    {
+      "epoch": 0.7467352592006332,
+      "grad_norm": 0.6651083170515766,
+      "learning_rate": 1.8303702660255184e-05,
+      "loss": 0.1457,
+      "step": 1887
+    },
+    {
+      "epoch": 0.7471309853581322,
+      "grad_norm": 0.5781612367551257,
+      "learning_rate": 1.8250309703519496e-05,
+      "loss": 0.1143,
+      "step": 1888
+    },
+    {
+      "epoch": 0.7475267115156312,
+      "grad_norm": 0.6602681307700908,
+      "learning_rate": 1.8196977344777933e-05,
+      "loss": 0.1153,
+      "step": 1889
+    },
+    {
+      "epoch": 0.7479224376731302,
+      "grad_norm": 0.6768341783130551,
+      "learning_rate": 1.81437056858216e-05,
+      "loss": 0.1221,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7479224376731302,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25029295682907104,
+      "eval_runtime": 5.1109,
+      "eval_samples_per_second": 5.87,
+      "eval_steps_per_second": 0.196,
+      "step": 1890
+    },
+    {
+      "epoch": 0.7483181638306292,
+      "grad_norm": 0.6061568247001031,
+      "learning_rate": 1.809049482832563e-05,
+      "loss": 0.1136,
+      "step": 1891
+    },
+    {
+      "epoch": 0.7487138899881283,
+      "grad_norm": 0.8602003297227924,
+      "learning_rate": 1.803734487384921e-05,
+      "loss": 0.2234,
+      "step": 1892
+    },
+    {
+      "epoch": 0.7491096161456272,
+      "grad_norm": 0.5288064051905645,
+      "learning_rate": 1.798425592383519e-05,
+      "loss": 0.106,
+      "step": 1893
+    },
+    {
+      "epoch": 0.7495053423031263,
+      "grad_norm": 0.6390476855427978,
+      "learning_rate": 1.7931228079610057e-05,
+      "loss": 0.1516,
+      "step": 1894
+    },
+    {
+      "epoch": 0.7499010684606252,
+      "grad_norm": 0.5448235403613532,
+      "learning_rate": 1.787826144238367e-05,
+      "loss": 0.1028,
+      "step": 1895
+    },
+    {
+      "epoch": 0.7499010684606252,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867192,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24947915971279144,
+      "eval_runtime": 5.1287,
+      "eval_samples_per_second": 5.849,
+      "eval_steps_per_second": 0.195,
+      "step": 1895
+    },
+    {
+      "epoch": 0.7502967946181243,
+      "grad_norm": 0.6962915539093395,
+      "learning_rate": 1.782535611324901e-05,
+      "loss": 0.1303,
+      "step": 1896
+    },
+    {
+      "epoch": 0.7506925207756233,
+      "grad_norm": 0.9712828059068266,
+      "learning_rate": 1.7772512193182095e-05,
+      "loss": 0.1736,
+      "step": 1897
+    },
+    {
+      "epoch": 0.7510882469331223,
+      "grad_norm": 1.0102606709966984,
+      "learning_rate": 1.7719729783041717e-05,
+      "loss": 0.173,
+      "step": 1898
+    },
+    {
+      "epoch": 0.7514839730906213,
+      "grad_norm": 0.9469177852957767,
+      "learning_rate": 1.76670089835693e-05,
+      "loss": 0.1374,
+      "step": 1899
+    },
+    {
+      "epoch": 0.7518796992481203,
+      "grad_norm": 0.8060418419435674,
+      "learning_rate": 1.7614349895388614e-05,
+      "loss": 0.1734,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7518796992481203,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2535969913005829,
+      "eval_runtime": 4.8397,
+      "eval_samples_per_second": 6.199,
+      "eval_steps_per_second": 0.207,
+      "step": 1900
+    },
+    {
+      "epoch": 0.7522754254056193,
+      "grad_norm": 0.9774110880657569,
+      "learning_rate": 1.7561752619005695e-05,
+      "loss": 0.2109,
+      "step": 1901
+    },
+    {
+      "epoch": 0.7526711515631184,
+      "grad_norm": 0.9606402915892724,
+      "learning_rate": 1.7509217254808613e-05,
+      "loss": 0.1851,
+      "step": 1902
+    },
+    {
+      "epoch": 0.7530668777206173,
+      "grad_norm": 0.7696885166820605,
+      "learning_rate": 1.745674390306722e-05,
+      "loss": 0.124,
+      "step": 1903
+    },
+    {
+      "epoch": 0.7534626038781164,
+      "grad_norm": 1.3881842536819593,
+      "learning_rate": 1.7404332663933043e-05,
+      "loss": 0.2536,
+      "step": 1904
+    },
+    {
+      "epoch": 0.7538583300356153,
+      "grad_norm": 0.45290554027364655,
+      "learning_rate": 1.735198363743907e-05,
+      "loss": 0.0761,
+      "step": 1905
+    },
+    {
+      "epoch": 0.7538583300356153,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9237579931136252,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26370441913604736,
+      "eval_runtime": 4.7899,
+      "eval_samples_per_second": 6.263,
+      "eval_steps_per_second": 0.209,
+      "step": 1905
+    },
+    {
+      "epoch": 0.7542540561931144,
+      "grad_norm": 0.6973996164170063,
+      "learning_rate": 1.7299696923499543e-05,
+      "loss": 0.138,
+      "step": 1906
+    },
+    {
+      "epoch": 0.7546497823506134,
+      "grad_norm": 0.7156235199612323,
+      "learning_rate": 1.7247472621909737e-05,
+      "loss": 0.1421,
+      "step": 1907
+    },
+    {
+      "epoch": 0.7550455085081124,
+      "grad_norm": 0.7399275790041239,
+      "learning_rate": 1.7195310832345852e-05,
+      "loss": 0.1179,
+      "step": 1908
+    },
+    {
+      "epoch": 0.7554412346656114,
+      "grad_norm": 0.7628533558284784,
+      "learning_rate": 1.7143211654364762e-05,
+      "loss": 0.0991,
+      "step": 1909
+    },
+    {
+      "epoch": 0.7558369608231104,
+      "grad_norm": 1.2374120942816305,
+      "learning_rate": 1.7091175187403842e-05,
+      "loss": 0.1673,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7558369608231104,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867192,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2711588442325592,
+      "eval_runtime": 5.3104,
+      "eval_samples_per_second": 5.649,
+      "eval_steps_per_second": 0.188,
+      "step": 1910
+    },
+    {
+      "epoch": 0.7562326869806094,
+      "grad_norm": 0.9587810384153634,
+      "learning_rate": 1.7039201530780742e-05,
+      "loss": 0.1688,
+      "step": 1911
+    },
+    {
+      "epoch": 0.7566284131381085,
+      "grad_norm": 0.9346589052296339,
+      "learning_rate": 1.6987290783693282e-05,
+      "loss": 0.1563,
+      "step": 1912
+    },
+    {
+      "epoch": 0.7570241392956074,
+      "grad_norm": 0.8323818304230431,
+      "learning_rate": 1.6935443045219198e-05,
+      "loss": 0.1523,
+      "step": 1913
+    },
+    {
+      "epoch": 0.7574198654531065,
+      "grad_norm": 0.5736660369505782,
+      "learning_rate": 1.6883658414315928e-05,
+      "loss": 0.1112,
+      "step": 1914
+    },
+    {
+      "epoch": 0.7578155916106054,
+      "grad_norm": 0.7325154994726154,
+      "learning_rate": 1.6831936989820506e-05,
+      "loss": 0.1329,
+      "step": 1915
+    },
+    {
+      "epoch": 0.7578155916106054,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867192,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26451823115348816,
+      "eval_runtime": 5.0963,
+      "eval_samples_per_second": 5.887,
+      "eval_steps_per_second": 0.196,
+      "step": 1915
+    },
+    {
+      "epoch": 0.7582113177681045,
+      "grad_norm": 1.2498202159987677,
+      "learning_rate": 1.6780278870449325e-05,
+      "loss": 0.1501,
+      "step": 1916
+    },
+    {
+      "epoch": 0.7586070439256035,
+      "grad_norm": 0.6324257092071747,
+      "learning_rate": 1.6728684154797942e-05,
+      "loss": 0.1307,
+      "step": 1917
+    },
+    {
+      "epoch": 0.7590027700831025,
+      "grad_norm": 0.6905834612697092,
+      "learning_rate": 1.6677152941340873e-05,
+      "loss": 0.1969,
+      "step": 1918
+    },
+    {
+      "epoch": 0.7593984962406015,
+      "grad_norm": 0.9190314941323324,
+      "learning_rate": 1.662568532843149e-05,
+      "loss": 0.1168,
+      "step": 1919
+    },
+    {
+      "epoch": 0.7597942223981005,
+      "grad_norm": 0.541100149633461,
+      "learning_rate": 1.6574281414301744e-05,
+      "loss": 0.1163,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7597942223981005,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9230201672405313,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25712889432907104,
+      "eval_runtime": 4.9833,
+      "eval_samples_per_second": 6.02,
+      "eval_steps_per_second": 0.201,
+      "step": 1920
+    },
+    {
+      "epoch": 0.7601899485555995,
+      "grad_norm": 0.8897399836804901,
+      "learning_rate": 1.6522941297061996e-05,
+      "loss": 0.16,
+      "step": 1921
+    },
+    {
+      "epoch": 0.7605856747130986,
+      "grad_norm": 0.8729767902260266,
+      "learning_rate": 1.647166507470088e-05,
+      "loss": 0.1208,
+      "step": 1922
+    },
+    {
+      "epoch": 0.7609814008705975,
+      "grad_norm": 0.8441619096287705,
+      "learning_rate": 1.642045284508502e-05,
+      "loss": 0.1479,
+      "step": 1923
+    },
+    {
+      "epoch": 0.7613771270280966,
+      "grad_norm": 0.6859854880173678,
+      "learning_rate": 1.6369304705959e-05,
+      "loss": 0.1089,
+      "step": 1924
+    },
+    {
+      "epoch": 0.7617728531855956,
+      "grad_norm": 1.0202622051045571,
+      "learning_rate": 1.631822075494497e-05,
+      "loss": 0.1591,
+      "step": 1925
+    },
+    {
+      "epoch": 0.7617728531855956,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.923512051155927,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24915364384651184,
+      "eval_runtime": 4.9515,
+      "eval_samples_per_second": 6.059,
+      "eval_steps_per_second": 0.202,
+      "step": 1925
+    },
+    {
+      "epoch": 0.7621685793430946,
+      "grad_norm": 0.6214881719485488,
+      "learning_rate": 1.6267201089542657e-05,
+      "loss": 0.1177,
+      "step": 1926
+    },
+    {
+      "epoch": 0.7625643055005936,
+      "grad_norm": 0.7935109548830888,
+      "learning_rate": 1.6216245807129004e-05,
+      "loss": 0.151,
+      "step": 1927
+    },
+    {
+      "epoch": 0.7629600316580926,
+      "grad_norm": 0.9625217471471244,
+      "learning_rate": 1.616535500495818e-05,
+      "loss": 0.1684,
+      "step": 1928
+    },
+    {
+      "epoch": 0.7633557578155916,
+      "grad_norm": 0.9612372113985292,
+      "learning_rate": 1.6114528780161213e-05,
+      "loss": 0.1658,
+      "step": 1929
+    },
+    {
+      "epoch": 0.7637514839730907,
+      "grad_norm": 0.7836931974187432,
+      "learning_rate": 1.606376722974586e-05,
+      "loss": 0.1692,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7637514839730907,
+      "eval_PRM Accuracy": 0.8888888888888888,
+      "eval_PRM F1": 0.9369369369369369,
+      "eval_PRM F1 AUC": 0.6965076242006887,
+      "eval_PRM F1 AUC (fixed)": 0.9237579931136252,
+      "eval_PRM F1 Neg": 0.5333333333333333,
+      "eval_PRM NPV": 0.7272727272727273,
+      "eval_PRM Precision": 0.9043478260869565,
+      "eval_PRM Recall": 0.9719626168224299,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2490234375,
+      "eval_runtime": 5.1392,
+      "eval_samples_per_second": 5.837,
+      "eval_steps_per_second": 0.195,
+      "step": 1930
+    },
+    {
+      "epoch": 0.7641472101305896,
+      "grad_norm": 0.6320690159725635,
+      "learning_rate": 1.6013070450596492e-05,
+      "loss": 0.1148,
+      "step": 1931
+    },
+    {
+      "epoch": 0.7645429362880887,
+      "grad_norm": 0.8331262626825312,
+      "learning_rate": 1.596243853947384e-05,
+      "loss": 0.1706,
+      "step": 1932
+    },
+    {
+      "epoch": 0.7649386624455876,
+      "grad_norm": 0.8289234826521927,
+      "learning_rate": 1.5911871593014837e-05,
+      "loss": 0.1645,
+      "step": 1933
+    },
+    {
+      "epoch": 0.7653343886030867,
+      "grad_norm": 0.4996517959598237,
+      "learning_rate": 1.586136970773238e-05,
+      "loss": 0.0843,
+      "step": 1934
+    },
+    {
+      "epoch": 0.7657301147605857,
+      "grad_norm": 0.9749394297349808,
+      "learning_rate": 1.581093298001523e-05,
+      "loss": 0.1514,
+      "step": 1935
+    },
+    {
+      "epoch": 0.7657301147605857,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25175780057907104,
+      "eval_runtime": 4.8736,
+      "eval_samples_per_second": 6.156,
+      "eval_steps_per_second": 0.205,
+      "step": 1935
+    },
+    {
+      "epoch": 0.7661258409180847,
+      "grad_norm": 0.9698507140339012,
+      "learning_rate": 1.576056150612778e-05,
+      "loss": 0.1652,
+      "step": 1936
+    },
+    {
+      "epoch": 0.7665215670755837,
+      "grad_norm": 0.5899250109867621,
+      "learning_rate": 1.5710255382209887e-05,
+      "loss": 0.1459,
+      "step": 1937
+    },
+    {
+      "epoch": 0.7669172932330827,
+      "grad_norm": 0.7387431771529708,
+      "learning_rate": 1.5660014704276638e-05,
+      "loss": 0.1305,
+      "step": 1938
+    },
+    {
+      "epoch": 0.7673130193905817,
+      "grad_norm": 0.7745268402020463,
+      "learning_rate": 1.5609839568218247e-05,
+      "loss": 0.1362,
+      "step": 1939
+    },
+    {
+      "epoch": 0.7677087455480808,
+      "grad_norm": 0.7376208625680865,
+      "learning_rate": 1.5559730069799857e-05,
+      "loss": 0.114,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7677087455480808,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9249877029021151,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25719401240348816,
+      "eval_runtime": 5.1689,
+      "eval_samples_per_second": 5.804,
+      "eval_steps_per_second": 0.193,
+      "step": 1940
+    },
+    {
+      "epoch": 0.7681044717055797,
+      "grad_norm": 0.8254472521363346,
+      "learning_rate": 1.5509686304661247e-05,
+      "loss": 0.1895,
+      "step": 1941
+    },
+    {
+      "epoch": 0.7685001978630788,
+      "grad_norm": 0.7458558178260173,
+      "learning_rate": 1.5459708368316823e-05,
+      "loss": 0.1351,
+      "step": 1942
+    },
+    {
+      "epoch": 0.7688959240205777,
+      "grad_norm": 0.7248734844842177,
+      "learning_rate": 1.5409796356155316e-05,
+      "loss": 0.1257,
+      "step": 1943
+    },
+    {
+      "epoch": 0.7692916501780768,
+      "grad_norm": 0.950536629653865,
+      "learning_rate": 1.535995036343964e-05,
+      "loss": 0.174,
+      "step": 1944
+    },
+    {
+      "epoch": 0.7696873763355758,
+      "grad_norm": 0.6440801880601715,
+      "learning_rate": 1.5310170485306672e-05,
+      "loss": 0.1141,
+      "step": 1945
+    },
+    {
+      "epoch": 0.7696873763355758,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.925971470732907,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2586100399494171,
+      "eval_runtime": 4.991,
+      "eval_samples_per_second": 6.011,
+      "eval_steps_per_second": 0.2,
+      "step": 1945
+    },
+    {
+      "epoch": 0.7700831024930748,
+      "grad_norm": 0.6884330770400127,
+      "learning_rate": 1.526045681676715e-05,
+      "loss": 0.1506,
+      "step": 1946
+    },
+    {
+      "epoch": 0.7704788286505738,
+      "grad_norm": 1.0214379577455484,
+      "learning_rate": 1.5210809452705415e-05,
+      "loss": 0.1667,
+      "step": 1947
+    },
+    {
+      "epoch": 0.7708745548080728,
+      "grad_norm": 0.5586595423535153,
+      "learning_rate": 1.5161228487879253e-05,
+      "loss": 0.1057,
+      "step": 1948
+    },
+    {
+      "epoch": 0.7712702809655718,
+      "grad_norm": 0.7297946461912072,
+      "learning_rate": 1.5111714016919732e-05,
+      "loss": 0.1309,
+      "step": 1949
+    },
+    {
+      "epoch": 0.7716660071230709,
+      "grad_norm": 0.5773660211167126,
+      "learning_rate": 1.5062266134331016e-05,
+      "loss": 0.0812,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7716660071230709,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.925233644859813,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25493162870407104,
+      "eval_runtime": 5.0596,
+      "eval_samples_per_second": 5.929,
+      "eval_steps_per_second": 0.198,
+      "step": 1950
+    },
+    {
+      "epoch": 0.7720617332805698,
+      "grad_norm": 1.0547670883999753,
+      "learning_rate": 1.5012884934490167e-05,
+      "loss": 0.2116,
+      "step": 1951
+    },
+    {
+      "epoch": 0.7724574594380689,
+      "grad_norm": 1.000326118103544,
+      "learning_rate": 1.4963570511646963e-05,
+      "loss": 0.1148,
+      "step": 1952
+    },
+    {
+      "epoch": 0.7728531855955678,
+      "grad_norm": 0.5817142385356567,
+      "learning_rate": 1.491432295992375e-05,
+      "loss": 0.0855,
+      "step": 1953
+    },
+    {
+      "epoch": 0.7732489117530669,
+      "grad_norm": 0.5842996380214173,
+      "learning_rate": 1.4865142373315227e-05,
+      "loss": 0.0922,
+      "step": 1954
+    },
+    {
+      "epoch": 0.7736446379105659,
+      "grad_norm": 1.0032121825622722,
+      "learning_rate": 1.4816028845688323e-05,
+      "loss": 0.1512,
+      "step": 1955
+    },
+    {
+      "epoch": 0.7736446379105659,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9227742252828333,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2508789002895355,
+      "eval_runtime": 5.1565,
+      "eval_samples_per_second": 5.818,
+      "eval_steps_per_second": 0.194,
+      "step": 1955
+    },
+    {
+      "epoch": 0.7740403640680649,
+      "grad_norm": 0.7476451697325677,
+      "learning_rate": 1.4766982470781915e-05,
+      "loss": 0.1531,
+      "step": 1956
+    },
+    {
+      "epoch": 0.7744360902255639,
+      "grad_norm": 1.299508253332237,
+      "learning_rate": 1.4718003342206722e-05,
+      "loss": 0.1317,
+      "step": 1957
+    },
+    {
+      "epoch": 0.7748318163830629,
+      "grad_norm": 0.8700567899717432,
+      "learning_rate": 1.4669091553445185e-05,
+      "loss": 0.1963,
+      "step": 1958
+    },
+    {
+      "epoch": 0.7752275425405619,
+      "grad_norm": 0.9867674541392951,
+      "learning_rate": 1.4620247197851128e-05,
+      "loss": 0.1448,
+      "step": 1959
+    },
+    {
+      "epoch": 0.775623268698061,
+      "grad_norm": 0.9071568434015389,
+      "learning_rate": 1.4571470368649742e-05,
+      "loss": 0.1379,
+      "step": 1960
+    },
+    {
+      "epoch": 0.775623268698061,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9235120511559272,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24951171875,
+      "eval_runtime": 5.2599,
+      "eval_samples_per_second": 5.704,
+      "eval_steps_per_second": 0.19,
+      "step": 1960
+    },
+    {
+      "epoch": 0.7760189948555599,
+      "grad_norm": 0.7298476313648533,
+      "learning_rate": 1.452276115893726e-05,
+      "loss": 0.172,
+      "step": 1961
+    },
+    {
+      "epoch": 0.776414721013059,
+      "grad_norm": 1.210691735867347,
+      "learning_rate": 1.4474119661680962e-05,
+      "loss": 0.2156,
+      "step": 1962
+    },
+    {
+      "epoch": 0.776810447170558,
+      "grad_norm": 0.7994271718937888,
+      "learning_rate": 1.4425545969718801e-05,
+      "loss": 0.187,
+      "step": 1963
+    },
+    {
+      "epoch": 0.777206173328057,
+      "grad_norm": 1.0195110705501482,
+      "learning_rate": 1.437704017575932e-05,
+      "loss": 0.1561,
+      "step": 1964
+    },
+    {
+      "epoch": 0.777601899485556,
+      "grad_norm": 0.7240433407015456,
+      "learning_rate": 1.4328602372381522e-05,
+      "loss": 0.1241,
+      "step": 1965
+    },
+    {
+      "epoch": 0.777601899485556,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9227742252828331,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25110676884651184,
+      "eval_runtime": 5.0522,
+      "eval_samples_per_second": 5.938,
+      "eval_steps_per_second": 0.198,
+      "step": 1965
+    },
+    {
+      "epoch": 0.777997625643055,
+      "grad_norm": 1.0966803506866127,
+      "learning_rate": 1.428023265203461e-05,
+      "loss": 0.2095,
+      "step": 1966
+    },
+    {
+      "epoch": 0.778393351800554,
+      "grad_norm": 1.0466756914844653,
+      "learning_rate": 1.4231931107037861e-05,
+      "loss": 0.2042,
+      "step": 1967
+    },
+    {
+      "epoch": 0.7787890779580531,
+      "grad_norm": 0.7438021090210153,
+      "learning_rate": 1.4183697829580389e-05,
+      "loss": 0.1501,
+      "step": 1968
+    },
+    {
+      "epoch": 0.779184804115552,
+      "grad_norm": 0.5095964872484632,
+      "learning_rate": 1.4135532911721061e-05,
+      "loss": 0.0931,
+      "step": 1969
+    },
+    {
+      "epoch": 0.7795805302730511,
+      "grad_norm": 0.8596075988231007,
+      "learning_rate": 1.4087436445388242e-05,
+      "loss": 0.1669,
+      "step": 1970
+    },
+    {
+      "epoch": 0.7795805302730511,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9225282833251353,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2524251341819763,
+      "eval_runtime": 5.3927,
+      "eval_samples_per_second": 5.563,
+      "eval_steps_per_second": 0.185,
+      "step": 1970
+    },
+    {
+      "epoch": 0.77997625643055,
+      "grad_norm": 0.8549203354868359,
+      "learning_rate": 1.4039408522379683e-05,
+      "loss": 0.1463,
+      "step": 1971
+    },
+    {
+      "epoch": 0.7803719825880491,
+      "grad_norm": 0.6225642813207956,
+      "learning_rate": 1.3991449234362246e-05,
+      "loss": 0.1428,
+      "step": 1972
+    },
+    {
+      "epoch": 0.7807677087455481,
+      "grad_norm": 0.5159406799915701,
+      "learning_rate": 1.3943558672871858e-05,
+      "loss": 0.0816,
+      "step": 1973
+    },
+    {
+      "epoch": 0.7811634349030471,
+      "grad_norm": 0.5639015060064828,
+      "learning_rate": 1.3895736929313274e-05,
+      "loss": 0.1078,
+      "step": 1974
+    },
+    {
+      "epoch": 0.7815591610605461,
+      "grad_norm": 0.793573796829072,
+      "learning_rate": 1.3847984094959842e-05,
+      "loss": 0.1688,
+      "step": 1975
+    },
+    {
+      "epoch": 0.7815591610605461,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.925971470732907,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2577962279319763,
+      "eval_runtime": 5.1356,
+      "eval_samples_per_second": 5.842,
+      "eval_steps_per_second": 0.195,
+      "step": 1975
+    },
+    {
+      "epoch": 0.7819548872180451,
+      "grad_norm": 0.59123941597089,
+      "learning_rate": 1.3800300260953442e-05,
+      "loss": 0.1173,
+      "step": 1976
+    },
+    {
+      "epoch": 0.7823506133755441,
+      "grad_norm": 1.0013061176765425,
+      "learning_rate": 1.3752685518304243e-05,
+      "loss": 0.1589,
+      "step": 1977
+    },
+    {
+      "epoch": 0.7827463395330432,
+      "grad_norm": 1.1049300686769525,
+      "learning_rate": 1.3705139957890561e-05,
+      "loss": 0.2629,
+      "step": 1978
+    },
+    {
+      "epoch": 0.7831420656905421,
+      "grad_norm": 0.7530204201072208,
+      "learning_rate": 1.3657663670458631e-05,
+      "loss": 0.1239,
+      "step": 1979
+    },
+    {
+      "epoch": 0.7835377918480412,
+      "grad_norm": 0.7796923357322306,
+      "learning_rate": 1.3610256746622501e-05,
+      "loss": 0.1458,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7835377918480412,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9227742252828333,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26289063692092896,
+      "eval_runtime": 5.1425,
+      "eval_samples_per_second": 5.834,
+      "eval_steps_per_second": 0.194,
+      "step": 1980
+    },
+    {
+      "epoch": 0.7839335180055401,
+      "grad_norm": 1.4504959754945084,
+      "learning_rate": 1.3562919276863844e-05,
+      "loss": 0.1998,
+      "step": 1981
+    },
+    {
+      "epoch": 0.7843292441630392,
+      "grad_norm": 0.5848446796465915,
+      "learning_rate": 1.3515651351531722e-05,
+      "loss": 0.0937,
+      "step": 1982
+    },
+    {
+      "epoch": 0.7847249703205382,
+      "grad_norm": 0.980713451170035,
+      "learning_rate": 1.3468453060842512e-05,
+      "loss": 0.1161,
+      "step": 1983
+    },
+    {
+      "epoch": 0.7851206964780372,
+      "grad_norm": 0.9340843265366097,
+      "learning_rate": 1.342132449487966e-05,
+      "loss": 0.1904,
+      "step": 1984
+    },
+    {
+      "epoch": 0.7855164226355362,
+      "grad_norm": 0.507401778841016,
+      "learning_rate": 1.3374265743593568e-05,
+      "loss": 0.0784,
+      "step": 1985
+    },
+    {
+      "epoch": 0.7855164226355362,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867191,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2591308653354645,
+      "eval_runtime": 4.9238,
+      "eval_samples_per_second": 6.093,
+      "eval_steps_per_second": 0.203,
+      "step": 1985
+    },
+    {
+      "epoch": 0.7859121487930352,
+      "grad_norm": 0.6527687145253552,
+      "learning_rate": 1.3327276896801321e-05,
+      "loss": 0.108,
+      "step": 1986
+    },
+    {
+      "epoch": 0.7863078749505342,
+      "grad_norm": 0.6365441330238715,
+      "learning_rate": 1.3280358044186647e-05,
+      "loss": 0.1384,
+      "step": 1987
+    },
+    {
+      "epoch": 0.7867036011080333,
+      "grad_norm": 0.6130895696765969,
+      "learning_rate": 1.3233509275299654e-05,
+      "loss": 0.1561,
+      "step": 1988
+    },
+    {
+      "epoch": 0.7870993272655322,
+      "grad_norm": 0.8704377057489306,
+      "learning_rate": 1.3186730679556708e-05,
+      "loss": 0.1734,
+      "step": 1989
+    },
+    {
+      "epoch": 0.7874950534230313,
+      "grad_norm": 1.709491894692586,
+      "learning_rate": 1.3140022346240216e-05,
+      "loss": 0.2139,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7874950534230313,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2558431029319763,
+      "eval_runtime": 4.9251,
+      "eval_samples_per_second": 6.091,
+      "eval_steps_per_second": 0.203,
+      "step": 1990
+    },
+    {
+      "epoch": 0.7878907795805302,
+      "grad_norm": 0.5493831162248407,
+      "learning_rate": 1.309338436449845e-05,
+      "loss": 0.1189,
+      "step": 1991
+    },
+    {
+      "epoch": 0.7882865057380293,
+      "grad_norm": 0.864166802128415,
+      "learning_rate": 1.304681682334552e-05,
+      "loss": 0.1538,
+      "step": 1992
+    },
+    {
+      "epoch": 0.7886822318955283,
+      "grad_norm": 0.8458759201606376,
+      "learning_rate": 1.3000319811660967e-05,
+      "loss": 0.1993,
+      "step": 1993
+    },
+    {
+      "epoch": 0.7890779580530273,
+      "grad_norm": 0.7853835014018782,
+      "learning_rate": 1.2953893418189806e-05,
+      "loss": 0.1571,
+      "step": 1994
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 0.5843454490833054,
+      "learning_rate": 1.290753773154218e-05,
+      "loss": 0.1119,
+      "step": 1995
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9237579931136252,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2513834536075592,
+      "eval_runtime": 5.2961,
+      "eval_samples_per_second": 5.665,
+      "eval_steps_per_second": 0.189,
+      "step": 1995
+    },
+    {
+      "epoch": 0.7898694103680254,
+      "grad_norm": 0.7822997089466512,
+      "learning_rate": 1.2861252840193406e-05,
+      "loss": 0.1689,
+      "step": 1996
+    },
+    {
+      "epoch": 0.7902651365255243,
+      "grad_norm": 0.7821233088584514,
+      "learning_rate": 1.2815038832483556e-05,
+      "loss": 0.1706,
+      "step": 1997
+    },
+    {
+      "epoch": 0.7906608626830234,
+      "grad_norm": 0.6043844075854122,
+      "learning_rate": 1.2768895796617497e-05,
+      "loss": 0.1343,
+      "step": 1998
+    },
+    {
+      "epoch": 0.7910565888405223,
+      "grad_norm": 0.872936651029278,
+      "learning_rate": 1.2722823820664575e-05,
+      "loss": 0.1668,
+      "step": 1999
+    },
+    {
+      "epoch": 0.7914523149980214,
+      "grad_norm": 1.4632565068427705,
+      "learning_rate": 1.2676822992558556e-05,
+      "loss": 0.1187,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7914523149980214,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9232661091982292,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2472330778837204,
+      "eval_runtime": 4.9012,
+      "eval_samples_per_second": 6.121,
+      "eval_steps_per_second": 0.204,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7918480411555204,
+      "grad_norm": 1.2159335608037602,
+      "learning_rate": 1.2630893400097404e-05,
+      "loss": 0.1981,
+      "step": 2001
+    },
+    {
+      "epoch": 0.7922437673130194,
+      "grad_norm": 1.7062302998592431,
+      "learning_rate": 1.2585035130943096e-05,
+      "loss": 0.1501,
+      "step": 2002
+    },
+    {
+      "epoch": 0.7926394934705184,
+      "grad_norm": 0.7775123439925503,
+      "learning_rate": 1.2539248272621501e-05,
+      "loss": 0.1599,
+      "step": 2003
+    },
+    {
+      "epoch": 0.7930352196280174,
+      "grad_norm": 0.8235827260709309,
+      "learning_rate": 1.2493532912522193e-05,
+      "loss": 0.1266,
+      "step": 2004
+    },
+    {
+      "epoch": 0.7934309457855164,
+      "grad_norm": 0.7499589084292341,
+      "learning_rate": 1.2447889137898293e-05,
+      "loss": 0.1289,
+      "step": 2005
+    },
+    {
+      "epoch": 0.7934309457855164,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9242498770290212,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24602864682674408,
+      "eval_runtime": 4.5702,
+      "eval_samples_per_second": 6.564,
+      "eval_steps_per_second": 0.219,
+      "step": 2005
+    },
+    {
+      "epoch": 0.7938266719430155,
+      "grad_norm": 0.7595382472156097,
+      "learning_rate": 1.2402317035866251e-05,
+      "loss": 0.1704,
+      "step": 2006
+    },
+    {
+      "epoch": 0.7942223981005144,
+      "grad_norm": 0.9338154936869791,
+      "learning_rate": 1.2356816693405766e-05,
+      "loss": 0.2018,
+      "step": 2007
+    },
+    {
+      "epoch": 0.7946181242580135,
+      "grad_norm": 0.6871552963197894,
+      "learning_rate": 1.2311388197359569e-05,
+      "loss": 0.1872,
+      "step": 2008
+    },
+    {
+      "epoch": 0.7950138504155124,
+      "grad_norm": 0.6203918289978421,
+      "learning_rate": 1.2266031634433223e-05,
+      "loss": 0.109,
+      "step": 2009
+    },
+    {
+      "epoch": 0.7954095765730115,
+      "grad_norm": 0.8827216785502419,
+      "learning_rate": 1.222074709119505e-05,
+      "loss": 0.2012,
+      "step": 2010
+    },
+    {
+      "epoch": 0.7954095765730115,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867191,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24965819716453552,
+      "eval_runtime": 5.2063,
+      "eval_samples_per_second": 5.762,
+      "eval_steps_per_second": 0.192,
+      "step": 2010
+    },
+    {
+      "epoch": 0.7958053027305105,
+      "grad_norm": 0.97193578128228,
+      "learning_rate": 1.2175534654075888e-05,
+      "loss": 0.1743,
+      "step": 2011
+    },
+    {
+      "epoch": 0.7962010288880095,
+      "grad_norm": 1.1195058843861392,
+      "learning_rate": 1.2130394409368967e-05,
+      "loss": 0.1636,
+      "step": 2012
+    },
+    {
+      "epoch": 0.7965967550455085,
+      "grad_norm": 0.7883575969046394,
+      "learning_rate": 1.20853264432297e-05,
+      "loss": 0.1622,
+      "step": 2013
+    },
+    {
+      "epoch": 0.7969924812030075,
+      "grad_norm": 0.9987726628839008,
+      "learning_rate": 1.2040330841675573e-05,
+      "loss": 0.1958,
+      "step": 2014
+    },
+    {
+      "epoch": 0.7973882073605065,
+      "grad_norm": 0.5409254273681513,
+      "learning_rate": 1.1995407690585953e-05,
+      "loss": 0.0951,
+      "step": 2015
+    },
+    {
+      "epoch": 0.7973882073605065,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.924987702902115,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25013020634651184,
+      "eval_runtime": 4.9832,
+      "eval_samples_per_second": 6.02,
+      "eval_steps_per_second": 0.201,
+      "step": 2015
+    },
+    {
+      "epoch": 0.7977839335180056,
+      "grad_norm": 0.7525615904204186,
+      "learning_rate": 1.1950557075701941e-05,
+      "loss": 0.1626,
+      "step": 2016
+    },
+    {
+      "epoch": 0.7981796596755045,
+      "grad_norm": 1.0528606270817817,
+      "learning_rate": 1.190577908262614e-05,
+      "loss": 0.1498,
+      "step": 2017
+    },
+    {
+      "epoch": 0.7985753858330036,
+      "grad_norm": 0.6237560941869832,
+      "learning_rate": 1.1861073796822608e-05,
+      "loss": 0.1182,
+      "step": 2018
+    },
+    {
+      "epoch": 0.7989711119905025,
+      "grad_norm": 0.9112880172178663,
+      "learning_rate": 1.181644130361661e-05,
+      "loss": 0.1528,
+      "step": 2019
+    },
+    {
+      "epoch": 0.7993668381480016,
+      "grad_norm": 0.7445839218103913,
+      "learning_rate": 1.1771881688194452e-05,
+      "loss": 0.1273,
+      "step": 2020
+    },
+    {
+      "epoch": 0.7993668381480016,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9249877029021151,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25393879413604736,
+      "eval_runtime": 4.9475,
+      "eval_samples_per_second": 6.064,
+      "eval_steps_per_second": 0.202,
+      "step": 2020
+    },
+    {
+      "epoch": 0.7997625643055006,
+      "grad_norm": 0.7208918290506557,
+      "learning_rate": 1.1727395035603384e-05,
+      "loss": 0.1176,
+      "step": 2021
+    },
+    {
+      "epoch": 0.8001582904629996,
+      "grad_norm": 0.5477988096303354,
+      "learning_rate": 1.1682981430751378e-05,
+      "loss": 0.0767,
+      "step": 2022
+    },
+    {
+      "epoch": 0.8005540166204986,
+      "grad_norm": 0.6821008389713935,
+      "learning_rate": 1.1638640958406999e-05,
+      "loss": 0.096,
+      "step": 2023
+    },
+    {
+      "epoch": 0.8009497427779976,
+      "grad_norm": 0.6100701984851055,
+      "learning_rate": 1.1594373703199195e-05,
+      "loss": 0.1049,
+      "step": 2024
+    },
+    {
+      "epoch": 0.8013454689354966,
+      "grad_norm": 0.667826943129846,
+      "learning_rate": 1.1550179749617219e-05,
+      "loss": 0.1155,
+      "step": 2025
+    },
+    {
+      "epoch": 0.8013454689354966,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9264633546483029,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2593587338924408,
+      "eval_runtime": 4.986,
+      "eval_samples_per_second": 6.017,
+      "eval_steps_per_second": 0.201,
+      "step": 2025
+    },
+    {
+      "epoch": 0.8017411950929957,
+      "grad_norm": 0.6030424098621106,
+      "learning_rate": 1.1506059182010393e-05,
+      "loss": 0.109,
+      "step": 2026
+    },
+    {
+      "epoch": 0.8021369212504946,
+      "grad_norm": 1.3049532919132147,
+      "learning_rate": 1.1462012084587964e-05,
+      "loss": 0.2157,
+      "step": 2027
+    },
+    {
+      "epoch": 0.8025326474079937,
+      "grad_norm": 0.7881433236462037,
+      "learning_rate": 1.141803854141898e-05,
+      "loss": 0.1465,
+      "step": 2028
+    },
+    {
+      "epoch": 0.8029283735654926,
+      "grad_norm": 0.8626606972084313,
+      "learning_rate": 1.1374138636432053e-05,
+      "loss": 0.1964,
+      "step": 2029
+    },
+    {
+      "epoch": 0.8033240997229917,
+      "grad_norm": 0.616377966727902,
+      "learning_rate": 1.1330312453415332e-05,
+      "loss": 0.082,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8033240997229917,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.926463354648303,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2610026001930237,
+      "eval_runtime": 4.8328,
+      "eval_samples_per_second": 6.208,
+      "eval_steps_per_second": 0.207,
+      "step": 2030
+    },
+    {
+      "epoch": 0.8037198258804907,
+      "grad_norm": 1.1166740805353914,
+      "learning_rate": 1.1286560076016172e-05,
+      "loss": 0.1568,
+      "step": 2031
+    },
+    {
+      "epoch": 0.8041155520379897,
+      "grad_norm": 0.7428075027467106,
+      "learning_rate": 1.1242881587741127e-05,
+      "loss": 0.1442,
+      "step": 2032
+    },
+    {
+      "epoch": 0.8045112781954887,
+      "grad_norm": 1.3561411167083395,
+      "learning_rate": 1.1199277071955649e-05,
+      "loss": 0.2127,
+      "step": 2033
+    },
+    {
+      "epoch": 0.8049070043529878,
+      "grad_norm": 0.5498468389795856,
+      "learning_rate": 1.1155746611884105e-05,
+      "loss": 0.1059,
+      "step": 2034
+    },
+    {
+      "epoch": 0.8053027305104867,
+      "grad_norm": 0.9845277519022093,
+      "learning_rate": 1.1112290290609445e-05,
+      "loss": 0.1615,
+      "step": 2035
+    },
+    {
+      "epoch": 0.8053027305104867,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9254795868175111,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2564453184604645,
+      "eval_runtime": 4.9516,
+      "eval_samples_per_second": 6.059,
+      "eval_steps_per_second": 0.202,
+      "step": 2035
+    },
+    {
+      "epoch": 0.8056984566679858,
+      "grad_norm": 1.0152567903269543,
+      "learning_rate": 1.1068908191073123e-05,
+      "loss": 0.2132,
+      "step": 2036
+    },
+    {
+      "epoch": 0.8060941828254847,
+      "grad_norm": 1.0387595605725022,
+      "learning_rate": 1.1025600396074954e-05,
+      "loss": 0.1962,
+      "step": 2037
+    },
+    {
+      "epoch": 0.8064899089829838,
+      "grad_norm": 0.7421075483289555,
+      "learning_rate": 1.0982366988272924e-05,
+      "loss": 0.1584,
+      "step": 2038
+    },
+    {
+      "epoch": 0.8068856351404828,
+      "grad_norm": 0.7166010187670492,
+      "learning_rate": 1.0939208050183064e-05,
+      "loss": 0.1193,
+      "step": 2039
+    },
+    {
+      "epoch": 0.8072813612979818,
+      "grad_norm": 0.6048831257563484,
+      "learning_rate": 1.089612366417922e-05,
+      "loss": 0.1129,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8072813612979818,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.925725528775209,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.252197265625,
+      "eval_runtime": 5.0329,
+      "eval_samples_per_second": 5.961,
+      "eval_steps_per_second": 0.199,
+      "step": 2040
+    },
+    {
+      "epoch": 0.8076770874554808,
+      "grad_norm": 0.7587510002970207,
+      "learning_rate": 1.085311391249299e-05,
+      "loss": 0.1454,
+      "step": 2041
+    },
+    {
+      "epoch": 0.8080728136129798,
+      "grad_norm": 0.7468303907419029,
+      "learning_rate": 1.0810178877213517e-05,
+      "loss": 0.1025,
+      "step": 2042
+    },
+    {
+      "epoch": 0.8084685397704788,
+      "grad_norm": 0.7064439414203635,
+      "learning_rate": 1.0767318640287343e-05,
+      "loss": 0.1501,
+      "step": 2043
+    },
+    {
+      "epoch": 0.8088642659279779,
+      "grad_norm": 1.0400952906128809,
+      "learning_rate": 1.0724533283518206e-05,
+      "loss": 0.1403,
+      "step": 2044
+    },
+    {
+      "epoch": 0.8092599920854768,
+      "grad_norm": 0.8435264427427267,
+      "learning_rate": 1.0681822888566984e-05,
+      "loss": 0.154,
+      "step": 2045
+    },
+    {
+      "epoch": 0.8092599920854768,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.925233644859813,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25192058086395264,
+      "eval_runtime": 5.1501,
+      "eval_samples_per_second": 5.825,
+      "eval_steps_per_second": 0.194,
+      "step": 2045
+    },
+    {
+      "epoch": 0.8096557182429759,
+      "grad_norm": 0.6532493036336242,
+      "learning_rate": 1.0639187536951462e-05,
+      "loss": 0.0975,
+      "step": 2046
+    },
+    {
+      "epoch": 0.8100514444004748,
+      "grad_norm": 1.1718841644349773,
+      "learning_rate": 1.0596627310046165e-05,
+      "loss": 0.1878,
+      "step": 2047
+    },
+    {
+      "epoch": 0.8104471705579739,
+      "grad_norm": 0.7814491271826595,
+      "learning_rate": 1.0554142289082275e-05,
+      "loss": 0.0938,
+      "step": 2048
+    },
+    {
+      "epoch": 0.8108428967154729,
+      "grad_norm": 0.4834294526026405,
+      "learning_rate": 1.0511732555147419e-05,
+      "loss": 0.0847,
+      "step": 2049
+    },
+    {
+      "epoch": 0.8112386228729719,
+      "grad_norm": 0.6610897614277756,
+      "learning_rate": 1.0469398189185542e-05,
+      "loss": 0.1211,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8112386228729719,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.926217412690605,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25231119990348816,
+      "eval_runtime": 4.9707,
+      "eval_samples_per_second": 6.035,
+      "eval_steps_per_second": 0.201,
+      "step": 2050
+    },
+    {
+      "epoch": 0.8116343490304709,
+      "grad_norm": 0.806992161033756,
+      "learning_rate": 1.0427139271996705e-05,
+      "loss": 0.1514,
+      "step": 2051
+    },
+    {
+      "epoch": 0.8120300751879699,
+      "grad_norm": 1.4900571455276737,
+      "learning_rate": 1.0384955884237003e-05,
+      "loss": 0.1688,
+      "step": 2052
+    },
+    {
+      "epoch": 0.8124258013454689,
+      "grad_norm": 0.9674595811241086,
+      "learning_rate": 1.0342848106418368e-05,
+      "loss": 0.1633,
+      "step": 2053
+    },
+    {
+      "epoch": 0.812821527502968,
+      "grad_norm": 1.1059680583321914,
+      "learning_rate": 1.0300816018908393e-05,
+      "loss": 0.1611,
+      "step": 2054
+    },
+    {
+      "epoch": 0.8132172536604669,
+      "grad_norm": 0.8479407872481435,
+      "learning_rate": 1.0258859701930246e-05,
+      "loss": 0.1664,
+      "step": 2055
+    },
+    {
+      "epoch": 0.8132172536604669,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9247417609444171,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2554687559604645,
+      "eval_runtime": 4.9025,
+      "eval_samples_per_second": 6.119,
+      "eval_steps_per_second": 0.204,
+      "step": 2055
+    },
+    {
+      "epoch": 0.813612979817966,
+      "grad_norm": 0.6455428097935911,
+      "learning_rate": 1.0216979235562451e-05,
+      "loss": 0.1379,
+      "step": 2056
+    },
+    {
+      "epoch": 0.8140087059754649,
+      "grad_norm": 1.0519160034922128,
+      "learning_rate": 1.0175174699738793e-05,
+      "loss": 0.1651,
+      "step": 2057
+    },
+    {
+      "epoch": 0.814404432132964,
+      "grad_norm": 1.2672967133153847,
+      "learning_rate": 1.013344617424809e-05,
+      "loss": 0.2005,
+      "step": 2058
+    },
+    {
+      "epoch": 0.814800158290463,
+      "grad_norm": 0.7492988028006651,
+      "learning_rate": 1.0091793738734113e-05,
+      "loss": 0.1371,
+      "step": 2059
+    },
+    {
+      "epoch": 0.815195884447962,
+      "grad_norm": 2.2548333046025455,
+      "learning_rate": 1.005021747269541e-05,
+      "loss": 0.1891,
+      "step": 2060
+    },
+    {
+      "epoch": 0.815195884447962,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9249877029021151,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2577311098575592,
+      "eval_runtime": 4.9914,
+      "eval_samples_per_second": 6.01,
+      "eval_steps_per_second": 0.2,
+      "step": 2060
+    },
+    {
+      "epoch": 0.815591610605461,
+      "grad_norm": 0.7544599852415839,
+      "learning_rate": 1.000871745548515e-05,
+      "loss": 0.144,
+      "step": 2061
+    },
+    {
+      "epoch": 0.81598733676296,
+      "grad_norm": 1.030494436437544,
+      "learning_rate": 9.96729376631096e-06,
+      "loss": 0.19,
+      "step": 2062
+    },
+    {
+      "epoch": 0.816383062920459,
+      "grad_norm": 0.8587497085041976,
+      "learning_rate": 9.92594648423476e-06,
+      "loss": 0.1804,
+      "step": 2063
+    },
+    {
+      "epoch": 0.8167787890779581,
+      "grad_norm": 1.663810349146248,
+      "learning_rate": 9.884675688172723e-06,
+      "loss": 0.1916,
+      "step": 2064
+    },
+    {
+      "epoch": 0.817174515235457,
+      "grad_norm": 0.5623854137617148,
+      "learning_rate": 9.843481456894948e-06,
+      "loss": 0.0951,
+      "step": 2065
+    },
+    {
+      "epoch": 0.817174515235457,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.926955238563699,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2550455629825592,
+      "eval_runtime": 5.6103,
+      "eval_samples_per_second": 5.347,
+      "eval_steps_per_second": 0.178,
+      "step": 2065
+    },
+    {
+      "epoch": 0.8175702413929561,
+      "grad_norm": 0.5142510638461822,
+      "learning_rate": 9.802363869025467e-06,
+      "loss": 0.0954,
+      "step": 2066
+    },
+    {
+      "epoch": 0.817965967550455,
+      "grad_norm": 0.7585483478680642,
+      "learning_rate": 9.761323003041955e-06,
+      "loss": 0.1094,
+      "step": 2067
+    },
+    {
+      "epoch": 0.8183616937079541,
+      "grad_norm": 1.225766554796266,
+      "learning_rate": 9.720358937275764e-06,
+      "loss": 0.1631,
+      "step": 2068
+    },
+    {
+      "epoch": 0.8187574198654531,
+      "grad_norm": 0.7371777759738903,
+      "learning_rate": 9.67947174991155e-06,
+      "loss": 0.1586,
+      "step": 2069
+    },
+    {
+      "epoch": 0.8191531460229521,
+      "grad_norm": 0.8623641815453774,
+      "learning_rate": 9.638661518987324e-06,
+      "loss": 0.1303,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8191531460229521,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9262174126906051,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2561197876930237,
+      "eval_runtime": 5.0984,
+      "eval_samples_per_second": 5.884,
+      "eval_steps_per_second": 0.196,
+      "step": 2070
+    },
+    {
+      "epoch": 0.8195488721804511,
+      "grad_norm": 0.8639706462083075,
+      "learning_rate": 9.59792832239415e-06,
+      "loss": 0.1716,
+      "step": 2071
+    },
+    {
+      "epoch": 0.8199445983379502,
+      "grad_norm": 0.7357460994001227,
+      "learning_rate": 9.557272237876102e-06,
+      "loss": 0.1094,
+      "step": 2072
+    },
+    {
+      "epoch": 0.8203403244954491,
+      "grad_norm": 0.6921685237752392,
+      "learning_rate": 9.516693343030093e-06,
+      "loss": 0.1311,
+      "step": 2073
+    },
+    {
+      "epoch": 0.8207360506529482,
+      "grad_norm": 0.6464627634756616,
+      "learning_rate": 9.476191715305649e-06,
+      "loss": 0.1251,
+      "step": 2074
+    },
+    {
+      "epoch": 0.8211317768104471,
+      "grad_norm": 0.7359707215084921,
+      "learning_rate": 9.435767432004877e-06,
+      "loss": 0.1099,
+      "step": 2075
+    },
+    {
+      "epoch": 0.8211317768104471,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9252336448598131,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25467121601104736,
+      "eval_runtime": 5.0111,
+      "eval_samples_per_second": 5.987,
+      "eval_steps_per_second": 0.2,
+      "step": 2075
+    },
+    {
+      "epoch": 0.8215275029679462,
+      "grad_norm": 0.6314287788934156,
+      "learning_rate": 9.395420570282248e-06,
+      "loss": 0.1034,
+      "step": 2076
+    },
+    {
+      "epoch": 0.8219232291254452,
+      "grad_norm": 0.6715091978240232,
+      "learning_rate": 9.35515120714447e-06,
+      "loss": 0.1415,
+      "step": 2077
+    },
+    {
+      "epoch": 0.8223189552829442,
+      "grad_norm": 0.915094253402362,
+      "learning_rate": 9.314959419450303e-06,
+      "loss": 0.1779,
+      "step": 2078
+    },
+    {
+      "epoch": 0.8227146814404432,
+      "grad_norm": 0.7526590576605944,
+      "learning_rate": 9.274845283910493e-06,
+      "loss": 0.1251,
+      "step": 2079
+    },
+    {
+      "epoch": 0.8231104075979422,
+      "grad_norm": 1.1147181041655092,
+      "learning_rate": 9.234808877087554e-06,
+      "loss": 0.1822,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8231104075979422,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9244958189867191,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25379231572151184,
+      "eval_runtime": 5.1928,
+      "eval_samples_per_second": 5.777,
+      "eval_steps_per_second": 0.193,
+      "step": 2080
+    },
+    {
+      "epoch": 0.8235061337554412,
+      "grad_norm": 0.7690596881182328,
+      "learning_rate": 9.194850275395633e-06,
+      "loss": 0.1035,
+      "step": 2081
+    },
+    {
+      "epoch": 0.8239018599129403,
+      "grad_norm": 0.7374342560416068,
+      "learning_rate": 9.154969555100396e-06,
+      "loss": 0.1576,
+      "step": 2082
+    },
+    {
+      "epoch": 0.8242975860704392,
+      "grad_norm": 0.562150260497393,
+      "learning_rate": 9.115166792318858e-06,
+      "loss": 0.1009,
+      "step": 2083
+    },
+    {
+      "epoch": 0.8246933122279383,
+      "grad_norm": 0.9219526645261468,
+      "learning_rate": 9.075442063019263e-06,
+      "loss": 0.1908,
+      "step": 2084
+    },
+    {
+      "epoch": 0.8250890383854372,
+      "grad_norm": 0.8119692146377178,
+      "learning_rate": 9.035795443020873e-06,
+      "loss": 0.1216,
+      "step": 2085
+    },
+    {
+      "epoch": 0.8250890383854372,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9252336448598132,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24982096254825592,
+      "eval_runtime": 5.0949,
+      "eval_samples_per_second": 5.888,
+      "eval_steps_per_second": 0.196,
+      "step": 2085
+    },
+    {
+      "epoch": 0.8254847645429363,
+      "grad_norm": 0.6147092131098841,
+      "learning_rate": 8.996227007993896e-06,
+      "loss": 0.1246,
+      "step": 2086
+    },
+    {
+      "epoch": 0.8258804907004353,
+      "grad_norm": 1.1117802456809973,
+      "learning_rate": 8.956736833459328e-06,
+      "loss": 0.1697,
+      "step": 2087
+    },
+    {
+      "epoch": 0.8262762168579343,
+      "grad_norm": 0.9179634359224617,
+      "learning_rate": 8.91732499478879e-06,
+      "loss": 0.1537,
+      "step": 2088
+    },
+    {
+      "epoch": 0.8266719430154333,
+      "grad_norm": 1.1292164316772388,
+      "learning_rate": 8.877991567204352e-06,
+      "loss": 0.2151,
+      "step": 2089
+    },
+    {
+      "epoch": 0.8270676691729323,
+      "grad_norm": 1.1027373500259001,
+      "learning_rate": 8.838736625778476e-06,
+      "loss": 0.2189,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8270676691729323,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9262174126906051,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2473958283662796,
+      "eval_runtime": 4.9397,
+      "eval_samples_per_second": 6.073,
+      "eval_steps_per_second": 0.202,
+      "step": 2090
+    },
+    {
+      "epoch": 0.8274633953304313,
+      "grad_norm": 0.9769606669583665,
+      "learning_rate": 8.799560245433814e-06,
+      "loss": 0.1741,
+      "step": 2091
+    },
+    {
+      "epoch": 0.8278591214879304,
+      "grad_norm": 0.826800540837405,
+      "learning_rate": 8.76046250094304e-06,
+      "loss": 0.1778,
+      "step": 2092
+    },
+    {
+      "epoch": 0.8282548476454293,
+      "grad_norm": 0.8446785142808437,
+      "learning_rate": 8.721443466928786e-06,
+      "loss": 0.15,
+      "step": 2093
+    },
+    {
+      "epoch": 0.8286505738029284,
+      "grad_norm": 0.8633231052020104,
+      "learning_rate": 8.68250321786343e-06,
+      "loss": 0.1485,
+      "step": 2094
+    },
+    {
+      "epoch": 0.8290462999604273,
+      "grad_norm": 1.4517127690016542,
+      "learning_rate": 8.643641828069005e-06,
+      "loss": 0.23,
+      "step": 2095
+    },
+    {
+      "epoch": 0.8290462999604273,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9254795868175111,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24484048783779144,
+      "eval_runtime": 4.8268,
+      "eval_samples_per_second": 6.215,
+      "eval_steps_per_second": 0.207,
+      "step": 2095
+    },
+    {
+      "epoch": 0.8294420261179264,
+      "grad_norm": 0.7412021202111235,
+      "learning_rate": 8.604859371716994e-06,
+      "loss": 0.1363,
+      "step": 2096
+    },
+    {
+      "epoch": 0.8298377522754254,
+      "grad_norm": 1.0989623479656467,
+      "learning_rate": 8.56615592282825e-06,
+      "loss": 0.1436,
+      "step": 2097
+    },
+    {
+      "epoch": 0.8302334784329244,
+      "grad_norm": 0.8220607455591905,
+      "learning_rate": 8.527531555272849e-06,
+      "loss": 0.1411,
+      "step": 2098
+    },
+    {
+      "epoch": 0.8306292045904234,
+      "grad_norm": 0.8067191689632638,
+      "learning_rate": 8.488986342769883e-06,
+      "loss": 0.1595,
+      "step": 2099
+    },
+    {
+      "epoch": 0.8310249307479224,
+      "grad_norm": 0.7563790437155197,
+      "learning_rate": 8.450520358887415e-06,
+      "loss": 0.1472,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8310249307479224,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9257255287752091,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24537760019302368,
+      "eval_runtime": 4.8962,
+      "eval_samples_per_second": 6.127,
+      "eval_steps_per_second": 0.204,
+      "step": 2100
+    },
+    {
+      "epoch": 0.8314206569054214,
+      "grad_norm": 0.6775786821660054,
+      "learning_rate": 8.41213367704224e-06,
+      "loss": 0.1571,
+      "step": 2101
+    },
+    {
+      "epoch": 0.8318163830629205,
+      "grad_norm": 0.7160643965541019,
+      "learning_rate": 8.37382637049987e-06,
+      "loss": 0.1393,
+      "step": 2102
+    },
+    {
+      "epoch": 0.8322121092204194,
+      "grad_norm": 0.7854208408469532,
+      "learning_rate": 8.335598512374243e-06,
+      "loss": 0.1083,
+      "step": 2103
+    },
+    {
+      "epoch": 0.8326078353779185,
+      "grad_norm": 0.8826276542781595,
+      "learning_rate": 8.297450175627714e-06,
+      "loss": 0.2523,
+      "step": 2104
+    },
+    {
+      "epoch": 0.8330035615354174,
+      "grad_norm": 0.8989597316696435,
+      "learning_rate": 8.259381433070801e-06,
+      "loss": 0.1603,
+      "step": 2105
+    },
+    {
+      "epoch": 0.8330035615354174,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9247417609444172,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24734701216220856,
+      "eval_runtime": 5.2698,
+      "eval_samples_per_second": 5.693,
+      "eval_steps_per_second": 0.19,
+      "step": 2105
+    },
+    {
+      "epoch": 0.8333992876929165,
+      "grad_norm": 1.0773810788659635,
+      "learning_rate": 8.221392357362211e-06,
+      "loss": 0.161,
+      "step": 2106
+    },
+    {
+      "epoch": 0.8337950138504155,
+      "grad_norm": 0.6887314492292407,
+      "learning_rate": 8.183483021008498e-06,
+      "loss": 0.1197,
+      "step": 2107
+    },
+    {
+      "epoch": 0.8341907400079145,
+      "grad_norm": 0.6720322414991993,
+      "learning_rate": 8.145653496364054e-06,
+      "loss": 0.1289,
+      "step": 2108
+    },
+    {
+      "epoch": 0.8345864661654135,
+      "grad_norm": 0.7516227336586865,
+      "learning_rate": 8.107903855630956e-06,
+      "loss": 0.0912,
+      "step": 2109
+    },
+    {
+      "epoch": 0.8349821923229126,
+      "grad_norm": 0.9843758540628557,
+      "learning_rate": 8.070234170858803e-06,
+      "loss": 0.2199,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8349821923229126,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.926463354648303,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25068360567092896,
+      "eval_runtime": 5.0225,
+      "eval_samples_per_second": 5.973,
+      "eval_steps_per_second": 0.199,
+      "step": 2110
+    },
+    {
+      "epoch": 0.8353779184804115,
+      "grad_norm": 0.8115574881340666,
+      "learning_rate": 8.032644513944609e-06,
+      "loss": 0.1126,
+      "step": 2111
+    },
+    {
+      "epoch": 0.8357736446379106,
+      "grad_norm": 0.6937953982103526,
+      "learning_rate": 7.995134956632599e-06,
+      "loss": 0.1436,
+      "step": 2112
+    },
+    {
+      "epoch": 0.8361693707954095,
+      "grad_norm": 0.9762508996485155,
+      "learning_rate": 7.957705570514163e-06,
+      "loss": 0.1313,
+      "step": 2113
+    },
+    {
+      "epoch": 0.8365650969529086,
+      "grad_norm": 0.5649270647356713,
+      "learning_rate": 7.920356427027648e-06,
+      "loss": 0.0988,
+      "step": 2114
+    },
+    {
+      "epoch": 0.8369608231104076,
+      "grad_norm": 0.6211842179744085,
+      "learning_rate": 7.883087597458278e-06,
+      "loss": 0.0888,
+      "step": 2115
+    },
+    {
+      "epoch": 0.8369608231104076,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.927201180521397,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2557942569255829,
+      "eval_runtime": 5.1158,
+      "eval_samples_per_second": 5.864,
+      "eval_steps_per_second": 0.195,
+      "step": 2115
+    },
+    {
+      "epoch": 0.8373565492679066,
+      "grad_norm": 0.5638575184828931,
+      "learning_rate": 7.845899152937946e-06,
+      "loss": 0.1268,
+      "step": 2116
+    },
+    {
+      "epoch": 0.8377522754254056,
+      "grad_norm": 0.9739319581178364,
+      "learning_rate": 7.808791164445156e-06,
+      "loss": 0.1488,
+      "step": 2117
+    },
+    {
+      "epoch": 0.8381480015829046,
+      "grad_norm": 0.7013382631114277,
+      "learning_rate": 7.771763702804852e-06,
+      "loss": 0.076,
+      "step": 2118
+    },
+    {
+      "epoch": 0.8385437277404036,
+      "grad_norm": 0.8021500785045441,
+      "learning_rate": 7.734816838688248e-06,
+      "loss": 0.208,
+      "step": 2119
+    },
+    {
+      "epoch": 0.8389394538979027,
+      "grad_norm": 1.1908877134783324,
+      "learning_rate": 7.697950642612756e-06,
+      "loss": 0.1762,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8389394538979027,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9279390063944909,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2587727904319763,
+      "eval_runtime": 5.1276,
+      "eval_samples_per_second": 5.851,
+      "eval_steps_per_second": 0.195,
+      "step": 2120
+    },
+    {
+      "epoch": 0.8393351800554016,
+      "grad_norm": 0.5503842550393047,
+      "learning_rate": 7.661165184941832e-06,
+      "loss": 0.0839,
+      "step": 2121
+    },
+    {
+      "epoch": 0.8397309062129007,
+      "grad_norm": 0.6384443358340002,
+      "learning_rate": 7.62446053588482e-06,
+      "loss": 0.1111,
+      "step": 2122
+    },
+    {
+      "epoch": 0.8401266323703996,
+      "grad_norm": 0.4615175798116959,
+      "learning_rate": 7.587836765496819e-06,
+      "loss": 0.0735,
+      "step": 2123
+    },
+    {
+      "epoch": 0.8405223585278987,
+      "grad_norm": 0.5694659307292461,
+      "learning_rate": 7.551293943678583e-06,
+      "loss": 0.131,
+      "step": 2124
+    },
+    {
+      "epoch": 0.8409180846853977,
+      "grad_norm": 0.7682571662273591,
+      "learning_rate": 7.51483214017637e-06,
+      "loss": 0.1224,
+      "step": 2125
+    },
+    {
+      "epoch": 0.8409180846853977,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9274471224790948,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26022136211395264,
+      "eval_runtime": 5.1062,
+      "eval_samples_per_second": 5.875,
+      "eval_steps_per_second": 0.196,
+      "step": 2125
+    },
+    {
+      "epoch": 0.8413138108428967,
+      "grad_norm": 0.8302699393949629,
+      "learning_rate": 7.478451424581761e-06,
+      "loss": 0.2036,
+      "step": 2126
+    },
+    {
+      "epoch": 0.8417095370003957,
+      "grad_norm": 0.7362658788824431,
+      "learning_rate": 7.442151866331631e-06,
+      "loss": 0.1356,
+      "step": 2127
+    },
+    {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.8693907983629763,
+      "learning_rate": 7.405933534707915e-06,
+      "loss": 0.1336,
+      "step": 2128
+    },
+    {
+      "epoch": 0.8425009893153937,
+      "grad_norm": 0.7394769841827123,
+      "learning_rate": 7.3697964988375444e-06,
+      "loss": 0.1556,
+      "step": 2129
+    },
+    {
+      "epoch": 0.8428967154728928,
+      "grad_norm": 1.1060012864887494,
+      "learning_rate": 7.3337408276922594e-06,
+      "loss": 0.1754,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8428967154728928,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9286768322675848,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.26280924677848816,
+      "eval_runtime": 5.2209,
+      "eval_samples_per_second": 5.746,
+      "eval_steps_per_second": 0.192,
+      "step": 2130
+    },
+    {
+      "epoch": 0.8432924416303917,
+      "grad_norm": 1.23259057272544,
+      "learning_rate": 7.2977665900885285e-06,
+      "loss": 0.148,
+      "step": 2131
+    },
+    {
+      "epoch": 0.8436881677878908,
+      "grad_norm": 1.010807828529088,
+      "learning_rate": 7.26187385468739e-06,
+      "loss": 0.1671,
+      "step": 2132
+    },
+    {
+      "epoch": 0.8440838939453897,
+      "grad_norm": 0.8504317817630274,
+      "learning_rate": 7.226062689994328e-06,
+      "loss": 0.1427,
+      "step": 2133
+    },
+    {
+      "epoch": 0.8444796201028888,
+      "grad_norm": 0.892470546749732,
+      "learning_rate": 7.190333164359137e-06,
+      "loss": 0.1585,
+      "step": 2134
+    },
+    {
+      "epoch": 0.8448753462603878,
+      "grad_norm": 0.8753497664220152,
+      "learning_rate": 7.154685345975759e-06,
+      "loss": 0.1713,
+      "step": 2135
+    },
+    {
+      "epoch": 0.8448753462603878,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.926709296606001,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2620605528354645,
+      "eval_runtime": 4.96,
+      "eval_samples_per_second": 6.048,
+      "eval_steps_per_second": 0.202,
+      "step": 2135
+    },
+    {
+      "epoch": 0.8452710724178868,
+      "grad_norm": 0.6446270923407261,
+      "learning_rate": 7.119119302882271e-06,
+      "loss": 0.0904,
+      "step": 2136
+    },
+    {
+      "epoch": 0.8456667985753858,
+      "grad_norm": 0.7249639672901916,
+      "learning_rate": 7.083635102960584e-06,
+      "loss": 0.1562,
+      "step": 2137
+    },
+    {
+      "epoch": 0.8460625247328848,
+      "grad_norm": 0.9462197153145087,
+      "learning_rate": 7.048232813936467e-06,
+      "loss": 0.2016,
+      "step": 2138
+    },
+    {
+      "epoch": 0.8464582508903838,
+      "grad_norm": 0.6935257323360903,
+      "learning_rate": 7.012912503379287e-06,
+      "loss": 0.1542,
+      "step": 2139
+    },
+    {
+      "epoch": 0.8468539770478829,
+      "grad_norm": 0.8733388039091272,
+      "learning_rate": 6.977674238702036e-06,
+      "loss": 0.1818,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8468539770478829,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9274471224790949,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2576334774494171,
+      "eval_runtime": 5.2403,
+      "eval_samples_per_second": 5.725,
+      "eval_steps_per_second": 0.191,
+      "step": 2140
+    },
+    {
+      "epoch": 0.8472497032053818,
+      "grad_norm": 0.7213248512509336,
+      "learning_rate": 6.942518087161026e-06,
+      "loss": 0.1133,
+      "step": 2141
+    },
+    {
+      "epoch": 0.8476454293628809,
+      "grad_norm": 1.0255099206805611,
+      "learning_rate": 6.907444115855899e-06,
+      "loss": 0.1418,
+      "step": 2142
+    },
+    {
+      "epoch": 0.84804115552038,
+      "grad_norm": 1.0709456015733834,
+      "learning_rate": 6.8724523917294e-06,
+      "loss": 0.1767,
+      "step": 2143
+    },
+    {
+      "epoch": 0.8484368816778789,
+      "grad_norm": 1.1103151090448384,
+      "learning_rate": 6.837542981567346e-06,
+      "loss": 0.2251,
+      "step": 2144
+    },
+    {
+      "epoch": 0.848832607835378,
+      "grad_norm": 1.2521914879532863,
+      "learning_rate": 6.802715951998434e-06,
+      "loss": 0.3122,
+      "step": 2145
+    },
+    {
+      "epoch": 0.848832607835378,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9274471224790949,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.25133463740348816,
+      "eval_runtime": 4.8676,
+      "eval_samples_per_second": 6.163,
+      "eval_steps_per_second": 0.205,
+      "step": 2145
+    },
+    {
+      "epoch": 0.8492283339928769,
+      "grad_norm": 0.7554870372865617,
+      "learning_rate": 6.767971369494097e-06,
+      "loss": 0.175,
+      "step": 2146
+    },
+    {
+      "epoch": 0.849624060150376,
+      "grad_norm": 0.7835641177117965,
+      "learning_rate": 6.733309300368435e-06,
+      "loss": 0.1622,
+      "step": 2147
+    },
+    {
+      "epoch": 0.850019786307875,
+      "grad_norm": 0.7120032472218877,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.1778,
+      "step": 2148
+    },
+    {
+      "epoch": 0.850415512465374,
+      "grad_norm": 0.9699253826567068,
+      "learning_rate": 6.664232966721995e-06,
+      "loss": 0.1405,
+      "step": 2149
+    },
+    {
+      "epoch": 0.850811238622873,
+      "grad_norm": 0.8291135048711319,
+      "learning_rate": 6.629818834041457e-06,
+      "loss": 0.1482,
+      "step": 2150
+    },
+    {
+      "epoch": 0.850811238622873,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9281849483521888,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.247314453125,
+      "eval_runtime": 4.94,
+      "eval_samples_per_second": 6.073,
+      "eval_steps_per_second": 0.202,
+      "step": 2150
+    },
+    {
+      "epoch": 0.8512069647803719,
+      "grad_norm": 0.7667815441011655,
+      "learning_rate": 6.595487478419859e-06,
+      "loss": 0.167,
+      "step": 2151
+    },
+    {
+      "epoch": 0.851602690937871,
+      "grad_norm": 0.8400647072981933,
+      "learning_rate": 6.5612389653826215e-06,
+      "loss": 0.1671,
+      "step": 2152
+    },
+    {
+      "epoch": 0.85199841709537,
+      "grad_norm": 0.472328094688762,
+      "learning_rate": 6.527073360296998e-06,
+      "loss": 0.076,
+      "step": 2153
+    },
+    {
+      "epoch": 0.852394143252869,
+      "grad_norm": 0.7510527086655423,
+      "learning_rate": 6.492990728372056e-06,
+      "loss": 0.1288,
+      "step": 2154
+    },
+    {
+      "epoch": 0.852789869410368,
+      "grad_norm": 0.9593142317647102,
+      "learning_rate": 6.458991134658487e-06,
+      "loss": 0.1824,
+      "step": 2155
+    },
+    {
+      "epoch": 0.852789869410368,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.927201180521397,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24428710341453552,
+      "eval_runtime": 5.1056,
+      "eval_samples_per_second": 5.876,
+      "eval_steps_per_second": 0.196,
+      "step": 2155
+    },
+    {
+      "epoch": 0.853185595567867,
+      "grad_norm": 0.7168452867613544,
+      "learning_rate": 6.42507464404849e-06,
+      "loss": 0.1361,
+      "step": 2156
+    },
+    {
+      "epoch": 0.853581321725366,
+      "grad_norm": 0.6620712075071548,
+      "learning_rate": 6.391241321275637e-06,
+      "loss": 0.152,
+      "step": 2157
+    },
+    {
+      "epoch": 0.8539770478828651,
+      "grad_norm": 1.1686736300061498,
+      "learning_rate": 6.357491230914786e-06,
+      "loss": 0.2314,
+      "step": 2158
+    },
+    {
+      "epoch": 0.854372774040364,
+      "grad_norm": 0.6254742796693729,
+      "learning_rate": 6.323824437381931e-06,
+      "loss": 0.1135,
+      "step": 2159
+    },
+    {
+      "epoch": 0.8547685001978631,
+      "grad_norm": 0.6339742142101213,
+      "learning_rate": 6.290241004934083e-06,
+      "loss": 0.1602,
+      "step": 2160
+    },
+    {
+      "epoch": 0.8547685001978631,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9276930644367928,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24293619394302368,
+      "eval_runtime": 5.0464,
+      "eval_samples_per_second": 5.945,
+      "eval_steps_per_second": 0.198,
+      "step": 2160
+    },
+    {
+      "epoch": 0.855164226355362,
+      "grad_norm": 0.8965989554043279,
+      "learning_rate": 6.256740997669142e-06,
+      "loss": 0.157,
+      "step": 2161
+    },
+    {
+      "epoch": 0.8555599525128611,
+      "grad_norm": 0.7420574497235716,
+      "learning_rate": 6.223324479525778e-06,
+      "loss": 0.1401,
+      "step": 2162
+    },
+    {
+      "epoch": 0.8559556786703602,
+      "grad_norm": 0.5258313090846062,
+      "learning_rate": 6.18999151428335e-06,
+      "loss": 0.0846,
+      "step": 2163
+    },
+    {
+      "epoch": 0.8563514048278591,
+      "grad_norm": 0.6352766821560462,
+      "learning_rate": 6.1567421655616856e-06,
+      "loss": 0.1119,
+      "step": 2164
+    },
+    {
+      "epoch": 0.8567471309853582,
+      "grad_norm": 0.5970107477792718,
+      "learning_rate": 6.12357649682106e-06,
+      "loss": 0.1297,
+      "step": 2165
+    },
+    {
+      "epoch": 0.8567471309853582,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9286768322675848,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.243408203125,
+      "eval_runtime": 4.9625,
+      "eval_samples_per_second": 6.045,
+      "eval_steps_per_second": 0.202,
+      "step": 2165
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.7606985896810577,
+      "learning_rate": 6.090494571362037e-06,
+      "loss": 0.1496,
+      "step": 2166
+    },
+    {
+      "epoch": 0.8575385833003561,
+      "grad_norm": 0.7750190096806079,
+      "learning_rate": 6.057496452325346e-06,
+      "loss": 0.0999,
+      "step": 2167
+    },
+    {
+      "epoch": 0.8579343094578552,
+      "grad_norm": 0.8772335193769163,
+      "learning_rate": 6.0245822026917256e-06,
+      "loss": 0.1461,
+      "step": 2168
+    },
+    {
+      "epoch": 0.8583300356153541,
+      "grad_norm": 0.7569183635580057,
+      "learning_rate": 5.991751885281882e-06,
+      "loss": 0.1245,
+      "step": 2169
+    },
+    {
+      "epoch": 0.8587257617728532,
+      "grad_norm": 0.682711271361936,
+      "learning_rate": 5.9590055627563256e-06,
+      "loss": 0.102,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8587257617728532,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9276930644367928,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24516601860523224,
+      "eval_runtime": 5.0492,
+      "eval_samples_per_second": 5.942,
+      "eval_steps_per_second": 0.198,
+      "step": 2170
+    },
+    {
+      "epoch": 0.8591214879303521,
+      "grad_norm": 0.6154470362240125,
+      "learning_rate": 5.926343297615216e-06,
+      "loss": 0.127,
+      "step": 2171
+    },
+    {
+      "epoch": 0.8595172140878512,
+      "grad_norm": 0.7120709457614607,
+      "learning_rate": 5.893765152198327e-06,
+      "loss": 0.1292,
+      "step": 2172
+    },
+    {
+      "epoch": 0.8599129402453503,
+      "grad_norm": 1.0897337812478771,
+      "learning_rate": 5.8612711886848196e-06,
+      "loss": 0.2512,
+      "step": 2173
+    },
+    {
+      "epoch": 0.8603086664028492,
+      "grad_norm": 0.5337095317476303,
+      "learning_rate": 5.828861469093266e-06,
+      "loss": 0.0957,
+      "step": 2174
+    },
+    {
+      "epoch": 0.8607043925603483,
+      "grad_norm": 0.6870274668163368,
+      "learning_rate": 5.796536055281371e-06,
+      "loss": 0.1362,
+      "step": 2175
+    },
+    {
+      "epoch": 0.8607043925603483,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9284308903098869,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2465006560087204,
+      "eval_runtime": 5.0078,
+      "eval_samples_per_second": 5.991,
+      "eval_steps_per_second": 0.2,
+      "step": 2175
+    },
+    {
+      "epoch": 0.8611001187178472,
+      "grad_norm": 0.9348128866554337,
+      "learning_rate": 5.7642950089459805e-06,
+      "loss": 0.1882,
+      "step": 2176
+    },
+    {
+      "epoch": 0.8614958448753463,
+      "grad_norm": 0.755569960760724,
+      "learning_rate": 5.7321383916228764e-06,
+      "loss": 0.1033,
+      "step": 2177
+    },
+    {
+      "epoch": 0.8618915710328453,
+      "grad_norm": 0.7282658149840272,
+      "learning_rate": 5.700066264686759e-06,
+      "loss": 0.1221,
+      "step": 2178
+    },
+    {
+      "epoch": 0.8622872971903442,
+      "grad_norm": 1.0410815372378537,
+      "learning_rate": 5.668078689351009e-06,
+      "loss": 0.197,
+      "step": 2179
+    },
+    {
+      "epoch": 0.8626830233478433,
+      "grad_norm": 0.6811890382487824,
+      "learning_rate": 5.636175726667636e-06,
+      "loss": 0.1262,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8626830233478433,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9299065420560747,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24768880009651184,
+      "eval_runtime": 4.6629,
+      "eval_samples_per_second": 6.434,
+      "eval_steps_per_second": 0.214,
+      "step": 2180
+    },
+    {
+      "epoch": 0.8630787495053424,
+      "grad_norm": 0.5448460825882789,
+      "learning_rate": 5.604357437527191e-06,
+      "loss": 0.1494,
+      "step": 2181
+    },
+    {
+      "epoch": 0.8634744756628413,
+      "grad_norm": 0.4554738968431922,
+      "learning_rate": 5.572623882658595e-06,
+      "loss": 0.0755,
+      "step": 2182
+    },
+    {
+      "epoch": 0.8638702018203404,
+      "grad_norm": 1.0374084042664145,
+      "learning_rate": 5.540975122629061e-06,
+      "loss": 0.1298,
+      "step": 2183
+    },
+    {
+      "epoch": 0.8642659279778393,
+      "grad_norm": 0.8169865896784426,
+      "learning_rate": 5.509411217843913e-06,
+      "loss": 0.1279,
+      "step": 2184
+    },
+    {
+      "epoch": 0.8646616541353384,
+      "grad_norm": 0.7696480357682703,
+      "learning_rate": 5.477932228546573e-06,
+      "loss": 0.1252,
+      "step": 2185
+    },
+    {
+      "epoch": 0.8646616541353384,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9291687161829808,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24930013716220856,
+      "eval_runtime": 5.0628,
+      "eval_samples_per_second": 5.926,
+      "eval_steps_per_second": 0.198,
+      "step": 2185
+    },
+    {
+      "epoch": 0.8650573802928374,
+      "grad_norm": 1.2912697187132232,
+      "learning_rate": 5.4465382148183645e-06,
+      "loss": 0.1349,
+      "step": 2186
+    },
+    {
+      "epoch": 0.8654531064503364,
+      "grad_norm": 0.8704044974664962,
+      "learning_rate": 5.41522923657844e-06,
+      "loss": 0.1674,
+      "step": 2187
+    },
+    {
+      "epoch": 0.8658488326078354,
+      "grad_norm": 0.7510600802747459,
+      "learning_rate": 5.384005353583632e-06,
+      "loss": 0.1387,
+      "step": 2188
+    },
+    {
+      "epoch": 0.8662445587653343,
+      "grad_norm": 0.8112705789791733,
+      "learning_rate": 5.352866625428371e-06,
+      "loss": 0.1284,
+      "step": 2189
+    },
+    {
+      "epoch": 0.8666402849228334,
+      "grad_norm": 0.6591252890527719,
+      "learning_rate": 5.321813111544577e-06,
+      "loss": 0.1245,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8666402849228334,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9303984259714706,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24913737177848816,
+      "eval_runtime": 5.1118,
+      "eval_samples_per_second": 5.869,
+      "eval_steps_per_second": 0.196,
+      "step": 2190
+    },
+    {
+      "epoch": 0.8670360110803325,
+      "grad_norm": 0.7762106308986856,
+      "learning_rate": 5.290844871201484e-06,
+      "loss": 0.1433,
+      "step": 2191
+    },
+    {
+      "epoch": 0.8674317372378314,
+      "grad_norm": 0.967717555974649,
+      "learning_rate": 5.259961963505606e-06,
+      "loss": 0.1964,
+      "step": 2192
+    },
+    {
+      "epoch": 0.8678274633953305,
+      "grad_norm": 0.9768531263910336,
+      "learning_rate": 5.229164447400587e-06,
+      "loss": 0.1356,
+      "step": 2193
+    },
+    {
+      "epoch": 0.8682231895528294,
+      "grad_norm": 1.107814255040027,
+      "learning_rate": 5.19845238166709e-06,
+      "loss": 0.1572,
+      "step": 2194
+    },
+    {
+      "epoch": 0.8686189157103285,
+      "grad_norm": 0.5990956047298069,
+      "learning_rate": 5.1678258249226615e-06,
+      "loss": 0.112,
+      "step": 2195
+    },
+    {
+      "epoch": 0.8686189157103285,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9318740777176586,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24734701216220856,
+      "eval_runtime": 5.1986,
+      "eval_samples_per_second": 5.771,
+      "eval_steps_per_second": 0.192,
+      "step": 2195
+    },
+    {
+      "epoch": 0.8690146418678275,
+      "grad_norm": 0.8784487000584996,
+      "learning_rate": 5.137284835621681e-06,
+      "loss": 0.1322,
+      "step": 2196
+    },
+    {
+      "epoch": 0.8694103680253265,
+      "grad_norm": 0.975150632477361,
+      "learning_rate": 5.106829472055202e-06,
+      "loss": 0.1421,
+      "step": 2197
+    },
+    {
+      "epoch": 0.8698060941828255,
+      "grad_norm": 0.6930704810344208,
+      "learning_rate": 5.0764597923508235e-06,
+      "loss": 0.1272,
+      "step": 2198
+    },
+    {
+      "epoch": 0.8702018203403245,
+      "grad_norm": 0.715168917807267,
+      "learning_rate": 5.046175854472634e-06,
+      "loss": 0.1623,
+      "step": 2199
+    },
+    {
+      "epoch": 0.8705975464978235,
+      "grad_norm": 0.8825385295170945,
+      "learning_rate": 5.015977716221076e-06,
+      "loss": 0.1282,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8705975464978235,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9311362518445646,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24720051884651184,
+      "eval_runtime": 5.1099,
+      "eval_samples_per_second": 5.871,
+      "eval_steps_per_second": 0.196,
+      "step": 2200
+    },
+    {
+      "epoch": 0.8709932726553226,
+      "grad_norm": 0.8197033902255443,
+      "learning_rate": 4.985865435232834e-06,
+      "loss": 0.0809,
+      "step": 2201
+    },
+    {
+      "epoch": 0.8713889988128215,
+      "grad_norm": 0.5859303036122966,
+      "learning_rate": 4.955839068980689e-06,
+      "loss": 0.0954,
+      "step": 2202
+    },
+    {
+      "epoch": 0.8717847249703206,
+      "grad_norm": 1.07651751662836,
+      "learning_rate": 4.925898674773488e-06,
+      "loss": 0.1891,
+      "step": 2203
+    },
+    {
+      "epoch": 0.8721804511278195,
+      "grad_norm": 0.8394849525247677,
+      "learning_rate": 4.896044309755965e-06,
+      "loss": 0.13,
+      "step": 2204
+    },
+    {
+      "epoch": 0.8725761772853186,
+      "grad_norm": 0.7364926883118647,
+      "learning_rate": 4.866276030908678e-06,
+      "loss": 0.1528,
+      "step": 2205
+    },
+    {
+      "epoch": 0.8725761772853186,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9303984259714707,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24638672173023224,
+      "eval_runtime": 5.2096,
+      "eval_samples_per_second": 5.759,
+      "eval_steps_per_second": 0.192,
+      "step": 2205
+    },
+    {
+      "epoch": 0.8729719034428176,
+      "grad_norm": 0.8074544130302107,
+      "learning_rate": 4.836593895047853e-06,
+      "loss": 0.1171,
+      "step": 2206
+    },
+    {
+      "epoch": 0.8733676296003166,
+      "grad_norm": 0.7031327717903912,
+      "learning_rate": 4.806997958825299e-06,
+      "loss": 0.1187,
+      "step": 2207
+    },
+    {
+      "epoch": 0.8737633557578156,
+      "grad_norm": 0.6424257456682662,
+      "learning_rate": 4.777488278728354e-06,
+      "loss": 0.1478,
+      "step": 2208
+    },
+    {
+      "epoch": 0.8741590819153146,
+      "grad_norm": 0.9728132581222644,
+      "learning_rate": 4.748064911079669e-06,
+      "loss": 0.14,
+      "step": 2209
+    },
+    {
+      "epoch": 0.8745548080728136,
+      "grad_norm": 0.8382843485598854,
+      "learning_rate": 4.7187279120371905e-06,
+      "loss": 0.1212,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8745548080728136,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9306443679291686,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24653320014476776,
+      "eval_runtime": 4.8976,
+      "eval_samples_per_second": 6.125,
+      "eval_steps_per_second": 0.204,
+      "step": 2210
+    },
+    {
+      "epoch": 0.8749505342303127,
+      "grad_norm": 0.8594058848220121,
+      "learning_rate": 4.6894773375939836e-06,
+      "loss": 0.1991,
+      "step": 2211
+    },
+    {
+      "epoch": 0.8753462603878116,
+      "grad_norm": 1.1323621978598417,
+      "learning_rate": 4.6603132435782295e-06,
+      "loss": 0.1518,
+      "step": 2212
+    },
+    {
+      "epoch": 0.8757419865453107,
+      "grad_norm": 0.7641177811803257,
+      "learning_rate": 4.631235685652979e-06,
+      "loss": 0.1292,
+      "step": 2213
+    },
+    {
+      "epoch": 0.8761377127028096,
+      "grad_norm": 0.9954093753531614,
+      "learning_rate": 4.6022447193161625e-06,
+      "loss": 0.1187,
+      "step": 2214
+    },
+    {
+      "epoch": 0.8765334388603087,
+      "grad_norm": 1.0391254689994038,
+      "learning_rate": 4.573340399900417e-06,
+      "loss": 0.1702,
+      "step": 2215
+    },
+    {
+      "epoch": 0.8765334388603087,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9321200196753566,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24558919668197632,
+      "eval_runtime": 5.1707,
+      "eval_samples_per_second": 5.802,
+      "eval_steps_per_second": 0.193,
+      "step": 2215
+    },
+    {
+      "epoch": 0.8769291650178077,
+      "grad_norm": 1.1304159906403821,
+      "learning_rate": 4.544522782573019e-06,
+      "loss": 0.2121,
+      "step": 2216
+    },
+    {
+      "epoch": 0.8773248911753067,
+      "grad_norm": 0.4495622409311928,
+      "learning_rate": 4.515791922335772e-06,
+      "loss": 0.1118,
+      "step": 2217
+    },
+    {
+      "epoch": 0.8777206173328057,
+      "grad_norm": 0.873624917741848,
+      "learning_rate": 4.487147874024855e-06,
+      "loss": 0.1714,
+      "step": 2218
+    },
+    {
+      "epoch": 0.8781163434903048,
+      "grad_norm": 0.9670911078730067,
+      "learning_rate": 4.458590692310793e-06,
+      "loss": 0.1695,
+      "step": 2219
+    },
+    {
+      "epoch": 0.8785120696478037,
+      "grad_norm": 0.7922088727246017,
+      "learning_rate": 4.4301204316983035e-06,
+      "loss": 0.1665,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8785120696478037,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24402669072151184,
+      "eval_runtime": 4.9706,
+      "eval_samples_per_second": 6.035,
+      "eval_steps_per_second": 0.201,
+      "step": 2220
+    },
+    {
+      "epoch": 0.8789077958053028,
+      "grad_norm": 0.716207214998658,
+      "learning_rate": 4.401737146526219e-06,
+      "loss": 0.1048,
+      "step": 2221
+    },
+    {
+      "epoch": 0.8793035219628017,
+      "grad_norm": 0.7970104807431878,
+      "learning_rate": 4.37344089096734e-06,
+      "loss": 0.1536,
+      "step": 2222
+    },
+    {
+      "epoch": 0.8796992481203008,
+      "grad_norm": 1.0797396744434662,
+      "learning_rate": 4.3452317190283755e-06,
+      "loss": 0.2005,
+      "step": 2223
+    },
+    {
+      "epoch": 0.8800949742777998,
+      "grad_norm": 1.090500440780956,
+      "learning_rate": 4.317109684549847e-06,
+      "loss": 0.2638,
+      "step": 2224
+    },
+    {
+      "epoch": 0.8804907004352988,
+      "grad_norm": 0.6940385191431523,
+      "learning_rate": 4.289074841205914e-06,
+      "loss": 0.1192,
+      "step": 2225
+    },
+    {
+      "epoch": 0.8804907004352988,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9331037875061485,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24557290971279144,
+      "eval_runtime": 5.007,
+      "eval_samples_per_second": 5.992,
+      "eval_steps_per_second": 0.2,
+      "step": 2225
+    },
+    {
+      "epoch": 0.8808864265927978,
+      "grad_norm": 0.9745683605291304,
+      "learning_rate": 4.261127242504376e-06,
+      "loss": 0.1685,
+      "step": 2226
+    },
+    {
+      "epoch": 0.8812821527502968,
+      "grad_norm": 0.6598043430303845,
+      "learning_rate": 4.2332669417864735e-06,
+      "loss": 0.079,
+      "step": 2227
+    },
+    {
+      "epoch": 0.8816778789077958,
+      "grad_norm": 0.7452596347409093,
+      "learning_rate": 4.205493992226867e-06,
+      "loss": 0.1204,
+      "step": 2228
+    },
+    {
+      "epoch": 0.8820736050652949,
+      "grad_norm": 0.8466749849627204,
+      "learning_rate": 4.177808446833453e-06,
+      "loss": 0.1381,
+      "step": 2229
+    },
+    {
+      "epoch": 0.8824693312227938,
+      "grad_norm": 0.9447502764576206,
+      "learning_rate": 4.150210358447343e-06,
+      "loss": 0.1518,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8824693312227938,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9328578455484505,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24591471254825592,
+      "eval_runtime": 5.0789,
+      "eval_samples_per_second": 5.907,
+      "eval_steps_per_second": 0.197,
+      "step": 2230
+    },
+    {
+      "epoch": 0.8828650573802929,
+      "grad_norm": 1.0353845903875933,
+      "learning_rate": 4.122699779742711e-06,
+      "loss": 0.1794,
+      "step": 2231
+    },
+    {
+      "epoch": 0.8832607835377918,
+      "grad_norm": 1.3078407377030685,
+      "learning_rate": 4.095276763226719e-06,
+      "loss": 0.219,
+      "step": 2232
+    },
+    {
+      "epoch": 0.8836565096952909,
+      "grad_norm": 0.8948227337391861,
+      "learning_rate": 4.067941361239386e-06,
+      "loss": 0.1677,
+      "step": 2233
+    },
+    {
+      "epoch": 0.8840522358527899,
+      "grad_norm": 0.6395053794334896,
+      "learning_rate": 4.040693625953523e-06,
+      "loss": 0.116,
+      "step": 2234
+    },
+    {
+      "epoch": 0.8844479620102889,
+      "grad_norm": 0.9276942912260081,
+      "learning_rate": 4.013533609374631e-06,
+      "loss": 0.2145,
+      "step": 2235
+    },
+    {
+      "epoch": 0.8844479620102889,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022626,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24562174081802368,
+      "eval_runtime": 5.1382,
+      "eval_samples_per_second": 5.839,
+      "eval_steps_per_second": 0.195,
+      "step": 2235
+    },
+    {
+      "epoch": 0.8848436881677879,
+      "grad_norm": 0.8214577675106776,
+      "learning_rate": 3.986461363340754e-06,
+      "loss": 0.1457,
+      "step": 2236
+    },
+    {
+      "epoch": 0.8852394143252869,
+      "grad_norm": 0.8372969144863791,
+      "learning_rate": 3.959476939522455e-06,
+      "loss": 0.1562,
+      "step": 2237
+    },
+    {
+      "epoch": 0.8856351404827859,
+      "grad_norm": 0.9928341153197203,
+      "learning_rate": 3.932580389422647e-06,
+      "loss": 0.2097,
+      "step": 2238
+    },
+    {
+      "epoch": 0.886030866640285,
+      "grad_norm": 0.8217680624952052,
+      "learning_rate": 3.905771764376553e-06,
+      "loss": 0.1449,
+      "step": 2239
+    },
+    {
+      "epoch": 0.8864265927977839,
+      "grad_norm": 0.6284779935028032,
+      "learning_rate": 3.879051115551557e-06,
+      "loss": 0.1033,
+      "step": 2240
+    },
+    {
+      "epoch": 0.8864265927977839,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9301524840137728,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2445475310087204,
+      "eval_runtime": 5.0914,
+      "eval_samples_per_second": 5.892,
+      "eval_steps_per_second": 0.196,
+      "step": 2240
+    },
+    {
+      "epoch": 0.886822318955283,
+      "grad_norm": 0.9137044662592305,
+      "learning_rate": 3.852418493947135e-06,
+      "loss": 0.1118,
+      "step": 2241
+    },
+    {
+      "epoch": 0.8872180451127819,
+      "grad_norm": 0.48454521853238985,
+      "learning_rate": 3.825873950394776e-06,
+      "loss": 0.114,
+      "step": 2242
+    },
+    {
+      "epoch": 0.887613771270281,
+      "grad_norm": 0.7746245762697936,
+      "learning_rate": 3.7994175355578256e-06,
+      "loss": 0.1407,
+      "step": 2243
+    },
+    {
+      "epoch": 0.88800949742778,
+      "grad_norm": 0.9334715291276695,
+      "learning_rate": 3.7730492999314583e-06,
+      "loss": 0.1457,
+      "step": 2244
+    },
+    {
+      "epoch": 0.888405223585279,
+      "grad_norm": 1.0120324788192048,
+      "learning_rate": 3.7467692938425057e-06,
+      "loss": 0.1555,
+      "step": 2245
+    },
+    {
+      "epoch": 0.888405223585279,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24443359673023224,
+      "eval_runtime": 5.0491,
+      "eval_samples_per_second": 5.942,
+      "eval_steps_per_second": 0.198,
+      "step": 2245
+    },
+    {
+      "epoch": 0.888800949742778,
+      "grad_norm": 1.1647461480873509,
+      "learning_rate": 3.7205775674494624e-06,
+      "loss": 0.1537,
+      "step": 2246
+    },
+    {
+      "epoch": 0.889196675900277,
+      "grad_norm": 0.7798740101268412,
+      "learning_rate": 3.694474170742279e-06,
+      "loss": 0.1346,
+      "step": 2247
+    },
+    {
+      "epoch": 0.889592402057776,
+      "grad_norm": 1.0137864206983274,
+      "learning_rate": 3.6684591535423586e-06,
+      "loss": 0.1216,
+      "step": 2248
+    },
+    {
+      "epoch": 0.8899881282152751,
+      "grad_norm": 0.8631393961201419,
+      "learning_rate": 3.6425325655023656e-06,
+      "loss": 0.1046,
+      "step": 2249
+    },
+    {
+      "epoch": 0.890383854372774,
+      "grad_norm": 0.6789978341492537,
+      "learning_rate": 3.6166944561062622e-06,
+      "loss": 0.1651,
+      "step": 2250
+    },
+    {
+      "epoch": 0.890383854372774,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022626,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24526366591453552,
+      "eval_runtime": 4.9914,
+      "eval_samples_per_second": 6.01,
+      "eval_steps_per_second": 0.2,
+      "step": 2250
+    },
+    {
+      "epoch": 0.8907795805302731,
+      "grad_norm": 0.7217143306382184,
+      "learning_rate": 3.590944874669089e-06,
+      "loss": 0.1596,
+      "step": 2251
+    },
+    {
+      "epoch": 0.891175306687772,
+      "grad_norm": 1.0474479263943033,
+      "learning_rate": 3.565283870336911e-06,
+      "loss": 0.1832,
+      "step": 2252
+    },
+    {
+      "epoch": 0.8915710328452711,
+      "grad_norm": 1.298565597330361,
+      "learning_rate": 3.5397114920867725e-06,
+      "loss": 0.2266,
+      "step": 2253
+    },
+    {
+      "epoch": 0.8919667590027701,
+      "grad_norm": 0.777351949111962,
+      "learning_rate": 3.514227788726537e-06,
+      "loss": 0.1586,
+      "step": 2254
+    },
+    {
+      "epoch": 0.8923624851602691,
+      "grad_norm": 1.0469299232455658,
+      "learning_rate": 3.488832808894843e-06,
+      "loss": 0.2616,
+      "step": 2255
+    },
+    {
+      "epoch": 0.8923624851602691,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9321200196753565,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2451985627412796,
+      "eval_runtime": 5.0939,
+      "eval_samples_per_second": 5.889,
+      "eval_steps_per_second": 0.196,
+      "step": 2255
+    },
+    {
+      "epoch": 0.8927582113177681,
+      "grad_norm": 0.7464953188084694,
+      "learning_rate": 3.4635266010609624e-06,
+      "loss": 0.1218,
+      "step": 2256
+    },
+    {
+      "epoch": 0.8931539374752672,
+      "grad_norm": 0.5689038028332999,
+      "learning_rate": 3.4383092135247543e-06,
+      "loss": 0.0984,
+      "step": 2257
+    },
+    {
+      "epoch": 0.8935496636327661,
+      "grad_norm": 1.1300439661450687,
+      "learning_rate": 3.413180694416551e-06,
+      "loss": 0.1718,
+      "step": 2258
+    },
+    {
+      "epoch": 0.8939453897902652,
+      "grad_norm": 0.5247760631000785,
+      "learning_rate": 3.388141091697078e-06,
+      "loss": 0.0695,
+      "step": 2259
+    },
+    {
+      "epoch": 0.8943411159477641,
+      "grad_norm": 1.0681085747091035,
+      "learning_rate": 3.3631904531573277e-06,
+      "loss": 0.1996,
+      "step": 2260
+    },
+    {
+      "epoch": 0.8943411159477641,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9321200196753566,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24431966245174408,
+      "eval_runtime": 5.1204,
+      "eval_samples_per_second": 5.859,
+      "eval_steps_per_second": 0.195,
+      "step": 2260
+    },
+    {
+      "epoch": 0.8947368421052632,
+      "grad_norm": 1.0397697690275594,
+      "learning_rate": 3.338328826418513e-06,
+      "loss": 0.1432,
+      "step": 2261
+    },
+    {
+      "epoch": 0.8951325682627622,
+      "grad_norm": 0.9111874286931895,
+      "learning_rate": 3.3135562589319656e-06,
+      "loss": 0.1283,
+      "step": 2262
+    },
+    {
+      "epoch": 0.8955282944202612,
+      "grad_norm": 0.9525890326219971,
+      "learning_rate": 3.288872797979009e-06,
+      "loss": 0.1689,
+      "step": 2263
+    },
+    {
+      "epoch": 0.8959240205777602,
+      "grad_norm": 1.051407377399643,
+      "learning_rate": 3.264278490670919e-06,
+      "loss": 0.2121,
+      "step": 2264
+    },
+    {
+      "epoch": 0.8963197467352592,
+      "grad_norm": 0.7311757168275806,
+      "learning_rate": 3.239773383948802e-06,
+      "loss": 0.1372,
+      "step": 2265
+    },
+    {
+      "epoch": 0.8963197467352592,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9291687161829807,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24514974653720856,
+      "eval_runtime": 4.6992,
+      "eval_samples_per_second": 6.384,
+      "eval_steps_per_second": 0.213,
+      "step": 2265
+    },
+    {
+      "epoch": 0.8967154728927582,
+      "grad_norm": 0.8261748268345058,
+      "learning_rate": 3.2153575245835344e-06,
+      "loss": 0.145,
+      "step": 2266
+    },
+    {
+      "epoch": 0.8971111990502573,
+      "grad_norm": 0.8871994407693755,
+      "learning_rate": 3.1910309591756172e-06,
+      "loss": 0.1476,
+      "step": 2267
+    },
+    {
+      "epoch": 0.8975069252077562,
+      "grad_norm": 0.8056710550738623,
+      "learning_rate": 3.166793734155149e-06,
+      "loss": 0.1469,
+      "step": 2268
+    },
+    {
+      "epoch": 0.8979026513652553,
+      "grad_norm": 0.8080981282853406,
+      "learning_rate": 3.142645895781715e-06,
+      "loss": 0.1825,
+      "step": 2269
+    },
+    {
+      "epoch": 0.8982983775227542,
+      "grad_norm": 0.9443455251284217,
+      "learning_rate": 3.1185874901442703e-06,
+      "loss": 0.1477,
+      "step": 2270
+    },
+    {
+      "epoch": 0.8982983775227542,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9306443679291687,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2459309846162796,
+      "eval_runtime": 4.9546,
+      "eval_samples_per_second": 6.055,
+      "eval_steps_per_second": 0.202,
+      "step": 2270
+    },
+    {
+      "epoch": 0.8986941036802533,
+      "grad_norm": 0.5347161591715075,
+      "learning_rate": 3.0946185631611002e-06,
+      "loss": 0.0696,
+      "step": 2271
+    },
+    {
+      "epoch": 0.8990898298377523,
+      "grad_norm": 0.7541299410745835,
+      "learning_rate": 3.070739160579711e-06,
+      "loss": 0.1421,
+      "step": 2272
+    },
+    {
+      "epoch": 0.8994855559952513,
+      "grad_norm": 0.6672381154264779,
+      "learning_rate": 3.0469493279767335e-06,
+      "loss": 0.1268,
+      "step": 2273
+    },
+    {
+      "epoch": 0.8998812821527503,
+      "grad_norm": 0.8089624178294565,
+      "learning_rate": 3.0232491107578253e-06,
+      "loss": 0.144,
+      "step": 2274
+    },
+    {
+      "epoch": 0.9002770083102493,
+      "grad_norm": 0.9652041772523724,
+      "learning_rate": 2.9996385541576353e-06,
+      "loss": 0.1968,
+      "step": 2275
+    },
+    {
+      "epoch": 0.9002770083102493,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9306443679291687,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24545899033546448,
+      "eval_runtime": 5.1294,
+      "eval_samples_per_second": 5.849,
+      "eval_steps_per_second": 0.195,
+      "step": 2275
+    },
+    {
+      "epoch": 0.9006727344677483,
+      "grad_norm": 0.5833603034146356,
+      "learning_rate": 2.976117703239667e-06,
+      "loss": 0.1013,
+      "step": 2276
+    },
+    {
+      "epoch": 0.9010684606252474,
+      "grad_norm": 0.5542397091559673,
+      "learning_rate": 2.9526866028962206e-06,
+      "loss": 0.08,
+      "step": 2277
+    },
+    {
+      "epoch": 0.9014641867827463,
+      "grad_norm": 1.425115156073236,
+      "learning_rate": 2.9293452978482793e-06,
+      "loss": 0.2648,
+      "step": 2278
+    },
+    {
+      "epoch": 0.9018599129402454,
+      "grad_norm": 1.0670272488854673,
+      "learning_rate": 2.90609383264544e-06,
+      "loss": 0.2093,
+      "step": 2279
+    },
+    {
+      "epoch": 0.9022556390977443,
+      "grad_norm": 0.8950779608594098,
+      "learning_rate": 2.882932251665871e-06,
+      "loss": 0.1769,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9022556390977443,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022626,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24596354365348816,
+      "eval_runtime": 5.06,
+      "eval_samples_per_second": 5.929,
+      "eval_steps_per_second": 0.198,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9026513652552434,
+      "grad_norm": 0.7419704102540784,
+      "learning_rate": 2.8598605991161264e-06,
+      "loss": 0.1612,
+      "step": 2281
+    },
+    {
+      "epoch": 0.9030470914127424,
+      "grad_norm": 0.744678244019709,
+      "learning_rate": 2.8368789190311773e-06,
+      "loss": 0.104,
+      "step": 2282
+    },
+    {
+      "epoch": 0.9034428175702414,
+      "grad_norm": 0.722703467380455,
+      "learning_rate": 2.81398725527422e-06,
+      "loss": 0.1458,
+      "step": 2283
+    },
+    {
+      "epoch": 0.9038385437277404,
+      "grad_norm": 0.8203214782726644,
+      "learning_rate": 2.791185651536693e-06,
+      "loss": 0.1453,
+      "step": 2284
+    },
+    {
+      "epoch": 0.9042342698852394,
+      "grad_norm": 0.7469174327860593,
+      "learning_rate": 2.7684741513381074e-06,
+      "loss": 0.1718,
+      "step": 2285
+    },
+    {
+      "epoch": 0.9042342698852394,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9311362518445647,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2461751252412796,
+      "eval_runtime": 5.0478,
+      "eval_samples_per_second": 5.943,
+      "eval_steps_per_second": 0.198,
+      "step": 2285
+    },
+    {
+      "epoch": 0.9046299960427384,
+      "grad_norm": 0.6798659751140131,
+      "learning_rate": 2.7458527980260216e-06,
+      "loss": 0.115,
+      "step": 2286
+    },
+    {
+      "epoch": 0.9050257222002375,
+      "grad_norm": 0.6793258899224335,
+      "learning_rate": 2.7233216347759272e-06,
+      "loss": 0.1215,
+      "step": 2287
+    },
+    {
+      "epoch": 0.9054214483577364,
+      "grad_norm": 0.9066840561244014,
+      "learning_rate": 2.7008807045911855e-06,
+      "loss": 0.1911,
+      "step": 2288
+    },
+    {
+      "epoch": 0.9058171745152355,
+      "grad_norm": 0.8764945318302403,
+      "learning_rate": 2.6785300503029407e-06,
+      "loss": 0.1826,
+      "step": 2289
+    },
+    {
+      "epoch": 0.9062129006727345,
+      "grad_norm": 0.9487261091884898,
+      "learning_rate": 2.656269714570009e-06,
+      "loss": 0.2272,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9062129006727345,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9303984259714707,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24573567509651184,
+      "eval_runtime": 5.0696,
+      "eval_samples_per_second": 5.918,
+      "eval_steps_per_second": 0.197,
+      "step": 2290
+    },
+    {
+      "epoch": 0.9066086268302335,
+      "grad_norm": 0.5968770657573935,
+      "learning_rate": 2.6340997398788593e-06,
+      "loss": 0.0807,
+      "step": 2291
+    },
+    {
+      "epoch": 0.9070043529877325,
+      "grad_norm": 0.7942754326535966,
+      "learning_rate": 2.6120201685434776e-06,
+      "loss": 0.1474,
+      "step": 2292
+    },
+    {
+      "epoch": 0.9074000791452315,
+      "grad_norm": 0.8897541402252085,
+      "learning_rate": 2.5900310427053044e-06,
+      "loss": 0.1376,
+      "step": 2293
+    },
+    {
+      "epoch": 0.9077958053027305,
+      "grad_norm": 0.7346998873322627,
+      "learning_rate": 2.5681324043331455e-06,
+      "loss": 0.1711,
+      "step": 2294
+    },
+    {
+      "epoch": 0.9081915314602296,
+      "grad_norm": 1.0165177368816904,
+      "learning_rate": 2.5463242952231235e-06,
+      "loss": 0.1488,
+      "step": 2295
+    },
+    {
+      "epoch": 0.9081915314602296,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24720051884651184,
+      "eval_runtime": 5.1578,
+      "eval_samples_per_second": 5.816,
+      "eval_steps_per_second": 0.194,
+      "step": 2295
+    },
+    {
+      "epoch": 0.9085872576177285,
+      "grad_norm": 0.6852360196463074,
+      "learning_rate": 2.524606756998571e-06,
+      "loss": 0.1545,
+      "step": 2296
+    },
+    {
+      "epoch": 0.9089829837752276,
+      "grad_norm": 0.9982700874479719,
+      "learning_rate": 2.502979831109925e-06,
+      "loss": 0.1662,
+      "step": 2297
+    },
+    {
+      "epoch": 0.9093787099327265,
+      "grad_norm": 1.0567593785827034,
+      "learning_rate": 2.481443558834712e-06,
+      "loss": 0.2025,
+      "step": 2298
+    },
+    {
+      "epoch": 0.9097744360902256,
+      "grad_norm": 0.671469616921964,
+      "learning_rate": 2.459997981277423e-06,
+      "loss": 0.1614,
+      "step": 2299
+    },
+    {
+      "epoch": 0.9101701622477246,
+      "grad_norm": 0.7865270985714553,
+      "learning_rate": 2.438643139369462e-06,
+      "loss": 0.1605,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9101701622477246,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9306443679291686,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24676106870174408,
+      "eval_runtime": 4.8875,
+      "eval_samples_per_second": 6.138,
+      "eval_steps_per_second": 0.205,
+      "step": 2300
+    },
+    {
+      "epoch": 0.9105658884052236,
+      "grad_norm": 0.7243140865391168,
+      "learning_rate": 2.4173790738690195e-06,
+      "loss": 0.1324,
+      "step": 2301
+    },
+    {
+      "epoch": 0.9109616145627226,
+      "grad_norm": 0.8105830991931131,
+      "learning_rate": 2.3962058253610587e-06,
+      "loss": 0.1244,
+      "step": 2302
+    },
+    {
+      "epoch": 0.9113573407202216,
+      "grad_norm": 0.4713284289812932,
+      "learning_rate": 2.375123434257198e-06,
+      "loss": 0.1141,
+      "step": 2303
+    },
+    {
+      "epoch": 0.9117530668777206,
+      "grad_norm": 0.7282643672818592,
+      "learning_rate": 2.354131940795651e-06,
+      "loss": 0.1242,
+      "step": 2304
+    },
+    {
+      "epoch": 0.9121487930352197,
+      "grad_norm": 0.8754582479861359,
+      "learning_rate": 2.3332313850411236e-06,
+      "loss": 0.2384,
+      "step": 2305
+    },
+    {
+      "epoch": 0.9121487930352197,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9321200196753566,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24728189408779144,
+      "eval_runtime": 4.5804,
+      "eval_samples_per_second": 6.55,
+      "eval_steps_per_second": 0.218,
+      "step": 2305
+    },
+    {
+      "epoch": 0.9125445191927186,
+      "grad_norm": 0.7832360577839531,
+      "learning_rate": 2.312421806884779e-06,
+      "loss": 0.1319,
+      "step": 2306
+    },
+    {
+      "epoch": 0.9129402453502177,
+      "grad_norm": 0.7488781877821481,
+      "learning_rate": 2.29170324604413e-06,
+      "loss": 0.1413,
+      "step": 2307
+    },
+    {
+      "epoch": 0.9133359715077166,
+      "grad_norm": 0.8542936372054603,
+      "learning_rate": 2.2710757420629558e-06,
+      "loss": 0.1594,
+      "step": 2308
+    },
+    {
+      "epoch": 0.9137316976652157,
+      "grad_norm": 0.5205134536647634,
+      "learning_rate": 2.2505393343112745e-06,
+      "loss": 0.1148,
+      "step": 2309
+    },
+    {
+      "epoch": 0.9141274238227147,
+      "grad_norm": 0.5176587595309369,
+      "learning_rate": 2.2300940619852107e-06,
+      "loss": 0.0929,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9141274238227147,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9303984259714707,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24643555283546448,
+      "eval_runtime": 4.8481,
+      "eval_samples_per_second": 6.188,
+      "eval_steps_per_second": 0.206,
+      "step": 2310
+    },
+    {
+      "epoch": 0.9145231499802137,
+      "grad_norm": 0.7226377961236182,
+      "learning_rate": 2.209739964106966e-06,
+      "loss": 0.1122,
+      "step": 2311
+    },
+    {
+      "epoch": 0.9149188761377127,
+      "grad_norm": 0.5856186496303655,
+      "learning_rate": 2.1894770795247042e-06,
+      "loss": 0.0914,
+      "step": 2312
+    },
+    {
+      "epoch": 0.9153146022952117,
+      "grad_norm": 0.7118883006910611,
+      "learning_rate": 2.1693054469125118e-06,
+      "loss": 0.1056,
+      "step": 2313
+    },
+    {
+      "epoch": 0.9157103284527107,
+      "grad_norm": 0.8623956970355978,
+      "learning_rate": 2.149225104770314e-06,
+      "loss": 0.1486,
+      "step": 2314
+    },
+    {
+      "epoch": 0.9161060546102098,
+      "grad_norm": 0.8501029702803289,
+      "learning_rate": 2.1292360914237753e-06,
+      "loss": 0.1644,
+      "step": 2315
+    },
+    {
+      "epoch": 0.9161060546102098,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9299065420560747,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24697265028953552,
+      "eval_runtime": 5.0387,
+      "eval_samples_per_second": 5.954,
+      "eval_steps_per_second": 0.198,
+      "step": 2315
+    },
+    {
+      "epoch": 0.9165017807677087,
+      "grad_norm": 1.193630316398348,
+      "learning_rate": 2.109338445024284e-06,
+      "loss": 0.1663,
+      "step": 2316
+    },
+    {
+      "epoch": 0.9168975069252078,
+      "grad_norm": 0.8512156515093804,
+      "learning_rate": 2.089532203548794e-06,
+      "loss": 0.1857,
+      "step": 2317
+    },
+    {
+      "epoch": 0.9172932330827067,
+      "grad_norm": 0.6789388897844072,
+      "learning_rate": 2.0698174047998618e-06,
+      "loss": 0.139,
+      "step": 2318
+    },
+    {
+      "epoch": 0.9176889592402058,
+      "grad_norm": 0.5113862337968058,
+      "learning_rate": 2.0501940864054715e-06,
+      "loss": 0.0882,
+      "step": 2319
+    },
+    {
+      "epoch": 0.9180846853977048,
+      "grad_norm": 0.6148129275804831,
+      "learning_rate": 2.030662285819024e-06,
+      "loss": 0.1308,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9180846853977048,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868666,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2461751252412796,
+      "eval_runtime": 5.1407,
+      "eval_samples_per_second": 5.836,
+      "eval_steps_per_second": 0.195,
+      "step": 2320
+    },
+    {
+      "epoch": 0.9184804115552038,
+      "grad_norm": 1.2831911813629184,
+      "learning_rate": 2.0112220403192215e-06,
+      "loss": 0.2225,
+      "step": 2321
+    },
+    {
+      "epoch": 0.9188761377127028,
+      "grad_norm": 0.7031060710742897,
+      "learning_rate": 1.9918733870100793e-06,
+      "loss": 0.1321,
+      "step": 2322
+    },
+    {
+      "epoch": 0.9192718638702018,
+      "grad_norm": 0.6541442234210689,
+      "learning_rate": 1.972616362820745e-06,
+      "loss": 0.124,
+      "step": 2323
+    },
+    {
+      "epoch": 0.9196675900277008,
+      "grad_norm": 0.9022683134285963,
+      "learning_rate": 1.9534510045054967e-06,
+      "loss": 0.1842,
+      "step": 2324
+    },
+    {
+      "epoch": 0.9200633161851999,
+      "grad_norm": 1.0275945024247726,
+      "learning_rate": 1.934377348643662e-06,
+      "loss": 0.1822,
+      "step": 2325
+    },
+    {
+      "epoch": 0.9200633161851999,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9311362518445647,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24767252802848816,
+      "eval_runtime": 4.8423,
+      "eval_samples_per_second": 6.195,
+      "eval_steps_per_second": 0.207,
+      "step": 2325
+    },
+    {
+      "epoch": 0.9204590423426988,
+      "grad_norm": 0.8363835960305179,
+      "learning_rate": 1.915395431639544e-06,
+      "loss": 0.1763,
+      "step": 2326
+    },
+    {
+      "epoch": 0.9208547685001979,
+      "grad_norm": 0.9407344122066565,
+      "learning_rate": 1.8965052897223611e-06,
+      "loss": 0.1688,
+      "step": 2327
+    },
+    {
+      "epoch": 0.9212504946576969,
+      "grad_norm": 1.0098848415843023,
+      "learning_rate": 1.8777069589461348e-06,
+      "loss": 0.2079,
+      "step": 2328
+    },
+    {
+      "epoch": 0.9216462208151959,
+      "grad_norm": 0.6654966399281359,
+      "learning_rate": 1.8590004751896871e-06,
+      "loss": 0.1057,
+      "step": 2329
+    },
+    {
+      "epoch": 0.9220419469726949,
+      "grad_norm": 1.0668723184095703,
+      "learning_rate": 1.8403858741565306e-06,
+      "loss": 0.1655,
+      "step": 2330
+    },
+    {
+      "epoch": 0.9220419469726949,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868667,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24659830331802368,
+      "eval_runtime": 5.0635,
+      "eval_samples_per_second": 5.925,
+      "eval_steps_per_second": 0.197,
+      "step": 2330
+    },
+    {
+      "epoch": 0.9224376731301939,
+      "grad_norm": 0.7558786225506254,
+      "learning_rate": 1.8218631913748062e-06,
+      "loss": 0.1491,
+      "step": 2331
+    },
+    {
+      "epoch": 0.9228333992876929,
+      "grad_norm": 0.8591819941297277,
+      "learning_rate": 1.8034324621972132e-06,
+      "loss": 0.2078,
+      "step": 2332
+    },
+    {
+      "epoch": 0.923229125445192,
+      "grad_norm": 0.8625550739982581,
+      "learning_rate": 1.7850937218009567e-06,
+      "loss": 0.1761,
+      "step": 2333
+    },
+    {
+      "epoch": 0.9236248516026909,
+      "grad_norm": 0.7642124031539225,
+      "learning_rate": 1.7668470051876662e-06,
+      "loss": 0.1713,
+      "step": 2334
+    },
+    {
+      "epoch": 0.92402057776019,
+      "grad_norm": 0.6965065977139256,
+      "learning_rate": 1.7486923471833284e-06,
+      "loss": 0.1505,
+      "step": 2335
+    },
+    {
+      "epoch": 0.92402057776019,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9323659616330545,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24654947221279144,
+      "eval_runtime": 5.0894,
+      "eval_samples_per_second": 5.895,
+      "eval_steps_per_second": 0.196,
+      "step": 2335
+    },
+    {
+      "epoch": 0.9244163039176889,
+      "grad_norm": 0.8906154877484328,
+      "learning_rate": 1.7306297824382312e-06,
+      "loss": 0.2023,
+      "step": 2336
+    },
+    {
+      "epoch": 0.924812030075188,
+      "grad_norm": 0.8844419887997305,
+      "learning_rate": 1.712659345426887e-06,
+      "loss": 0.1655,
+      "step": 2337
+    },
+    {
+      "epoch": 0.925207756232687,
+      "grad_norm": 0.6694311309114312,
+      "learning_rate": 1.6947810704479873e-06,
+      "loss": 0.1954,
+      "step": 2338
+    },
+    {
+      "epoch": 0.925603482390186,
+      "grad_norm": 0.6935445429853461,
+      "learning_rate": 1.6769949916242977e-06,
+      "loss": 0.1416,
+      "step": 2339
+    },
+    {
+      "epoch": 0.925999208547685,
+      "grad_norm": 0.7529683184437345,
+      "learning_rate": 1.659301142902625e-06,
+      "loss": 0.1426,
+      "step": 2340
+    },
+    {
+      "epoch": 0.925999208547685,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9318740777176586,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24680989980697632,
+      "eval_runtime": 5.0738,
+      "eval_samples_per_second": 5.913,
+      "eval_steps_per_second": 0.197,
+      "step": 2340
+    },
+    {
+      "epoch": 0.926394934705184,
+      "grad_norm": 0.8844078906984691,
+      "learning_rate": 1.6416995580537664e-06,
+      "loss": 0.254,
+      "step": 2341
+    },
+    {
+      "epoch": 0.926790660862683,
+      "grad_norm": 0.6234132125905922,
+      "learning_rate": 1.6241902706723766e-06,
+      "loss": 0.1299,
+      "step": 2342
+    },
+    {
+      "epoch": 0.9271863870201821,
+      "grad_norm": 1.317549425865593,
+      "learning_rate": 1.6067733141769958e-06,
+      "loss": 0.2506,
+      "step": 2343
+    },
+    {
+      "epoch": 0.927582113177681,
+      "grad_norm": 0.4966459549244899,
+      "learning_rate": 1.5894487218099164e-06,
+      "loss": 0.0837,
+      "step": 2344
+    },
+    {
+      "epoch": 0.9279778393351801,
+      "grad_norm": 0.47213527981642744,
+      "learning_rate": 1.5722165266371492e-06,
+      "loss": 0.0893,
+      "step": 2345
+    },
+    {
+      "epoch": 0.9279778393351801,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9321200196753566,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24685873091220856,
+      "eval_runtime": 5.0565,
+      "eval_samples_per_second": 5.933,
+      "eval_steps_per_second": 0.198,
+      "step": 2345
+    },
+    {
+      "epoch": 0.928373565492679,
+      "grad_norm": 0.9508720126999562,
+      "learning_rate": 1.5550767615483408e-06,
+      "loss": 0.1788,
+      "step": 2346
+    },
+    {
+      "epoch": 0.9287692916501781,
+      "grad_norm": 1.3273145559071609,
+      "learning_rate": 1.5380294592567513e-06,
+      "loss": 0.1748,
+      "step": 2347
+    },
+    {
+      "epoch": 0.9291650178076771,
+      "grad_norm": 0.9954780344138726,
+      "learning_rate": 1.5210746522991425e-06,
+      "loss": 0.2131,
+      "step": 2348
+    },
+    {
+      "epoch": 0.9295607439651761,
+      "grad_norm": 0.5920072889550725,
+      "learning_rate": 1.504212373035746e-06,
+      "loss": 0.1405,
+      "step": 2349
+    },
+    {
+      "epoch": 0.9299564701226751,
+      "grad_norm": 0.8909762545802551,
+      "learning_rate": 1.4874426536501895e-06,
+      "loss": 0.1803,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9299564701226751,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599607,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24594727158546448,
+      "eval_runtime": 5.0283,
+      "eval_samples_per_second": 5.966,
+      "eval_steps_per_second": 0.199,
+      "step": 2350
+    },
+    {
+      "epoch": 0.9303521962801741,
+      "grad_norm": 1.177686980602943,
+      "learning_rate": 1.4707655261494368e-06,
+      "loss": 0.1855,
+      "step": 2351
+    },
+    {
+      "epoch": 0.9307479224376731,
+      "grad_norm": 0.9008828566191269,
+      "learning_rate": 1.4541810223637487e-06,
+      "loss": 0.1412,
+      "step": 2352
+    },
+    {
+      "epoch": 0.9311436485951722,
+      "grad_norm": 0.866257345194914,
+      "learning_rate": 1.4376891739465826e-06,
+      "loss": 0.1813,
+      "step": 2353
+    },
+    {
+      "epoch": 0.9315393747526711,
+      "grad_norm": 0.8347391258726958,
+      "learning_rate": 1.42129001237456e-06,
+      "loss": 0.2278,
+      "step": 2354
+    },
+    {
+      "epoch": 0.9319351009101702,
+      "grad_norm": 0.7212418435263043,
+      "learning_rate": 1.4049835689473822e-06,
+      "loss": 0.1194,
+      "step": 2355
+    },
+    {
+      "epoch": 0.9319351009101702,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868667,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24558919668197632,
+      "eval_runtime": 4.634,
+      "eval_samples_per_second": 6.474,
+      "eval_steps_per_second": 0.216,
+      "step": 2355
+    },
+    {
+      "epoch": 0.9323308270676691,
+      "grad_norm": 0.8131654418770823,
+      "learning_rate": 1.3887698747878263e-06,
+      "loss": 0.1409,
+      "step": 2356
+    },
+    {
+      "epoch": 0.9327265532251682,
+      "grad_norm": 1.058738985934202,
+      "learning_rate": 1.3726489608416104e-06,
+      "loss": 0.1991,
+      "step": 2357
+    },
+    {
+      "epoch": 0.9331222793826672,
+      "grad_norm": 0.45565516700928477,
+      "learning_rate": 1.3566208578773775e-06,
+      "loss": 0.0841,
+      "step": 2358
+    },
+    {
+      "epoch": 0.9335180055401662,
+      "grad_norm": 0.9928214921505215,
+      "learning_rate": 1.3406855964866405e-06,
+      "loss": 0.1274,
+      "step": 2359
+    },
+    {
+      "epoch": 0.9339137316976652,
+      "grad_norm": 0.7417888938816193,
+      "learning_rate": 1.3248432070837035e-06,
+      "loss": 0.1253,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9339137316976652,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022626,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24565429985523224,
+      "eval_runtime": 4.7163,
+      "eval_samples_per_second": 6.361,
+      "eval_steps_per_second": 0.212,
+      "step": 2360
+    },
+    {
+      "epoch": 0.9343094578551642,
+      "grad_norm": 0.521254687739885,
+      "learning_rate": 1.3090937199056352e-06,
+      "loss": 0.1126,
+      "step": 2361
+    },
+    {
+      "epoch": 0.9347051840126632,
+      "grad_norm": 1.2327313415044423,
+      "learning_rate": 1.2934371650121458e-06,
+      "loss": 0.2252,
+      "step": 2362
+    },
+    {
+      "epoch": 0.9351009101701623,
+      "grad_norm": 0.8045702998089796,
+      "learning_rate": 1.2778735722856205e-06,
+      "loss": 0.1315,
+      "step": 2363
+    },
+    {
+      "epoch": 0.9354966363276612,
+      "grad_norm": 0.6193581247545799,
+      "learning_rate": 1.2624029714309872e-06,
+      "loss": 0.1494,
+      "step": 2364
+    },
+    {
+      "epoch": 0.9358923624851603,
+      "grad_norm": 0.5383755998604777,
+      "learning_rate": 1.247025391975698e-06,
+      "loss": 0.0962,
+      "step": 2365
+    },
+    {
+      "epoch": 0.9358923624851603,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868667,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24669596552848816,
+      "eval_runtime": 4.6724,
+      "eval_samples_per_second": 6.421,
+      "eval_steps_per_second": 0.214,
+      "step": 2365
+    },
+    {
+      "epoch": 0.9362880886426593,
+      "grad_norm": 1.1037105483446057,
+      "learning_rate": 1.2317408632696537e-06,
+      "loss": 0.1699,
+      "step": 2366
+    },
+    {
+      "epoch": 0.9366838148001583,
+      "grad_norm": 0.8464858946058663,
+      "learning_rate": 1.2165494144851686e-06,
+      "loss": 0.1686,
+      "step": 2367
+    },
+    {
+      "epoch": 0.9370795409576573,
+      "grad_norm": 0.6273187145927843,
+      "learning_rate": 1.2014510746168994e-06,
+      "loss": 0.112,
+      "step": 2368
+    },
+    {
+      "epoch": 0.9374752671151563,
+      "grad_norm": 0.601571403704037,
+      "learning_rate": 1.1864458724817895e-06,
+      "loss": 0.1333,
+      "step": 2369
+    },
+    {
+      "epoch": 0.9378709932726553,
+      "grad_norm": 1.0579516660959085,
+      "learning_rate": 1.1715338367190188e-06,
+      "loss": 0.194,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9378709932726553,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022626,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24679361283779144,
+      "eval_runtime": 4.9878,
+      "eval_samples_per_second": 6.015,
+      "eval_steps_per_second": 0.2,
+      "step": 2370
+    },
+    {
+      "epoch": 0.9382667194301544,
+      "grad_norm": 0.9394397382095822,
+      "learning_rate": 1.1567149957899592e-06,
+      "loss": 0.1701,
+      "step": 2371
+    },
+    {
+      "epoch": 0.9386624455876533,
+      "grad_norm": 0.8723818137028356,
+      "learning_rate": 1.1419893779780922e-06,
+      "loss": 0.1597,
+      "step": 2372
+    },
+    {
+      "epoch": 0.9390581717451524,
+      "grad_norm": 0.6029101073132475,
+      "learning_rate": 1.1273570113889798e-06,
+      "loss": 0.1012,
+      "step": 2373
+    },
+    {
+      "epoch": 0.9394538979026513,
+      "grad_norm": 0.721636846965824,
+      "learning_rate": 1.1128179239502046e-06,
+      "loss": 0.1313,
+      "step": 2374
+    },
+    {
+      "epoch": 0.9398496240601504,
+      "grad_norm": 0.8598433176964458,
+      "learning_rate": 1.0983721434113192e-06,
+      "loss": 0.1881,
+      "step": 2375
+    },
+    {
+      "epoch": 0.9398496240601504,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022626,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24560546875,
+      "eval_runtime": 5.0583,
+      "eval_samples_per_second": 5.931,
+      "eval_steps_per_second": 0.198,
+      "step": 2375
+    },
+    {
+      "epoch": 0.9402453502176494,
+      "grad_norm": 0.6141854272130054,
+      "learning_rate": 1.0840196973437744e-06,
+      "loss": 0.1198,
+      "step": 2376
+    },
+    {
+      "epoch": 0.9406410763751484,
+      "grad_norm": 0.6835049966151376,
+      "learning_rate": 1.0697606131408966e-06,
+      "loss": 0.168,
+      "step": 2377
+    },
+    {
+      "epoch": 0.9410368025326474,
+      "grad_norm": 0.742926512307513,
+      "learning_rate": 1.0555949180178104e-06,
+      "loss": 0.1159,
+      "step": 2378
+    },
+    {
+      "epoch": 0.9414325286901464,
+      "grad_norm": 0.4101079285315537,
+      "learning_rate": 1.0415226390114108e-06,
+      "loss": 0.0623,
+      "step": 2379
+    },
+    {
+      "epoch": 0.9418282548476454,
+      "grad_norm": 0.5516064219376665,
+      "learning_rate": 1.0275438029802797e-06,
+      "loss": 0.0894,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9418282548476454,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868667,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24563802778720856,
+      "eval_runtime": 4.9073,
+      "eval_samples_per_second": 6.113,
+      "eval_steps_per_second": 0.204,
+      "step": 2380
+    },
+    {
+      "epoch": 0.9422239810051445,
+      "grad_norm": 0.889486461896786,
+      "learning_rate": 1.0136584366046531e-06,
+      "loss": 0.1319,
+      "step": 2381
+    },
+    {
+      "epoch": 0.9426197071626434,
+      "grad_norm": 0.9240871143981982,
+      "learning_rate": 9.99866566386387e-07,
+      "loss": 0.1575,
+      "step": 2382
+    },
+    {
+      "epoch": 0.9430154333201425,
+      "grad_norm": 0.5646337100218698,
+      "learning_rate": 9.861682186488697e-07,
+      "loss": 0.1357,
+      "step": 2383
+    },
+    {
+      "epoch": 0.9434111594776414,
+      "grad_norm": 0.6471240948547796,
+      "learning_rate": 9.725634195370036e-07,
+      "loss": 0.145,
+      "step": 2384
+    },
+    {
+      "epoch": 0.9438068856351405,
+      "grad_norm": 0.7238296004053348,
+      "learning_rate": 9.590521950171293e-07,
+      "loss": 0.1326,
+      "step": 2385
+    },
+    {
+      "epoch": 0.9438068856351405,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022626,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24702148139476776,
+      "eval_runtime": 5.0849,
+      "eval_samples_per_second": 5.9,
+      "eval_steps_per_second": 0.197,
+      "step": 2385
+    },
+    {
+      "epoch": 0.9442026117926395,
+      "grad_norm": 0.8328971547148584,
+      "learning_rate": 9.456345708770076e-07,
+      "loss": 0.1433,
+      "step": 2386
+    },
+    {
+      "epoch": 0.9445983379501385,
+      "grad_norm": 0.5252819391201454,
+      "learning_rate": 9.323105727257308e-07,
+      "loss": 0.1156,
+      "step": 2387
+    },
+    {
+      "epoch": 0.9449940641076375,
+      "grad_norm": 0.7991088277249658,
+      "learning_rate": 9.190802259937237e-07,
+      "loss": 0.1582,
+      "step": 2388
+    },
+    {
+      "epoch": 0.9453897902651365,
+      "grad_norm": 0.8325878517604974,
+      "learning_rate": 9.059435559326257e-07,
+      "loss": 0.146,
+      "step": 2389
+    },
+    {
+      "epoch": 0.9457855164226355,
+      "grad_norm": 0.795571994105661,
+      "learning_rate": 8.929005876153307e-07,
+      "loss": 0.1285,
+      "step": 2390
+    },
+    {
+      "epoch": 0.9457855164226355,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9299065420560747,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24708658456802368,
+      "eval_runtime": 4.7738,
+      "eval_samples_per_second": 6.284,
+      "eval_steps_per_second": 0.209,
+      "step": 2390
+    },
+    {
+      "epoch": 0.9461812425801346,
+      "grad_norm": 0.5737633043743479,
+      "learning_rate": 8.799513459358533e-07,
+      "loss": 0.1094,
+      "step": 2391
+    },
+    {
+      "epoch": 0.9465769687376335,
+      "grad_norm": 1.0971987401426833,
+      "learning_rate": 8.670958556093401e-07,
+      "loss": 0.1368,
+      "step": 2392
+    },
+    {
+      "epoch": 0.9469726948951326,
+      "grad_norm": 1.1235655807082656,
+      "learning_rate": 8.543341411719918e-07,
+      "loss": 0.2238,
+      "step": 2393
+    },
+    {
+      "epoch": 0.9473684210526315,
+      "grad_norm": 0.7223380379769588,
+      "learning_rate": 8.41666226981036e-07,
+      "loss": 0.1606,
+      "step": 2394
+    },
+    {
+      "epoch": 0.9477641472101306,
+      "grad_norm": 0.5733447790842316,
+      "learning_rate": 8.290921372146654e-07,
+      "loss": 0.104,
+      "step": 2395
+    },
+    {
+      "epoch": 0.9477641472101306,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868666,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2479654997587204,
+      "eval_runtime": 5.1268,
+      "eval_samples_per_second": 5.852,
+      "eval_steps_per_second": 0.195,
+      "step": 2395
+    },
+    {
+      "epoch": 0.9481598733676296,
+      "grad_norm": 0.9563617683533557,
+      "learning_rate": 8.166118958719992e-07,
+      "loss": 0.1934,
+      "step": 2396
+    },
+    {
+      "epoch": 0.9485555995251286,
+      "grad_norm": 0.7123942028728772,
+      "learning_rate": 8.042255267730392e-07,
+      "loss": 0.134,
+      "step": 2397
+    },
+    {
+      "epoch": 0.9489513256826276,
+      "grad_norm": 0.8504689792705687,
+      "learning_rate": 7.919330535586134e-07,
+      "loss": 0.1694,
+      "step": 2398
+    },
+    {
+      "epoch": 0.9493470518401267,
+      "grad_norm": 0.7711323899197261,
+      "learning_rate": 7.797344996903544e-07,
+      "loss": 0.1752,
+      "step": 2399
+    },
+    {
+      "epoch": 0.9497427779976256,
+      "grad_norm": 0.6383787192128396,
+      "learning_rate": 7.676298884506106e-07,
+      "loss": 0.1435,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9497427779976256,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9301524840137727,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24742838740348816,
+      "eval_runtime": 5.2459,
+      "eval_samples_per_second": 5.719,
+      "eval_steps_per_second": 0.191,
+      "step": 2400
+    },
+    {
+      "epoch": 0.9501385041551247,
+      "grad_norm": 0.66428074472605,
+      "learning_rate": 7.556192429424569e-07,
+      "loss": 0.1047,
+      "step": 2401
+    },
+    {
+      "epoch": 0.9505342303126236,
+      "grad_norm": 0.6182222004980799,
+      "learning_rate": 7.43702586089623e-07,
+      "loss": 0.1058,
+      "step": 2402
+    },
+    {
+      "epoch": 0.9509299564701227,
+      "grad_norm": 0.8426409008525981,
+      "learning_rate": 7.318799406364208e-07,
+      "loss": 0.1781,
+      "step": 2403
+    },
+    {
+      "epoch": 0.9513256826276217,
+      "grad_norm": 0.7077985198244826,
+      "learning_rate": 7.201513291477669e-07,
+      "loss": 0.1482,
+      "step": 2404
+    },
+    {
+      "epoch": 0.9517214087851207,
+      "grad_norm": 0.8303908915635464,
+      "learning_rate": 7.085167740090771e-07,
+      "loss": 0.1911,
+      "step": 2405
+    },
+    {
+      "epoch": 0.9517214087851207,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022627,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24710287153720856,
+      "eval_runtime": 5.0588,
+      "eval_samples_per_second": 5.93,
+      "eval_steps_per_second": 0.198,
+      "step": 2405
+    },
+    {
+      "epoch": 0.9521171349426197,
+      "grad_norm": 0.974936675939218,
+      "learning_rate": 6.969762974262717e-07,
+      "loss": 0.1838,
+      "step": 2406
+    },
+    {
+      "epoch": 0.9525128611001187,
+      "grad_norm": 1.1996662894131347,
+      "learning_rate": 6.855299214256817e-07,
+      "loss": 0.1835,
+      "step": 2407
+    },
+    {
+      "epoch": 0.9529085872576177,
+      "grad_norm": 0.8504649438722559,
+      "learning_rate": 6.741776678540645e-07,
+      "loss": 0.1741,
+      "step": 2408
+    },
+    {
+      "epoch": 0.9533043134151168,
+      "grad_norm": 0.4730385190472341,
+      "learning_rate": 6.629195583785219e-07,
+      "loss": 0.0988,
+      "step": 2409
+    },
+    {
+      "epoch": 0.9537000395726157,
+      "grad_norm": 0.5734419533059284,
+      "learning_rate": 6.517556144864711e-07,
+      "loss": 0.1017,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9537000395726157,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9301524840137727,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24816080927848816,
+      "eval_runtime": 4.9958,
+      "eval_samples_per_second": 6.005,
+      "eval_steps_per_second": 0.2,
+      "step": 2410
+    },
+    {
+      "epoch": 0.9540957657301148,
+      "grad_norm": 0.7203093906137981,
+      "learning_rate": 6.406858574856067e-07,
+      "loss": 0.1381,
+      "step": 2411
+    },
+    {
+      "epoch": 0.9544914918876137,
+      "grad_norm": 0.8386685545481133,
+      "learning_rate": 6.297103085038391e-07,
+      "loss": 0.1432,
+      "step": 2412
+    },
+    {
+      "epoch": 0.9548872180451128,
+      "grad_norm": 0.5638128929852357,
+      "learning_rate": 6.188289884893062e-07,
+      "loss": 0.1154,
+      "step": 2413
+    },
+    {
+      "epoch": 0.9552829442026118,
+      "grad_norm": 0.7647360868727683,
+      "learning_rate": 6.080419182102615e-07,
+      "loss": 0.174,
+      "step": 2414
+    },
+    {
+      "epoch": 0.9556786703601108,
+      "grad_norm": 0.8273465509937044,
+      "learning_rate": 5.973491182551028e-07,
+      "loss": 0.1332,
+      "step": 2415
+    },
+    {
+      "epoch": 0.9556786703601108,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9311362518445647,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24671223759651184,
+      "eval_runtime": 4.9379,
+      "eval_samples_per_second": 6.075,
+      "eval_steps_per_second": 0.203,
+      "step": 2415
+    },
+    {
+      "epoch": 0.9560743965176098,
+      "grad_norm": 0.7167648805174767,
+      "learning_rate": 5.867506090322772e-07,
+      "loss": 0.1585,
+      "step": 2416
+    },
+    {
+      "epoch": 0.9564701226751088,
+      "grad_norm": 0.865770167381506,
+      "learning_rate": 5.76246410770287e-07,
+      "loss": 0.1741,
+      "step": 2417
+    },
+    {
+      "epoch": 0.9568658488326078,
+      "grad_norm": 0.9699957273764583,
+      "learning_rate": 5.658365435176171e-07,
+      "loss": 0.2198,
+      "step": 2418
+    },
+    {
+      "epoch": 0.9572615749901069,
+      "grad_norm": 0.7187997762648886,
+      "learning_rate": 5.555210271427192e-07,
+      "loss": 0.1271,
+      "step": 2419
+    },
+    {
+      "epoch": 0.9576573011476058,
+      "grad_norm": 1.2440588141048479,
+      "learning_rate": 5.452998813339605e-07,
+      "loss": 0.1623,
+      "step": 2420
+    },
+    {
+      "epoch": 0.9576573011476058,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24744465947151184,
+      "eval_runtime": 5.0719,
+      "eval_samples_per_second": 5.915,
+      "eval_steps_per_second": 0.197,
+      "step": 2420
+    },
+    {
+      "epoch": 0.9580530273051049,
+      "grad_norm": 1.1523531091658583,
+      "learning_rate": 5.351731255995862e-07,
+      "loss": 0.161,
+      "step": 2421
+    },
+    {
+      "epoch": 0.9584487534626038,
+      "grad_norm": 0.6604203497026335,
+      "learning_rate": 5.251407792677021e-07,
+      "loss": 0.1227,
+      "step": 2422
+    },
+    {
+      "epoch": 0.9588444796201029,
+      "grad_norm": 0.8518925594872353,
+      "learning_rate": 5.152028614862026e-07,
+      "loss": 0.1678,
+      "step": 2423
+    },
+    {
+      "epoch": 0.9592402057776019,
+      "grad_norm": 0.7517461253587917,
+      "learning_rate": 5.05359391222776e-07,
+      "loss": 0.1594,
+      "step": 2424
+    },
+    {
+      "epoch": 0.9596359319351009,
+      "grad_norm": 0.5758214832731425,
+      "learning_rate": 4.956103872648333e-07,
+      "loss": 0.1048,
+      "step": 2425
+    },
+    {
+      "epoch": 0.9596359319351009,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599607,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24711914360523224,
+      "eval_runtime": 5.1123,
+      "eval_samples_per_second": 5.868,
+      "eval_steps_per_second": 0.196,
+      "step": 2425
+    },
+    {
+      "epoch": 0.9600316580925999,
+      "grad_norm": 1.7051204644291214,
+      "learning_rate": 4.859558682194898e-07,
+      "loss": 0.3023,
+      "step": 2426
+    },
+    {
+      "epoch": 0.9604273842500989,
+      "grad_norm": 0.8981537772349597,
+      "learning_rate": 4.7639585251350593e-07,
+      "loss": 0.1427,
+      "step": 2427
+    },
+    {
+      "epoch": 0.9608231104075979,
+      "grad_norm": 0.9320401984724555,
+      "learning_rate": 4.669303583933138e-07,
+      "loss": 0.1688,
+      "step": 2428
+    },
+    {
+      "epoch": 0.961218836565097,
+      "grad_norm": 0.6123138593928498,
+      "learning_rate": 4.575594039249065e-07,
+      "loss": 0.1166,
+      "step": 2429
+    },
+    {
+      "epoch": 0.9616145627225959,
+      "grad_norm": 0.8435792478572272,
+      "learning_rate": 4.4828300699383264e-07,
+      "loss": 0.1586,
+      "step": 2430
+    },
+    {
+      "epoch": 0.9616145627225959,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868666,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2469889372587204,
+      "eval_runtime": 5.293,
+      "eval_samples_per_second": 5.668,
+      "eval_steps_per_second": 0.189,
+      "step": 2430
+    },
+    {
+      "epoch": 0.962010288880095,
+      "grad_norm": 0.80848027038971,
+      "learning_rate": 4.3910118530519626e-07,
+      "loss": 0.1592,
+      "step": 2431
+    },
+    {
+      "epoch": 0.9624060150375939,
+      "grad_norm": 0.8117385093728984,
+      "learning_rate": 4.300139563835681e-07,
+      "loss": 0.2036,
+      "step": 2432
+    },
+    {
+      "epoch": 0.962801741195093,
+      "grad_norm": 0.9836827630930483,
+      "learning_rate": 4.2102133757299103e-07,
+      "loss": 0.2079,
+      "step": 2433
+    },
+    {
+      "epoch": 0.963197467352592,
+      "grad_norm": 0.7890214445075321,
+      "learning_rate": 4.1212334603693003e-07,
+      "loss": 0.1488,
+      "step": 2434
+    },
+    {
+      "epoch": 0.963593193510091,
+      "grad_norm": 1.0341219910022466,
+      "learning_rate": 4.033199987582337e-07,
+      "loss": 0.1931,
+      "step": 2435
+    },
+    {
+      "epoch": 0.963593193510091,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9301524840137727,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24781900644302368,
+      "eval_runtime": 4.8326,
+      "eval_samples_per_second": 6.208,
+      "eval_steps_per_second": 0.207,
+      "step": 2435
+    },
+    {
+      "epoch": 0.96398891966759,
+      "grad_norm": 0.7603779734409521,
+      "learning_rate": 3.9461131253912266e-07,
+      "loss": 0.1835,
+      "step": 2436
+    },
+    {
+      "epoch": 0.9643846458250891,
+      "grad_norm": 0.8282839425998522,
+      "learning_rate": 3.8599730400115107e-07,
+      "loss": 0.1744,
+      "step": 2437
+    },
+    {
+      "epoch": 0.964780371982588,
+      "grad_norm": 0.9123367977543965,
+      "learning_rate": 3.7747798958515103e-07,
+      "loss": 0.1442,
+      "step": 2438
+    },
+    {
+      "epoch": 0.9651760981400871,
+      "grad_norm": 0.7492812392252703,
+      "learning_rate": 3.690533855512268e-07,
+      "loss": 0.1366,
+      "step": 2439
+    },
+    {
+      "epoch": 0.965571824297586,
+      "grad_norm": 0.7825820435138836,
+      "learning_rate": 3.60723507978733e-07,
+      "loss": 0.1527,
+      "step": 2440
+    },
+    {
+      "epoch": 0.965571824297586,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24729818105697632,
+      "eval_runtime": 4.938,
+      "eval_samples_per_second": 6.075,
+      "eval_steps_per_second": 0.203,
+      "step": 2440
+    },
+    {
+      "epoch": 0.9659675504550851,
+      "grad_norm": 1.073219670625734,
+      "learning_rate": 3.5248837276620205e-07,
+      "loss": 0.1456,
+      "step": 2441
+    },
+    {
+      "epoch": 0.9663632766125841,
+      "grad_norm": 0.48454430145899896,
+      "learning_rate": 3.4434799563135556e-07,
+      "loss": 0.0831,
+      "step": 2442
+    },
+    {
+      "epoch": 0.9667590027700831,
+      "grad_norm": 0.6910564562581203,
+      "learning_rate": 3.363023921110542e-07,
+      "loss": 0.1536,
+      "step": 2443
+    },
+    {
+      "epoch": 0.9671547289275821,
+      "grad_norm": 0.7859314742863688,
+      "learning_rate": 3.283515775612811e-07,
+      "loss": 0.1679,
+      "step": 2444
+    },
+    {
+      "epoch": 0.9675504550850811,
+      "grad_norm": 0.8338376376774453,
+      "learning_rate": 3.2049556715708083e-07,
+      "loss": 0.1557,
+      "step": 2445
+    },
+    {
+      "epoch": 0.9675504550850811,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9291687161829808,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24669596552848816,
+      "eval_runtime": 5.1539,
+      "eval_samples_per_second": 5.821,
+      "eval_steps_per_second": 0.194,
+      "step": 2445
+    },
+    {
+      "epoch": 0.9679461812425801,
+      "grad_norm": 0.7475600293511832,
+      "learning_rate": 3.127343758925705e-07,
+      "loss": 0.1493,
+      "step": 2446
+    },
+    {
+      "epoch": 0.9683419074000792,
+      "grad_norm": 0.7617574594269578,
+      "learning_rate": 3.0506801858090073e-07,
+      "loss": 0.1436,
+      "step": 2447
+    },
+    {
+      "epoch": 0.9687376335575781,
+      "grad_norm": 0.722356520948722,
+      "learning_rate": 2.9749650985420043e-07,
+      "loss": 0.1253,
+      "step": 2448
+    },
+    {
+      "epoch": 0.9691333597150772,
+      "grad_norm": 0.931694945629189,
+      "learning_rate": 2.900198641635876e-07,
+      "loss": 0.177,
+      "step": 2449
+    },
+    {
+      "epoch": 0.9695290858725761,
+      "grad_norm": 0.6294279822235682,
+      "learning_rate": 2.826380957790975e-07,
+      "loss": 0.1623,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9695290858725761,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9284308903098868,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24806314706802368,
+      "eval_runtime": 4.9037,
+      "eval_samples_per_second": 6.118,
+      "eval_steps_per_second": 0.204,
+      "step": 2450
+    },
+    {
+      "epoch": 0.9699248120300752,
+      "grad_norm": 0.888351841092406,
+      "learning_rate": 2.753512187897211e-07,
+      "loss": 0.1743,
+      "step": 2451
+    },
+    {
+      "epoch": 0.9703205381875742,
+      "grad_norm": 0.7910792194025019,
+      "learning_rate": 2.6815924710329456e-07,
+      "loss": 0.2057,
+      "step": 2452
+    },
+    {
+      "epoch": 0.9707162643450732,
+      "grad_norm": 1.0229093187972313,
+      "learning_rate": 2.61062194446543e-07,
+      "loss": 0.1728,
+      "step": 2453
+    },
+    {
+      "epoch": 0.9711119905025722,
+      "grad_norm": 1.092258672429503,
+      "learning_rate": 2.5406007436502566e-07,
+      "loss": 0.1887,
+      "step": 2454
+    },
+    {
+      "epoch": 0.9715077166600712,
+      "grad_norm": 0.42158108228758867,
+      "learning_rate": 2.471529002231021e-07,
+      "loss": 0.0696,
+      "step": 2455
+    },
+    {
+      "epoch": 0.9715077166600712,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868666,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24654947221279144,
+      "eval_runtime": 4.9273,
+      "eval_samples_per_second": 6.089,
+      "eval_steps_per_second": 0.203,
+      "step": 2455
+    },
+    {
+      "epoch": 0.9719034428175702,
+      "grad_norm": 0.5811022496232213,
+      "learning_rate": 2.4034068520392693e-07,
+      "loss": 0.135,
+      "step": 2456
+    },
+    {
+      "epoch": 0.9722991689750693,
+      "grad_norm": 0.92418328218446,
+      "learning_rate": 2.336234423093997e-07,
+      "loss": 0.1591,
+      "step": 2457
+    },
+    {
+      "epoch": 0.9726948951325682,
+      "grad_norm": 0.8268547080093145,
+      "learning_rate": 2.2700118436016494e-07,
+      "loss": 0.1256,
+      "step": 2458
+    },
+    {
+      "epoch": 0.9730906212900673,
+      "grad_norm": 1.012905405992622,
+      "learning_rate": 2.2047392399558443e-07,
+      "loss": 0.1992,
+      "step": 2459
+    },
+    {
+      "epoch": 0.9734863474475662,
+      "grad_norm": 0.8280246339511267,
+      "learning_rate": 2.1404167367368721e-07,
+      "loss": 0.1697,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9734863474475662,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9323659616330545,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24680989980697632,
+      "eval_runtime": 5.1571,
+      "eval_samples_per_second": 5.817,
+      "eval_steps_per_second": 0.194,
+      "step": 2460
+    },
+    {
+      "epoch": 0.9738820736050653,
+      "grad_norm": 0.9244855564456367,
+      "learning_rate": 2.0770444567118075e-07,
+      "loss": 0.1854,
+      "step": 2461
+    },
+    {
+      "epoch": 0.9742777997625643,
+      "grad_norm": 0.5267723384766674,
+      "learning_rate": 2.014622520834064e-07,
+      "loss": 0.0766,
+      "step": 2462
+    },
+    {
+      "epoch": 0.9746735259200633,
+      "grad_norm": 0.6653119230120595,
+      "learning_rate": 1.9531510482431182e-07,
+      "loss": 0.1176,
+      "step": 2463
+    },
+    {
+      "epoch": 0.9750692520775623,
+      "grad_norm": 0.7859638511318909,
+      "learning_rate": 1.8926301562645632e-07,
+      "loss": 0.1527,
+      "step": 2464
+    },
+    {
+      "epoch": 0.9754649782350613,
+      "grad_norm": 0.5895733794946284,
+      "learning_rate": 1.8330599604095e-07,
+      "loss": 0.1061,
+      "step": 2465
+    },
+    {
+      "epoch": 0.9754649782350613,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2467447966337204,
+      "eval_runtime": 5.2981,
+      "eval_samples_per_second": 5.662,
+      "eval_steps_per_second": 0.189,
+      "step": 2465
+    },
+    {
+      "epoch": 0.9758607043925603,
+      "grad_norm": 0.814098691315181,
+      "learning_rate": 1.774440574374703e-07,
+      "loss": 0.1083,
+      "step": 2466
+    },
+    {
+      "epoch": 0.9762564305500594,
+      "grad_norm": 0.698868931555832,
+      "learning_rate": 1.7167721100420087e-07,
+      "loss": 0.1151,
+      "step": 2467
+    },
+    {
+      "epoch": 0.9766521567075583,
+      "grad_norm": 0.7292134110425602,
+      "learning_rate": 1.6600546774785398e-07,
+      "loss": 0.1195,
+      "step": 2468
+    },
+    {
+      "epoch": 0.9770478828650574,
+      "grad_norm": 0.5006360520161892,
+      "learning_rate": 1.604288384936037e-07,
+      "loss": 0.0974,
+      "step": 2469
+    },
+    {
+      "epoch": 0.9774436090225563,
+      "grad_norm": 1.1231035683191963,
+      "learning_rate": 1.5494733388510817e-07,
+      "loss": 0.1576,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9774436090225563,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9311362518445646,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2472330778837204,
+      "eval_runtime": 5.0119,
+      "eval_samples_per_second": 5.986,
+      "eval_steps_per_second": 0.2,
+      "step": 2470
+    },
+    {
+      "epoch": 0.9778393351800554,
+      "grad_norm": 0.8651052306900577,
+      "learning_rate": 1.4956096438445423e-07,
+      "loss": 0.1987,
+      "step": 2471
+    },
+    {
+      "epoch": 0.9782350613375544,
+      "grad_norm": 0.9514257100213481,
+      "learning_rate": 1.4426974027215713e-07,
+      "loss": 0.1701,
+      "step": 2472
+    },
+    {
+      "epoch": 0.9786307874950534,
+      "grad_norm": 1.0827726169294678,
+      "learning_rate": 1.3907367164713303e-07,
+      "loss": 0.1283,
+      "step": 2473
+    },
+    {
+      "epoch": 0.9790265136525524,
+      "grad_norm": 0.8497954897547443,
+      "learning_rate": 1.3397276842669892e-07,
+      "loss": 0.174,
+      "step": 2474
+    },
+    {
+      "epoch": 0.9794222398100515,
+      "grad_norm": 0.7642443722361096,
+      "learning_rate": 1.2896704034651152e-07,
+      "loss": 0.105,
+      "step": 2475
+    },
+    {
+      "epoch": 0.9794222398100515,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599607,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24694010615348816,
+      "eval_runtime": 4.8657,
+      "eval_samples_per_second": 6.166,
+      "eval_steps_per_second": 0.206,
+      "step": 2475
+    },
+    {
+      "epoch": 0.9798179659675504,
+      "grad_norm": 0.7502953110890435,
+      "learning_rate": 1.2405649696058953e-07,
+      "loss": 0.1152,
+      "step": 2476
+    },
+    {
+      "epoch": 0.9802136921250495,
+      "grad_norm": 0.8571420692335163,
+      "learning_rate": 1.192411476412858e-07,
+      "loss": 0.1439,
+      "step": 2477
+    },
+    {
+      "epoch": 0.9806094182825484,
+      "grad_norm": 0.7142100462732285,
+      "learning_rate": 1.1452100157925416e-07,
+      "loss": 0.1631,
+      "step": 2478
+    },
+    {
+      "epoch": 0.9810051444400475,
+      "grad_norm": 0.7980132526602703,
+      "learning_rate": 1.0989606778344375e-07,
+      "loss": 0.1724,
+      "step": 2479
+    },
+    {
+      "epoch": 0.9814008705975465,
+      "grad_norm": 0.4129464805854385,
+      "learning_rate": 1.0536635508107684e-07,
+      "loss": 0.0886,
+      "step": 2480
+    },
+    {
+      "epoch": 0.9814008705975465,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9291687161829808,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24871419370174408,
+      "eval_runtime": 5.1153,
+      "eval_samples_per_second": 5.865,
+      "eval_steps_per_second": 0.195,
+      "step": 2480
+    },
+    {
+      "epoch": 0.9817965967550455,
+      "grad_norm": 0.770834764410502,
+      "learning_rate": 1.0093187211764887e-07,
+      "loss": 0.1245,
+      "step": 2481
+    },
+    {
+      "epoch": 0.9821923229125445,
+      "grad_norm": 0.8241331103258956,
+      "learning_rate": 9.659262735688401e-08,
+      "loss": 0.1448,
+      "step": 2482
+    },
+    {
+      "epoch": 0.9825880490700435,
+      "grad_norm": 1.058550017077056,
+      "learning_rate": 9.234862908074071e-08,
+      "loss": 0.1578,
+      "step": 2483
+    },
+    {
+      "epoch": 0.9829837752275425,
+      "grad_norm": 0.7262527113206975,
+      "learning_rate": 8.81998853893784e-08,
+      "loss": 0.1388,
+      "step": 2484
+    },
+    {
+      "epoch": 0.9833795013850416,
+      "grad_norm": 0.9031304694898294,
+      "learning_rate": 8.414640420116305e-08,
+      "loss": 0.1544,
+      "step": 2485
+    },
+    {
+      "epoch": 0.9833795013850416,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9313821938022627,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.2474772185087204,
+      "eval_runtime": 4.7699,
+      "eval_samples_per_second": 6.289,
+      "eval_steps_per_second": 0.21,
+      "step": 2485
+    },
+    {
+      "epoch": 0.9837752275425405,
+      "grad_norm": 0.8038321877023986,
+      "learning_rate": 8.018819325263937e-08,
+      "loss": 0.1685,
+      "step": 2486
+    },
+    {
+      "epoch": 0.9841709537000396,
+      "grad_norm": 0.7147091285661772,
+      "learning_rate": 7.632526009851981e-08,
+      "loss": 0.1344,
+      "step": 2487
+    },
+    {
+      "epoch": 0.9845666798575385,
+      "grad_norm": 0.489683938156519,
+      "learning_rate": 7.255761211165113e-08,
+      "loss": 0.0848,
+      "step": 2488
+    },
+    {
+      "epoch": 0.9849624060150376,
+      "grad_norm": 0.6951532506760213,
+      "learning_rate": 6.888525648303667e-08,
+      "loss": 0.1443,
+      "step": 2489
+    },
+    {
+      "epoch": 0.9853581321725366,
+      "grad_norm": 0.759593113988845,
+      "learning_rate": 6.530820022179751e-08,
+      "loss": 0.1716,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9853581321725366,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9301524840137727,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24734701216220856,
+      "eval_runtime": 4.9953,
+      "eval_samples_per_second": 6.006,
+      "eval_steps_per_second": 0.2,
+      "step": 2490
+    },
+    {
+      "epoch": 0.9857538583300356,
+      "grad_norm": 0.4483048981359248,
+      "learning_rate": 6.182645015516131e-08,
+      "loss": 0.1127,
+      "step": 2491
+    },
+    {
+      "epoch": 0.9861495844875346,
+      "grad_norm": 0.7529115065376876,
+      "learning_rate": 5.844001292846235e-08,
+      "loss": 0.153,
+      "step": 2492
+    },
+    {
+      "epoch": 0.9865453106450336,
+      "grad_norm": 1.4321210666187865,
+      "learning_rate": 5.514889500509712e-08,
+      "loss": 0.2271,
+      "step": 2493
+    },
+    {
+      "epoch": 0.9869410368025326,
+      "grad_norm": 1.2406480393177448,
+      "learning_rate": 5.195310266656317e-08,
+      "loss": 0.1555,
+      "step": 2494
+    },
+    {
+      "epoch": 0.9873367629600317,
+      "grad_norm": 1.7317648261380225,
+      "learning_rate": 4.885264201239248e-08,
+      "loss": 0.1768,
+      "step": 2495
+    },
+    {
+      "epoch": 0.9873367629600317,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9311362518445647,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24825845658779144,
+      "eval_runtime": 4.962,
+      "eval_samples_per_second": 6.046,
+      "eval_steps_per_second": 0.202,
+      "step": 2495
+    },
+    {
+      "epoch": 0.9877324891175306,
+      "grad_norm": 0.8281240116243923,
+      "learning_rate": 4.5847518960184796e-08,
+      "loss": 0.1736,
+      "step": 2496
+    },
+    {
+      "epoch": 0.9881282152750297,
+      "grad_norm": 1.556198582369784,
+      "learning_rate": 4.293773924556321e-08,
+      "loss": 0.1719,
+      "step": 2497
+    },
+    {
+      "epoch": 0.9885239414325286,
+      "grad_norm": 0.9740178172772898,
+      "learning_rate": 4.012330842219081e-08,
+      "loss": 0.1551,
+      "step": 2498
+    },
+    {
+      "epoch": 0.9889196675900277,
+      "grad_norm": 0.5575840740570712,
+      "learning_rate": 3.7404231861726255e-08,
+      "loss": 0.1243,
+      "step": 2499
+    },
+    {
+      "epoch": 0.9893153937475268,
+      "grad_norm": 0.7788329000687713,
+      "learning_rate": 3.478051475385158e-08,
+      "loss": 0.1271,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9893153937475268,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24619141221046448,
+      "eval_runtime": 4.8893,
+      "eval_samples_per_second": 6.136,
+      "eval_steps_per_second": 0.205,
+      "step": 2500
+    },
+    {
+      "epoch": 0.9897111199050257,
+      "grad_norm": 0.8039947711452612,
+      "learning_rate": 3.225216210623327e-08,
+      "loss": 0.1647,
+      "step": 2501
+    },
+    {
+      "epoch": 0.9901068460625247,
+      "grad_norm": 0.7476619529213824,
+      "learning_rate": 2.981917874453344e-08,
+      "loss": 0.1253,
+      "step": 2502
+    },
+    {
+      "epoch": 0.9905025722200237,
+      "grad_norm": 0.5241491291045124,
+      "learning_rate": 2.7481569312381995e-08,
+      "loss": 0.0823,
+      "step": 2503
+    },
+    {
+      "epoch": 0.9908982983775227,
+      "grad_norm": 0.9939223746529062,
+      "learning_rate": 2.52393382713767e-08,
+      "loss": 0.1324,
+      "step": 2504
+    },
+    {
+      "epoch": 0.9912940245350218,
+      "grad_norm": 0.6458497118973661,
+      "learning_rate": 2.3092489901083148e-08,
+      "loss": 0.15,
+      "step": 2505
+    },
+    {
+      "epoch": 0.9912940245350218,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9301524840137727,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24746093153953552,
+      "eval_runtime": 4.9162,
+      "eval_samples_per_second": 6.102,
+      "eval_steps_per_second": 0.203,
+      "step": 2505
+    },
+    {
+      "epoch": 0.9916897506925207,
+      "grad_norm": 0.7602970248130199,
+      "learning_rate": 2.1041028299012555e-08,
+      "loss": 0.1582,
+      "step": 2506
+    },
+    {
+      "epoch": 0.9920854768500198,
+      "grad_norm": 0.5423786801507522,
+      "learning_rate": 1.908495738061067e-08,
+      "loss": 0.0966,
+      "step": 2507
+    },
+    {
+      "epoch": 0.9924812030075187,
+      "grad_norm": 0.6253780666388552,
+      "learning_rate": 1.7224280879279964e-08,
+      "loss": 0.1219,
+      "step": 2508
+    },
+    {
+      "epoch": 0.9928769291650178,
+      "grad_norm": 1.1878637961106282,
+      "learning_rate": 1.5459002346324135e-08,
+      "loss": 0.1512,
+      "step": 2509
+    },
+    {
+      "epoch": 0.9932726553225169,
+      "grad_norm": 0.5906597247343434,
+      "learning_rate": 1.3789125150998061e-08,
+      "loss": 0.1143,
+      "step": 2510
+    },
+    {
+      "epoch": 0.9932726553225169,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9308903098868667,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24822591245174408,
+      "eval_runtime": 5.2395,
+      "eval_samples_per_second": 5.726,
+      "eval_steps_per_second": 0.191,
+      "step": 2510
+    },
+    {
+      "epoch": 0.9936683814800158,
+      "grad_norm": 0.7766810763883317,
+      "learning_rate": 1.2214652480452282e-08,
+      "loss": 0.1674,
+      "step": 2511
+    },
+    {
+      "epoch": 0.9940641076375148,
+      "grad_norm": 0.6071055624471351,
+      "learning_rate": 1.0735587339749665e-08,
+      "loss": 0.1007,
+      "step": 2512
+    },
+    {
+      "epoch": 0.9944598337950139,
+      "grad_norm": 0.7587109482992928,
+      "learning_rate": 9.351932551854292e-09,
+      "loss": 0.174,
+      "step": 2513
+    },
+    {
+      "epoch": 0.9948555599525128,
+      "grad_norm": 0.9723362059523731,
+      "learning_rate": 8.063690757642572e-09,
+      "loss": 0.2211,
+      "step": 2514
+    },
+    {
+      "epoch": 0.9952512861100119,
+      "grad_norm": 0.8585323746115432,
+      "learning_rate": 6.8708644158754775e-09,
+      "loss": 0.1269,
+      "step": 2515
+    },
+    {
+      "epoch": 0.9952512861100119,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9311362518445647,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24700520932674408,
+      "eval_runtime": 5.2251,
+      "eval_samples_per_second": 5.742,
+      "eval_steps_per_second": 0.191,
+      "step": 2515
+    },
+    {
+      "epoch": 0.9956470122675108,
+      "grad_norm": 0.5898253204229328,
+      "learning_rate": 5.773455803187444e-09,
+      "loss": 0.0996,
+      "step": 2516
+    },
+    {
+      "epoch": 0.9960427384250099,
+      "grad_norm": 0.5804500055147189,
+      "learning_rate": 4.771467014125231e-09,
+      "loss": 0.1425,
+      "step": 2517
+    },
+    {
+      "epoch": 0.996438464582509,
+      "grad_norm": 0.7889287195136169,
+      "learning_rate": 3.864899961097956e-09,
+      "loss": 0.1534,
+      "step": 2518
+    },
+    {
+      "epoch": 0.9968341907400079,
+      "grad_norm": 0.9666558103457217,
+      "learning_rate": 3.053756374393757e-09,
+      "loss": 0.1731,
+      "step": 2519
+    },
+    {
+      "epoch": 0.997229916897507,
+      "grad_norm": 0.8618885558551689,
+      "learning_rate": 2.338037802174231e-09,
+      "loss": 0.1279,
+      "step": 2520
+    },
+    {
+      "epoch": 0.997229916897507,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9316281357599606,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24785156548023224,
+      "eval_runtime": 5.0732,
+      "eval_samples_per_second": 5.913,
+      "eval_steps_per_second": 0.197,
+      "step": 2520
+    },
+    {
+      "epoch": 0.9976256430550059,
+      "grad_norm": 0.7093407752751012,
+      "learning_rate": 1.7177456104688905e-09,
+      "loss": 0.1339,
+      "step": 2521
+    },
+    {
+      "epoch": 0.998021369212505,
+      "grad_norm": 0.9592888390561018,
+      "learning_rate": 1.1928809831807108e-09,
+      "loss": 0.1844,
+      "step": 2522
+    },
+    {
+      "epoch": 0.998417095370004,
+      "grad_norm": 0.6765076345571852,
+      "learning_rate": 7.634449220805806e-10,
+      "loss": 0.1263,
+      "step": 2523
+    },
+    {
+      "epoch": 0.998812821527503,
+      "grad_norm": 0.597491796120058,
+      "learning_rate": 4.294382467906477e-10,
+      "loss": 0.1135,
+      "step": 2524
+    },
+    {
+      "epoch": 0.999208547685002,
+      "grad_norm": 0.8136990563223105,
+      "learning_rate": 1.9086159480097287e-10,
+      "loss": 0.1752,
+      "step": 2525
+    },
+    {
+      "epoch": 0.999208547685002,
+      "eval_PRM Accuracy": 0.8968253968253969,
+      "eval_PRM F1": 0.9417040358744395,
+      "eval_PRM F1 AUC": 0.7011805213969503,
+      "eval_PRM F1 AUC (fixed)": 0.9318740777176585,
+      "eval_PRM F1 Neg": 0.5517241379310345,
+      "eval_PRM NPV": 0.8,
+      "eval_PRM Precision": 0.9051724137931034,
+      "eval_PRM Recall": 0.9813084112149533,
+      "eval_PRM Specificty": 0.42105263157894735,
+      "eval_loss": 0.24759115278720856,
+      "eval_runtime": 4.7407,
+      "eval_samples_per_second": 6.328,
+      "eval_steps_per_second": 0.211,
+      "step": 2525
+    },
+    {
+      "epoch": 0.999604273842501,
+      "grad_norm": 0.9911556527429359,
+      "learning_rate": 4.771542146952967e-11,
+      "loss": 0.1765,
+      "step": 2526
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9876160839837966,
+      "learning_rate": 0.0,
+      "loss": 0.1651,
+      "step": 2527
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 2527,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3818088336261120.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/training_args.bin b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/training_args.bin
new file mode 100644
index 0000000000000000000000000000000000000000..bd10572684a55d811cf18fc529af0c2ee23118fb
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea2f96dc5615935b6350a25cef8a628f4d3d66a0319a6d9d222fcca89509499f
+size 6456
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/zero_to_fp32.py b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/zero_to_fp32.py
new file mode 100644
index 0000000000000000000000000000000000000000..e69ecd9acb5a235ffbf927091051106d902b3d39
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/last-checkpoint/zero_to_fp32.py
@@ -0,0 +1,674 @@
+#!/usr/bin/env python
+
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example:
+#   python zero_to_fp32.py . output_dir/
+#   or
+#   python zero_to_fp32.py . output_dir/ --safe_serialization
+
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+import json
+from tqdm import tqdm
+from collections import OrderedDict
+from dataclasses import dataclass
+
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+
+
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+
+
+debug = 0
+
+# load to cpu
+device = torch.device('cpu')
+
+
+def atoi(text):
+    return int(text) if text.isdigit() else text
+
+
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+
+
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+
+    return file
+
+
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+
+    return ckpt_files
+
+
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+
+
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+
+
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device)
+
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+
+        ds_version = state_dict.get(DS_VERSION, None)
+
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+
+    return zero_model_states
+
+
+def parse_optim_states(files, ds_checkpoint_dir):
+    total_files = len(files)
+    state_dicts = []
+    for f in files:
+        state_dict = torch.load(f, map_location=device)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+
+    if not ZERO_STAGE in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+
+    if type(world_size) is list:
+        world_size = max(world_size)
+
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+
+    if zero_stage <= 2:
+        fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    elif zero_stage == 3:
+        # if there is more than one param group, there will be multiple flattened tensors - one
+        # flattened tensor per group - for simplicity merge them into a single tensor
+        #
+        # XXX: could make the script more memory efficient for when there are multiple groups - it
+        # will require matching the sub-lists of param_shapes for each param group flattened tensor
+
+        fp32_flat_groups = [
+            torch.cat(state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key], 0) for i in range(len(state_dicts))
+        ]
+
+    return zero_stage, world_size, fp32_flat_groups
+
+
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+
+    model_files = get_model_state_files(ds_checkpoint_dir)
+
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+
+
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        state_dict[name] = frozen_param_fragments[name]
+
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _has_callable(obj, fn):
+    attr = getattr(obj, fn, None)
+    return callable(attr)
+
+
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+
+            unpartitioned_numel = shape.numel() if _has_callable(shape, 'numel') else math.prod(shape)
+            total_numel += unpartitioned_numel
+            total_params += 1
+
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
+
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+
+
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = fp32_flat_groups[0].numel() * world_size
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    for name, shape in tqdm(param_shapes.items(), desc='Gathering Sharded Weights'):
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+        # XXX: memory usage doubles here
+        state_dict[name] = torch.cat(
+            tuple(fp32_flat_groups[i].narrow(0, offset, partitioned_numel) for i in range(world_size)),
+            0).narrow(0, 0, unpartitioned_numel).view(shape)
+        offset += partitioned_numel
+
+    offset *= world_size
+
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None, exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+
+    Returns:
+        - pytorch ``state_dict``
+
+    Note: this approach may not work if your application doesn't have sufficient free CPU memory and
+    you may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint.
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+
+    return _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+
+
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir,
+                                               output_dir,
+                                               max_shard_size="5GB",
+                                               safe_serialization=False,
+                                               tag=None,
+                                               exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_dir``: directory to the pytorch fp32 state_dict output files
+        - ``max_shard_size``: the maximum size for a checkpoint before being sharded, default value is 5GB
+        - ``safe_serialization``:  whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    """
+    # Dependency pre-check
+    if safe_serialization:
+        try:
+            from safetensors.torch import save_file
+        except ImportError:
+            print('If you want to use `safe_serialization`, please `pip install safetensors`')
+            raise
+    if max_shard_size is not None:
+        try:
+            from huggingface_hub import split_torch_state_dict_into_shards
+        except ImportError:
+            print('If you want to use `max_shard_size`, please `pip install huggingface_hub`')
+            raise
+
+    # Convert zero checkpoint to state_dict
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag, exclude_frozen_parameters)
+
+    # Shard the model if it is too big.
+    weights_name = "model.safetensors" if safe_serialization else "pytorch_model.bin"
+    if max_shard_size is not None:
+        filename_pattern = weights_name.replace(".bin", "{suffix}.bin").replace(".safetensors", "{suffix}.safetensors")
+        state_dict_split = split_torch_state_dict_into_shards(state_dict,
+                                                              filename_pattern=filename_pattern,
+                                                              max_shard_size=max_shard_size)
+    else:
+        from collections import namedtuple
+        StateDictSplit = namedtuple("StateDictSplit", ["is_sharded", "filename_to_tensors"])
+        state_dict_split = StateDictSplit(is_sharded=False,
+                                          filename_to_tensors={weights_name: list(state_dict.keys())})
+
+    # Save the model
+    filename_to_tensors = state_dict_split.filename_to_tensors.items()
+    for shard_file, tensors in tqdm(filename_to_tensors, desc="Saving checkpoint shards"):
+        shard = {tensor: state_dict[tensor].contiguous() for tensor in tensors}
+        output_path = os.path.join(output_dir, shard_file)
+        if safe_serialization:
+            save_file(shard, output_path, metadata={"format": "pt"})
+        else:
+            torch.save(shard, output_path)
+
+    # Save index if sharded
+    if state_dict_split.is_sharded:
+        index = {
+            "metadata": state_dict_split.metadata,
+            "weight_map": state_dict_split.tensor_to_filename,
+        }
+        save_index_file = "model.safetensors.index.json" if safe_serialization else "pytorch_model.bin.index.json"
+        save_index_file = os.path.join(output_dir, save_index_file)
+        with open(save_index_file, "w", encoding="utf-8") as f:
+            content = json.dumps(index, indent=2, sort_keys=True) + "\n"
+            f.write(content)
+
+
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+
+    Returns:
+        - ``model`: modified model
+
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    """
+    logger.info(f"Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+
+    logger.info(f"Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+
+    return model
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument("output_dir",
+                        type=str,
+                        help="directory to the pytorch fp32 state_dict output files"
+                        "(e.g. path/checkpoint-12-output/)")
+    parser.add_argument(
+        "--max_shard_size",
+        type=str,
+        default="5GB",
+        help="The maximum size for a checkpoint before being sharded. Checkpoints shard will then be each of size"
+        "lower than this size. If expressed as a string, needs to be digits followed by a unit (like `5MB`"
+        "We default it to 5GB in order for models to be able to run easily on free-tier google colab instances"
+        "without CPU OOM issues.")
+    parser.add_argument(
+        "--safe_serialization",
+        default=False,
+        action='store_true',
+        help="Whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+
+    debug = args.debug
+
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_dir,
+                                               max_shard_size=args.max_shard_size,
+                                               safe_serialization=args.safe_serialization,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/special_tokens_map.json b/Daewon0808__mmlu_noaugs_llamabase_lora/special_tokens_map.json
new file mode 100644
index 0000000000000000000000000000000000000000..b43be96621d147110fb8a18b5776ec6e38516127
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/special_tokens_map.json
@@ -0,0 +1,17 @@
+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|eot_id|>"
+}
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/tokenizer.json b/Daewon0808__mmlu_noaugs_llamabase_lora/tokenizer.json
new file mode 100644
index 0000000000000000000000000000000000000000..1c1d8d5c9024994f1d3b00f9662b8dd89ca13cf2
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b9e4e7fb171f92fd137b777cc2714bf87d11576700a1dcd7a399e7bbe39537b
+size 17209920
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/tokenizer_config.json b/Daewon0808__mmlu_noaugs_llamabase_lora/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..b6e4e4df0ecc9c7f724a657ad557fae021e2b830
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/tokenizer_config.json
@@ -0,0 +1,2063 @@
+{
+  "added_tokens_decoder": {
+    "128000": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128001": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128002": {
+      "content": "<|reserved_special_token_0|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128003": {
+      "content": "<|reserved_special_token_1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128004": {
+      "content": "<|finetune_right_pad_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128005": {
+      "content": "<|reserved_special_token_2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128006": {
+      "content": "<|start_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128007": {
+      "content": "<|end_header_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128008": {
+      "content": "<|eom_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128009": {
+      "content": "<|eot_id|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128010": {
+      "content": "<|python_tag|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128011": {
+      "content": "<|reserved_special_token_3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128012": {
+      "content": "<|reserved_special_token_4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128013": {
+      "content": "<|reserved_special_token_5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128014": {
+      "content": "<|reserved_special_token_6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128015": {
+      "content": "<|reserved_special_token_7|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128016": {
+      "content": "<|reserved_special_token_8|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128017": {
+      "content": "<|reserved_special_token_9|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128018": {
+      "content": "<|reserved_special_token_10|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128019": {
+      "content": "<|reserved_special_token_11|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128020": {
+      "content": "<|reserved_special_token_12|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128021": {
+      "content": "<|reserved_special_token_13|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128022": {
+      "content": "<|reserved_special_token_14|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128023": {
+      "content": "<|reserved_special_token_15|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128024": {
+      "content": "<|reserved_special_token_16|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128025": {
+      "content": "<|reserved_special_token_17|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128026": {
+      "content": "<|reserved_special_token_18|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128027": {
+      "content": "<|reserved_special_token_19|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128028": {
+      "content": "<|reserved_special_token_20|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128029": {
+      "content": "<|reserved_special_token_21|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128030": {
+      "content": "<|reserved_special_token_22|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128031": {
+      "content": "<|reserved_special_token_23|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128032": {
+      "content": "<|reserved_special_token_24|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128033": {
+      "content": "<|reserved_special_token_25|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128034": {
+      "content": "<|reserved_special_token_26|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128035": {
+      "content": "<|reserved_special_token_27|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128036": {
+      "content": "<|reserved_special_token_28|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128037": {
+      "content": "<|reserved_special_token_29|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128038": {
+      "content": "<|reserved_special_token_30|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128039": {
+      "content": "<|reserved_special_token_31|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128040": {
+      "content": "<|reserved_special_token_32|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128041": {
+      "content": "<|reserved_special_token_33|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128042": {
+      "content": "<|reserved_special_token_34|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128043": {
+      "content": "<|reserved_special_token_35|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128044": {
+      "content": "<|reserved_special_token_36|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128045": {
+      "content": "<|reserved_special_token_37|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128046": {
+      "content": "<|reserved_special_token_38|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128047": {
+      "content": "<|reserved_special_token_39|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128048": {
+      "content": "<|reserved_special_token_40|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128049": {
+      "content": "<|reserved_special_token_41|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128050": {
+      "content": "<|reserved_special_token_42|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128051": {
+      "content": "<|reserved_special_token_43|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128052": {
+      "content": "<|reserved_special_token_44|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128053": {
+      "content": "<|reserved_special_token_45|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128054": {
+      "content": "<|reserved_special_token_46|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128055": {
+      "content": "<|reserved_special_token_47|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128056": {
+      "content": "<|reserved_special_token_48|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128057": {
+      "content": "<|reserved_special_token_49|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128058": {
+      "content": "<|reserved_special_token_50|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128059": {
+      "content": "<|reserved_special_token_51|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128060": {
+      "content": "<|reserved_special_token_52|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128061": {
+      "content": "<|reserved_special_token_53|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128062": {
+      "content": "<|reserved_special_token_54|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128063": {
+      "content": "<|reserved_special_token_55|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128064": {
+      "content": "<|reserved_special_token_56|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128065": {
+      "content": "<|reserved_special_token_57|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128066": {
+      "content": "<|reserved_special_token_58|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128067": {
+      "content": "<|reserved_special_token_59|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128068": {
+      "content": "<|reserved_special_token_60|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128069": {
+      "content": "<|reserved_special_token_61|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128070": {
+      "content": "<|reserved_special_token_62|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128071": {
+      "content": "<|reserved_special_token_63|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128072": {
+      "content": "<|reserved_special_token_64|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128073": {
+      "content": "<|reserved_special_token_65|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128074": {
+      "content": "<|reserved_special_token_66|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128075": {
+      "content": "<|reserved_special_token_67|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128076": {
+      "content": "<|reserved_special_token_68|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128077": {
+      "content": "<|reserved_special_token_69|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128078": {
+      "content": "<|reserved_special_token_70|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128079": {
+      "content": "<|reserved_special_token_71|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128080": {
+      "content": "<|reserved_special_token_72|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128081": {
+      "content": "<|reserved_special_token_73|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128082": {
+      "content": "<|reserved_special_token_74|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128083": {
+      "content": "<|reserved_special_token_75|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128084": {
+      "content": "<|reserved_special_token_76|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128085": {
+      "content": "<|reserved_special_token_77|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128086": {
+      "content": "<|reserved_special_token_78|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128087": {
+      "content": "<|reserved_special_token_79|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128088": {
+      "content": "<|reserved_special_token_80|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128089": {
+      "content": "<|reserved_special_token_81|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128090": {
+      "content": "<|reserved_special_token_82|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128091": {
+      "content": "<|reserved_special_token_83|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128092": {
+      "content": "<|reserved_special_token_84|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128093": {
+      "content": "<|reserved_special_token_85|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128094": {
+      "content": "<|reserved_special_token_86|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128095": {
+      "content": "<|reserved_special_token_87|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128096": {
+      "content": "<|reserved_special_token_88|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128097": {
+      "content": "<|reserved_special_token_89|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128098": {
+      "content": "<|reserved_special_token_90|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128099": {
+      "content": "<|reserved_special_token_91|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128100": {
+      "content": "<|reserved_special_token_92|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128101": {
+      "content": "<|reserved_special_token_93|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128102": {
+      "content": "<|reserved_special_token_94|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128103": {
+      "content": "<|reserved_special_token_95|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128104": {
+      "content": "<|reserved_special_token_96|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128105": {
+      "content": "<|reserved_special_token_97|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128106": {
+      "content": "<|reserved_special_token_98|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128107": {
+      "content": "<|reserved_special_token_99|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128108": {
+      "content": "<|reserved_special_token_100|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128109": {
+      "content": "<|reserved_special_token_101|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128110": {
+      "content": "<|reserved_special_token_102|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128111": {
+      "content": "<|reserved_special_token_103|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128112": {
+      "content": "<|reserved_special_token_104|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128113": {
+      "content": "<|reserved_special_token_105|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128114": {
+      "content": "<|reserved_special_token_106|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128115": {
+      "content": "<|reserved_special_token_107|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128116": {
+      "content": "<|reserved_special_token_108|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128117": {
+      "content": "<|reserved_special_token_109|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128118": {
+      "content": "<|reserved_special_token_110|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128119": {
+      "content": "<|reserved_special_token_111|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128120": {
+      "content": "<|reserved_special_token_112|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128121": {
+      "content": "<|reserved_special_token_113|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128122": {
+      "content": "<|reserved_special_token_114|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128123": {
+      "content": "<|reserved_special_token_115|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128124": {
+      "content": "<|reserved_special_token_116|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128125": {
+      "content": "<|reserved_special_token_117|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128126": {
+      "content": "<|reserved_special_token_118|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128127": {
+      "content": "<|reserved_special_token_119|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128128": {
+      "content": "<|reserved_special_token_120|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128129": {
+      "content": "<|reserved_special_token_121|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128130": {
+      "content": "<|reserved_special_token_122|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128131": {
+      "content": "<|reserved_special_token_123|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128132": {
+      "content": "<|reserved_special_token_124|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128133": {
+      "content": "<|reserved_special_token_125|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128134": {
+      "content": "<|reserved_special_token_126|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128135": {
+      "content": "<|reserved_special_token_127|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128136": {
+      "content": "<|reserved_special_token_128|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128137": {
+      "content": "<|reserved_special_token_129|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128138": {
+      "content": "<|reserved_special_token_130|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128139": {
+      "content": "<|reserved_special_token_131|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128140": {
+      "content": "<|reserved_special_token_132|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128141": {
+      "content": "<|reserved_special_token_133|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128142": {
+      "content": "<|reserved_special_token_134|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128143": {
+      "content": "<|reserved_special_token_135|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128144": {
+      "content": "<|reserved_special_token_136|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128145": {
+      "content": "<|reserved_special_token_137|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128146": {
+      "content": "<|reserved_special_token_138|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128147": {
+      "content": "<|reserved_special_token_139|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128148": {
+      "content": "<|reserved_special_token_140|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128149": {
+      "content": "<|reserved_special_token_141|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128150": {
+      "content": "<|reserved_special_token_142|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128151": {
+      "content": "<|reserved_special_token_143|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128152": {
+      "content": "<|reserved_special_token_144|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128153": {
+      "content": "<|reserved_special_token_145|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128154": {
+      "content": "<|reserved_special_token_146|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128155": {
+      "content": "<|reserved_special_token_147|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128156": {
+      "content": "<|reserved_special_token_148|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128157": {
+      "content": "<|reserved_special_token_149|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128158": {
+      "content": "<|reserved_special_token_150|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128159": {
+      "content": "<|reserved_special_token_151|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128160": {
+      "content": "<|reserved_special_token_152|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128161": {
+      "content": "<|reserved_special_token_153|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128162": {
+      "content": "<|reserved_special_token_154|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128163": {
+      "content": "<|reserved_special_token_155|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128164": {
+      "content": "<|reserved_special_token_156|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128165": {
+      "content": "<|reserved_special_token_157|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128166": {
+      "content": "<|reserved_special_token_158|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128167": {
+      "content": "<|reserved_special_token_159|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128168": {
+      "content": "<|reserved_special_token_160|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128169": {
+      "content": "<|reserved_special_token_161|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128170": {
+      "content": "<|reserved_special_token_162|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128171": {
+      "content": "<|reserved_special_token_163|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128172": {
+      "content": "<|reserved_special_token_164|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128173": {
+      "content": "<|reserved_special_token_165|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128174": {
+      "content": "<|reserved_special_token_166|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128175": {
+      "content": "<|reserved_special_token_167|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128176": {
+      "content": "<|reserved_special_token_168|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128177": {
+      "content": "<|reserved_special_token_169|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128178": {
+      "content": "<|reserved_special_token_170|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128179": {
+      "content": "<|reserved_special_token_171|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128180": {
+      "content": "<|reserved_special_token_172|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128181": {
+      "content": "<|reserved_special_token_173|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128182": {
+      "content": "<|reserved_special_token_174|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128183": {
+      "content": "<|reserved_special_token_175|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128184": {
+      "content": "<|reserved_special_token_176|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128185": {
+      "content": "<|reserved_special_token_177|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128186": {
+      "content": "<|reserved_special_token_178|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128187": {
+      "content": "<|reserved_special_token_179|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128188": {
+      "content": "<|reserved_special_token_180|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128189": {
+      "content": "<|reserved_special_token_181|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128190": {
+      "content": "<|reserved_special_token_182|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128191": {
+      "content": "<|reserved_special_token_183|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128192": {
+      "content": "<|reserved_special_token_184|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128193": {
+      "content": "<|reserved_special_token_185|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128194": {
+      "content": "<|reserved_special_token_186|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128195": {
+      "content": "<|reserved_special_token_187|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128196": {
+      "content": "<|reserved_special_token_188|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128197": {
+      "content": "<|reserved_special_token_189|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128198": {
+      "content": "<|reserved_special_token_190|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128199": {
+      "content": "<|reserved_special_token_191|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128200": {
+      "content": "<|reserved_special_token_192|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128201": {
+      "content": "<|reserved_special_token_193|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128202": {
+      "content": "<|reserved_special_token_194|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128203": {
+      "content": "<|reserved_special_token_195|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128204": {
+      "content": "<|reserved_special_token_196|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128205": {
+      "content": "<|reserved_special_token_197|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128206": {
+      "content": "<|reserved_special_token_198|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128207": {
+      "content": "<|reserved_special_token_199|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128208": {
+      "content": "<|reserved_special_token_200|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128209": {
+      "content": "<|reserved_special_token_201|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128210": {
+      "content": "<|reserved_special_token_202|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128211": {
+      "content": "<|reserved_special_token_203|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128212": {
+      "content": "<|reserved_special_token_204|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128213": {
+      "content": "<|reserved_special_token_205|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128214": {
+      "content": "<|reserved_special_token_206|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128215": {
+      "content": "<|reserved_special_token_207|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128216": {
+      "content": "<|reserved_special_token_208|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128217": {
+      "content": "<|reserved_special_token_209|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128218": {
+      "content": "<|reserved_special_token_210|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128219": {
+      "content": "<|reserved_special_token_211|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128220": {
+      "content": "<|reserved_special_token_212|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128221": {
+      "content": "<|reserved_special_token_213|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128222": {
+      "content": "<|reserved_special_token_214|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128223": {
+      "content": "<|reserved_special_token_215|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128224": {
+      "content": "<|reserved_special_token_216|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128225": {
+      "content": "<|reserved_special_token_217|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128226": {
+      "content": "<|reserved_special_token_218|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128227": {
+      "content": "<|reserved_special_token_219|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128228": {
+      "content": "<|reserved_special_token_220|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128229": {
+      "content": "<|reserved_special_token_221|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128230": {
+      "content": "<|reserved_special_token_222|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128231": {
+      "content": "<|reserved_special_token_223|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128232": {
+      "content": "<|reserved_special_token_224|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128233": {
+      "content": "<|reserved_special_token_225|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128234": {
+      "content": "<|reserved_special_token_226|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128235": {
+      "content": "<|reserved_special_token_227|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128236": {
+      "content": "<|reserved_special_token_228|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128237": {
+      "content": "<|reserved_special_token_229|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128238": {
+      "content": "<|reserved_special_token_230|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128239": {
+      "content": "<|reserved_special_token_231|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128240": {
+      "content": "<|reserved_special_token_232|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128241": {
+      "content": "<|reserved_special_token_233|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128242": {
+      "content": "<|reserved_special_token_234|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128243": {
+      "content": "<|reserved_special_token_235|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128244": {
+      "content": "<|reserved_special_token_236|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128245": {
+      "content": "<|reserved_special_token_237|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128246": {
+      "content": "<|reserved_special_token_238|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128247": {
+      "content": "<|reserved_special_token_239|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128248": {
+      "content": "<|reserved_special_token_240|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128249": {
+      "content": "<|reserved_special_token_241|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128250": {
+      "content": "<|reserved_special_token_242|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128251": {
+      "content": "<|reserved_special_token_243|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128252": {
+      "content": "<|reserved_special_token_244|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128253": {
+      "content": "<|reserved_special_token_245|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128254": {
+      "content": "<|reserved_special_token_246|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128255": {
+      "content": "<|reserved_special_token_247|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|begin_of_text|>",
+  "chat_template": "{{- bos_token }}\n{%- if custom_tools is defined %}\n    {%- set tools = custom_tools %}\n{%- endif %}\n{%- if not tools_in_user_message is defined %}\n    {%- set tools_in_user_message = true %}\n{%- endif %}\n{%- if not date_string is defined %}\n    {%- set date_string = \"26 Jul 2024\" %}\n{%- endif %}\n{%- if not tools is defined %}\n    {%- set tools = none %}\n{%- endif %}\n\n{#- This block extracts the system message, so we can slot it into the right place. #}\n{%- if messages[0]['role'] == 'system' %}\n    {%- set system_message = messages[0]['content']|trim %}\n    {%- set messages = messages[1:] %}\n{%- else %}\n    {%- set system_message = \"\" %}\n{%- endif %}\n\n{#- System message + builtin tools #}\n{{- \"<|start_header_id|>system<|end_header_id|>\\n\\n\" }}\n{%- if builtin_tools is defined or tools is not none %}\n    {{- \"Environment: ipython\\n\" }}\n{%- endif %}\n{%- if builtin_tools is defined %}\n    {{- \"Tools: \" + builtin_tools | reject('equalto', 'code_interpreter') | join(\", \") + \"\\n\\n\"}}\n{%- endif %}\n{{- \"Cutting Knowledge Date: December 2023\\n\" }}\n{{- \"Today Date: \" + date_string + \"\\n\\n\" }}\n{%- if tools is not none and not tools_in_user_message %}\n    {{- \"You have access to the following functions. To call a function, please respond with JSON for a function call.\" }}\n    {{- 'Respond in the format {\"name\": function name, \"parameters\": dictionary of argument name and its value}.' }}\n    {{- \"Do not use variables.\\n\\n\" }}\n    {%- for t in tools %}\n        {{- t | tojson(indent=4) }}\n        {{- \"\\n\\n\" }}\n    {%- endfor %}\n{%- endif %}\n{{- system_message }}\n{{- \"<|eot_id|>\" }}\n\n{#- Custom tools are passed in a user message with some extra guidance #}\n{%- if tools_in_user_message and not tools is none %}\n    {#- Extract the first user message so we can plug it in here #}\n    {%- if messages | length != 0 %}\n        {%- set first_user_message = messages[0]['content']|trim %}\n        {%- set messages = messages[1:] %}\n    {%- else %}\n        {{- raise_exception(\"Cannot put tools in the first user message when there's no first user message!\") }}\n{%- endif %}\n    {{- '<|start_header_id|>user<|end_header_id|>\\n\\n' -}}\n    {{- \"Given the following functions, please respond with a JSON for a function call \" }}\n    {{- \"with its proper arguments that best answers the given prompt.\\n\\n\" }}\n    {{- 'Respond in the format {\"name\": function name, \"parameters\": dictionary of argument name and its value}.' }}\n    {{- \"Do not use variables.\\n\\n\" }}\n    {%- for t in tools %}\n        {{- t | tojson(indent=4) }}\n        {{- \"\\n\\n\" }}\n    {%- endfor %}\n    {{- first_user_message + \"<|eot_id|>\"}}\n{%- endif %}\n\n{%- for message in messages %}\n    {%- if not (message.role == 'ipython' or message.role == 'tool' or 'tool_calls' in message) %}\n        {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>\\n\\n'+ message['content'] | trim + '<|eot_id|>' }}\n    {%- elif 'tool_calls' in message %}\n        {%- if not message.tool_calls|length == 1 %}\n            {{- raise_exception(\"This model only supports single tool-calls at once!\") }}\n        {%- endif %}\n        {%- set tool_call = message.tool_calls[0].function %}\n        {%- if builtin_tools is defined and tool_call.name in builtin_tools %}\n            {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' -}}\n            {{- \"<|python_tag|>\" + tool_call.name + \".call(\" }}\n            {%- for arg_name, arg_val in tool_call.arguments | items %}\n                {{- arg_name + '=\"' + arg_val + '\"' }}\n                {%- if not loop.last %}\n                    {{- \", \" }}\n                {%- endif %}\n                {%- endfor %}\n            {{- \")\" }}\n        {%- else  %}\n            {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' -}}\n            {{- '{\"name\": \"' + tool_call.name + '\", ' }}\n            {{- '\"parameters\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- \"}\" }}\n        {%- endif %}\n        {%- if builtin_tools is defined %}\n            {#- This means we're in ipython mode #}\n            {{- \"<|eom_id|>\" }}\n        {%- else %}\n            {{- \"<|eot_id|>\" }}\n        {%- endif %}\n    {%- elif message.role == \"tool\" or message.role == \"ipython\" %}\n        {{- \"<|start_header_id|>ipython<|end_header_id|>\\n\\n\" }}\n        {%- if message.content is mapping or message.content is iterable %}\n            {{- message.content | tojson }}\n        {%- else %}\n            {{- message.content }}\n        {%- endif %}\n        {{- \"<|eot_id|>\" }}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|start_header_id|>assistant<|end_header_id|>\\n\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|eot_id|>",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
+  "model_max_length": 131072,
+  "pad_token": "<|eot_id|>",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}
diff --git a/Daewon0808__mmlu_noaugs_llamabase_lora/training_args.bin b/Daewon0808__mmlu_noaugs_llamabase_lora/training_args.bin
new file mode 100644
index 0000000000000000000000000000000000000000..bd10572684a55d811cf18fc529af0c2ee23118fb
--- /dev/null
+++ b/Daewon0808__mmlu_noaugs_llamabase_lora/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea2f96dc5615935b6350a25cef8a628f4d3d66a0319a6d9d222fcca89509499f
+size 6456