End of training

Browse files

Files changed (5) hide show

README.md +9 -9
all_results.json +12 -12
runs/Jun15_00-58-48_92b2e0e6fb20/events.out.tfevents.1749949423.92b2e0e6fb20.2194.14 +3 -0
test_results.json +13 -13
trainer_state.json +692 -563

README.md CHANGED Viewed

@@ -16,15 +16,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [maximuspowers/bert-philosophy-adapted](https://huggingface.co/maximuspowers/bert-philosophy-adapted) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7948
-- Exact Match Accuracy: 0.225
-- Macro Precision: 0.2908
-- Macro Recall: 0.1502
-- Macro F1: 0.1930
-- Micro Precision: 0.7083
-- Micro Recall: 0.2982
-- Micro F1: 0.4198
-- Hamming Loss: 0.0691
 ## Model description

 This model is a fine-tuned version of [maximuspowers/bert-philosophy-adapted](https://huggingface.co/maximuspowers/bert-philosophy-adapted) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4468
+- Exact Match Accuracy: 0.425
+- Macro Precision: 0.3078
+- Macro Recall: 0.2221
+- Macro F1: 0.2248
+- Micro Precision: 0.8966
+- Micro Recall: 0.4561
+- Micro F1: 0.6047
+- Hamming Loss: 0.05
 ## Model description

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
     "epoch": 50.0,
-    "eval_exact_match_accuracy": 0.4,
-    "eval_hamming_loss": 0.052941176470588235,
-    "eval_loss": 0.5290737152099609,
-    "eval_macro_f1": 0.14097904608067482,
-    "eval_macro_precision": 0.1657754010695187,
-    "eval_macro_recall": 0.1264705882352941,
-    "eval_micro_f1": 0.5609756097560976,
-    "eval_micro_precision": 0.92,
-    "eval_micro_recall": 0.40350877192982454,
-    "eval_runtime": 0.2121,
-    "eval_samples_per_second": 188.615,
-    "eval_steps_per_second": 23.577,
     "total_flos": 0.0,
     "train_loss": 0.8574352493286133,
     "train_runtime": 257.7927,

 {
     "epoch": 50.0,
+    "eval_exact_match_accuracy": 0.425,
+    "eval_hamming_loss": 0.05,
+    "eval_loss": 0.44675666093826294,
+    "eval_macro_f1": 0.22477092910529442,
+    "eval_macro_precision": 0.307843137254902,
+    "eval_macro_recall": 0.22205882352941175,
+    "eval_micro_f1": 0.6046511627906976,
+    "eval_micro_precision": 0.896551724137931,
+    "eval_micro_recall": 0.45614035087719296,
+    "eval_runtime": 0.2085,
+    "eval_samples_per_second": 191.847,
+    "eval_steps_per_second": 23.981,
     "total_flos": 0.0,
     "train_loss": 0.8574352493286133,
     "train_runtime": 257.7927,

runs/Jun15_00-58-48_92b2e0e6fb20/events.out.tfevents.1749949423.92b2e0e6fb20.2194.14 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5681d8937701cc06c9ca22fe68ebe13b29d8ca175164cd965fa953de1ae2047
+size 5853

test_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 45.0,
-    "eval_exact_match_accuracy": 0.4,
-    "eval_hamming_loss": 0.052941176470588235,
-    "eval_loss": 0.5290737152099609,
-    "eval_macro_f1": 0.14097904608067482,
-    "eval_macro_precision": 0.1657754010695187,
-    "eval_macro_recall": 0.1264705882352941,
-    "eval_micro_f1": 0.5609756097560976,
-    "eval_micro_precision": 0.92,
-    "eval_micro_recall": 0.40350877192982454,
-    "eval_runtime": 0.2121,
-    "eval_samples_per_second": 188.615,
-    "eval_steps_per_second": 23.577
 }

 {
+    "epoch": 50.0,
+    "eval_exact_match_accuracy": 0.425,
+    "eval_hamming_loss": 0.05,
+    "eval_loss": 0.44675666093826294,
+    "eval_macro_f1": 0.22477092910529442,
+    "eval_macro_precision": 0.307843137254902,
+    "eval_macro_recall": 0.22205882352941175,
+    "eval_micro_f1": 0.6046511627906976,
+    "eval_micro_precision": 0.896551724137931,
+    "eval_micro_recall": 0.45614035087719296,
+    "eval_runtime": 0.2085,
+    "eval_samples_per_second": 191.847,
+    "eval_steps_per_second": 23.981
 }

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 600,
   "best_metric": 0.42105263157894735,
   "best_model_checkpoint": null,
-  "epoch": 45.0,
   "eval_steps": 100,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12,1179 +12,1308 @@
     {
       "epoch": 0,
       "step": 0,
-      "train/classification_loss": 0.7007833123207092,
-      "train/contrastive_loss": 9.572936058044434,
-      "train/negative_loss": 9.572856903076172,
       "train/num_negatives": 46,
       "train/num_positives": 10,
-      "train/positive_loss": 7.908708357717842e-05,
-      "train/total_loss": 2.615370512008667
     },
     {
       "epoch": 0,
       "step": 0,
-      "train/classification_loss": 0.7040252089500427,
-      "train/contrastive_loss": 9.725648880004883,
-      "train/negative_loss": 9.725597381591797,
       "train/num_negatives": 46,
       "train/num_positives": 10,
-      "train/positive_loss": 5.152364246896468e-05,
-      "train/total_loss": 2.6491549015045166
     },
     {
       "epoch": 2.5,
-      "grad_norm": 18.165754318237305,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 3.7884,
       "step": 50
     },
     {
       "epoch": 2.5,
       "step": 50,
-      "train/classification_loss": 0.6516271233558655,
-      "train/contrastive_loss": 1.8623473644256592,
-      "train/negative_loss": 1.4998806715011597,
       "train/num_negatives": 38,
       "train/num_positives": 18,
-      "train/positive_loss": 0.36246663331985474,
-      "train/total_loss": 1.0240966081619263
     },
     {
       "epoch": 2.5,
       "step": 50,
-      "train/classification_loss": 0.6451266407966614,
-      "train/contrastive_loss": 1.7446768283843994,
-      "train/negative_loss": 1.668500304222107,
       "train/num_negatives": 50,
       "train/num_positives": 6,
-      "train/positive_loss": 0.07617650926113129,
-      "train/total_loss": 0.9940620064735413
     },
     {
       "epoch": 5.0,
-      "grad_norm": 16.30499839782715,
-      "learning_rate": 1.9600000000000002e-05,
-      "loss": 1.7889,
       "step": 100
     },
     {
       "epoch": 5.0,
       "step": 100,
-      "train/classification_loss": 0.4927652180194855,
-      "train/contrastive_loss": 2.06559419631958,
-      "train/negative_loss": 1.8223981857299805,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.24319612979888916,
-      "train/total_loss": 0.9058840274810791
     },
     {
       "epoch": 5.0,
       "step": 100,
-      "train/classification_loss": 0.5166366100311279,
-      "train/contrastive_loss": 3.1131491661071777,
-      "train/negative_loss": 3.112612724304199,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.0005365243996493518,
-      "train/total_loss": 1.1392664909362793
     },
     {
       "epoch": 5.0,
       "step": 100,
-      "train/classification_loss": 0.4922243058681488,
-      "train/contrastive_loss": 1.7773994207382202,
-      "train/negative_loss": 1.7757622003555298,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 0.0016372093232348561,
-      "train/total_loss": 0.8477041721343994
     },
     {
       "epoch": 5.0,
       "step": 100,
-      "train/classification_loss": 0.5021852850914001,
-      "train/contrastive_loss": 3.2608611583709717,
-      "train/negative_loss": 2.6507816314697266,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.6100795269012451,
-      "train/total_loss": 1.1543575525283813
     },
     {
       "epoch": 5.0,
       "step": 100,
-      "train/classification_loss": 0.4944652020931244,
-      "train/contrastive_loss": 2.343458652496338,
-      "train/negative_loss": 1.1261494159698486,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 1.2173092365264893,
-      "train/total_loss": 0.9631569385528564
     },
     {
       "epoch": 5.0,
       "eval_exact_match_accuracy": 0.0,
-      "eval_hamming_loss": 0.08529411764705883,
-      "eval_loss": 1.002073884010315,
-      "eval_macro_f1": 0.0,
-      "eval_macro_precision": 0.0,
-      "eval_macro_recall": 0.0,
-      "eval_micro_f1": 0.0,
-      "eval_micro_precision": 0.0,
-      "eval_micro_recall": 0.0,
-      "eval_runtime": 0.2122,
-      "eval_samples_per_second": 188.524,
-      "eval_steps_per_second": 23.566,
       "step": 100
     },
     {
       "epoch": 5.0,
       "step": 100,
-      "train/classification_loss": 0.5136489272117615,
-      "train/contrastive_loss": 1.3931580781936646,
-      "train/negative_loss": 1.0857487916946411,
       "train/num_negatives": 42,
       "train/num_positives": 12,
-      "train/positive_loss": 0.30740925669670105,
-      "train/total_loss": 0.7922805547714233
     },
     {
       "epoch": 5.0,
       "step": 100,
-      "train/classification_loss": 0.5019432902336121,
-      "train/contrastive_loss": 0.7777740955352783,
-      "train/negative_loss": 0.5738040804862976,
       "train/num_negatives": 40,
       "train/num_positives": 16,
-      "train/positive_loss": 0.20396998524665833,
-      "train/total_loss": 0.6574981212615967
     },
     {
       "epoch": 7.5,
-      "grad_norm": 12.862069129943848,
-      "learning_rate": 1.8933333333333334e-05,
-      "loss": 1.396,
       "step": 150
     },
     {
       "epoch": 7.5,
       "step": 150,
-      "train/classification_loss": 0.3993939161300659,
-      "train/contrastive_loss": 1.1298128366470337,
-      "train/negative_loss": 0.8979541659355164,
       "train/num_negatives": 44,
       "train/num_positives": 8,
-      "train/positive_loss": 0.23185870051383972,
-      "train/total_loss": 0.6253564953804016
     },
     {
       "epoch": 7.5,
       "step": 150,
-      "train/classification_loss": 0.393746018409729,
-      "train/contrastive_loss": 1.2817302942276,
-      "train/negative_loss": 1.1390491724014282,
       "train/num_negatives": 44,
       "train/num_positives": 10,
-      "train/positive_loss": 0.14268112182617188,
-      "train/total_loss": 0.6500921249389648
     },
     {
       "epoch": 10.0,
-      "grad_norm": 23.76511573791504,
-      "learning_rate": 1.782222222222222e-05,
-      "loss": 1.156,
       "step": 200
     },
     {
       "epoch": 10.0,
       "step": 200,
-      "train/classification_loss": 0.30127307772636414,
-      "train/contrastive_loss": 1.8966163396835327,
-      "train/negative_loss": 1.7765212059020996,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.12009509652853012,
-      "train/total_loss": 0.6805963516235352
     },
     {
       "epoch": 10.0,
       "step": 200,
-      "train/classification_loss": 0.3545684218406677,
-      "train/contrastive_loss": 3.0673155784606934,
-      "train/negative_loss": 3.067002058029175,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.0003136020968668163,
-      "train/total_loss": 0.9680315256118774
     },
     {
       "epoch": 10.0,
       "step": 200,
-      "train/classification_loss": 0.32993215322494507,
-      "train/contrastive_loss": 2.723947048187256,
-      "train/negative_loss": 2.7232000827789307,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 0.0007470683194696903,
-      "train/total_loss": 0.8747215867042542
     },
     {
       "epoch": 10.0,
       "step": 200,
-      "train/classification_loss": 0.32662659883499146,
-      "train/contrastive_loss": 3.6181204319000244,
-      "train/negative_loss": 3.4868171215057373,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.1313033103942871,
-      "train/total_loss": 1.050250768661499
     },
     {
       "epoch": 10.0,
       "step": 200,
-      "train/classification_loss": 0.33877384662628174,
-      "train/contrastive_loss": 2.0167577266693115,
-      "train/negative_loss": 1.4009835720062256,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.6157740950584412,
-      "train/total_loss": 0.742125391960144
     },
     {
       "epoch": 10.0,
       "eval_exact_match_accuracy": 0.0,
-      "eval_hamming_loss": 0.0838235294117647,
-      "eval_loss": 0.8631451725959778,
-      "eval_macro_f1": 0.0,
-      "eval_macro_precision": 0.0,
-      "eval_macro_recall": 0.0,
-      "eval_micro_f1": 0.0,
-      "eval_micro_precision": 0.0,
-      "eval_micro_recall": 0.0,
-      "eval_runtime": 0.202,
-      "eval_samples_per_second": 198.018,
-      "eval_steps_per_second": 24.752,
       "step": 200
     },
     {
       "epoch": 10.0,
       "step": 200,
-      "train/classification_loss": 0.34425634145736694,
-      "train/contrastive_loss": 1.217971682548523,
-      "train/negative_loss": 0.8478565216064453,
       "train/num_negatives": 42,
       "train/num_positives": 14,
-      "train/positive_loss": 0.37011516094207764,
-      "train/total_loss": 0.5878506898880005
     },
     {
       "epoch": 10.0,
       "step": 200,
-      "train/classification_loss": 0.3122542202472687,
-      "train/contrastive_loss": 0.6875693798065186,
-      "train/negative_loss": 0.686568558216095,
       "train/num_negatives": 42,
       "train/num_positives": 14,
-      "train/positive_loss": 0.0010008324170485139,
-      "train/total_loss": 0.4497680962085724
     },
     {
       "epoch": 12.5,
-      "grad_norm": 7.754025459289551,
-      "learning_rate": 1.6711111111111112e-05,
-      "loss": 1.0042,
       "step": 250
     },
     {
       "epoch": 12.5,
       "step": 250,
-      "train/classification_loss": 0.24464763700962067,
-      "train/contrastive_loss": 0.6364108920097351,
-      "train/negative_loss": 0.4732590615749359,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.163151815533638,
-      "train/total_loss": 0.3719298243522644
     },
     {
       "epoch": 12.5,
       "step": 250,
-      "train/classification_loss": 0.3077278137207031,
-      "train/contrastive_loss": 0.4854884147644043,
-      "train/negative_loss": 0.33287519216537476,
       "train/num_negatives": 42,
       "train/num_positives": 8,
-      "train/positive_loss": 0.15261322259902954,
-      "train/total_loss": 0.40482550859451294
     },
     {
       "epoch": 15.0,
-      "grad_norm": 16.385419845581055,
-      "learning_rate": 1.5600000000000003e-05,
-      "loss": 0.8775,
       "step": 300
     },
     {
       "epoch": 15.0,
       "step": 300,
-      "train/classification_loss": 0.23176752030849457,
-      "train/contrastive_loss": 3.0300073623657227,
-      "train/negative_loss": 2.5657095909118652,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.4642978310585022,
-      "train/total_loss": 0.8377690315246582
     },
     {
       "epoch": 15.0,
       "step": 300,
-      "train/classification_loss": 0.3002067804336548,
-      "train/contrastive_loss": 3.911193609237671,
-      "train/negative_loss": 3.911159038543701,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 3.4572090953588486e-05,
-      "train/total_loss": 1.082445502281189
     },
     {
       "epoch": 15.0,
       "step": 300,
-      "train/classification_loss": 0.2759508788585663,
-      "train/contrastive_loss": 2.758004665374756,
-      "train/negative_loss": 2.7472095489501953,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 0.010795066133141518,
-      "train/total_loss": 0.8275518417358398
     },
     {
       "epoch": 15.0,
       "step": 300,
-      "train/classification_loss": 0.27436333894729614,
-      "train/contrastive_loss": 4.6799540519714355,
-      "train/negative_loss": 4.251977920532227,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.4279760420322418,
-      "train/total_loss": 1.2103540897369385
     },
     {
       "epoch": 15.0,
       "step": 300,
-      "train/classification_loss": 0.2907729744911194,
-      "train/contrastive_loss": 2.066659927368164,
-      "train/negative_loss": 1.4751646518707275,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.5914952754974365,
-      "train/total_loss": 0.7041049599647522
     },
     {
       "epoch": 15.0,
       "eval_exact_match_accuracy": 0.05,
-      "eval_hamming_loss": 0.07647058823529412,
-      "eval_loss": 0.9324451684951782,
-      "eval_macro_f1": 0.03676470588235294,
-      "eval_macro_precision": 0.058823529411764705,
       "eval_macro_recall": 0.026737967914438502,
-      "eval_micro_f1": 0.16129032258064516,
-      "eval_micro_precision": 1.0,
       "eval_micro_recall": 0.08771929824561403,
-      "eval_runtime": 0.207,
-      "eval_samples_per_second": 193.242,
-      "eval_steps_per_second": 24.155,
       "step": 300
     },
     {
       "epoch": 15.0,
       "step": 300,
-      "train/classification_loss": 0.26088976860046387,
-      "train/contrastive_loss": 0.5876651406288147,
-      "train/negative_loss": 0.5801823139190674,
       "train/num_negatives": 32,
       "train/num_positives": 20,
-      "train/positive_loss": 0.007482839282602072,
-      "train/total_loss": 0.3784227967262268
     },
     {
       "epoch": 15.0,
       "step": 300,
-      "train/classification_loss": 0.2548993229866028,
-      "train/contrastive_loss": 1.50383722782135,
-      "train/negative_loss": 1.4029262065887451,
       "train/num_negatives": 46,
       "train/num_positives": 10,
-      "train/positive_loss": 0.10091102123260498,
-      "train/total_loss": 0.5556668043136597
     },
     {
       "epoch": 17.5,
-      "grad_norm": 16.8145809173584,
-      "learning_rate": 1.448888888888889e-05,
-      "loss": 0.827,
       "step": 350
     },
     {
       "epoch": 17.5,
       "step": 350,
-      "train/classification_loss": 0.24073848128318787,
-      "train/contrastive_loss": 0.6602705717086792,
-      "train/negative_loss": 0.4261236786842346,
       "train/num_negatives": 42,
       "train/num_positives": 14,
-      "train/positive_loss": 0.23414692282676697,
-      "train/total_loss": 0.3727926015853882
     },
     {
       "epoch": 17.5,
       "step": 350,
-      "train/classification_loss": 0.2786425054073334,
-      "train/contrastive_loss": 0.29787567257881165,
-      "train/negative_loss": 0.2970171868801117,
       "train/num_negatives": 44,
       "train/num_positives": 6,
-      "train/positive_loss": 0.0008584868628531694,
-      "train/total_loss": 0.3382176458835602
     },
     {
       "epoch": 20.0,
-      "grad_norm": 18.7548828125,
-      "learning_rate": 1.3377777777777778e-05,
-      "loss": 0.7747,
       "step": 400
     },
     {
       "epoch": 20.0,
       "step": 400,
-      "train/classification_loss": 0.20234902203083038,
-      "train/contrastive_loss": 1.7551348209381104,
-      "train/negative_loss": 1.1972665786743164,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.557868242263794,
-      "train/total_loss": 0.5533760190010071
     },
     {
       "epoch": 20.0,
       "step": 400,
-      "train/classification_loss": 0.27940884232521057,
-      "train/contrastive_loss": 3.1547234058380127,
-      "train/negative_loss": 3.1508476734161377,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.0038756858557462692,
-      "train/total_loss": 0.9103535413742065
     },
     {
       "epoch": 20.0,
       "step": 400,
-      "train/classification_loss": 0.2563062608242035,
-      "train/contrastive_loss": 3.433103084564209,
-      "train/negative_loss": 3.146430253982544,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 0.2866727411746979,
-      "train/total_loss": 0.9429268836975098
     },
     {
       "epoch": 20.0,
       "step": 400,
-      "train/classification_loss": 0.24611052870750427,
-      "train/contrastive_loss": 3.2940289974212646,
-      "train/negative_loss": 2.822859525680542,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.47116944193840027,
-      "train/total_loss": 0.9049162864685059
     },
     {
       "epoch": 20.0,
       "step": 400,
-      "train/classification_loss": 0.26658472418785095,
-      "train/contrastive_loss": 0.9518164992332458,
-      "train/negative_loss": 0.90028977394104,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.051526736468076706,
-      "train/total_loss": 0.45694804191589355
     },
     {
       "epoch": 20.0,
       "eval_exact_match_accuracy": 0.1,
       "eval_hamming_loss": 0.075,
-      "eval_loss": 0.7537041902542114,
-      "eval_macro_f1": 0.0784313725490196,
-      "eval_macro_precision": 0.1092436974789916,
-      "eval_macro_recall": 0.06149732620320855,
-      "eval_micro_f1": 0.2153846153846154,
-      "eval_micro_precision": 0.875,
-      "eval_micro_recall": 0.12280701754385964,
-      "eval_runtime": 0.2075,
-      "eval_samples_per_second": 192.749,
-      "eval_steps_per_second": 24.094,
       "step": 400
     },
     {
       "epoch": 20.0,
       "step": 400,
-      "train/classification_loss": 0.24341967701911926,
-      "train/contrastive_loss": 0.7751690149307251,
-      "train/negative_loss": 0.517412543296814,
       "train/num_negatives": 42,
       "train/num_positives": 10,
-      "train/positive_loss": 0.25775647163391113,
-      "train/total_loss": 0.3984534740447998
     },
     {
       "epoch": 20.0,
       "step": 400,
-      "train/classification_loss": 0.2490834891796112,
-      "train/contrastive_loss": 0.44699349999427795,
-      "train/negative_loss": 0.4466739594936371,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 0.0003195433528162539,
-      "train/total_loss": 0.33848220109939575
     },
     {
       "epoch": 22.5,
-      "grad_norm": 3.832901954650879,
-      "learning_rate": 1.2266666666666667e-05,
-      "loss": 0.6929,
       "step": 450
     },
     {
       "epoch": 22.5,
       "step": 450,
-      "train/classification_loss": 0.23125219345092773,
-      "train/contrastive_loss": 0.7171761393547058,
-      "train/negative_loss": 0.7147800922393799,
       "train/num_negatives": 50,
       "train/num_positives": 4,
-      "train/positive_loss": 0.0023960734251886606,
-      "train/total_loss": 0.37468743324279785
     },
     {
       "epoch": 22.5,
       "step": 450,
-      "train/classification_loss": 0.20611771941184998,
-      "train/contrastive_loss": 0.7421404123306274,
-      "train/negative_loss": 0.4822021722793579,
       "train/num_negatives": 50,
       "train/num_positives": 6,
-      "train/positive_loss": 0.2599382698535919,
-      "train/total_loss": 0.35454580187797546
     },
     {
       "epoch": 25.0,
-      "grad_norm": 11.741353988647461,
-      "learning_rate": 1.1155555555555556e-05,
-      "loss": 0.7074,
       "step": 500
     },
     {
       "epoch": 25.0,
       "step": 500,
-      "train/classification_loss": 0.1859707236289978,
-      "train/contrastive_loss": 2.448401689529419,
-      "train/negative_loss": 1.6338316202163696,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.8145700693130493,
-      "train/total_loss": 0.6756510734558105
     },
     {
       "epoch": 25.0,
       "step": 500,
-      "train/classification_loss": 0.2645534574985504,
-      "train/contrastive_loss": 2.718876838684082,
-      "train/negative_loss": 2.718696355819702,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.00018060117145068944,
-      "train/total_loss": 0.8083288669586182
     },
     {
       "epoch": 25.0,
       "step": 500,
-      "train/classification_loss": 0.244839608669281,
-      "train/contrastive_loss": 4.527173042297363,
-      "train/negative_loss": 2.9302120208740234,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 1.5969611406326294,
-      "train/total_loss": 1.1502742767333984
     },
     {
       "epoch": 25.0,
       "step": 500,
-      "train/classification_loss": 0.22313973307609558,
-      "train/contrastive_loss": 3.153029203414917,
-      "train/negative_loss": 2.193068504333496,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.9599607586860657,
-      "train/total_loss": 0.8537455797195435
     },
     {
       "epoch": 25.0,
       "step": 500,
-      "train/classification_loss": 0.25405386090278625,
-      "train/contrastive_loss": 1.7682042121887207,
-      "train/negative_loss": 0.7665292620658875,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 1.001675009727478,
-      "train/total_loss": 0.6076947450637817
     },
     {
       "epoch": 25.0,
       "eval_exact_match_accuracy": 0.175,
-      "eval_hamming_loss": 0.07205882352941176,
-      "eval_loss": 0.8191388845443726,
-      "eval_macro_f1": 0.10560224089635854,
-      "eval_macro_precision": 0.14869281045751634,
-      "eval_macro_recall": 0.08449197860962566,
-      "eval_micro_f1": 0.30985915492957744,
-      "eval_micro_precision": 0.7857142857142857,
-      "eval_micro_recall": 0.19298245614035087,
-      "eval_runtime": 0.2062,
-      "eval_samples_per_second": 193.983,
-      "eval_steps_per_second": 24.248,
       "step": 500
     },
     {
       "epoch": 25.0,
       "step": 500,
-      "train/classification_loss": 0.16842614114284515,
-      "train/contrastive_loss": 0.2924913763999939,
-      "train/negative_loss": 0.28081196546554565,
       "train/num_negatives": 42,
       "train/num_positives": 14,
-      "train/positive_loss": 0.011679417453706264,
-      "train/total_loss": 0.22692441940307617
     },
     {
       "epoch": 25.0,
       "step": 500,
-      "train/classification_loss": 0.24865391850471497,
-      "train/contrastive_loss": 1.3489311933517456,
-      "train/negative_loss": 0.7319411635398865,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.6169900298118591,
-      "train/total_loss": 0.5184401273727417
     },
     {
       "epoch": 27.5,
-      "grad_norm": 6.354713439941406,
-      "learning_rate": 1.0044444444444446e-05,
-      "loss": 0.6366,
       "step": 550
     },
     {
       "epoch": 27.5,
       "step": 550,
-      "train/classification_loss": 0.23189660906791687,
-      "train/contrastive_loss": 0.8256056308746338,
-      "train/negative_loss": 0.8255752325057983,
       "train/num_negatives": 54,
       "train/num_positives": 2,
-      "train/positive_loss": 3.039883085875772e-05,
-      "train/total_loss": 0.3970177173614502
     },
     {
       "epoch": 27.5,
       "step": 550,
-      "train/classification_loss": 0.2541985809803009,
-      "train/contrastive_loss": 1.3727329969406128,
-      "train/negative_loss": 1.0316259860992432,
       "train/num_negatives": 40,
       "train/num_positives": 12,
-      "train/positive_loss": 0.34110698103904724,
-      "train/total_loss": 0.528745174407959
     },
     {
       "epoch": 30.0,
-      "grad_norm": 12.662666320800781,
-      "learning_rate": 8.933333333333333e-06,
-      "loss": 0.6281,
       "step": 600
     },
     {
       "epoch": 30.0,
       "step": 600,
-      "train/classification_loss": 0.17969225347042084,
-      "train/contrastive_loss": 2.1998844146728516,
-      "train/negative_loss": 1.262956976890564,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.9369274973869324,
-      "train/total_loss": 0.6196691393852234
     },
     {
       "epoch": 30.0,
       "step": 600,
-      "train/classification_loss": 0.2561105787754059,
-      "train/contrastive_loss": 3.2061843872070312,
-      "train/negative_loss": 3.2013988494873047,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.00478551909327507,
-      "train/total_loss": 0.8973474502563477
     },
     {
       "epoch": 30.0,
       "step": 600,
-      "train/classification_loss": 0.24141749739646912,
-      "train/contrastive_loss": 4.734986305236816,
-      "train/negative_loss": 3.0736501216888428,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 1.6613364219665527,
-      "train/total_loss": 1.1884148120880127
     },
     {
       "epoch": 30.0,
       "step": 600,
-      "train/classification_loss": 0.22462235391139984,
-      "train/contrastive_loss": 4.2080254554748535,
-      "train/negative_loss": 3.6183528900146484,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.5896727442741394,
-      "train/total_loss": 1.0662274360656738
     },
     {
       "epoch": 30.0,
       "step": 600,
-      "train/classification_loss": 0.24234618246555328,
-      "train/contrastive_loss": 1.1968506574630737,
-      "train/negative_loss": 0.8532204031944275,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.34363028407096863,
-      "train/total_loss": 0.4817163348197937
     },
     {
       "epoch": 30.0,
-      "eval_exact_match_accuracy": 0.275,
-      "eval_hamming_loss": 0.06470588235294118,
-      "eval_loss": 0.8506749868392944,
-      "eval_macro_f1": 0.12978524743230624,
-      "eval_macro_precision": 0.15735294117647058,
-      "eval_macro_recall": 0.11336898395721925,
-      "eval_micro_f1": 0.42105263157894735,
-      "eval_micro_precision": 0.8421052631578947,
-      "eval_micro_recall": 0.2807017543859649,
-      "eval_runtime": 0.2062,
-      "eval_samples_per_second": 193.977,
-      "eval_steps_per_second": 24.247,
       "step": 600
     },
     {
       "epoch": 30.0,
       "step": 600,
-      "train/classification_loss": 0.16461151838302612,
-      "train/contrastive_loss": 0.5128712058067322,
-      "train/negative_loss": 0.23724108934402466,
       "train/num_negatives": 38,
       "train/num_positives": 18,
-      "train/positive_loss": 0.2756301164627075,
-      "train/total_loss": 0.2671857476234436
     },
     {
       "epoch": 30.0,
       "step": 600,
-      "train/classification_loss": 0.2038976103067398,
-      "train/contrastive_loss": 1.0636850595474243,
-      "train/negative_loss": 0.5897871255874634,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.47389790415763855,
-      "train/total_loss": 0.41663461923599243
     },
     {
       "epoch": 32.5,
-      "grad_norm": 11.408817291259766,
-      "learning_rate": 7.822222222222224e-06,
-      "loss": 0.5854,
       "step": 650
     },
     {
       "epoch": 32.5,
       "step": 650,
-      "train/classification_loss": 0.1786508709192276,
-      "train/contrastive_loss": 0.5145746469497681,
-      "train/negative_loss": 0.14455223083496094,
       "train/num_negatives": 36,
       "train/num_positives": 18,
-      "train/positive_loss": 0.3700224459171295,
-      "train/total_loss": 0.28156578540802
     },
     {
       "epoch": 32.5,
       "step": 650,
-      "train/classification_loss": 0.2088967263698578,
-      "train/contrastive_loss": 1.686006784439087,
-      "train/negative_loss": 1.5359704494476318,
       "train/num_negatives": 50,
       "train/num_positives": 6,
-      "train/positive_loss": 0.1500363051891327,
-      "train/total_loss": 0.5460981130599976
     },
     {
       "epoch": 35.0,
-      "grad_norm": 5.847558975219727,
-      "learning_rate": 6.711111111111111e-06,
-      "loss": 0.5506,
       "step": 700
     },
     {
       "epoch": 35.0,
       "step": 700,
-      "train/classification_loss": 0.17107558250427246,
-      "train/contrastive_loss": 2.287914276123047,
-      "train/negative_loss": 1.0503000020980835,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 1.237614393234253,
-      "train/total_loss": 0.6286584138870239
     },
     {
       "epoch": 35.0,
       "step": 700,
-      "train/classification_loss": 0.2500559389591217,
-      "train/contrastive_loss": 2.9361915588378906,
-      "train/negative_loss": 2.824162721633911,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.1120288297533989,
-      "train/total_loss": 0.8372942209243774
     },
     {
       "epoch": 35.0,
       "step": 700,
-      "train/classification_loss": 0.23473431169986725,
-      "train/contrastive_loss": 4.627296447753906,
-      "train/negative_loss": 3.135880708694458,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 1.4914155006408691,
-      "train/total_loss": 1.160193681716919
     },
     {
       "epoch": 35.0,
       "step": 700,
-      "train/classification_loss": 0.20871424674987793,
-      "train/contrastive_loss": 2.308566093444824,
-      "train/negative_loss": 1.4599714279174805,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.8485947251319885,
-      "train/total_loss": 0.6704274415969849
     },
     {
       "epoch": 35.0,
       "step": 700,
-      "train/classification_loss": 0.23494853079319,
-      "train/contrastive_loss": 0.9399895071983337,
-      "train/negative_loss": 0.4285624623298645,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.5114270448684692,
-      "train/total_loss": 0.4229464530944824
     },
     {
       "epoch": 35.0,
       "eval_exact_match_accuracy": 0.25,
-      "eval_hamming_loss": 0.0661764705882353,
-      "eval_loss": 0.7439039945602417,
-      "eval_macro_f1": 0.12555610479485912,
-      "eval_macro_precision": 0.15630252100840336,
-      "eval_macro_recall": 0.10748663101604278,
-      "eval_micro_f1": 0.4,
-      "eval_micro_precision": 0.8333333333333334,
-      "eval_micro_recall": 0.2631578947368421,
-      "eval_runtime": 0.2043,
-      "eval_samples_per_second": 195.76,
-      "eval_steps_per_second": 24.47,
       "step": 700
     },
     {
       "epoch": 35.0,
       "step": 700,
-      "train/classification_loss": 0.18580235540866852,
-      "train/contrastive_loss": 0.5447431802749634,
-      "train/negative_loss": 0.26964136958122253,
       "train/num_negatives": 40,
       "train/num_positives": 16,
-      "train/positive_loss": 0.27510178089141846,
-      "train/total_loss": 0.29475098848342896
     },
     {
       "epoch": 35.0,
       "step": 700,
-      "train/classification_loss": 0.19202794134616852,
-      "train/contrastive_loss": 1.1511749029159546,
-      "train/negative_loss": 0.8905836343765259,
       "train/num_negatives": 40,
       "train/num_positives": 16,
-      "train/positive_loss": 0.2605912685394287,
-      "train/total_loss": 0.42226290702819824
     },
     {
       "epoch": 37.5,
-      "grad_norm": 5.041801452636719,
-      "learning_rate": 5.600000000000001e-06,
-      "loss": 0.5486,
       "step": 750
     },
     {
       "epoch": 37.5,
       "step": 750,
-      "train/classification_loss": 0.18688128888607025,
-      "train/contrastive_loss": 0.7704952955245972,
-      "train/negative_loss": 0.7704557180404663,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 3.9578346331836656e-05,
-      "train/total_loss": 0.3409803509712219
     },
     {
       "epoch": 37.5,
       "step": 750,
-      "train/classification_loss": 0.19349302351474762,
-      "train/contrastive_loss": 0.4310402274131775,
-      "train/negative_loss": 0.4191313683986664,
       "train/num_negatives": 46,
       "train/num_positives": 10,
-      "train/positive_loss": 0.011908866465091705,
-      "train/total_loss": 0.2797010540962219
     },
     {
       "epoch": 40.0,
-      "grad_norm": 8.75462532043457,
-      "learning_rate": 4.488888888888889e-06,
-      "loss": 0.5091,
       "step": 800
     },
     {
       "epoch": 40.0,
       "step": 800,
-      "train/classification_loss": 0.1726197898387909,
-      "train/contrastive_loss": 1.8750531673431396,
-      "train/negative_loss": 0.9292571544647217,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.9457959532737732,
-      "train/total_loss": 0.5476304292678833
     },
     {
       "epoch": 40.0,
       "step": 800,
-      "train/classification_loss": 0.24574041366577148,
-      "train/contrastive_loss": 3.074068784713745,
-      "train/negative_loss": 3.055785894393921,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.018282821401953697,
-      "train/total_loss": 0.8605541586875916
     },
     {
       "epoch": 40.0,
       "step": 800,
-      "train/classification_loss": 0.2323407232761383,
-      "train/contrastive_loss": 4.7350592613220215,
-      "train/negative_loss": 2.995204210281372,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 1.739855170249939,
-      "train/total_loss": 1.1793526411056519
     },
     {
       "epoch": 40.0,
       "step": 800,
-      "train/classification_loss": 0.20833879709243774,
-      "train/contrastive_loss": 3.4109816551208496,
-      "train/negative_loss": 2.4856531620025635,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.9253284931182861,
-      "train/total_loss": 0.8905351161956787
     },
     {
       "epoch": 40.0,
       "step": 800,
-      "train/classification_loss": 0.23090128600597382,
-      "train/contrastive_loss": 1.3861477375030518,
-      "train/negative_loss": 0.5846720933914185,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 0.8014755845069885,
-      "train/total_loss": 0.5081308484077454
     },
     {
       "epoch": 40.0,
-      "eval_exact_match_accuracy": 0.275,
       "eval_hamming_loss": 0.06470588235294118,
-      "eval_loss": 0.7972406148910522,
-      "eval_macro_f1": 0.12978524743230624,
-      "eval_macro_precision": 0.15735294117647058,
-      "eval_macro_recall": 0.11336898395721925,
       "eval_micro_f1": 0.42105263157894735,
       "eval_micro_precision": 0.8421052631578947,
       "eval_micro_recall": 0.2807017543859649,
-      "eval_runtime": 0.2048,
-      "eval_samples_per_second": 195.328,
-      "eval_steps_per_second": 24.416,
       "step": 800
     },
     {
       "epoch": 40.0,
       "step": 800,
-      "train/classification_loss": 0.16540196537971497,
-      "train/contrastive_loss": 0.28263404965400696,
-      "train/negative_loss": 0.28260505199432373,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 2.9008200726821087e-05,
-      "train/total_loss": 0.22192877531051636
     },
     {
       "epoch": 40.0,
       "step": 800,
-      "train/classification_loss": 0.12730641663074493,
-      "train/contrastive_loss": 0.2957398295402527,
-      "train/negative_loss": 0.29565563797950745,
       "train/num_negatives": 30,
       "train/num_positives": 26,
-      "train/positive_loss": 8.41914297780022e-05,
-      "train/total_loss": 0.1864543855190277
     },
     {
       "epoch": 42.5,
-      "grad_norm": 6.981760501861572,
-      "learning_rate": 3.377777777777778e-06,
-      "loss": 0.4948,
       "step": 850
     },
     {
       "epoch": 42.5,
       "step": 850,
-      "train/classification_loss": 0.14926917850971222,
-      "train/contrastive_loss": 0.2675209641456604,
-      "train/negative_loss": 0.22713389992713928,
       "train/num_negatives": 40,
       "train/num_positives": 16,
-      "train/positive_loss": 0.04038705304265022,
-      "train/total_loss": 0.20277337729930878
     },
     {
       "epoch": 42.5,
       "step": 850,
-      "train/classification_loss": 0.17404112219810486,
-      "train/contrastive_loss": 0.08631884306669235,
-      "train/negative_loss": 0.08508215099573135,
       "train/num_negatives": 40,
       "train/num_positives": 16,
-      "train/positive_loss": 0.0012366925366222858,
-      "train/total_loss": 0.19130489230155945
     },
     {
       "epoch": 45.0,
-      "grad_norm": 3.230358839035034,
-      "learning_rate": 2.266666666666667e-06,
-      "loss": 0.5038,
       "step": 900
     },
     {
       "epoch": 45.0,
       "step": 900,
-      "train/classification_loss": 0.17026303708553314,
-      "train/contrastive_loss": 2.131587266921997,
-      "train/negative_loss": 0.9242226481437683,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 1.207364559173584,
-      "train/total_loss": 0.5965805053710938
     },
     {
       "epoch": 45.0,
       "step": 900,
-      "train/classification_loss": 0.24070139229297638,
-      "train/contrastive_loss": 3.244175910949707,
-      "train/negative_loss": 3.2388288974761963,
       "train/num_negatives": 44,
       "train/num_positives": 12,
-      "train/positive_loss": 0.005346930585801601,
-      "train/total_loss": 0.8895365595817566
     },
     {
       "epoch": 45.0,
       "step": 900,
-      "train/classification_loss": 0.2271755486726761,
-      "train/contrastive_loss": 4.544618129730225,
-      "train/negative_loss": 2.900235891342163,
       "train/num_negatives": 52,
       "train/num_positives": 4,
-      "train/positive_loss": 1.6443822383880615,
-      "train/total_loss": 1.1360992193222046
     },
     {
       "epoch": 45.0,
       "step": 900,
-      "train/classification_loss": 0.20477482676506042,
-      "train/contrastive_loss": 3.36401104927063,
-      "train/negative_loss": 2.652341365814209,
       "train/num_negatives": 48,
       "train/num_positives": 8,
-      "train/positive_loss": 0.7116697430610657,
-      "train/total_loss": 0.8775770664215088
     },
     {
       "epoch": 45.0,
       "step": 900,
-      "train/classification_loss": 0.22650422155857086,
-      "train/contrastive_loss": 1.7576167583465576,
-      "train/negative_loss": 0.546459436416626,
       "train/num_negatives": 46,
       "train/num_positives": 8,
-      "train/positive_loss": 1.2111573219299316,
-      "train/total_loss": 0.578027606010437
     },
     {
       "epoch": 45.0,
-      "eval_exact_match_accuracy": 0.275,
-      "eval_hamming_loss": 0.06470588235294118,
-      "eval_loss": 0.8155641555786133,
-      "eval_macro_f1": 0.12978524743230624,
-      "eval_macro_precision": 0.15735294117647058,
-      "eval_macro_recall": 0.11336898395721925,
-      "eval_micro_f1": 0.42105263157894735,
-      "eval_micro_precision": 0.8421052631578947,
       "eval_micro_recall": 0.2807017543859649,
-      "eval_runtime": 0.2057,
-      "eval_samples_per_second": 194.486,
-      "eval_steps_per_second": 24.311,
       "step": 900
     },
     {
       "epoch": 45.0,
       "step": 900,
       "total_flos": 0.0,
-      "train_loss": 0.9705644819471572,
-      "train_runtime": 232.6541,
-      "train_samples_per_second": 67.912,
-      "train_steps_per_second": 4.298
     }
   ],
   "logging_steps": 50,
-  "max_steps": 1000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 50,
-  "save_steps": 50000,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {

 {
+  "best_global_step": 700,
   "best_metric": 0.42105263157894735,
   "best_model_checkpoint": null,
+  "epoch": 50.0,
   "eval_steps": 100,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0,
       "step": 0,
+      "train/classification_loss": 0.6896063685417175,
+      "train/contrastive_loss": 9.115899085998535,
+      "train/negative_loss": 9.115803718566895,
       "train/num_negatives": 46,
       "train/num_positives": 10,
+      "train/positive_loss": 9.557702287565917e-05,
+      "train/total_loss": 2.5127861499786377
     },
     {
       "epoch": 0,
       "step": 0,
+      "train/classification_loss": 0.7036023736000061,
+      "train/contrastive_loss": 8.648970603942871,
+      "train/negative_loss": 8.648796081542969,
       "train/num_negatives": 46,
       "train/num_positives": 10,
+      "train/positive_loss": 0.0001749610819388181,
+      "train/total_loss": 2.433396577835083
     },
     {
       "epoch": 2.5,
+      "grad_norm": 18.205059051513672,
+      "learning_rate": 9.4e-06,
+      "loss": 3.6074,
       "step": 50
     },
     {
       "epoch": 2.5,
       "step": 50,
+      "train/classification_loss": 0.6570730805397034,
+      "train/contrastive_loss": 1.7841553688049316,
+      "train/negative_loss": 1.5581305027008057,
       "train/num_negatives": 38,
       "train/num_positives": 18,
+      "train/positive_loss": 0.22602489590644836,
+      "train/total_loss": 1.013904094696045
     },
     {
       "epoch": 2.5,
       "step": 50,
+      "train/classification_loss": 0.6499872207641602,
+      "train/contrastive_loss": 1.9876362085342407,
+      "train/negative_loss": 1.9320745468139648,
       "train/num_negatives": 50,
       "train/num_positives": 6,
+      "train/positive_loss": 0.05556164309382439,
+      "train/total_loss": 1.0475144386291504
     },
     {
       "epoch": 5.0,
+      "grad_norm": 13.659893035888672,
+      "learning_rate": 1.94e-05,
+      "loss": 1.796,
       "step": 100
     },
     {
       "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.49852314591407776,
+      "train/contrastive_loss": 2.1901540756225586,
+      "train/negative_loss": 1.469272494316101,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.7208815813064575,
+      "train/total_loss": 0.936553955078125
     },
     {
       "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.5119871497154236,
+      "train/contrastive_loss": 2.697293996810913,
+      "train/negative_loss": 2.695932388305664,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.0013614993076771498,
+      "train/total_loss": 1.0514459609985352
     },
     {
       "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.49341386556625366,
+      "train/contrastive_loss": 1.4812039136886597,
+      "train/negative_loss": 1.4763706922531128,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 0.004833280108869076,
+      "train/total_loss": 0.7896546125411987
     },
     {
       "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.49600034952163696,
+      "train/contrastive_loss": 3.470733165740967,
+      "train/negative_loss": 2.635651111602783,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.835081934928894,
+      "train/total_loss": 1.1901469230651855
     },
     {
       "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.49302685260772705,
+      "train/contrastive_loss": 1.5160608291625977,
+      "train/negative_loss": 1.3313394784927368,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.18472139537334442,
+      "train/total_loss": 0.7962390184402466
     },
     {
       "epoch": 5.0,
       "eval_exact_match_accuracy": 0.0,
+      "eval_hamming_loss": 0.08235294117647059,
+      "eval_loss": 0.9528080821037292,
+      "eval_macro_f1": 0.00980392156862745,
+      "eval_macro_precision": 0.058823529411764705,
+      "eval_macro_recall": 0.005347593582887701,
+      "eval_micro_f1": 0.034482758620689655,
+      "eval_micro_precision": 1.0,
+      "eval_micro_recall": 0.017543859649122806,
+      "eval_runtime": 0.2063,
+      "eval_samples_per_second": 193.875,
+      "eval_steps_per_second": 24.234,
       "step": 100
     },
     {
       "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.5103878378868103,
+      "train/contrastive_loss": 1.4061696529388428,
+      "train/negative_loss": 0.860652506351471,
       "train/num_negatives": 42,
       "train/num_positives": 12,
+      "train/positive_loss": 0.5455171465873718,
+      "train/total_loss": 0.7916218042373657
     },
     {
       "epoch": 5.0,
       "step": 100,
+      "train/classification_loss": 0.49409669637680054,
+      "train/contrastive_loss": 0.6720238327980042,
+      "train/negative_loss": 0.5605456233024597,
       "train/num_negatives": 40,
       "train/num_positives": 16,
+      "train/positive_loss": 0.11147819459438324,
+      "train/total_loss": 0.6285014748573303
     },
     {
       "epoch": 7.5,
+      "grad_norm": 14.211859703063965,
+      "learning_rate": 1.9905050505050507e-05,
+      "loss": 1.3708,
       "step": 150
     },
     {
       "epoch": 7.5,
       "step": 150,
+      "train/classification_loss": 0.40184715390205383,
+      "train/contrastive_loss": 1.165258765220642,
+      "train/negative_loss": 0.698477566242218,
       "train/num_negatives": 44,
       "train/num_positives": 8,
+      "train/positive_loss": 0.4667811989784241,
+      "train/total_loss": 0.6348989009857178
     },
     {
       "epoch": 7.5,
       "step": 150,
+      "train/classification_loss": 0.3879987299442291,
+      "train/contrastive_loss": 0.8239786028862,
+      "train/negative_loss": 0.7370874285697937,
       "train/num_negatives": 44,
       "train/num_positives": 10,
+      "train/positive_loss": 0.08689115941524506,
+      "train/total_loss": 0.5527944564819336
     },
     {
       "epoch": 10.0,
+      "grad_norm": 25.8126277923584,
+      "learning_rate": 1.9804040404040406e-05,
+      "loss": 1.142,
       "step": 200
     },
     {
       "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.2806307375431061,
+      "train/contrastive_loss": 2.156310558319092,
+      "train/negative_loss": 2.146817445755005,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.009493212215602398,
+      "train/total_loss": 0.71189284324646
     },
     {
       "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.3437887132167816,
+      "train/contrastive_loss": 3.3835480213165283,
+      "train/negative_loss": 3.3831517696380615,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.00039613869739696383,
+      "train/total_loss": 1.020498275756836
     },
     {
       "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.31499814987182617,
+      "train/contrastive_loss": 2.7768659591674805,
+      "train/negative_loss": 2.7635276317596436,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 0.013338344171643257,
+      "train/total_loss": 0.8703713417053223
     },
     {
       "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.3134444057941437,
+      "train/contrastive_loss": 3.8373122215270996,
+      "train/negative_loss": 2.7304084300994873,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 1.1069039106369019,
+      "train/total_loss": 1.080906867980957
     },
     {
       "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.3265349864959717,
+      "train/contrastive_loss": 1.5294461250305176,
+      "train/negative_loss": 1.4643787145614624,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.06506740301847458,
+      "train/total_loss": 0.6324242353439331
     },
     {
       "epoch": 10.0,
       "eval_exact_match_accuracy": 0.0,
+      "eval_hamming_loss": 0.08235294117647059,
+      "eval_loss": 0.8632186651229858,
+      "eval_macro_f1": 0.00980392156862745,
+      "eval_macro_precision": 0.058823529411764705,
+      "eval_macro_recall": 0.005347593582887701,
+      "eval_micro_f1": 0.034482758620689655,
+      "eval_micro_precision": 1.0,
+      "eval_micro_recall": 0.017543859649122806,
+      "eval_runtime": 0.2085,
+      "eval_samples_per_second": 191.856,
+      "eval_steps_per_second": 23.982,
       "step": 200
     },
     {
       "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.3289062976837158,
+      "train/contrastive_loss": 1.158113956451416,
+      "train/negative_loss": 0.9101917147636414,
       "train/num_negatives": 42,
       "train/num_positives": 14,
+      "train/positive_loss": 0.24792218208312988,
+      "train/total_loss": 0.5605291128158569
     },
     {
       "epoch": 10.0,
       "step": 200,
+      "train/classification_loss": 0.28807589411735535,
+      "train/contrastive_loss": 1.227806568145752,
+      "train/negative_loss": 1.2268885374069214,
       "train/num_negatives": 42,
       "train/num_positives": 14,
+      "train/positive_loss": 0.0009180314373224974,
+      "train/total_loss": 0.5336372256278992
     },
     {
       "epoch": 12.5,
+      "grad_norm": 7.029545307159424,
+      "learning_rate": 1.9703030303030302e-05,
+      "loss": 1.0178,
       "step": 250
     },
     {
       "epoch": 12.5,
       "step": 250,
+      "train/classification_loss": 0.24251216650009155,
+      "train/contrastive_loss": 1.3313517570495605,
+      "train/negative_loss": 1.1213274002075195,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.21002434194087982,
+      "train/total_loss": 0.5087825059890747
     },
     {
       "epoch": 12.5,
       "step": 250,
+      "train/classification_loss": 0.2935709059238434,
+      "train/contrastive_loss": 0.40547823905944824,
+      "train/negative_loss": 0.3695138692855835,
       "train/num_negatives": 42,
       "train/num_positives": 8,
+      "train/positive_loss": 0.03596435487270355,
+      "train/total_loss": 0.37466657161712646
     },
     {
       "epoch": 15.0,
+      "grad_norm": 10.424208641052246,
+      "learning_rate": 1.9602020202020205e-05,
+      "loss": 0.8805,
       "step": 300
     },
     {
       "epoch": 15.0,
       "step": 300,
+      "train/classification_loss": 0.22187121212482452,
+      "train/contrastive_loss": 2.8647470474243164,
+      "train/negative_loss": 2.7984812259674072,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.0662657767534256,
+      "train/total_loss": 0.7948206067085266
     },
     {
       "epoch": 15.0,
       "step": 300,
+      "train/classification_loss": 0.2955247759819031,
+      "train/contrastive_loss": 4.269000053405762,
+      "train/negative_loss": 4.268981456756592,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 1.871622953331098e-05,
+      "train/total_loss": 1.1493247747421265
     },
     {
       "epoch": 15.0,
       "step": 300,
+      "train/classification_loss": 0.26941171288490295,
+      "train/contrastive_loss": 4.073124885559082,
+      "train/negative_loss": 2.919600486755371,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 1.1535242795944214,
+      "train/total_loss": 1.0840367078781128
     },
     {
       "epoch": 15.0,
       "step": 300,
+      "train/classification_loss": 0.2642236351966858,
+      "train/contrastive_loss": 5.231786727905273,
+      "train/negative_loss": 4.430575370788574,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.8012115359306335,
+      "train/total_loss": 1.3105809688568115
     },
     {
       "epoch": 15.0,
       "step": 300,
+      "train/classification_loss": 0.2807493805885315,
+      "train/contrastive_loss": 1.4644469022750854,
+      "train/negative_loss": 1.4178317785263062,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.04661515727639198,
+      "train/total_loss": 0.5736387968063354
     },
     {
       "epoch": 15.0,
       "eval_exact_match_accuracy": 0.05,
+      "eval_hamming_loss": 0.07794117647058824,
+      "eval_loss": 0.9824804067611694,
+      "eval_macro_f1": 0.03460207612456748,
+      "eval_macro_precision": 0.049019607843137254,
       "eval_macro_recall": 0.026737967914438502,
+      "eval_micro_f1": 0.15873015873015872,
+      "eval_micro_precision": 0.8333333333333334,
       "eval_micro_recall": 0.08771929824561403,
+      "eval_runtime": 0.2153,
+      "eval_samples_per_second": 185.81,
+      "eval_steps_per_second": 23.226,
       "step": 300
     },
     {
       "epoch": 15.0,
       "step": 300,
+      "train/classification_loss": 0.24673022329807281,
+      "train/contrastive_loss": 0.4545953869819641,
+      "train/negative_loss": 0.443155974149704,
       "train/num_negatives": 32,
       "train/num_positives": 20,
+      "train/positive_loss": 0.011439427733421326,
+      "train/total_loss": 0.33764928579330444
     },
     {
       "epoch": 15.0,
       "step": 300,
+      "train/classification_loss": 0.2520601153373718,
+      "train/contrastive_loss": 1.4950696229934692,
+      "train/negative_loss": 1.429970145225525,
       "train/num_negatives": 46,
       "train/num_positives": 10,
+      "train/positive_loss": 0.06509946286678314,
+      "train/total_loss": 0.5510740280151367
     },
     {
       "epoch": 17.5,
+      "grad_norm": 9.645092964172363,
+      "learning_rate": 1.95010101010101e-05,
+      "loss": 0.7785,
       "step": 350
     },
     {
       "epoch": 17.5,
       "step": 350,
+      "train/classification_loss": 0.2225627303123474,
+      "train/contrastive_loss": 0.3660619258880615,
+      "train/negative_loss": 0.36337095499038696,
       "train/num_negatives": 42,
       "train/num_positives": 14,
+      "train/positive_loss": 0.0026909795124083757,
+      "train/total_loss": 0.2957751154899597
     },
     {
       "epoch": 17.5,
       "step": 350,
+      "train/classification_loss": 0.2583811581134796,
+      "train/contrastive_loss": 0.25796303153038025,
+      "train/negative_loss": 0.25655531883239746,
       "train/num_negatives": 44,
       "train/num_positives": 6,
+      "train/positive_loss": 0.0014077159576117992,
+      "train/total_loss": 0.3099737763404846
     },
     {
       "epoch": 20.0,
+      "grad_norm": 5.90708065032959,
+      "learning_rate": 1.94e-05,
+      "loss": 0.7442,
       "step": 400
     },
     {
       "epoch": 20.0,
       "step": 400,
+      "train/classification_loss": 0.1851058006286621,
+      "train/contrastive_loss": 2.0512137413024902,
+      "train/negative_loss": 1.7761945724487305,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.27501922845840454,
+      "train/total_loss": 0.595348596572876
     },
     {
       "epoch": 20.0,
       "step": 400,
+      "train/classification_loss": 0.2684085965156555,
+      "train/contrastive_loss": 3.0632779598236084,
+      "train/negative_loss": 3.05769419670105,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.0055836960673332214,
+      "train/total_loss": 0.8810641765594482
     },
     {
       "epoch": 20.0,
       "step": 400,
+      "train/classification_loss": 0.25380370020866394,
+      "train/contrastive_loss": 4.407430648803711,
+      "train/negative_loss": 3.715952157974243,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 0.6914786100387573,
+      "train/total_loss": 1.1352897882461548
     },
     {
       "epoch": 20.0,
       "step": 400,
+      "train/classification_loss": 0.23351122438907623,
+      "train/contrastive_loss": 2.3350398540496826,
+      "train/negative_loss": 1.7342523336410522,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.6007875800132751,
+      "train/total_loss": 0.7005192041397095
     },
     {
       "epoch": 20.0,
       "step": 400,
+      "train/classification_loss": 0.2567104995250702,
+      "train/contrastive_loss": 1.2914104461669922,
+      "train/negative_loss": 1.1075626611709595,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.18384775519371033,
+      "train/total_loss": 0.5149925947189331
     },
     {
       "epoch": 20.0,
       "eval_exact_match_accuracy": 0.1,
       "eval_hamming_loss": 0.075,
+      "eval_loss": 0.7654428482055664,
+      "eval_macro_f1": 0.0803921568627451,
+      "eval_macro_precision": 0.1045751633986928,
+      "eval_macro_recall": 0.06684491978609625,
+      "eval_micro_f1": 0.23880597014925373,
+      "eval_micro_precision": 0.8,
+      "eval_micro_recall": 0.14035087719298245,
+      "eval_runtime": 0.2071,
+      "eval_samples_per_second": 193.116,
+      "eval_steps_per_second": 24.139,
       "step": 400
     },
     {
       "epoch": 20.0,
       "step": 400,
+      "train/classification_loss": 0.23103763163089752,
+      "train/contrastive_loss": 0.9073829650878906,
+      "train/negative_loss": 0.5319927930831909,
       "train/num_negatives": 42,
       "train/num_positives": 10,
+      "train/positive_loss": 0.3753901422023773,
+      "train/total_loss": 0.41251420974731445
     },
     {
       "epoch": 20.0,
       "step": 400,
+      "train/classification_loss": 0.2296096831560135,
+      "train/contrastive_loss": 0.5736224055290222,
+      "train/negative_loss": 0.573104977607727,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 0.0005174159305170178,
+      "train/total_loss": 0.3443341553211212
     },
     {
       "epoch": 22.5,
+      "grad_norm": 9.208708763122559,
+      "learning_rate": 1.92989898989899e-05,
+      "loss": 0.6661,
       "step": 450
     },
     {
       "epoch": 22.5,
       "step": 450,
+      "train/classification_loss": 0.21061192452907562,
+      "train/contrastive_loss": 1.1704968214035034,
+      "train/negative_loss": 1.170390248298645,
       "train/num_negatives": 50,
       "train/num_positives": 4,
+      "train/positive_loss": 0.00010655130608938634,
+      "train/total_loss": 0.444711297750473
     },
     {
       "epoch": 22.5,
       "step": 450,
+      "train/classification_loss": 0.18421001732349396,
+      "train/contrastive_loss": 1.406832218170166,
+      "train/negative_loss": 0.8008975982666016,
       "train/num_negatives": 50,
       "train/num_positives": 6,
+      "train/positive_loss": 0.6059346795082092,
+      "train/total_loss": 0.4655764698982239
     },
     {
       "epoch": 25.0,
+      "grad_norm": 9.534709930419922,
+      "learning_rate": 1.91979797979798e-05,
+      "loss": 0.6332,
       "step": 500
     },
     {
       "epoch": 25.0,
       "step": 500,
+      "train/classification_loss": 0.17407798767089844,
+      "train/contrastive_loss": 3.3778998851776123,
+      "train/negative_loss": 3.208540678024292,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.16935913264751434,
+      "train/total_loss": 0.8496579527854919
     },
     {
       "epoch": 25.0,
       "step": 500,
+      "train/classification_loss": 0.25022628903388977,
+      "train/contrastive_loss": 2.501643180847168,
+      "train/negative_loss": 2.5011374950408936,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.0005057163070887327,
+      "train/total_loss": 0.7505549192428589
     },
     {
       "epoch": 25.0,
       "step": 500,
+      "train/classification_loss": 0.24351510405540466,
+      "train/contrastive_loss": 5.5227251052856445,
+      "train/negative_loss": 3.6524746417999268,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 1.8702502250671387,
+      "train/total_loss": 1.348060131072998
     },
     {
       "epoch": 25.0,
       "step": 500,
+      "train/classification_loss": 0.20675694942474365,
+      "train/contrastive_loss": 2.3911428451538086,
+      "train/negative_loss": 1.8613694906234741,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.5297732949256897,
+      "train/total_loss": 0.6849855184555054
     },
     {
       "epoch": 25.0,
       "step": 500,
+      "train/classification_loss": 0.24148425459861755,
+      "train/contrastive_loss": 1.3859646320343018,
+      "train/negative_loss": 0.7059023380279541,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.6800622940063477,
+      "train/total_loss": 0.5186771750450134
     },
     {
       "epoch": 25.0,
       "eval_exact_match_accuracy": 0.175,
+      "eval_hamming_loss": 0.07352941176470588,
+      "eval_loss": 0.8303871154785156,
+      "eval_macro_f1": 0.10802139037433156,
+      "eval_macro_precision": 0.14331550802139037,
+      "eval_macro_recall": 0.09037433155080213,
+      "eval_micro_f1": 0.32432432432432434,
+      "eval_micro_precision": 0.7058823529411765,
+      "eval_micro_recall": 0.21052631578947367,
+      "eval_runtime": 0.2078,
+      "eval_samples_per_second": 192.449,
+      "eval_steps_per_second": 24.056,
       "step": 500
     },
     {
       "epoch": 25.0,
       "step": 500,
+      "train/classification_loss": 0.14580048620700836,
+      "train/contrastive_loss": 0.2984220087528229,
+      "train/negative_loss": 0.29449352622032166,
       "train/num_negatives": 42,
       "train/num_positives": 14,
+      "train/positive_loss": 0.003928476478904486,
+      "train/total_loss": 0.20548489689826965
     },
     {
       "epoch": 25.0,
       "step": 500,
+      "train/classification_loss": 0.23653770983219147,
+      "train/contrastive_loss": 0.7606168389320374,
+      "train/negative_loss": 0.737991988658905,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.022624850273132324,
+      "train/total_loss": 0.38866108655929565
     },
     {
       "epoch": 27.5,
+      "grad_norm": 6.362896919250488,
+      "learning_rate": 1.90969696969697e-05,
+      "loss": 0.5843,
       "step": 550
     },
     {
       "epoch": 27.5,
       "step": 550,
+      "train/classification_loss": 0.2056518942117691,
+      "train/contrastive_loss": 0.9691342711448669,
+      "train/negative_loss": 0.9691179394721985,
       "train/num_negatives": 54,
       "train/num_positives": 2,
+      "train/positive_loss": 1.633180545468349e-05,
+      "train/total_loss": 0.3994787335395813
     },
     {
       "epoch": 27.5,
       "step": 550,
+      "train/classification_loss": 0.22270001471042633,
+      "train/contrastive_loss": 1.5889058113098145,
+      "train/negative_loss": 1.251386046409607,
       "train/num_negatives": 40,
       "train/num_positives": 12,
+      "train/positive_loss": 0.3375198245048523,
+      "train/total_loss": 0.5404812097549438
     },
     {
       "epoch": 30.0,
+      "grad_norm": 9.474464416503906,
+      "learning_rate": 1.8995959595959595e-05,
+      "loss": 0.5572,
       "step": 600
     },
     {
       "epoch": 30.0,
       "step": 600,
+      "train/classification_loss": 0.16965512931346893,
+      "train/contrastive_loss": 1.8685212135314941,
+      "train/negative_loss": 1.4877853393554688,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.3807358741760254,
+      "train/total_loss": 0.5433593988418579
     },
     {
       "epoch": 30.0,
       "step": 600,
+      "train/classification_loss": 0.2326871156692505,
+      "train/contrastive_loss": 3.803422451019287,
+      "train/negative_loss": 3.799872875213623,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.003549614455550909,
+      "train/total_loss": 0.9933716058731079
     },
     {
       "epoch": 30.0,
       "step": 600,
+      "train/classification_loss": 0.21336901187896729,
+      "train/contrastive_loss": 2.9807915687561035,
+      "train/negative_loss": 2.322481155395508,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 0.6583104133605957,
+      "train/total_loss": 0.8095273375511169
     },
     {
       "epoch": 30.0,
       "step": 600,
+      "train/classification_loss": 0.21435928344726562,
+      "train/contrastive_loss": 4.913402080535889,
+      "train/negative_loss": 4.489163875579834,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.4242383539676666,
+      "train/total_loss": 1.1970397233963013
     },
     {
       "epoch": 30.0,
       "step": 600,
+      "train/classification_loss": 0.22257567942142487,
+      "train/contrastive_loss": 0.9281859993934631,
+      "train/negative_loss": 0.7518287301063538,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.17635725438594818,
+      "train/total_loss": 0.40821290016174316
     },
     {
       "epoch": 30.0,
+      "eval_exact_match_accuracy": 0.225,
+      "eval_hamming_loss": 0.06764705882352941,
+      "eval_loss": 0.7903022170066833,
+      "eval_macro_f1": 0.11995386389850057,
+      "eval_macro_precision": 0.1596638655462185,
+      "eval_macro_recall": 0.09679144385026739,
+      "eval_micro_f1": 0.3611111111111111,
+      "eval_micro_precision": 0.8666666666666667,
+      "eval_micro_recall": 0.22807017543859648,
+      "eval_runtime": 0.2099,
+      "eval_samples_per_second": 190.603,
+      "eval_steps_per_second": 23.825,
       "step": 600
     },
     {
       "epoch": 30.0,
       "step": 600,
+      "train/classification_loss": 0.14723831415176392,
+      "train/contrastive_loss": 0.6149296760559082,
+      "train/negative_loss": 0.4006352722644806,
       "train/num_negatives": 38,
       "train/num_positives": 18,
+      "train/positive_loss": 0.21429438889026642,
+      "train/total_loss": 0.2702242434024811
     },
     {
       "epoch": 30.0,
       "step": 600,
+      "train/classification_loss": 0.18867409229278564,
+      "train/contrastive_loss": 0.7789785265922546,
+      "train/negative_loss": 0.6380741000175476,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.14090441167354584,
+      "train/total_loss": 0.3444697856903076
     },
     {
       "epoch": 32.5,
+      "grad_norm": 7.496462821960449,
+      "learning_rate": 1.8894949494949498e-05,
+      "loss": 0.5177,
       "step": 650
     },
     {
       "epoch": 32.5,
       "step": 650,
+      "train/classification_loss": 0.1460404396057129,
+      "train/contrastive_loss": 0.8524841070175171,
+      "train/negative_loss": 0.623662531375885,
       "train/num_negatives": 36,
       "train/num_positives": 18,
+      "train/positive_loss": 0.22882159054279327,
+      "train/total_loss": 0.3165372610092163
     },
     {
       "epoch": 32.5,
       "step": 650,
+      "train/classification_loss": 0.18225882947444916,
+      "train/contrastive_loss": 1.4429905414581299,
+      "train/negative_loss": 1.4358431100845337,
       "train/num_negatives": 50,
       "train/num_positives": 6,
+      "train/positive_loss": 0.007147490046918392,
+      "train/total_loss": 0.4708569645881653
     },
     {
       "epoch": 35.0,
+      "grad_norm": 6.565901756286621,
+      "learning_rate": 1.8793939393939394e-05,
+      "loss": 0.4788,
       "step": 700
     },
     {
       "epoch": 35.0,
       "step": 700,
+      "train/classification_loss": 0.16156421601772308,
+      "train/contrastive_loss": 3.9083566665649414,
+      "train/negative_loss": 2.979792594909668,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.9285640716552734,
+      "train/total_loss": 0.9432355761528015
     },
     {
       "epoch": 35.0,
       "step": 700,
+      "train/classification_loss": 0.22515544295310974,
+      "train/contrastive_loss": 3.891486167907715,
+      "train/negative_loss": 3.8570120334625244,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.034474026411771774,
+      "train/total_loss": 1.0034526586532593
     },
     {
       "epoch": 35.0,
       "step": 700,
+      "train/classification_loss": 0.22171786427497864,
+      "train/contrastive_loss": 4.330800533294678,
+      "train/negative_loss": 3.1184730529785156,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 1.2123275995254517,
+      "train/total_loss": 1.0878779888153076
     },
     {
       "epoch": 35.0,
       "step": 700,
+      "train/classification_loss": 0.1916349083185196,
+      "train/contrastive_loss": 2.0170962810516357,
+      "train/negative_loss": 1.338474154472351,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.6786221861839294,
+      "train/total_loss": 0.5950541496276855
     },
     {
       "epoch": 35.0,
       "step": 700,
+      "train/classification_loss": 0.20504897832870483,
+      "train/contrastive_loss": 0.6244919896125793,
+      "train/negative_loss": 0.39054688811302185,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.2339451164007187,
+      "train/total_loss": 0.3299473822116852
     },
     {
       "epoch": 35.0,
       "eval_exact_match_accuracy": 0.25,
+      "eval_hamming_loss": 0.06470588235294118,
+      "eval_loss": 0.7919135689735413,
+      "eval_macro_f1": 0.14236282748393475,
+      "eval_macro_precision": 0.21512605042016808,
+      "eval_macro_recall": 0.11729055258467024,
+      "eval_micro_f1": 0.42105263157894735,
+      "eval_micro_precision": 0.8421052631578947,
+      "eval_micro_recall": 0.2807017543859649,
+      "eval_runtime": 0.2075,
+      "eval_samples_per_second": 192.814,
+      "eval_steps_per_second": 24.102,
       "step": 700
     },
     {
       "epoch": 35.0,
       "step": 700,
+      "train/classification_loss": 0.14606674015522003,
+      "train/contrastive_loss": 0.6812934875488281,
+      "train/negative_loss": 0.45186591148376465,
       "train/num_negatives": 40,
       "train/num_positives": 16,
+      "train/positive_loss": 0.2294275462627411,
+      "train/total_loss": 0.2823254466056824
     },
     {
       "epoch": 35.0,
       "step": 700,
+      "train/classification_loss": 0.1429990828037262,
+      "train/contrastive_loss": 0.5248066782951355,
+      "train/negative_loss": 0.3964087963104248,
       "train/num_negatives": 40,
       "train/num_positives": 16,
+      "train/positive_loss": 0.1283978968858719,
+      "train/total_loss": 0.2479604184627533
     },
     {
       "epoch": 37.5,
+      "grad_norm": 3.286250114440918,
+      "learning_rate": 1.8692929292929294e-05,
+      "loss": 0.4698,
       "step": 750
     },
     {
       "epoch": 37.5,
       "step": 750,
+      "train/classification_loss": 0.15292038023471832,
+      "train/contrastive_loss": 0.8152571320533752,
+      "train/negative_loss": 0.8152315616607666,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 2.557095831434708e-05,
+      "train/total_loss": 0.3159717917442322
     },
     {
       "epoch": 37.5,
       "step": 750,
+      "train/classification_loss": 0.15736867487430573,
+      "train/contrastive_loss": 0.38875800371170044,
+      "train/negative_loss": 0.26881521940231323,
       "train/num_negatives": 46,
       "train/num_positives": 10,
+      "train/positive_loss": 0.11994278430938721,
+      "train/total_loss": 0.2351202666759491
     },
     {
       "epoch": 40.0,
+      "grad_norm": 8.739147186279297,
+      "learning_rate": 1.8591919191919193e-05,
+      "loss": 0.418,
       "step": 800
     },
     {
       "epoch": 40.0,
       "step": 800,
+      "train/classification_loss": 0.16104553639888763,
+      "train/contrastive_loss": 3.0951993465423584,
+      "train/negative_loss": 1.8000407218933105,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 1.2951586246490479,
+      "train/total_loss": 0.7800854444503784
     },
     {
       "epoch": 40.0,
       "step": 800,
+      "train/classification_loss": 0.22088098526000977,
+      "train/contrastive_loss": 3.92935848236084,
+      "train/negative_loss": 3.9107954502105713,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.018563104793429375,
+      "train/total_loss": 1.0067527294158936
     },
     {
       "epoch": 40.0,
       "step": 800,
+      "train/classification_loss": 0.20756281912326813,
+      "train/contrastive_loss": 5.228389739990234,
+      "train/negative_loss": 2.9686391353607178,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 2.2597508430480957,
+      "train/total_loss": 1.2532408237457275
     },
     {
       "epoch": 40.0,
       "step": 800,
+      "train/classification_loss": 0.1891981065273285,
+      "train/contrastive_loss": 1.6292307376861572,
+      "train/negative_loss": 1.227111577987671,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.40211910009384155,
+      "train/total_loss": 0.5150442719459534
     },
     {
       "epoch": 40.0,
       "step": 800,
+      "train/classification_loss": 0.19581612944602966,
+      "train/contrastive_loss": 0.958620548248291,
+      "train/negative_loss": 0.6886929869651794,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.2699275612831116,
+      "train/total_loss": 0.38754022121429443
     },
     {
       "epoch": 40.0,
+      "eval_exact_match_accuracy": 0.2,
       "eval_hamming_loss": 0.06470588235294118,
+      "eval_loss": 0.7885327339172363,
+      "eval_macro_f1": 0.18102240896358546,
+      "eval_macro_precision": 0.3300653594771242,
+      "eval_macro_recall": 0.1354723707664884,
       "eval_micro_f1": 0.42105263157894735,
       "eval_micro_precision": 0.8421052631578947,
       "eval_micro_recall": 0.2807017543859649,
+      "eval_runtime": 0.2094,
+      "eval_samples_per_second": 191.056,
+      "eval_steps_per_second": 23.882,
       "step": 800
     },
     {
       "epoch": 40.0,
       "step": 800,
+      "train/classification_loss": 0.12362033128738403,
+      "train/contrastive_loss": 0.3485001027584076,
+      "train/negative_loss": 0.3484821319580078,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 1.7980994016397744e-05,
+      "train/total_loss": 0.1933203637599945
     },
     {
       "epoch": 40.0,
       "step": 800,
+      "train/classification_loss": 0.09559500962495804,
+      "train/contrastive_loss": 0.22876113653182983,
+      "train/negative_loss": 0.2287520468235016,
       "train/num_negatives": 30,
       "train/num_positives": 26,
+      "train/positive_loss": 9.087464604817796e-06,
+      "train/total_loss": 0.1413472294807434
     },
     {
       "epoch": 42.5,
+      "grad_norm": 3.746946334838867,
+      "learning_rate": 1.8490909090909093e-05,
+      "loss": 0.3927,
       "step": 850
     },
     {
       "epoch": 42.5,
       "step": 850,
+      "train/classification_loss": 0.09173674136400223,
+      "train/contrastive_loss": 0.13494296371936798,
+      "train/negative_loss": 0.13212107121944427,
       "train/num_negatives": 40,
       "train/num_positives": 16,
+      "train/positive_loss": 0.002821887144818902,
+      "train/total_loss": 0.11872533708810806
     },
     {
       "epoch": 42.5,
       "step": 850,
+      "train/classification_loss": 0.12884384393692017,
+      "train/contrastive_loss": 0.07590682804584503,
+      "train/negative_loss": 0.07587877660989761,
       "train/num_negatives": 40,
       "train/num_positives": 16,
+      "train/positive_loss": 2.8053931600879878e-05,
+      "train/total_loss": 0.14402520656585693
     },
     {
       "epoch": 45.0,
+      "grad_norm": 2.8717594146728516,
+      "learning_rate": 1.8389898989898992e-05,
+      "loss": 0.3975,
       "step": 900
     },
     {
       "epoch": 45.0,
       "step": 900,
+      "train/classification_loss": 0.16052784025669098,
+      "train/contrastive_loss": 4.337796688079834,
+      "train/negative_loss": 3.431094169616699,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.9067023992538452,
+      "train/total_loss": 1.0280872583389282
     },
     {
       "epoch": 45.0,
       "step": 900,
+      "train/classification_loss": 0.2030077874660492,
+      "train/contrastive_loss": 3.2337257862091064,
+      "train/negative_loss": 3.2324299812316895,
       "train/num_negatives": 44,
       "train/num_positives": 12,
+      "train/positive_loss": 0.001295788330025971,
+      "train/total_loss": 0.8497529029846191
     },
     {
       "epoch": 45.0,
       "step": 900,
+      "train/classification_loss": 0.2113606035709381,
+      "train/contrastive_loss": 4.936408996582031,
+      "train/negative_loss": 3.0232598781585693,
       "train/num_negatives": 52,
       "train/num_positives": 4,
+      "train/positive_loss": 1.913149356842041,
+      "train/total_loss": 1.198642373085022
     },
     {
       "epoch": 45.0,
       "step": 900,
+      "train/classification_loss": 0.17921508848667145,
+      "train/contrastive_loss": 2.6765177249908447,
+      "train/negative_loss": 1.9601576328277588,
       "train/num_negatives": 48,
       "train/num_positives": 8,
+      "train/positive_loss": 0.7163600921630859,
+      "train/total_loss": 0.7145186066627502
     },
     {
       "epoch": 45.0,
       "step": 900,
+      "train/classification_loss": 0.18929758667945862,
+      "train/contrastive_loss": 0.7077760696411133,
+      "train/negative_loss": 0.6388620138168335,
       "train/num_negatives": 46,
       "train/num_positives": 8,
+      "train/positive_loss": 0.06891404092311859,
+      "train/total_loss": 0.33085280656814575
     },
     {
       "epoch": 45.0,
+      "eval_exact_match_accuracy": 0.225,
+      "eval_hamming_loss": 0.06911764705882353,
+      "eval_loss": 0.8243707418441772,
+      "eval_macro_f1": 0.15536244800950683,
+      "eval_macro_precision": 0.2290552584670232,
+      "eval_macro_recall": 0.12611408199643495,
+      "eval_micro_f1": 0.4050632911392405,
+      "eval_micro_precision": 0.7272727272727273,
       "eval_micro_recall": 0.2807017543859649,
+      "eval_runtime": 0.2089,
+      "eval_samples_per_second": 191.499,
+      "eval_steps_per_second": 23.937,
       "step": 900
     },
     {
       "epoch": 45.0,
       "step": 900,
+      "train/classification_loss": 0.11641532182693481,
+      "train/contrastive_loss": 1.0102875232696533,
+      "train/negative_loss": 1.0102651119232178,
+      "train/num_negatives": 54,
+      "train/num_positives": 2,
+      "train/positive_loss": 2.2411597456084564e-05,
+      "train/total_loss": 0.31847283244132996
+    },
+    {
+      "epoch": 45.0,
+      "step": 900,
+      "train/classification_loss": 0.11128353327512741,
+      "train/contrastive_loss": 0.24437068402767181,
+      "train/negative_loss": 0.24322275817394257,
+      "train/num_negatives": 46,
+      "train/num_positives": 10,
+      "train/positive_loss": 0.0011479274835437536,
+      "train/total_loss": 0.16015766561031342
+    },
+    {
+      "epoch": 47.5,
+      "grad_norm": 2.6908442974090576,
+      "learning_rate": 1.8288888888888888e-05,
+      "loss": 0.353,
+      "step": 950
+    },
+    {
+      "epoch": 47.5,
+      "step": 950,
+      "train/classification_loss": 0.10373832285404205,
+      "train/contrastive_loss": 0.37015679478645325,
+      "train/negative_loss": 0.3693355917930603,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.000821194495074451,
+      "train/total_loss": 0.17776969075202942
+    },
+    {
+      "epoch": 47.5,
+      "step": 950,
+      "train/classification_loss": 0.1416180431842804,
+      "train/contrastive_loss": 0.16073152422904968,
+      "train/negative_loss": 0.15973255038261414,
+      "train/num_negatives": 36,
+      "train/num_positives": 16,
+      "train/positive_loss": 0.0009989773388952017,
+      "train/total_loss": 0.17376434803009033
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 5.927994251251221,
+      "learning_rate": 1.818787878787879e-05,
+      "loss": 0.3431,
+      "step": 1000
+    },
+    {
+      "epoch": 50.0,
+      "step": 1000,
+      "train/classification_loss": 0.16533198952674866,
+      "train/contrastive_loss": 3.354642868041992,
+      "train/negative_loss": 2.9447507858276367,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.409892201423645,
+      "train/total_loss": 0.8362605571746826
+    },
+    {
+      "epoch": 50.0,
+      "step": 1000,
+      "train/classification_loss": 0.1996230185031891,
+      "train/contrastive_loss": 2.7300727367401123,
+      "train/negative_loss": 2.6814076900482178,
+      "train/num_negatives": 44,
+      "train/num_positives": 12,
+      "train/positive_loss": 0.04866510629653931,
+      "train/total_loss": 0.7456375360488892
+    },
+    {
+      "epoch": 50.0,
+      "step": 1000,
+      "train/classification_loss": 0.22982969880104065,
+      "train/contrastive_loss": 5.4518961906433105,
+      "train/negative_loss": 3.708037853240967,
+      "train/num_negatives": 52,
+      "train/num_positives": 4,
+      "train/positive_loss": 1.7438582181930542,
+      "train/total_loss": 1.3202089071273804
+    },
+    {
+      "epoch": 50.0,
+      "step": 1000,
+      "train/classification_loss": 0.19913451373577118,
+      "train/contrastive_loss": 2.374002456665039,
+      "train/negative_loss": 1.768825888633728,
+      "train/num_negatives": 48,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.6051765084266663,
+      "train/total_loss": 0.6739349961280823
+    },
+    {
+      "epoch": 50.0,
+      "step": 1000,
+      "train/classification_loss": 0.1891087144613266,
+      "train/contrastive_loss": 1.0433825254440308,
+      "train/negative_loss": 0.5633068680763245,
+      "train/num_negatives": 46,
+      "train/num_positives": 8,
+      "train/positive_loss": 0.4800756871700287,
+      "train/total_loss": 0.3977852165699005
+    },
+    {
+      "epoch": 50.0,
+      "eval_exact_match_accuracy": 0.225,
+      "eval_hamming_loss": 0.06911764705882353,
+      "eval_loss": 0.7947654128074646,
+      "eval_macro_f1": 0.1929738562091503,
+      "eval_macro_precision": 0.2908496732026144,
+      "eval_macro_recall": 0.15017825311942956,
+      "eval_micro_f1": 0.41975308641975306,
+      "eval_micro_precision": 0.7083333333333334,
+      "eval_micro_recall": 0.2982456140350877,
+      "eval_runtime": 0.2051,
+      "eval_samples_per_second": 194.982,
+      "eval_steps_per_second": 24.373,
+      "step": 1000
+    },
+    {
+      "epoch": 50.0,
+      "step": 1000,
       "total_flos": 0.0,
+      "train_loss": 0.8574352493286133,
+      "train_runtime": 257.7927,
+      "train_samples_per_second": 612.896,
+      "train_steps_per_second": 38.791
     }
   ],
   "logging_steps": 50,
+  "max_steps": 10000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 500,
+  "save_steps": 10000,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {