YagiASAFAS commited on Apr 5, 2025

Commit

0d87982

verified ·

1 Parent(s): 4a47ae8

Training in progress, epoch 1

Browse files

Files changed (34) hide show

model.safetensors +1 -1
run-2/checkpoint-7200/config.json +125 -0
run-2/checkpoint-7200/model.safetensors +3 -0
run-2/checkpoint-7200/optimizer.pt +3 -0
run-2/checkpoint-7200/rng_state.pth +3 -0
run-2/checkpoint-7200/scaler.pt +3 -0
run-2/checkpoint-7200/scheduler.pt +3 -0
run-2/checkpoint-7200/trainer_state.json +755 -0
run-2/checkpoint-7200/training_args.bin +3 -0
run-2/checkpoint-8400/config.json +125 -0
run-2/checkpoint-8400/model.safetensors +3 -0
run-2/checkpoint-8400/optimizer.pt +3 -0
run-2/checkpoint-8400/rng_state.pth +3 -0
run-2/checkpoint-8400/scaler.pt +3 -0
run-2/checkpoint-8400/scheduler.pt +3 -0
run-2/checkpoint-8400/trainer_state.json +873 -0
run-2/checkpoint-8400/training_args.bin +3 -0
run-2/checkpoint-9600/config.json +125 -0
run-2/checkpoint-9600/model.safetensors +3 -0
run-2/checkpoint-9600/optimizer.pt +3 -0
run-2/checkpoint-9600/rng_state.pth +3 -0
run-2/checkpoint-9600/scaler.pt +3 -0
run-2/checkpoint-9600/scheduler.pt +3 -0
run-2/checkpoint-9600/trainer_state.json +991 -0
run-2/checkpoint-9600/training_args.bin +3 -0
run-3/checkpoint-2399/config.json +125 -0
run-3/checkpoint-2399/model.safetensors +3 -0
run-3/checkpoint-2399/optimizer.pt +3 -0
run-3/checkpoint-2399/rng_state.pth +3 -0
run-3/checkpoint-2399/scaler.pt +3 -0
run-3/checkpoint-2399/scheduler.pt +3 -0
run-3/checkpoint-2399/trainer_state.json +242 -0
run-3/checkpoint-2399/training_args.bin +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2aae3703a8dbd59e3bbe54c559f9ac85e6856a022e5aaa47f0bd29e64d1a6e97
 size 438100144

 version https://git-lfs.github.com/spec/v1
+oid sha256:8110a1a418d11311bbe6626de555c200d3eaaa703654697275995e81a68954e3
 size 438100144

run-2/checkpoint-7200/config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20",
+    "21": "LABEL_21",
+    "22": "LABEL_22",
+    "23": "LABEL_23",
+    "24": "LABEL_24",
+    "25": "LABEL_25",
+    "26": "LABEL_26",
+    "27": "LABEL_27",
+    "28": "LABEL_28",
+    "29": "LABEL_29",
+    "30": "LABEL_30",
+    "31": "LABEL_31",
+    "32": "LABEL_32",
+    "33": "LABEL_33",
+    "34": "LABEL_34",
+    "35": "LABEL_35",
+    "36": "LABEL_36",
+    "37": "LABEL_37",
+    "38": "LABEL_38",
+    "39": "LABEL_39",
+    "40": "LABEL_40",
+    "41": "LABEL_41",
+    "42": "LABEL_42",
+    "43": "LABEL_43",
+    "44": "LABEL_44",
+    "45": "LABEL_45",
+    "46": "LABEL_46",
+    "47": "LABEL_47"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_21": 21,
+    "LABEL_22": 22,
+    "LABEL_23": 23,
+    "LABEL_24": 24,
+    "LABEL_25": 25,
+    "LABEL_26": 26,
+    "LABEL_27": 27,
+    "LABEL_28": 28,
+    "LABEL_29": 29,
+    "LABEL_3": 3,
+    "LABEL_30": 30,
+    "LABEL_31": 31,
+    "LABEL_32": 32,
+    "LABEL_33": 33,
+    "LABEL_34": 34,
+    "LABEL_35": 35,
+    "LABEL_36": 36,
+    "LABEL_37": 37,
+    "LABEL_38": 38,
+    "LABEL_39": 39,
+    "LABEL_4": 4,
+    "LABEL_40": 40,
+    "LABEL_41": 41,
+    "LABEL_42": 42,
+    "LABEL_43": 43,
+    "LABEL_44": 44,
+    "LABEL_45": 45,
+    "LABEL_46": 46,
+    "LABEL_47": 47,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-7200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7482134bf65c2abc5bbbb1174696a6279641edcbb0c630dae3fd0fb6f99b979c
+size 438100144

run-2/checkpoint-7200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32ab8ccb98d850d06703afbb45b1304fc7cdfa17e68297a4b50187a23aa00c5e
+size 876321402

run-2/checkpoint-7200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8950df86f7a6bcf4605ec42c8c63f0262cb16b1bfc5127adb4efa5a0b1b1330d
+size 14244

run-2/checkpoint-7200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f5203015529b85590590219a93c1d55fc66b1e8cacd7d5fb766a58ebcd04aaf
+size 988

run-2/checkpoint-7200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a1fc8293debaa5b2840c3c3a2a982458a4256cc036e148bf064661ba101cea1
+size 1064

run-2/checkpoint-7200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,755 @@

+{
+  "best_global_step": 7200,
+  "best_metric": 0.9362734744251768,
+  "best_model_checkpoint": "./results/run-2/checkpoint-7200",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 7200,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08336807002917883,
+      "grad_norm": 1.2878578901290894,
+      "learning_rate": 1.4e-05,
+      "loss": 1.2644,
+      "step": 100
+    },
+    {
+      "epoch": 0.16673614005835766,
+      "grad_norm": 1.0009047985076904,
+      "learning_rate": 2.8e-05,
+      "loss": 0.4758,
+      "step": 200
+    },
+    {
+      "epoch": 0.25010421008753647,
+      "grad_norm": 0.7635347843170166,
+      "learning_rate": 4.2e-05,
+      "loss": 0.4054,
+      "step": 300
+    },
+    {
+      "epoch": 0.3334722801167153,
+      "grad_norm": 0.8168604373931885,
+      "learning_rate": 5.6e-05,
+      "loss": 0.3468,
+      "step": 400
+    },
+    {
+      "epoch": 0.4168403501458941,
+      "grad_norm": 1.1069319248199463,
+      "learning_rate": 7e-05,
+      "loss": 0.3051,
+      "step": 500
+    },
+    {
+      "epoch": 0.5002084201750729,
+      "grad_norm": 1.015086054801941,
+      "learning_rate": 6.962534789124383e-05,
+      "loss": 0.3044,
+      "step": 600
+    },
+    {
+      "epoch": 0.5835764902042517,
+      "grad_norm": 0.8430781364440918,
+      "learning_rate": 6.925069578248769e-05,
+      "loss": 0.2742,
+      "step": 700
+    },
+    {
+      "epoch": 0.6669445602334306,
+      "grad_norm": 0.950409471988678,
+      "learning_rate": 6.887604367373152e-05,
+      "loss": 0.2573,
+      "step": 800
+    },
+    {
+      "epoch": 0.7503126302626094,
+      "grad_norm": 1.171885371208191,
+      "learning_rate": 6.850139156497538e-05,
+      "loss": 0.2517,
+      "step": 900
+    },
+    {
+      "epoch": 0.8336807002917882,
+      "grad_norm": 0.9133914709091187,
+      "learning_rate": 6.812673945621922e-05,
+      "loss": 0.2435,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9170487703209671,
+      "grad_norm": 0.7939682602882385,
+      "learning_rate": 6.775208734746307e-05,
+      "loss": 0.2373,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.49670639634132385,
+      "learning_rate": 6.737743523870691e-05,
+      "loss": 0.2363,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0,
+      "eval_administration_accuracy": 0.9302689180737961,
+      "eval_administration_f1": 0.9077189587684091,
+      "eval_corruption_accuracy": 0.9534083802376485,
+      "eval_corruption_f1": 0.9474431988592255,
+      "eval_democracy_accuracy": 0.9473629351678132,
+      "eval_democracy_f1": 0.9358042521135516,
+      "eval_development_accuracy": 0.9094225557640192,
+      "eval_development_f1": 0.8937523747915405,
+      "eval_economy_accuracy": 0.924119241192412,
+      "eval_economy_f1": 0.9156575066932242,
+      "eval_education_accuracy": 0.9621638524077548,
+      "eval_education_f1": 0.9583809787976314,
+      "eval_environment_accuracy": 0.9775901605169898,
+      "eval_environment_f1": 0.9754739686963207,
+      "eval_instability_accuracy": 0.9422555764019178,
+      "eval_instability_f1": 0.9343996801103537,
+      "eval_leadership_accuracy": 0.7970606629143214,
+      "eval_leadership_f1": 0.7702375495381067,
+      "eval_loss": 0.22745274007320404,
+      "eval_overall_accuracy": 0.9296261552359112,
+      "eval_overall_f1": 0.9199542168750479,
+      "eval_race_accuracy": 0.9505941213258287,
+      "eval_race_f1": 0.9483610849847235,
+      "eval_religion_accuracy": 0.9505941213258287,
+      "eval_religion_f1": 0.9489643730683611,
+      "eval_runtime": 11.0331,
+      "eval_safety_accuracy": 0.9106733375026058,
+      "eval_safety_f1": 0.9032566760791263,
+      "eval_samples_per_second": 869.566,
+      "eval_steps_per_second": 54.382,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0833680700291788,
+      "grad_norm": 0.949184238910675,
+      "learning_rate": 6.700278312995076e-05,
+      "loss": 0.1968,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1667361400583576,
+      "grad_norm": 0.7735128402709961,
+      "learning_rate": 6.66281310211946e-05,
+      "loss": 0.1924,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2501042100875366,
+      "grad_norm": 1.0187016725540161,
+      "learning_rate": 6.625347891243845e-05,
+      "loss": 0.1945,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3334722801167154,
+      "grad_norm": 0.9707878828048706,
+      "learning_rate": 6.587882680368229e-05,
+      "loss": 0.1931,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4168403501458942,
+      "grad_norm": 1.4602934122085571,
+      "learning_rate": 6.550417469492613e-05,
+      "loss": 0.1967,
+      "step": 1700
+    },
+    {
+      "epoch": 1.500208420175073,
+      "grad_norm": 1.2449183464050293,
+      "learning_rate": 6.512952258616998e-05,
+      "loss": 0.1843,
+      "step": 1800
+    },
+    {
+      "epoch": 1.5835764902042517,
+      "grad_norm": 1.4943019151687622,
+      "learning_rate": 6.475487047741382e-05,
+      "loss": 0.1844,
+      "step": 1900
+    },
+    {
+      "epoch": 1.6669445602334307,
+      "grad_norm": 1.8496220111846924,
+      "learning_rate": 6.438021836865767e-05,
+      "loss": 0.1797,
+      "step": 2000
+    },
+    {
+      "epoch": 1.7503126302626093,
+      "grad_norm": 1.0578210353851318,
+      "learning_rate": 6.400556625990151e-05,
+      "loss": 0.1875,
+      "step": 2100
+    },
+    {
+      "epoch": 1.8336807002917883,
+      "grad_norm": 1.0538480281829834,
+      "learning_rate": 6.363091415114536e-05,
+      "loss": 0.1685,
+      "step": 2200
+    },
+    {
+      "epoch": 1.917048770320967,
+      "grad_norm": 1.5351332426071167,
+      "learning_rate": 6.32562620423892e-05,
+      "loss": 0.1744,
+      "step": 2300
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.9578828811645508,
+      "learning_rate": 6.288160993363306e-05,
+      "loss": 0.1811,
+      "step": 2400
+    },
+    {
+      "epoch": 2.0,
+      "eval_administration_accuracy": 0.9344381905357515,
+      "eval_administration_f1": 0.9296143144580357,
+      "eval_corruption_accuracy": 0.9604961434229727,
+      "eval_corruption_f1": 0.9577803781696625,
+      "eval_democracy_accuracy": 0.9534083802376485,
+      "eval_democracy_f1": 0.9434755362160818,
+      "eval_development_accuracy": 0.9193245778611632,
+      "eval_development_f1": 0.9132597892423039,
+      "eval_economy_accuracy": 0.931311236189285,
+      "eval_economy_f1": 0.92884213698996,
+      "eval_education_accuracy": 0.9653950385657702,
+      "eval_education_f1": 0.963862144635937,
+      "eval_environment_accuracy": 0.979153637690223,
+      "eval_environment_f1": 0.9783610154594226,
+      "eval_instability_accuracy": 0.9459036898061288,
+      "eval_instability_f1": 0.9423381513536221,
+      "eval_leadership_accuracy": 0.8387533875338753,
+      "eval_leadership_f1": 0.8323519207670947,
+      "eval_loss": 0.2031705528497696,
+      "eval_overall_accuracy": 0.9372177055103883,
+      "eval_overall_f1": 0.9339233416905627,
+      "eval_race_accuracy": 0.9516364394413175,
+      "eval_race_f1": 0.9498984068182696,
+      "eval_religion_accuracy": 0.9558057119032729,
+      "eval_religion_f1": 0.9554428854878803,
+      "eval_runtime": 11.0378,
+      "eval_safety_accuracy": 0.9109860329372524,
+      "eval_safety_f1": 0.9118534206884823,
+      "eval_samples_per_second": 869.197,
+      "eval_steps_per_second": 54.359,
+      "step": 2400
+    },
+    {
+      "epoch": 2.083368070029179,
+      "grad_norm": 1.0708891153335571,
+      "learning_rate": 6.25069578248769e-05,
+      "loss": 0.1338,
+      "step": 2500
+    },
+    {
+      "epoch": 2.1667361400583576,
+      "grad_norm": 1.0800749063491821,
+      "learning_rate": 6.213230571612073e-05,
+      "loss": 0.1268,
+      "step": 2600
+    },
+    {
+      "epoch": 2.2501042100875366,
+      "grad_norm": 1.3577998876571655,
+      "learning_rate": 6.175765360736459e-05,
+      "loss": 0.1226,
+      "step": 2700
+    },
+    {
+      "epoch": 2.333472280116715,
+      "grad_norm": 1.325534701347351,
+      "learning_rate": 6.138300149860843e-05,
+      "loss": 0.1258,
+      "step": 2800
+    },
+    {
+      "epoch": 2.416840350145894,
+      "grad_norm": 1.7846063375473022,
+      "learning_rate": 6.100834938985228e-05,
+      "loss": 0.1308,
+      "step": 2900
+    },
+    {
+      "epoch": 2.500208420175073,
+      "grad_norm": 1.61028254032135,
+      "learning_rate": 6.0633697281096124e-05,
+      "loss": 0.1305,
+      "step": 3000
+    },
+    {
+      "epoch": 2.5835764902042517,
+      "grad_norm": 1.2228693962097168,
+      "learning_rate": 6.025904517233996e-05,
+      "loss": 0.1315,
+      "step": 3100
+    },
+    {
+      "epoch": 2.6669445602334307,
+      "grad_norm": 0.9486532807350159,
+      "learning_rate": 5.988439306358381e-05,
+      "loss": 0.1337,
+      "step": 3200
+    },
+    {
+      "epoch": 2.7503126302626093,
+      "grad_norm": 1.3199305534362793,
+      "learning_rate": 5.9509740954827654e-05,
+      "loss": 0.132,
+      "step": 3300
+    },
+    {
+      "epoch": 2.8336807002917883,
+      "grad_norm": 1.8821613788604736,
+      "learning_rate": 5.91350888460715e-05,
+      "loss": 0.1258,
+      "step": 3400
+    },
+    {
+      "epoch": 2.9170487703209673,
+      "grad_norm": 1.2816129922866821,
+      "learning_rate": 5.8760436737315346e-05,
+      "loss": 0.1282,
+      "step": 3500
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 5.737521171569824,
+      "learning_rate": 5.838578462855919e-05,
+      "loss": 0.1297,
+      "step": 3600
+    },
+    {
+      "epoch": 3.0,
+      "eval_administration_accuracy": 0.9375651448822181,
+      "eval_administration_f1": 0.9309689641816119,
+      "eval_corruption_accuracy": 0.9451740671252866,
+      "eval_corruption_f1": 0.9476001634812502,
+      "eval_democracy_accuracy": 0.9508025849489264,
+      "eval_democracy_f1": 0.9508783301626133,
+      "eval_development_accuracy": 0.921304982280592,
+      "eval_development_f1": 0.9145210502797096,
+      "eval_economy_accuracy": 0.930373149885345,
+      "eval_economy_f1": 0.9257602899924291,
+      "eval_education_accuracy": 0.9670627475505524,
+      "eval_education_f1": 0.9651765113114141,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9785021531425564,
+      "eval_instability_accuracy": 0.9419428809672712,
+      "eval_instability_f1": 0.9412425903038227,
+      "eval_leadership_accuracy": 0.8284344381905357,
+      "eval_leadership_f1": 0.8287745355631846,
+      "eval_loss": 0.21378232538700104,
+      "eval_overall_accuracy": 0.9360450976304634,
+      "eval_overall_f1": 0.9337781089602167,
+      "eval_race_accuracy": 0.9541380029184907,
+      "eval_race_f1": 0.9510004306979282,
+      "eval_religion_accuracy": 0.955701480091724,
+      "eval_religion_f1": 0.9539633431565642,
+      "eval_runtime": 11.1303,
+      "eval_safety_accuracy": 0.919533041484261,
+      "eval_safety_f1": 0.9169489452495161,
+      "eval_samples_per_second": 861.972,
+      "eval_steps_per_second": 53.907,
+      "step": 3600
+    },
+    {
+      "epoch": 3.083368070029179,
+      "grad_norm": 0.7353236079216003,
+      "learning_rate": 5.801113251980304e-05,
+      "loss": 0.0912,
+      "step": 3700
+    },
+    {
+      "epoch": 3.1667361400583576,
+      "grad_norm": 1.2753976583480835,
+      "learning_rate": 5.763648041104688e-05,
+      "loss": 0.0954,
+      "step": 3800
+    },
+    {
+      "epoch": 3.2501042100875366,
+      "grad_norm": 1.4709268808364868,
+      "learning_rate": 5.726182830229073e-05,
+      "loss": 0.0936,
+      "step": 3900
+    },
+    {
+      "epoch": 3.333472280116715,
+      "grad_norm": 0.8533086180686951,
+      "learning_rate": 5.6887176193534574e-05,
+      "loss": 0.0927,
+      "step": 4000
+    },
+    {
+      "epoch": 3.416840350145894,
+      "grad_norm": 1.1082295179367065,
+      "learning_rate": 5.6512524084778413e-05,
+      "loss": 0.091,
+      "step": 4100
+    },
+    {
+      "epoch": 3.500208420175073,
+      "grad_norm": 1.3943876028060913,
+      "learning_rate": 5.613787197602226e-05,
+      "loss": 0.0966,
+      "step": 4200
+    },
+    {
+      "epoch": 3.5835764902042517,
+      "grad_norm": 1.483786940574646,
+      "learning_rate": 5.5763219867266105e-05,
+      "loss": 0.0965,
+      "step": 4300
+    },
+    {
+      "epoch": 3.6669445602334307,
+      "grad_norm": 1.0739402770996094,
+      "learning_rate": 5.538856775850995e-05,
+      "loss": 0.0988,
+      "step": 4400
+    },
+    {
+      "epoch": 3.7503126302626093,
+      "grad_norm": 1.2540950775146484,
+      "learning_rate": 5.5013915649753796e-05,
+      "loss": 0.0921,
+      "step": 4500
+    },
+    {
+      "epoch": 3.8336807002917883,
+      "grad_norm": 1.5991489887237549,
+      "learning_rate": 5.463926354099764e-05,
+      "loss": 0.1044,
+      "step": 4600
+    },
+    {
+      "epoch": 3.9170487703209673,
+      "grad_norm": 1.71983003616333,
+      "learning_rate": 5.426461143224149e-05,
+      "loss": 0.0891,
+      "step": 4700
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.6225905418395996,
+      "learning_rate": 5.3889959323485334e-05,
+      "loss": 0.0935,
+      "step": 4800
+    },
+    {
+      "epoch": 4.0,
+      "eval_administration_accuracy": 0.9401709401709402,
+      "eval_administration_f1": 0.9351367023709064,
+      "eval_corruption_accuracy": 0.9568480300187617,
+      "eval_corruption_f1": 0.9560031856416787,
+      "eval_democracy_accuracy": 0.9563268709610173,
+      "eval_democracy_f1": 0.9539147719955986,
+      "eval_development_accuracy": 0.9181780279341255,
+      "eval_development_f1": 0.9124572322058647,
+      "eval_economy_accuracy": 0.929435063581405,
+      "eval_economy_f1": 0.9284126365185199,
+      "eval_education_accuracy": 0.9672712111736502,
+      "eval_education_f1": 0.9657318355589747,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9793120114242748,
+      "eval_instability_accuracy": 0.9337085678549093,
+      "eval_instability_f1": 0.9360007265571828,
+      "eval_leadership_accuracy": 0.8413591828225975,
+      "eval_leadership_f1": 0.8351481808317307,
+      "eval_loss": 0.22106842696666718,
+      "eval_overall_accuracy": 0.9382079077201028,
+      "eval_overall_f1": 0.9358746589615409,
+      "eval_race_accuracy": 0.9561184073379195,
+      "eval_race_f1": 0.9543792719379139,
+      "eval_religion_accuracy": 0.9570564936418595,
+      "eval_religion_f1": 0.9560165149767178,
+      "eval_runtime": 10.9937,
+      "eval_safety_accuracy": 0.9215134459036898,
+      "eval_safety_f1": 0.9179828375191263,
+      "eval_samples_per_second": 872.679,
+      "eval_steps_per_second": 54.577,
+      "step": 4800
+    },
+    {
+      "epoch": 4.083368070029179,
+      "grad_norm": 0.6198378801345825,
+      "learning_rate": 5.351530721472918e-05,
+      "loss": 0.0658,
+      "step": 4900
+    },
+    {
+      "epoch": 4.166736140058358,
+      "grad_norm": 1.2718008756637573,
+      "learning_rate": 5.3140655105973025e-05,
+      "loss": 0.0636,
+      "step": 5000
+    },
+    {
+      "epoch": 4.250104210087536,
+      "grad_norm": 1.476962685585022,
+      "learning_rate": 5.2766002997216864e-05,
+      "loss": 0.0742,
+      "step": 5100
+    },
+    {
+      "epoch": 4.333472280116715,
+      "grad_norm": 1.1485812664031982,
+      "learning_rate": 5.239135088846071e-05,
+      "loss": 0.0693,
+      "step": 5200
+    },
+    {
+      "epoch": 4.416840350145894,
+      "grad_norm": 1.2767895460128784,
+      "learning_rate": 5.2016698779704556e-05,
+      "loss": 0.0722,
+      "step": 5300
+    },
+    {
+      "epoch": 4.500208420175073,
+      "grad_norm": 0.6865003108978271,
+      "learning_rate": 5.16420466709484e-05,
+      "loss": 0.0701,
+      "step": 5400
+    },
+    {
+      "epoch": 4.583576490204251,
+      "grad_norm": 0.6567270755767822,
+      "learning_rate": 5.127114108327981e-05,
+      "loss": 0.069,
+      "step": 5500
+    },
+    {
+      "epoch": 4.66694456023343,
+      "grad_norm": 1.1187883615493774,
+      "learning_rate": 5.0896488974523654e-05,
+      "loss": 0.0716,
+      "step": 5600
+    },
+    {
+      "epoch": 4.750312630262609,
+      "grad_norm": 1.3242968320846558,
+      "learning_rate": 5.05218368657675e-05,
+      "loss": 0.0702,
+      "step": 5700
+    },
+    {
+      "epoch": 4.833680700291788,
+      "grad_norm": 1.458292841911316,
+      "learning_rate": 5.0147184757011346e-05,
+      "loss": 0.07,
+      "step": 5800
+    },
+    {
+      "epoch": 4.917048770320967,
+      "grad_norm": 0.7626857757568359,
+      "learning_rate": 4.977253264825519e-05,
+      "loss": 0.0733,
+      "step": 5900
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7239888310432434,
+      "learning_rate": 4.939788053949904e-05,
+      "loss": 0.0675,
+      "step": 6000
+    },
+    {
+      "epoch": 5.0,
+      "eval_administration_accuracy": 0.9306858453199917,
+      "eval_administration_f1": 0.9286500450585223,
+      "eval_corruption_accuracy": 0.9606003752345216,
+      "eval_corruption_f1": 0.9583563972269709,
+      "eval_democracy_accuracy": 0.9416301855326246,
+      "eval_democracy_f1": 0.9449257041063754,
+      "eval_development_accuracy": 0.9198457369189077,
+      "eval_development_f1": 0.9154714581737773,
+      "eval_economy_accuracy": 0.9344381905357515,
+      "eval_economy_f1": 0.9306995601866777,
+      "eval_education_accuracy": 0.9673754429851991,
+      "eval_education_f1": 0.9648349073741065,
+      "eval_environment_accuracy": 0.9803001876172608,
+      "eval_environment_f1": 0.9792105415103222,
+      "eval_instability_accuracy": 0.944757139879091,
+      "eval_instability_f1": 0.9391731690067155,
+      "eval_leadership_accuracy": 0.8202001250781739,
+      "eval_leadership_f1": 0.8225964840638132,
+      "eval_loss": 0.2460281401872635,
+      "eval_overall_accuracy": 0.9360364116461678,
+      "eval_overall_f1": 0.9339890155373726,
+      "eval_race_accuracy": 0.9508025849489264,
+      "eval_race_f1": 0.9501627076296991,
+      "eval_religion_accuracy": 0.9597665207421305,
+      "eval_religion_f1": 0.9575416931106416,
+      "eval_runtime": 10.9751,
+      "eval_safety_accuracy": 0.9220346049614342,
+      "eval_safety_f1": 0.916245519000848,
+      "eval_samples_per_second": 874.157,
+      "eval_steps_per_second": 54.669,
+      "step": 6000
+    },
+    {
+      "epoch": 5.083368070029179,
+      "grad_norm": 1.2741373777389526,
+      "learning_rate": 4.902322843074288e-05,
+      "loss": 0.0551,
+      "step": 6100
+    },
+    {
+      "epoch": 5.166736140058358,
+      "grad_norm": 0.5817021727561951,
+      "learning_rate": 4.864857632198673e-05,
+      "loss": 0.0505,
+      "step": 6200
+    },
+    {
+      "epoch": 5.250104210087536,
+      "grad_norm": 1.0689315795898438,
+      "learning_rate": 4.827392421323057e-05,
+      "loss": 0.049,
+      "step": 6300
+    },
+    {
+      "epoch": 5.333472280116715,
+      "grad_norm": 1.5673719644546509,
+      "learning_rate": 4.789927210447441e-05,
+      "loss": 0.0554,
+      "step": 6400
+    },
+    {
+      "epoch": 5.416840350145894,
+      "grad_norm": 1.1274124383926392,
+      "learning_rate": 4.752461999571826e-05,
+      "loss": 0.0523,
+      "step": 6500
+    },
+    {
+      "epoch": 5.500208420175073,
+      "grad_norm": 0.836388349533081,
+      "learning_rate": 4.7149967886962105e-05,
+      "loss": 0.0516,
+      "step": 6600
+    },
+    {
+      "epoch": 5.583576490204251,
+      "grad_norm": 1.7012029886245728,
+      "learning_rate": 4.677531577820595e-05,
+      "loss": 0.0559,
+      "step": 6700
+    },
+    {
+      "epoch": 5.66694456023343,
+      "grad_norm": 1.0244345664978027,
+      "learning_rate": 4.6400663669449796e-05,
+      "loss": 0.0552,
+      "step": 6800
+    },
+    {
+      "epoch": 5.750312630262609,
+      "grad_norm": 1.2528122663497925,
+      "learning_rate": 4.602601156069364e-05,
+      "loss": 0.0508,
+      "step": 6900
+    },
+    {
+      "epoch": 5.833680700291788,
+      "grad_norm": 1.044662594795227,
+      "learning_rate": 4.565135945193749e-05,
+      "loss": 0.0531,
+      "step": 7000
+    },
+    {
+      "epoch": 5.917048770320967,
+      "grad_norm": 0.8813854455947876,
+      "learning_rate": 4.5276707343181333e-05,
+      "loss": 0.0482,
+      "step": 7100
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.4556822776794434,
+      "learning_rate": 4.490205523442518e-05,
+      "loss": 0.0516,
+      "step": 7200
+    },
+    {
+      "epoch": 6.0,
+      "eval_administration_accuracy": 0.9356889722743381,
+      "eval_administration_f1": 0.9317820245044639,
+      "eval_corruption_accuracy": 0.9579945799457995,
+      "eval_corruption_f1": 0.9568343721711066,
+      "eval_democracy_accuracy": 0.9589326662497394,
+      "eval_democracy_f1": 0.95607216308818,
+      "eval_development_accuracy": 0.9168230143839899,
+      "eval_development_f1": 0.9143401221807914,
+      "eval_economy_accuracy": 0.9308943089430894,
+      "eval_economy_f1": 0.9294738147048666,
+      "eval_education_accuracy": 0.9669585157390036,
+      "eval_education_f1": 0.965464450546169,
+      "eval_environment_accuracy": 0.9786324786324786,
+      "eval_environment_f1": 0.977778980162068,
+      "eval_instability_accuracy": 0.9441317490097978,
+      "eval_instability_f1": 0.9395705042517813,
+      "eval_leadership_accuracy": 0.8412549510110485,
+      "eval_leadership_f1": 0.8395230039371011,
+      "eval_loss": 0.26496145129203796,
+      "eval_overall_accuracy": 0.938372941421722,
+      "eval_overall_f1": 0.9362734744251768,
+      "eval_race_accuracy": 0.9541380029184907,
+      "eval_race_f1": 0.9519598766506976,
+      "eval_religion_accuracy": 0.9579945799457995,
+      "eval_religion_f1": 0.9568944771373694,
+      "eval_runtime": 10.8844,
+      "eval_safety_accuracy": 0.9170314780070877,
+      "eval_safety_f1": 0.915587903767528,
+      "eval_samples_per_second": 881.445,
+      "eval_steps_per_second": 55.125,
+      "step": 7200
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 19184,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.060160356227482e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 7e-05,
+    "num_train_epochs": 16
+  }
+}

run-2/checkpoint-7200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a417688ba3a38960888d219af94bafd1d9551df9005996513f2ac72dfc76c145
+size 5368

run-2/checkpoint-8400/config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20",
+    "21": "LABEL_21",
+    "22": "LABEL_22",
+    "23": "LABEL_23",
+    "24": "LABEL_24",
+    "25": "LABEL_25",
+    "26": "LABEL_26",
+    "27": "LABEL_27",
+    "28": "LABEL_28",
+    "29": "LABEL_29",
+    "30": "LABEL_30",
+    "31": "LABEL_31",
+    "32": "LABEL_32",
+    "33": "LABEL_33",
+    "34": "LABEL_34",
+    "35": "LABEL_35",
+    "36": "LABEL_36",
+    "37": "LABEL_37",
+    "38": "LABEL_38",
+    "39": "LABEL_39",
+    "40": "LABEL_40",
+    "41": "LABEL_41",
+    "42": "LABEL_42",
+    "43": "LABEL_43",
+    "44": "LABEL_44",
+    "45": "LABEL_45",
+    "46": "LABEL_46",
+    "47": "LABEL_47"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_21": 21,
+    "LABEL_22": 22,
+    "LABEL_23": 23,
+    "LABEL_24": 24,
+    "LABEL_25": 25,
+    "LABEL_26": 26,
+    "LABEL_27": 27,
+    "LABEL_28": 28,
+    "LABEL_29": 29,
+    "LABEL_3": 3,
+    "LABEL_30": 30,
+    "LABEL_31": 31,
+    "LABEL_32": 32,
+    "LABEL_33": 33,
+    "LABEL_34": 34,
+    "LABEL_35": 35,
+    "LABEL_36": 36,
+    "LABEL_37": 37,
+    "LABEL_38": 38,
+    "LABEL_39": 39,
+    "LABEL_4": 4,
+    "LABEL_40": 40,
+    "LABEL_41": 41,
+    "LABEL_42": 42,
+    "LABEL_43": 43,
+    "LABEL_44": 44,
+    "LABEL_45": 45,
+    "LABEL_46": 46,
+    "LABEL_47": 47,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-8400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e236524a027f39185d6dbad0b11a890f9d7b892dd571c6bf435c5689dc659bbc
+size 438100144

run-2/checkpoint-8400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14342f98f6f49854e4518a4116c7b665a07ecdf27cf30a4ce7c7116cd745cc0a
+size 876321402

run-2/checkpoint-8400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:428bd6bed852b4f8932455db9c461eeba79d3efe1fc880d20395baef552a0694
+size 14244

run-2/checkpoint-8400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:711e5f6a2fb64d3c723f5401defc7a49135eaa677c76fcf84d1f5e375e67c5c3
+size 988

run-2/checkpoint-8400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2e44344a0e4d0611737d4f73f962224bf500c51bbb326a8091f17f60b1bcfda
+size 1064

run-2/checkpoint-8400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,873 @@

+{
+  "best_global_step": 7200,
+  "best_metric": 0.9362734744251768,
+  "best_model_checkpoint": "./results/run-2/checkpoint-7200",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 8400,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08336807002917883,
+      "grad_norm": 1.2878578901290894,
+      "learning_rate": 1.4e-05,
+      "loss": 1.2644,
+      "step": 100
+    },
+    {
+      "epoch": 0.16673614005835766,
+      "grad_norm": 1.0009047985076904,
+      "learning_rate": 2.8e-05,
+      "loss": 0.4758,
+      "step": 200
+    },
+    {
+      "epoch": 0.25010421008753647,
+      "grad_norm": 0.7635347843170166,
+      "learning_rate": 4.2e-05,
+      "loss": 0.4054,
+      "step": 300
+    },
+    {
+      "epoch": 0.3334722801167153,
+      "grad_norm": 0.8168604373931885,
+      "learning_rate": 5.6e-05,
+      "loss": 0.3468,
+      "step": 400
+    },
+    {
+      "epoch": 0.4168403501458941,
+      "grad_norm": 1.1069319248199463,
+      "learning_rate": 7e-05,
+      "loss": 0.3051,
+      "step": 500
+    },
+    {
+      "epoch": 0.5002084201750729,
+      "grad_norm": 1.015086054801941,
+      "learning_rate": 6.962534789124383e-05,
+      "loss": 0.3044,
+      "step": 600
+    },
+    {
+      "epoch": 0.5835764902042517,
+      "grad_norm": 0.8430781364440918,
+      "learning_rate": 6.925069578248769e-05,
+      "loss": 0.2742,
+      "step": 700
+    },
+    {
+      "epoch": 0.6669445602334306,
+      "grad_norm": 0.950409471988678,
+      "learning_rate": 6.887604367373152e-05,
+      "loss": 0.2573,
+      "step": 800
+    },
+    {
+      "epoch": 0.7503126302626094,
+      "grad_norm": 1.171885371208191,
+      "learning_rate": 6.850139156497538e-05,
+      "loss": 0.2517,
+      "step": 900
+    },
+    {
+      "epoch": 0.8336807002917882,
+      "grad_norm": 0.9133914709091187,
+      "learning_rate": 6.812673945621922e-05,
+      "loss": 0.2435,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9170487703209671,
+      "grad_norm": 0.7939682602882385,
+      "learning_rate": 6.775208734746307e-05,
+      "loss": 0.2373,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.49670639634132385,
+      "learning_rate": 6.737743523870691e-05,
+      "loss": 0.2363,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0,
+      "eval_administration_accuracy": 0.9302689180737961,
+      "eval_administration_f1": 0.9077189587684091,
+      "eval_corruption_accuracy": 0.9534083802376485,
+      "eval_corruption_f1": 0.9474431988592255,
+      "eval_democracy_accuracy": 0.9473629351678132,
+      "eval_democracy_f1": 0.9358042521135516,
+      "eval_development_accuracy": 0.9094225557640192,
+      "eval_development_f1": 0.8937523747915405,
+      "eval_economy_accuracy": 0.924119241192412,
+      "eval_economy_f1": 0.9156575066932242,
+      "eval_education_accuracy": 0.9621638524077548,
+      "eval_education_f1": 0.9583809787976314,
+      "eval_environment_accuracy": 0.9775901605169898,
+      "eval_environment_f1": 0.9754739686963207,
+      "eval_instability_accuracy": 0.9422555764019178,
+      "eval_instability_f1": 0.9343996801103537,
+      "eval_leadership_accuracy": 0.7970606629143214,
+      "eval_leadership_f1": 0.7702375495381067,
+      "eval_loss": 0.22745274007320404,
+      "eval_overall_accuracy": 0.9296261552359112,
+      "eval_overall_f1": 0.9199542168750479,
+      "eval_race_accuracy": 0.9505941213258287,
+      "eval_race_f1": 0.9483610849847235,
+      "eval_religion_accuracy": 0.9505941213258287,
+      "eval_religion_f1": 0.9489643730683611,
+      "eval_runtime": 11.0331,
+      "eval_safety_accuracy": 0.9106733375026058,
+      "eval_safety_f1": 0.9032566760791263,
+      "eval_samples_per_second": 869.566,
+      "eval_steps_per_second": 54.382,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0833680700291788,
+      "grad_norm": 0.949184238910675,
+      "learning_rate": 6.700278312995076e-05,
+      "loss": 0.1968,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1667361400583576,
+      "grad_norm": 0.7735128402709961,
+      "learning_rate": 6.66281310211946e-05,
+      "loss": 0.1924,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2501042100875366,
+      "grad_norm": 1.0187016725540161,
+      "learning_rate": 6.625347891243845e-05,
+      "loss": 0.1945,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3334722801167154,
+      "grad_norm": 0.9707878828048706,
+      "learning_rate": 6.587882680368229e-05,
+      "loss": 0.1931,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4168403501458942,
+      "grad_norm": 1.4602934122085571,
+      "learning_rate": 6.550417469492613e-05,
+      "loss": 0.1967,
+      "step": 1700
+    },
+    {
+      "epoch": 1.500208420175073,
+      "grad_norm": 1.2449183464050293,
+      "learning_rate": 6.512952258616998e-05,
+      "loss": 0.1843,
+      "step": 1800
+    },
+    {
+      "epoch": 1.5835764902042517,
+      "grad_norm": 1.4943019151687622,
+      "learning_rate": 6.475487047741382e-05,
+      "loss": 0.1844,
+      "step": 1900
+    },
+    {
+      "epoch": 1.6669445602334307,
+      "grad_norm": 1.8496220111846924,
+      "learning_rate": 6.438021836865767e-05,
+      "loss": 0.1797,
+      "step": 2000
+    },
+    {
+      "epoch": 1.7503126302626093,
+      "grad_norm": 1.0578210353851318,
+      "learning_rate": 6.400556625990151e-05,
+      "loss": 0.1875,
+      "step": 2100
+    },
+    {
+      "epoch": 1.8336807002917883,
+      "grad_norm": 1.0538480281829834,
+      "learning_rate": 6.363091415114536e-05,
+      "loss": 0.1685,
+      "step": 2200
+    },
+    {
+      "epoch": 1.917048770320967,
+      "grad_norm": 1.5351332426071167,
+      "learning_rate": 6.32562620423892e-05,
+      "loss": 0.1744,
+      "step": 2300
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.9578828811645508,
+      "learning_rate": 6.288160993363306e-05,
+      "loss": 0.1811,
+      "step": 2400
+    },
+    {
+      "epoch": 2.0,
+      "eval_administration_accuracy": 0.9344381905357515,
+      "eval_administration_f1": 0.9296143144580357,
+      "eval_corruption_accuracy": 0.9604961434229727,
+      "eval_corruption_f1": 0.9577803781696625,
+      "eval_democracy_accuracy": 0.9534083802376485,
+      "eval_democracy_f1": 0.9434755362160818,
+      "eval_development_accuracy": 0.9193245778611632,
+      "eval_development_f1": 0.9132597892423039,
+      "eval_economy_accuracy": 0.931311236189285,
+      "eval_economy_f1": 0.92884213698996,
+      "eval_education_accuracy": 0.9653950385657702,
+      "eval_education_f1": 0.963862144635937,
+      "eval_environment_accuracy": 0.979153637690223,
+      "eval_environment_f1": 0.9783610154594226,
+      "eval_instability_accuracy": 0.9459036898061288,
+      "eval_instability_f1": 0.9423381513536221,
+      "eval_leadership_accuracy": 0.8387533875338753,
+      "eval_leadership_f1": 0.8323519207670947,
+      "eval_loss": 0.2031705528497696,
+      "eval_overall_accuracy": 0.9372177055103883,
+      "eval_overall_f1": 0.9339233416905627,
+      "eval_race_accuracy": 0.9516364394413175,
+      "eval_race_f1": 0.9498984068182696,
+      "eval_religion_accuracy": 0.9558057119032729,
+      "eval_religion_f1": 0.9554428854878803,
+      "eval_runtime": 11.0378,
+      "eval_safety_accuracy": 0.9109860329372524,
+      "eval_safety_f1": 0.9118534206884823,
+      "eval_samples_per_second": 869.197,
+      "eval_steps_per_second": 54.359,
+      "step": 2400
+    },
+    {
+      "epoch": 2.083368070029179,
+      "grad_norm": 1.0708891153335571,
+      "learning_rate": 6.25069578248769e-05,
+      "loss": 0.1338,
+      "step": 2500
+    },
+    {
+      "epoch": 2.1667361400583576,
+      "grad_norm": 1.0800749063491821,
+      "learning_rate": 6.213230571612073e-05,
+      "loss": 0.1268,
+      "step": 2600
+    },
+    {
+      "epoch": 2.2501042100875366,
+      "grad_norm": 1.3577998876571655,
+      "learning_rate": 6.175765360736459e-05,
+      "loss": 0.1226,
+      "step": 2700
+    },
+    {
+      "epoch": 2.333472280116715,
+      "grad_norm": 1.325534701347351,
+      "learning_rate": 6.138300149860843e-05,
+      "loss": 0.1258,
+      "step": 2800
+    },
+    {
+      "epoch": 2.416840350145894,
+      "grad_norm": 1.7846063375473022,
+      "learning_rate": 6.100834938985228e-05,
+      "loss": 0.1308,
+      "step": 2900
+    },
+    {
+      "epoch": 2.500208420175073,
+      "grad_norm": 1.61028254032135,
+      "learning_rate": 6.0633697281096124e-05,
+      "loss": 0.1305,
+      "step": 3000
+    },
+    {
+      "epoch": 2.5835764902042517,
+      "grad_norm": 1.2228693962097168,
+      "learning_rate": 6.025904517233996e-05,
+      "loss": 0.1315,
+      "step": 3100
+    },
+    {
+      "epoch": 2.6669445602334307,
+      "grad_norm": 0.9486532807350159,
+      "learning_rate": 5.988439306358381e-05,
+      "loss": 0.1337,
+      "step": 3200
+    },
+    {
+      "epoch": 2.7503126302626093,
+      "grad_norm": 1.3199305534362793,
+      "learning_rate": 5.9509740954827654e-05,
+      "loss": 0.132,
+      "step": 3300
+    },
+    {
+      "epoch": 2.8336807002917883,
+      "grad_norm": 1.8821613788604736,
+      "learning_rate": 5.91350888460715e-05,
+      "loss": 0.1258,
+      "step": 3400
+    },
+    {
+      "epoch": 2.9170487703209673,
+      "grad_norm": 1.2816129922866821,
+      "learning_rate": 5.8760436737315346e-05,
+      "loss": 0.1282,
+      "step": 3500
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 5.737521171569824,
+      "learning_rate": 5.838578462855919e-05,
+      "loss": 0.1297,
+      "step": 3600
+    },
+    {
+      "epoch": 3.0,
+      "eval_administration_accuracy": 0.9375651448822181,
+      "eval_administration_f1": 0.9309689641816119,
+      "eval_corruption_accuracy": 0.9451740671252866,
+      "eval_corruption_f1": 0.9476001634812502,
+      "eval_democracy_accuracy": 0.9508025849489264,
+      "eval_democracy_f1": 0.9508783301626133,
+      "eval_development_accuracy": 0.921304982280592,
+      "eval_development_f1": 0.9145210502797096,
+      "eval_economy_accuracy": 0.930373149885345,
+      "eval_economy_f1": 0.9257602899924291,
+      "eval_education_accuracy": 0.9670627475505524,
+      "eval_education_f1": 0.9651765113114141,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9785021531425564,
+      "eval_instability_accuracy": 0.9419428809672712,
+      "eval_instability_f1": 0.9412425903038227,
+      "eval_leadership_accuracy": 0.8284344381905357,
+      "eval_leadership_f1": 0.8287745355631846,
+      "eval_loss": 0.21378232538700104,
+      "eval_overall_accuracy": 0.9360450976304634,
+      "eval_overall_f1": 0.9337781089602167,
+      "eval_race_accuracy": 0.9541380029184907,
+      "eval_race_f1": 0.9510004306979282,
+      "eval_religion_accuracy": 0.955701480091724,
+      "eval_religion_f1": 0.9539633431565642,
+      "eval_runtime": 11.1303,
+      "eval_safety_accuracy": 0.919533041484261,
+      "eval_safety_f1": 0.9169489452495161,
+      "eval_samples_per_second": 861.972,
+      "eval_steps_per_second": 53.907,
+      "step": 3600
+    },
+    {
+      "epoch": 3.083368070029179,
+      "grad_norm": 0.7353236079216003,
+      "learning_rate": 5.801113251980304e-05,
+      "loss": 0.0912,
+      "step": 3700
+    },
+    {
+      "epoch": 3.1667361400583576,
+      "grad_norm": 1.2753976583480835,
+      "learning_rate": 5.763648041104688e-05,
+      "loss": 0.0954,
+      "step": 3800
+    },
+    {
+      "epoch": 3.2501042100875366,
+      "grad_norm": 1.4709268808364868,
+      "learning_rate": 5.726182830229073e-05,
+      "loss": 0.0936,
+      "step": 3900
+    },
+    {
+      "epoch": 3.333472280116715,
+      "grad_norm": 0.8533086180686951,
+      "learning_rate": 5.6887176193534574e-05,
+      "loss": 0.0927,
+      "step": 4000
+    },
+    {
+      "epoch": 3.416840350145894,
+      "grad_norm": 1.1082295179367065,
+      "learning_rate": 5.6512524084778413e-05,
+      "loss": 0.091,
+      "step": 4100
+    },
+    {
+      "epoch": 3.500208420175073,
+      "grad_norm": 1.3943876028060913,
+      "learning_rate": 5.613787197602226e-05,
+      "loss": 0.0966,
+      "step": 4200
+    },
+    {
+      "epoch": 3.5835764902042517,
+      "grad_norm": 1.483786940574646,
+      "learning_rate": 5.5763219867266105e-05,
+      "loss": 0.0965,
+      "step": 4300
+    },
+    {
+      "epoch": 3.6669445602334307,
+      "grad_norm": 1.0739402770996094,
+      "learning_rate": 5.538856775850995e-05,
+      "loss": 0.0988,
+      "step": 4400
+    },
+    {
+      "epoch": 3.7503126302626093,
+      "grad_norm": 1.2540950775146484,
+      "learning_rate": 5.5013915649753796e-05,
+      "loss": 0.0921,
+      "step": 4500
+    },
+    {
+      "epoch": 3.8336807002917883,
+      "grad_norm": 1.5991489887237549,
+      "learning_rate": 5.463926354099764e-05,
+      "loss": 0.1044,
+      "step": 4600
+    },
+    {
+      "epoch": 3.9170487703209673,
+      "grad_norm": 1.71983003616333,
+      "learning_rate": 5.426461143224149e-05,
+      "loss": 0.0891,
+      "step": 4700
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.6225905418395996,
+      "learning_rate": 5.3889959323485334e-05,
+      "loss": 0.0935,
+      "step": 4800
+    },
+    {
+      "epoch": 4.0,
+      "eval_administration_accuracy": 0.9401709401709402,
+      "eval_administration_f1": 0.9351367023709064,
+      "eval_corruption_accuracy": 0.9568480300187617,
+      "eval_corruption_f1": 0.9560031856416787,
+      "eval_democracy_accuracy": 0.9563268709610173,
+      "eval_democracy_f1": 0.9539147719955986,
+      "eval_development_accuracy": 0.9181780279341255,
+      "eval_development_f1": 0.9124572322058647,
+      "eval_economy_accuracy": 0.929435063581405,
+      "eval_economy_f1": 0.9284126365185199,
+      "eval_education_accuracy": 0.9672712111736502,
+      "eval_education_f1": 0.9657318355589747,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9793120114242748,
+      "eval_instability_accuracy": 0.9337085678549093,
+      "eval_instability_f1": 0.9360007265571828,
+      "eval_leadership_accuracy": 0.8413591828225975,
+      "eval_leadership_f1": 0.8351481808317307,
+      "eval_loss": 0.22106842696666718,
+      "eval_overall_accuracy": 0.9382079077201028,
+      "eval_overall_f1": 0.9358746589615409,
+      "eval_race_accuracy": 0.9561184073379195,
+      "eval_race_f1": 0.9543792719379139,
+      "eval_religion_accuracy": 0.9570564936418595,
+      "eval_religion_f1": 0.9560165149767178,
+      "eval_runtime": 10.9937,
+      "eval_safety_accuracy": 0.9215134459036898,
+      "eval_safety_f1": 0.9179828375191263,
+      "eval_samples_per_second": 872.679,
+      "eval_steps_per_second": 54.577,
+      "step": 4800
+    },
+    {
+      "epoch": 4.083368070029179,
+      "grad_norm": 0.6198378801345825,
+      "learning_rate": 5.351530721472918e-05,
+      "loss": 0.0658,
+      "step": 4900
+    },
+    {
+      "epoch": 4.166736140058358,
+      "grad_norm": 1.2718008756637573,
+      "learning_rate": 5.3140655105973025e-05,
+      "loss": 0.0636,
+      "step": 5000
+    },
+    {
+      "epoch": 4.250104210087536,
+      "grad_norm": 1.476962685585022,
+      "learning_rate": 5.2766002997216864e-05,
+      "loss": 0.0742,
+      "step": 5100
+    },
+    {
+      "epoch": 4.333472280116715,
+      "grad_norm": 1.1485812664031982,
+      "learning_rate": 5.239135088846071e-05,
+      "loss": 0.0693,
+      "step": 5200
+    },
+    {
+      "epoch": 4.416840350145894,
+      "grad_norm": 1.2767895460128784,
+      "learning_rate": 5.2016698779704556e-05,
+      "loss": 0.0722,
+      "step": 5300
+    },
+    {
+      "epoch": 4.500208420175073,
+      "grad_norm": 0.6865003108978271,
+      "learning_rate": 5.16420466709484e-05,
+      "loss": 0.0701,
+      "step": 5400
+    },
+    {
+      "epoch": 4.583576490204251,
+      "grad_norm": 0.6567270755767822,
+      "learning_rate": 5.127114108327981e-05,
+      "loss": 0.069,
+      "step": 5500
+    },
+    {
+      "epoch": 4.66694456023343,
+      "grad_norm": 1.1187883615493774,
+      "learning_rate": 5.0896488974523654e-05,
+      "loss": 0.0716,
+      "step": 5600
+    },
+    {
+      "epoch": 4.750312630262609,
+      "grad_norm": 1.3242968320846558,
+      "learning_rate": 5.05218368657675e-05,
+      "loss": 0.0702,
+      "step": 5700
+    },
+    {
+      "epoch": 4.833680700291788,
+      "grad_norm": 1.458292841911316,
+      "learning_rate": 5.0147184757011346e-05,
+      "loss": 0.07,
+      "step": 5800
+    },
+    {
+      "epoch": 4.917048770320967,
+      "grad_norm": 0.7626857757568359,
+      "learning_rate": 4.977253264825519e-05,
+      "loss": 0.0733,
+      "step": 5900
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7239888310432434,
+      "learning_rate": 4.939788053949904e-05,
+      "loss": 0.0675,
+      "step": 6000
+    },
+    {
+      "epoch": 5.0,
+      "eval_administration_accuracy": 0.9306858453199917,
+      "eval_administration_f1": 0.9286500450585223,
+      "eval_corruption_accuracy": 0.9606003752345216,
+      "eval_corruption_f1": 0.9583563972269709,
+      "eval_democracy_accuracy": 0.9416301855326246,
+      "eval_democracy_f1": 0.9449257041063754,
+      "eval_development_accuracy": 0.9198457369189077,
+      "eval_development_f1": 0.9154714581737773,
+      "eval_economy_accuracy": 0.9344381905357515,
+      "eval_economy_f1": 0.9306995601866777,
+      "eval_education_accuracy": 0.9673754429851991,
+      "eval_education_f1": 0.9648349073741065,
+      "eval_environment_accuracy": 0.9803001876172608,
+      "eval_environment_f1": 0.9792105415103222,
+      "eval_instability_accuracy": 0.944757139879091,
+      "eval_instability_f1": 0.9391731690067155,
+      "eval_leadership_accuracy": 0.8202001250781739,
+      "eval_leadership_f1": 0.8225964840638132,
+      "eval_loss": 0.2460281401872635,
+      "eval_overall_accuracy": 0.9360364116461678,
+      "eval_overall_f1": 0.9339890155373726,
+      "eval_race_accuracy": 0.9508025849489264,
+      "eval_race_f1": 0.9501627076296991,
+      "eval_religion_accuracy": 0.9597665207421305,
+      "eval_religion_f1": 0.9575416931106416,
+      "eval_runtime": 10.9751,
+      "eval_safety_accuracy": 0.9220346049614342,
+      "eval_safety_f1": 0.916245519000848,
+      "eval_samples_per_second": 874.157,
+      "eval_steps_per_second": 54.669,
+      "step": 6000
+    },
+    {
+      "epoch": 5.083368070029179,
+      "grad_norm": 1.2741373777389526,
+      "learning_rate": 4.902322843074288e-05,
+      "loss": 0.0551,
+      "step": 6100
+    },
+    {
+      "epoch": 5.166736140058358,
+      "grad_norm": 0.5817021727561951,
+      "learning_rate": 4.864857632198673e-05,
+      "loss": 0.0505,
+      "step": 6200
+    },
+    {
+      "epoch": 5.250104210087536,
+      "grad_norm": 1.0689315795898438,
+      "learning_rate": 4.827392421323057e-05,
+      "loss": 0.049,
+      "step": 6300
+    },
+    {
+      "epoch": 5.333472280116715,
+      "grad_norm": 1.5673719644546509,
+      "learning_rate": 4.789927210447441e-05,
+      "loss": 0.0554,
+      "step": 6400
+    },
+    {
+      "epoch": 5.416840350145894,
+      "grad_norm": 1.1274124383926392,
+      "learning_rate": 4.752461999571826e-05,
+      "loss": 0.0523,
+      "step": 6500
+    },
+    {
+      "epoch": 5.500208420175073,
+      "grad_norm": 0.836388349533081,
+      "learning_rate": 4.7149967886962105e-05,
+      "loss": 0.0516,
+      "step": 6600
+    },
+    {
+      "epoch": 5.583576490204251,
+      "grad_norm": 1.7012029886245728,
+      "learning_rate": 4.677531577820595e-05,
+      "loss": 0.0559,
+      "step": 6700
+    },
+    {
+      "epoch": 5.66694456023343,
+      "grad_norm": 1.0244345664978027,
+      "learning_rate": 4.6400663669449796e-05,
+      "loss": 0.0552,
+      "step": 6800
+    },
+    {
+      "epoch": 5.750312630262609,
+      "grad_norm": 1.2528122663497925,
+      "learning_rate": 4.602601156069364e-05,
+      "loss": 0.0508,
+      "step": 6900
+    },
+    {
+      "epoch": 5.833680700291788,
+      "grad_norm": 1.044662594795227,
+      "learning_rate": 4.565135945193749e-05,
+      "loss": 0.0531,
+      "step": 7000
+    },
+    {
+      "epoch": 5.917048770320967,
+      "grad_norm": 0.8813854455947876,
+      "learning_rate": 4.5276707343181333e-05,
+      "loss": 0.0482,
+      "step": 7100
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.4556822776794434,
+      "learning_rate": 4.490205523442518e-05,
+      "loss": 0.0516,
+      "step": 7200
+    },
+    {
+      "epoch": 6.0,
+      "eval_administration_accuracy": 0.9356889722743381,
+      "eval_administration_f1": 0.9317820245044639,
+      "eval_corruption_accuracy": 0.9579945799457995,
+      "eval_corruption_f1": 0.9568343721711066,
+      "eval_democracy_accuracy": 0.9589326662497394,
+      "eval_democracy_f1": 0.95607216308818,
+      "eval_development_accuracy": 0.9168230143839899,
+      "eval_development_f1": 0.9143401221807914,
+      "eval_economy_accuracy": 0.9308943089430894,
+      "eval_economy_f1": 0.9294738147048666,
+      "eval_education_accuracy": 0.9669585157390036,
+      "eval_education_f1": 0.965464450546169,
+      "eval_environment_accuracy": 0.9786324786324786,
+      "eval_environment_f1": 0.977778980162068,
+      "eval_instability_accuracy": 0.9441317490097978,
+      "eval_instability_f1": 0.9395705042517813,
+      "eval_leadership_accuracy": 0.8412549510110485,
+      "eval_leadership_f1": 0.8395230039371011,
+      "eval_loss": 0.26496145129203796,
+      "eval_overall_accuracy": 0.938372941421722,
+      "eval_overall_f1": 0.9362734744251768,
+      "eval_race_accuracy": 0.9541380029184907,
+      "eval_race_f1": 0.9519598766506976,
+      "eval_religion_accuracy": 0.9579945799457995,
+      "eval_religion_f1": 0.9568944771373694,
+      "eval_runtime": 10.8844,
+      "eval_safety_accuracy": 0.9170314780070877,
+      "eval_safety_f1": 0.915587903767528,
+      "eval_samples_per_second": 881.445,
+      "eval_steps_per_second": 55.125,
+      "step": 7200
+    },
+    {
+      "epoch": 6.083368070029179,
+      "grad_norm": 0.7286815643310547,
+      "learning_rate": 4.452740312566902e-05,
+      "loss": 0.0366,
+      "step": 7300
+    },
+    {
+      "epoch": 6.166736140058358,
+      "grad_norm": 2.7514851093292236,
+      "learning_rate": 4.4152751016912864e-05,
+      "loss": 0.0392,
+      "step": 7400
+    },
+    {
+      "epoch": 6.250104210087536,
+      "grad_norm": 1.0808284282684326,
+      "learning_rate": 4.377809890815671e-05,
+      "loss": 0.0365,
+      "step": 7500
+    },
+    {
+      "epoch": 6.333472280116715,
+      "grad_norm": 0.5677124261856079,
+      "learning_rate": 4.3403446799400555e-05,
+      "loss": 0.0439,
+      "step": 7600
+    },
+    {
+      "epoch": 6.416840350145894,
+      "grad_norm": 0.7869217991828918,
+      "learning_rate": 4.30287946906444e-05,
+      "loss": 0.034,
+      "step": 7700
+    },
+    {
+      "epoch": 6.500208420175073,
+      "grad_norm": 0.6197104454040527,
+      "learning_rate": 4.265414258188825e-05,
+      "loss": 0.0375,
+      "step": 7800
+    },
+    {
+      "epoch": 6.583576490204251,
+      "grad_norm": 1.126968264579773,
+      "learning_rate": 4.228323699421965e-05,
+      "loss": 0.0437,
+      "step": 7900
+    },
+    {
+      "epoch": 6.66694456023343,
+      "grad_norm": 0.6215279698371887,
+      "learning_rate": 4.190858488546349e-05,
+      "loss": 0.0413,
+      "step": 8000
+    },
+    {
+      "epoch": 6.750312630262609,
+      "grad_norm": 1.0289812088012695,
+      "learning_rate": 4.153393277670734e-05,
+      "loss": 0.0383,
+      "step": 8100
+    },
+    {
+      "epoch": 6.833680700291788,
+      "grad_norm": 1.2618753910064697,
+      "learning_rate": 4.1159280667951184e-05,
+      "loss": 0.037,
+      "step": 8200
+    },
+    {
+      "epoch": 6.917048770320967,
+      "grad_norm": 0.48271915316581726,
+      "learning_rate": 4.078462855919502e-05,
+      "loss": 0.0403,
+      "step": 8300
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.4230297803878784,
+      "learning_rate": 4.040997645043887e-05,
+      "loss": 0.0421,
+      "step": 8400
+    },
+    {
+      "epoch": 7.0,
+      "eval_administration_accuracy": 0.9262038774233896,
+      "eval_administration_f1": 0.9271433160043757,
+      "eval_corruption_accuracy": 0.9570564936418595,
+      "eval_corruption_f1": 0.9567097147624816,
+      "eval_democracy_accuracy": 0.9531999166145507,
+      "eval_democracy_f1": 0.9521445432226068,
+      "eval_development_accuracy": 0.9057744423598082,
+      "eval_development_f1": 0.9056708555901262,
+      "eval_economy_accuracy": 0.9282885136543673,
+      "eval_economy_f1": 0.926345436006994,
+      "eval_education_accuracy": 0.962059620596206,
+      "eval_education_f1": 0.961835890625152,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9790877092918502,
+      "eval_instability_accuracy": 0.9382947675630603,
+      "eval_instability_f1": 0.9376909954205174,
+      "eval_leadership_accuracy": 0.8362518240567021,
+      "eval_leadership_f1": 0.8378707787677608,
+      "eval_loss": 0.2829027473926544,
+      "eval_overall_accuracy": 0.9348638037662428,
+      "eval_overall_f1": 0.9341947646002294,
+      "eval_race_accuracy": 0.9518449030644153,
+      "eval_race_f1": 0.9506769394120873,
+      "eval_religion_accuracy": 0.9585157390035439,
+      "eval_religion_f1": 0.9579338409216822,
+      "eval_runtime": 10.9473,
+      "eval_safety_accuracy": 0.9203668959766521,
+      "eval_safety_f1": 0.917227155177119,
+      "eval_samples_per_second": 876.38,
+      "eval_steps_per_second": 54.808,
+      "step": 8400
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 19184,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.070187082265395e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 7e-05,
+    "num_train_epochs": 16
+  }
+}

run-2/checkpoint-8400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a417688ba3a38960888d219af94bafd1d9551df9005996513f2ac72dfc76c145
+size 5368

run-2/checkpoint-9600/config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20",
+    "21": "LABEL_21",
+    "22": "LABEL_22",
+    "23": "LABEL_23",
+    "24": "LABEL_24",
+    "25": "LABEL_25",
+    "26": "LABEL_26",
+    "27": "LABEL_27",
+    "28": "LABEL_28",
+    "29": "LABEL_29",
+    "30": "LABEL_30",
+    "31": "LABEL_31",
+    "32": "LABEL_32",
+    "33": "LABEL_33",
+    "34": "LABEL_34",
+    "35": "LABEL_35",
+    "36": "LABEL_36",
+    "37": "LABEL_37",
+    "38": "LABEL_38",
+    "39": "LABEL_39",
+    "40": "LABEL_40",
+    "41": "LABEL_41",
+    "42": "LABEL_42",
+    "43": "LABEL_43",
+    "44": "LABEL_44",
+    "45": "LABEL_45",
+    "46": "LABEL_46",
+    "47": "LABEL_47"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_21": 21,
+    "LABEL_22": 22,
+    "LABEL_23": 23,
+    "LABEL_24": 24,
+    "LABEL_25": 25,
+    "LABEL_26": 26,
+    "LABEL_27": 27,
+    "LABEL_28": 28,
+    "LABEL_29": 29,
+    "LABEL_3": 3,
+    "LABEL_30": 30,
+    "LABEL_31": 31,
+    "LABEL_32": 32,
+    "LABEL_33": 33,
+    "LABEL_34": 34,
+    "LABEL_35": 35,
+    "LABEL_36": 36,
+    "LABEL_37": 37,
+    "LABEL_38": 38,
+    "LABEL_39": 39,
+    "LABEL_4": 4,
+    "LABEL_40": 40,
+    "LABEL_41": 41,
+    "LABEL_42": 42,
+    "LABEL_43": 43,
+    "LABEL_44": 44,
+    "LABEL_45": 45,
+    "LABEL_46": 46,
+    "LABEL_47": 47,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-9600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c340072dfef17fac21351cdcf69e3e3cfd8e691bf5f156e56c6e22e7dd9b9ffb
+size 438100144

run-2/checkpoint-9600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a39aa8c3124c59be8892b8efe52e85a917a20955115486b15ce5c1cd510cb479
+size 876321402

run-2/checkpoint-9600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffad3d9471fb61b3f42fea2e7138fc106169adb362290f6561f26126680d7263
+size 14244

run-2/checkpoint-9600/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2ae9ad4181ffc3e9df875e777e97d2f9b7c255e21df065b6238ff529b264c44
+size 988

run-2/checkpoint-9600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71336da14085796816d87de8a9778757f36434ba98e37214737395052ada44cd
+size 1064

run-2/checkpoint-9600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,991 @@

+{
+  "best_global_step": 7200,
+  "best_metric": 0.9362734744251768,
+  "best_model_checkpoint": "./results/run-2/checkpoint-7200",
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 9600,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08336807002917883,
+      "grad_norm": 1.2878578901290894,
+      "learning_rate": 1.4e-05,
+      "loss": 1.2644,
+      "step": 100
+    },
+    {
+      "epoch": 0.16673614005835766,
+      "grad_norm": 1.0009047985076904,
+      "learning_rate": 2.8e-05,
+      "loss": 0.4758,
+      "step": 200
+    },
+    {
+      "epoch": 0.25010421008753647,
+      "grad_norm": 0.7635347843170166,
+      "learning_rate": 4.2e-05,
+      "loss": 0.4054,
+      "step": 300
+    },
+    {
+      "epoch": 0.3334722801167153,
+      "grad_norm": 0.8168604373931885,
+      "learning_rate": 5.6e-05,
+      "loss": 0.3468,
+      "step": 400
+    },
+    {
+      "epoch": 0.4168403501458941,
+      "grad_norm": 1.1069319248199463,
+      "learning_rate": 7e-05,
+      "loss": 0.3051,
+      "step": 500
+    },
+    {
+      "epoch": 0.5002084201750729,
+      "grad_norm": 1.015086054801941,
+      "learning_rate": 6.962534789124383e-05,
+      "loss": 0.3044,
+      "step": 600
+    },
+    {
+      "epoch": 0.5835764902042517,
+      "grad_norm": 0.8430781364440918,
+      "learning_rate": 6.925069578248769e-05,
+      "loss": 0.2742,
+      "step": 700
+    },
+    {
+      "epoch": 0.6669445602334306,
+      "grad_norm": 0.950409471988678,
+      "learning_rate": 6.887604367373152e-05,
+      "loss": 0.2573,
+      "step": 800
+    },
+    {
+      "epoch": 0.7503126302626094,
+      "grad_norm": 1.171885371208191,
+      "learning_rate": 6.850139156497538e-05,
+      "loss": 0.2517,
+      "step": 900
+    },
+    {
+      "epoch": 0.8336807002917882,
+      "grad_norm": 0.9133914709091187,
+      "learning_rate": 6.812673945621922e-05,
+      "loss": 0.2435,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9170487703209671,
+      "grad_norm": 0.7939682602882385,
+      "learning_rate": 6.775208734746307e-05,
+      "loss": 0.2373,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.49670639634132385,
+      "learning_rate": 6.737743523870691e-05,
+      "loss": 0.2363,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0,
+      "eval_administration_accuracy": 0.9302689180737961,
+      "eval_administration_f1": 0.9077189587684091,
+      "eval_corruption_accuracy": 0.9534083802376485,
+      "eval_corruption_f1": 0.9474431988592255,
+      "eval_democracy_accuracy": 0.9473629351678132,
+      "eval_democracy_f1": 0.9358042521135516,
+      "eval_development_accuracy": 0.9094225557640192,
+      "eval_development_f1": 0.8937523747915405,
+      "eval_economy_accuracy": 0.924119241192412,
+      "eval_economy_f1": 0.9156575066932242,
+      "eval_education_accuracy": 0.9621638524077548,
+      "eval_education_f1": 0.9583809787976314,
+      "eval_environment_accuracy": 0.9775901605169898,
+      "eval_environment_f1": 0.9754739686963207,
+      "eval_instability_accuracy": 0.9422555764019178,
+      "eval_instability_f1": 0.9343996801103537,
+      "eval_leadership_accuracy": 0.7970606629143214,
+      "eval_leadership_f1": 0.7702375495381067,
+      "eval_loss": 0.22745274007320404,
+      "eval_overall_accuracy": 0.9296261552359112,
+      "eval_overall_f1": 0.9199542168750479,
+      "eval_race_accuracy": 0.9505941213258287,
+      "eval_race_f1": 0.9483610849847235,
+      "eval_religion_accuracy": 0.9505941213258287,
+      "eval_religion_f1": 0.9489643730683611,
+      "eval_runtime": 11.0331,
+      "eval_safety_accuracy": 0.9106733375026058,
+      "eval_safety_f1": 0.9032566760791263,
+      "eval_samples_per_second": 869.566,
+      "eval_steps_per_second": 54.382,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0833680700291788,
+      "grad_norm": 0.949184238910675,
+      "learning_rate": 6.700278312995076e-05,
+      "loss": 0.1968,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1667361400583576,
+      "grad_norm": 0.7735128402709961,
+      "learning_rate": 6.66281310211946e-05,
+      "loss": 0.1924,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2501042100875366,
+      "grad_norm": 1.0187016725540161,
+      "learning_rate": 6.625347891243845e-05,
+      "loss": 0.1945,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3334722801167154,
+      "grad_norm": 0.9707878828048706,
+      "learning_rate": 6.587882680368229e-05,
+      "loss": 0.1931,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4168403501458942,
+      "grad_norm": 1.4602934122085571,
+      "learning_rate": 6.550417469492613e-05,
+      "loss": 0.1967,
+      "step": 1700
+    },
+    {
+      "epoch": 1.500208420175073,
+      "grad_norm": 1.2449183464050293,
+      "learning_rate": 6.512952258616998e-05,
+      "loss": 0.1843,
+      "step": 1800
+    },
+    {
+      "epoch": 1.5835764902042517,
+      "grad_norm": 1.4943019151687622,
+      "learning_rate": 6.475487047741382e-05,
+      "loss": 0.1844,
+      "step": 1900
+    },
+    {
+      "epoch": 1.6669445602334307,
+      "grad_norm": 1.8496220111846924,
+      "learning_rate": 6.438021836865767e-05,
+      "loss": 0.1797,
+      "step": 2000
+    },
+    {
+      "epoch": 1.7503126302626093,
+      "grad_norm": 1.0578210353851318,
+      "learning_rate": 6.400556625990151e-05,
+      "loss": 0.1875,
+      "step": 2100
+    },
+    {
+      "epoch": 1.8336807002917883,
+      "grad_norm": 1.0538480281829834,
+      "learning_rate": 6.363091415114536e-05,
+      "loss": 0.1685,
+      "step": 2200
+    },
+    {
+      "epoch": 1.917048770320967,
+      "grad_norm": 1.5351332426071167,
+      "learning_rate": 6.32562620423892e-05,
+      "loss": 0.1744,
+      "step": 2300
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.9578828811645508,
+      "learning_rate": 6.288160993363306e-05,
+      "loss": 0.1811,
+      "step": 2400
+    },
+    {
+      "epoch": 2.0,
+      "eval_administration_accuracy": 0.9344381905357515,
+      "eval_administration_f1": 0.9296143144580357,
+      "eval_corruption_accuracy": 0.9604961434229727,
+      "eval_corruption_f1": 0.9577803781696625,
+      "eval_democracy_accuracy": 0.9534083802376485,
+      "eval_democracy_f1": 0.9434755362160818,
+      "eval_development_accuracy": 0.9193245778611632,
+      "eval_development_f1": 0.9132597892423039,
+      "eval_economy_accuracy": 0.931311236189285,
+      "eval_economy_f1": 0.92884213698996,
+      "eval_education_accuracy": 0.9653950385657702,
+      "eval_education_f1": 0.963862144635937,
+      "eval_environment_accuracy": 0.979153637690223,
+      "eval_environment_f1": 0.9783610154594226,
+      "eval_instability_accuracy": 0.9459036898061288,
+      "eval_instability_f1": 0.9423381513536221,
+      "eval_leadership_accuracy": 0.8387533875338753,
+      "eval_leadership_f1": 0.8323519207670947,
+      "eval_loss": 0.2031705528497696,
+      "eval_overall_accuracy": 0.9372177055103883,
+      "eval_overall_f1": 0.9339233416905627,
+      "eval_race_accuracy": 0.9516364394413175,
+      "eval_race_f1": 0.9498984068182696,
+      "eval_religion_accuracy": 0.9558057119032729,
+      "eval_religion_f1": 0.9554428854878803,
+      "eval_runtime": 11.0378,
+      "eval_safety_accuracy": 0.9109860329372524,
+      "eval_safety_f1": 0.9118534206884823,
+      "eval_samples_per_second": 869.197,
+      "eval_steps_per_second": 54.359,
+      "step": 2400
+    },
+    {
+      "epoch": 2.083368070029179,
+      "grad_norm": 1.0708891153335571,
+      "learning_rate": 6.25069578248769e-05,
+      "loss": 0.1338,
+      "step": 2500
+    },
+    {
+      "epoch": 2.1667361400583576,
+      "grad_norm": 1.0800749063491821,
+      "learning_rate": 6.213230571612073e-05,
+      "loss": 0.1268,
+      "step": 2600
+    },
+    {
+      "epoch": 2.2501042100875366,
+      "grad_norm": 1.3577998876571655,
+      "learning_rate": 6.175765360736459e-05,
+      "loss": 0.1226,
+      "step": 2700
+    },
+    {
+      "epoch": 2.333472280116715,
+      "grad_norm": 1.325534701347351,
+      "learning_rate": 6.138300149860843e-05,
+      "loss": 0.1258,
+      "step": 2800
+    },
+    {
+      "epoch": 2.416840350145894,
+      "grad_norm": 1.7846063375473022,
+      "learning_rate": 6.100834938985228e-05,
+      "loss": 0.1308,
+      "step": 2900
+    },
+    {
+      "epoch": 2.500208420175073,
+      "grad_norm": 1.61028254032135,
+      "learning_rate": 6.0633697281096124e-05,
+      "loss": 0.1305,
+      "step": 3000
+    },
+    {
+      "epoch": 2.5835764902042517,
+      "grad_norm": 1.2228693962097168,
+      "learning_rate": 6.025904517233996e-05,
+      "loss": 0.1315,
+      "step": 3100
+    },
+    {
+      "epoch": 2.6669445602334307,
+      "grad_norm": 0.9486532807350159,
+      "learning_rate": 5.988439306358381e-05,
+      "loss": 0.1337,
+      "step": 3200
+    },
+    {
+      "epoch": 2.7503126302626093,
+      "grad_norm": 1.3199305534362793,
+      "learning_rate": 5.9509740954827654e-05,
+      "loss": 0.132,
+      "step": 3300
+    },
+    {
+      "epoch": 2.8336807002917883,
+      "grad_norm": 1.8821613788604736,
+      "learning_rate": 5.91350888460715e-05,
+      "loss": 0.1258,
+      "step": 3400
+    },
+    {
+      "epoch": 2.9170487703209673,
+      "grad_norm": 1.2816129922866821,
+      "learning_rate": 5.8760436737315346e-05,
+      "loss": 0.1282,
+      "step": 3500
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 5.737521171569824,
+      "learning_rate": 5.838578462855919e-05,
+      "loss": 0.1297,
+      "step": 3600
+    },
+    {
+      "epoch": 3.0,
+      "eval_administration_accuracy": 0.9375651448822181,
+      "eval_administration_f1": 0.9309689641816119,
+      "eval_corruption_accuracy": 0.9451740671252866,
+      "eval_corruption_f1": 0.9476001634812502,
+      "eval_democracy_accuracy": 0.9508025849489264,
+      "eval_democracy_f1": 0.9508783301626133,
+      "eval_development_accuracy": 0.921304982280592,
+      "eval_development_f1": 0.9145210502797096,
+      "eval_economy_accuracy": 0.930373149885345,
+      "eval_economy_f1": 0.9257602899924291,
+      "eval_education_accuracy": 0.9670627475505524,
+      "eval_education_f1": 0.9651765113114141,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9785021531425564,
+      "eval_instability_accuracy": 0.9419428809672712,
+      "eval_instability_f1": 0.9412425903038227,
+      "eval_leadership_accuracy": 0.8284344381905357,
+      "eval_leadership_f1": 0.8287745355631846,
+      "eval_loss": 0.21378232538700104,
+      "eval_overall_accuracy": 0.9360450976304634,
+      "eval_overall_f1": 0.9337781089602167,
+      "eval_race_accuracy": 0.9541380029184907,
+      "eval_race_f1": 0.9510004306979282,
+      "eval_religion_accuracy": 0.955701480091724,
+      "eval_religion_f1": 0.9539633431565642,
+      "eval_runtime": 11.1303,
+      "eval_safety_accuracy": 0.919533041484261,
+      "eval_safety_f1": 0.9169489452495161,
+      "eval_samples_per_second": 861.972,
+      "eval_steps_per_second": 53.907,
+      "step": 3600
+    },
+    {
+      "epoch": 3.083368070029179,
+      "grad_norm": 0.7353236079216003,
+      "learning_rate": 5.801113251980304e-05,
+      "loss": 0.0912,
+      "step": 3700
+    },
+    {
+      "epoch": 3.1667361400583576,
+      "grad_norm": 1.2753976583480835,
+      "learning_rate": 5.763648041104688e-05,
+      "loss": 0.0954,
+      "step": 3800
+    },
+    {
+      "epoch": 3.2501042100875366,
+      "grad_norm": 1.4709268808364868,
+      "learning_rate": 5.726182830229073e-05,
+      "loss": 0.0936,
+      "step": 3900
+    },
+    {
+      "epoch": 3.333472280116715,
+      "grad_norm": 0.8533086180686951,
+      "learning_rate": 5.6887176193534574e-05,
+      "loss": 0.0927,
+      "step": 4000
+    },
+    {
+      "epoch": 3.416840350145894,
+      "grad_norm": 1.1082295179367065,
+      "learning_rate": 5.6512524084778413e-05,
+      "loss": 0.091,
+      "step": 4100
+    },
+    {
+      "epoch": 3.500208420175073,
+      "grad_norm": 1.3943876028060913,
+      "learning_rate": 5.613787197602226e-05,
+      "loss": 0.0966,
+      "step": 4200
+    },
+    {
+      "epoch": 3.5835764902042517,
+      "grad_norm": 1.483786940574646,
+      "learning_rate": 5.5763219867266105e-05,
+      "loss": 0.0965,
+      "step": 4300
+    },
+    {
+      "epoch": 3.6669445602334307,
+      "grad_norm": 1.0739402770996094,
+      "learning_rate": 5.538856775850995e-05,
+      "loss": 0.0988,
+      "step": 4400
+    },
+    {
+      "epoch": 3.7503126302626093,
+      "grad_norm": 1.2540950775146484,
+      "learning_rate": 5.5013915649753796e-05,
+      "loss": 0.0921,
+      "step": 4500
+    },
+    {
+      "epoch": 3.8336807002917883,
+      "grad_norm": 1.5991489887237549,
+      "learning_rate": 5.463926354099764e-05,
+      "loss": 0.1044,
+      "step": 4600
+    },
+    {
+      "epoch": 3.9170487703209673,
+      "grad_norm": 1.71983003616333,
+      "learning_rate": 5.426461143224149e-05,
+      "loss": 0.0891,
+      "step": 4700
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.6225905418395996,
+      "learning_rate": 5.3889959323485334e-05,
+      "loss": 0.0935,
+      "step": 4800
+    },
+    {
+      "epoch": 4.0,
+      "eval_administration_accuracy": 0.9401709401709402,
+      "eval_administration_f1": 0.9351367023709064,
+      "eval_corruption_accuracy": 0.9568480300187617,
+      "eval_corruption_f1": 0.9560031856416787,
+      "eval_democracy_accuracy": 0.9563268709610173,
+      "eval_democracy_f1": 0.9539147719955986,
+      "eval_development_accuracy": 0.9181780279341255,
+      "eval_development_f1": 0.9124572322058647,
+      "eval_economy_accuracy": 0.929435063581405,
+      "eval_economy_f1": 0.9284126365185199,
+      "eval_education_accuracy": 0.9672712111736502,
+      "eval_education_f1": 0.9657318355589747,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9793120114242748,
+      "eval_instability_accuracy": 0.9337085678549093,
+      "eval_instability_f1": 0.9360007265571828,
+      "eval_leadership_accuracy": 0.8413591828225975,
+      "eval_leadership_f1": 0.8351481808317307,
+      "eval_loss": 0.22106842696666718,
+      "eval_overall_accuracy": 0.9382079077201028,
+      "eval_overall_f1": 0.9358746589615409,
+      "eval_race_accuracy": 0.9561184073379195,
+      "eval_race_f1": 0.9543792719379139,
+      "eval_religion_accuracy": 0.9570564936418595,
+      "eval_religion_f1": 0.9560165149767178,
+      "eval_runtime": 10.9937,
+      "eval_safety_accuracy": 0.9215134459036898,
+      "eval_safety_f1": 0.9179828375191263,
+      "eval_samples_per_second": 872.679,
+      "eval_steps_per_second": 54.577,
+      "step": 4800
+    },
+    {
+      "epoch": 4.083368070029179,
+      "grad_norm": 0.6198378801345825,
+      "learning_rate": 5.351530721472918e-05,
+      "loss": 0.0658,
+      "step": 4900
+    },
+    {
+      "epoch": 4.166736140058358,
+      "grad_norm": 1.2718008756637573,
+      "learning_rate": 5.3140655105973025e-05,
+      "loss": 0.0636,
+      "step": 5000
+    },
+    {
+      "epoch": 4.250104210087536,
+      "grad_norm": 1.476962685585022,
+      "learning_rate": 5.2766002997216864e-05,
+      "loss": 0.0742,
+      "step": 5100
+    },
+    {
+      "epoch": 4.333472280116715,
+      "grad_norm": 1.1485812664031982,
+      "learning_rate": 5.239135088846071e-05,
+      "loss": 0.0693,
+      "step": 5200
+    },
+    {
+      "epoch": 4.416840350145894,
+      "grad_norm": 1.2767895460128784,
+      "learning_rate": 5.2016698779704556e-05,
+      "loss": 0.0722,
+      "step": 5300
+    },
+    {
+      "epoch": 4.500208420175073,
+      "grad_norm": 0.6865003108978271,
+      "learning_rate": 5.16420466709484e-05,
+      "loss": 0.0701,
+      "step": 5400
+    },
+    {
+      "epoch": 4.583576490204251,
+      "grad_norm": 0.6567270755767822,
+      "learning_rate": 5.127114108327981e-05,
+      "loss": 0.069,
+      "step": 5500
+    },
+    {
+      "epoch": 4.66694456023343,
+      "grad_norm": 1.1187883615493774,
+      "learning_rate": 5.0896488974523654e-05,
+      "loss": 0.0716,
+      "step": 5600
+    },
+    {
+      "epoch": 4.750312630262609,
+      "grad_norm": 1.3242968320846558,
+      "learning_rate": 5.05218368657675e-05,
+      "loss": 0.0702,
+      "step": 5700
+    },
+    {
+      "epoch": 4.833680700291788,
+      "grad_norm": 1.458292841911316,
+      "learning_rate": 5.0147184757011346e-05,
+      "loss": 0.07,
+      "step": 5800
+    },
+    {
+      "epoch": 4.917048770320967,
+      "grad_norm": 0.7626857757568359,
+      "learning_rate": 4.977253264825519e-05,
+      "loss": 0.0733,
+      "step": 5900
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7239888310432434,
+      "learning_rate": 4.939788053949904e-05,
+      "loss": 0.0675,
+      "step": 6000
+    },
+    {
+      "epoch": 5.0,
+      "eval_administration_accuracy": 0.9306858453199917,
+      "eval_administration_f1": 0.9286500450585223,
+      "eval_corruption_accuracy": 0.9606003752345216,
+      "eval_corruption_f1": 0.9583563972269709,
+      "eval_democracy_accuracy": 0.9416301855326246,
+      "eval_democracy_f1": 0.9449257041063754,
+      "eval_development_accuracy": 0.9198457369189077,
+      "eval_development_f1": 0.9154714581737773,
+      "eval_economy_accuracy": 0.9344381905357515,
+      "eval_economy_f1": 0.9306995601866777,
+      "eval_education_accuracy": 0.9673754429851991,
+      "eval_education_f1": 0.9648349073741065,
+      "eval_environment_accuracy": 0.9803001876172608,
+      "eval_environment_f1": 0.9792105415103222,
+      "eval_instability_accuracy": 0.944757139879091,
+      "eval_instability_f1": 0.9391731690067155,
+      "eval_leadership_accuracy": 0.8202001250781739,
+      "eval_leadership_f1": 0.8225964840638132,
+      "eval_loss": 0.2460281401872635,
+      "eval_overall_accuracy": 0.9360364116461678,
+      "eval_overall_f1": 0.9339890155373726,
+      "eval_race_accuracy": 0.9508025849489264,
+      "eval_race_f1": 0.9501627076296991,
+      "eval_religion_accuracy": 0.9597665207421305,
+      "eval_religion_f1": 0.9575416931106416,
+      "eval_runtime": 10.9751,
+      "eval_safety_accuracy": 0.9220346049614342,
+      "eval_safety_f1": 0.916245519000848,
+      "eval_samples_per_second": 874.157,
+      "eval_steps_per_second": 54.669,
+      "step": 6000
+    },
+    {
+      "epoch": 5.083368070029179,
+      "grad_norm": 1.2741373777389526,
+      "learning_rate": 4.902322843074288e-05,
+      "loss": 0.0551,
+      "step": 6100
+    },
+    {
+      "epoch": 5.166736140058358,
+      "grad_norm": 0.5817021727561951,
+      "learning_rate": 4.864857632198673e-05,
+      "loss": 0.0505,
+      "step": 6200
+    },
+    {
+      "epoch": 5.250104210087536,
+      "grad_norm": 1.0689315795898438,
+      "learning_rate": 4.827392421323057e-05,
+      "loss": 0.049,
+      "step": 6300
+    },
+    {
+      "epoch": 5.333472280116715,
+      "grad_norm": 1.5673719644546509,
+      "learning_rate": 4.789927210447441e-05,
+      "loss": 0.0554,
+      "step": 6400
+    },
+    {
+      "epoch": 5.416840350145894,
+      "grad_norm": 1.1274124383926392,
+      "learning_rate": 4.752461999571826e-05,
+      "loss": 0.0523,
+      "step": 6500
+    },
+    {
+      "epoch": 5.500208420175073,
+      "grad_norm": 0.836388349533081,
+      "learning_rate": 4.7149967886962105e-05,
+      "loss": 0.0516,
+      "step": 6600
+    },
+    {
+      "epoch": 5.583576490204251,
+      "grad_norm": 1.7012029886245728,
+      "learning_rate": 4.677531577820595e-05,
+      "loss": 0.0559,
+      "step": 6700
+    },
+    {
+      "epoch": 5.66694456023343,
+      "grad_norm": 1.0244345664978027,
+      "learning_rate": 4.6400663669449796e-05,
+      "loss": 0.0552,
+      "step": 6800
+    },
+    {
+      "epoch": 5.750312630262609,
+      "grad_norm": 1.2528122663497925,
+      "learning_rate": 4.602601156069364e-05,
+      "loss": 0.0508,
+      "step": 6900
+    },
+    {
+      "epoch": 5.833680700291788,
+      "grad_norm": 1.044662594795227,
+      "learning_rate": 4.565135945193749e-05,
+      "loss": 0.0531,
+      "step": 7000
+    },
+    {
+      "epoch": 5.917048770320967,
+      "grad_norm": 0.8813854455947876,
+      "learning_rate": 4.5276707343181333e-05,
+      "loss": 0.0482,
+      "step": 7100
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.4556822776794434,
+      "learning_rate": 4.490205523442518e-05,
+      "loss": 0.0516,
+      "step": 7200
+    },
+    {
+      "epoch": 6.0,
+      "eval_administration_accuracy": 0.9356889722743381,
+      "eval_administration_f1": 0.9317820245044639,
+      "eval_corruption_accuracy": 0.9579945799457995,
+      "eval_corruption_f1": 0.9568343721711066,
+      "eval_democracy_accuracy": 0.9589326662497394,
+      "eval_democracy_f1": 0.95607216308818,
+      "eval_development_accuracy": 0.9168230143839899,
+      "eval_development_f1": 0.9143401221807914,
+      "eval_economy_accuracy": 0.9308943089430894,
+      "eval_economy_f1": 0.9294738147048666,
+      "eval_education_accuracy": 0.9669585157390036,
+      "eval_education_f1": 0.965464450546169,
+      "eval_environment_accuracy": 0.9786324786324786,
+      "eval_environment_f1": 0.977778980162068,
+      "eval_instability_accuracy": 0.9441317490097978,
+      "eval_instability_f1": 0.9395705042517813,
+      "eval_leadership_accuracy": 0.8412549510110485,
+      "eval_leadership_f1": 0.8395230039371011,
+      "eval_loss": 0.26496145129203796,
+      "eval_overall_accuracy": 0.938372941421722,
+      "eval_overall_f1": 0.9362734744251768,
+      "eval_race_accuracy": 0.9541380029184907,
+      "eval_race_f1": 0.9519598766506976,
+      "eval_religion_accuracy": 0.9579945799457995,
+      "eval_religion_f1": 0.9568944771373694,
+      "eval_runtime": 10.8844,
+      "eval_safety_accuracy": 0.9170314780070877,
+      "eval_safety_f1": 0.915587903767528,
+      "eval_samples_per_second": 881.445,
+      "eval_steps_per_second": 55.125,
+      "step": 7200
+    },
+    {
+      "epoch": 6.083368070029179,
+      "grad_norm": 0.7286815643310547,
+      "learning_rate": 4.452740312566902e-05,
+      "loss": 0.0366,
+      "step": 7300
+    },
+    {
+      "epoch": 6.166736140058358,
+      "grad_norm": 2.7514851093292236,
+      "learning_rate": 4.4152751016912864e-05,
+      "loss": 0.0392,
+      "step": 7400
+    },
+    {
+      "epoch": 6.250104210087536,
+      "grad_norm": 1.0808284282684326,
+      "learning_rate": 4.377809890815671e-05,
+      "loss": 0.0365,
+      "step": 7500
+    },
+    {
+      "epoch": 6.333472280116715,
+      "grad_norm": 0.5677124261856079,
+      "learning_rate": 4.3403446799400555e-05,
+      "loss": 0.0439,
+      "step": 7600
+    },
+    {
+      "epoch": 6.416840350145894,
+      "grad_norm": 0.7869217991828918,
+      "learning_rate": 4.30287946906444e-05,
+      "loss": 0.034,
+      "step": 7700
+    },
+    {
+      "epoch": 6.500208420175073,
+      "grad_norm": 0.6197104454040527,
+      "learning_rate": 4.265414258188825e-05,
+      "loss": 0.0375,
+      "step": 7800
+    },
+    {
+      "epoch": 6.583576490204251,
+      "grad_norm": 1.126968264579773,
+      "learning_rate": 4.228323699421965e-05,
+      "loss": 0.0437,
+      "step": 7900
+    },
+    {
+      "epoch": 6.66694456023343,
+      "grad_norm": 0.6215279698371887,
+      "learning_rate": 4.190858488546349e-05,
+      "loss": 0.0413,
+      "step": 8000
+    },
+    {
+      "epoch": 6.750312630262609,
+      "grad_norm": 1.0289812088012695,
+      "learning_rate": 4.153393277670734e-05,
+      "loss": 0.0383,
+      "step": 8100
+    },
+    {
+      "epoch": 6.833680700291788,
+      "grad_norm": 1.2618753910064697,
+      "learning_rate": 4.1159280667951184e-05,
+      "loss": 0.037,
+      "step": 8200
+    },
+    {
+      "epoch": 6.917048770320967,
+      "grad_norm": 0.48271915316581726,
+      "learning_rate": 4.078462855919502e-05,
+      "loss": 0.0403,
+      "step": 8300
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.4230297803878784,
+      "learning_rate": 4.040997645043887e-05,
+      "loss": 0.0421,
+      "step": 8400
+    },
+    {
+      "epoch": 7.0,
+      "eval_administration_accuracy": 0.9262038774233896,
+      "eval_administration_f1": 0.9271433160043757,
+      "eval_corruption_accuracy": 0.9570564936418595,
+      "eval_corruption_f1": 0.9567097147624816,
+      "eval_democracy_accuracy": 0.9531999166145507,
+      "eval_democracy_f1": 0.9521445432226068,
+      "eval_development_accuracy": 0.9057744423598082,
+      "eval_development_f1": 0.9056708555901262,
+      "eval_economy_accuracy": 0.9282885136543673,
+      "eval_economy_f1": 0.926345436006994,
+      "eval_education_accuracy": 0.962059620596206,
+      "eval_education_f1": 0.961835890625152,
+      "eval_environment_accuracy": 0.9805086512403586,
+      "eval_environment_f1": 0.9790877092918502,
+      "eval_instability_accuracy": 0.9382947675630603,
+      "eval_instability_f1": 0.9376909954205174,
+      "eval_leadership_accuracy": 0.8362518240567021,
+      "eval_leadership_f1": 0.8378707787677608,
+      "eval_loss": 0.2829027473926544,
+      "eval_overall_accuracy": 0.9348638037662428,
+      "eval_overall_f1": 0.9341947646002294,
+      "eval_race_accuracy": 0.9518449030644153,
+      "eval_race_f1": 0.9506769394120873,
+      "eval_religion_accuracy": 0.9585157390035439,
+      "eval_religion_f1": 0.9579338409216822,
+      "eval_runtime": 10.9473,
+      "eval_safety_accuracy": 0.9203668959766521,
+      "eval_safety_f1": 0.917227155177119,
+      "eval_samples_per_second": 876.38,
+      "eval_steps_per_second": 54.808,
+      "step": 8400
+    },
+    {
+      "epoch": 7.083368070029179,
+      "grad_norm": 0.5448200106620789,
+      "learning_rate": 4.0035324341682715e-05,
+      "loss": 0.0318,
+      "step": 8500
+    },
+    {
+      "epoch": 7.166736140058358,
+      "grad_norm": 0.2913892865180969,
+      "learning_rate": 3.966067223292656e-05,
+      "loss": 0.0286,
+      "step": 8600
+    },
+    {
+      "epoch": 7.250104210087536,
+      "grad_norm": 0.5748587250709534,
+      "learning_rate": 3.9286020124170406e-05,
+      "loss": 0.0263,
+      "step": 8700
+    },
+    {
+      "epoch": 7.333472280116715,
+      "grad_norm": 1.5411152839660645,
+      "learning_rate": 3.891136801541425e-05,
+      "loss": 0.0284,
+      "step": 8800
+    },
+    {
+      "epoch": 7.416840350145894,
+      "grad_norm": 0.7248807549476624,
+      "learning_rate": 3.85367159066581e-05,
+      "loss": 0.0294,
+      "step": 8900
+    },
+    {
+      "epoch": 7.500208420175073,
+      "grad_norm": 1.4579120874404907,
+      "learning_rate": 3.8162063797901943e-05,
+      "loss": 0.0311,
+      "step": 9000
+    },
+    {
+      "epoch": 7.583576490204251,
+      "grad_norm": 0.7706780433654785,
+      "learning_rate": 3.778741168914579e-05,
+      "loss": 0.0335,
+      "step": 9100
+    },
+    {
+      "epoch": 7.66694456023343,
+      "grad_norm": 2.0390424728393555,
+      "learning_rate": 3.7412759580389635e-05,
+      "loss": 0.031,
+      "step": 9200
+    },
+    {
+      "epoch": 7.750312630262609,
+      "grad_norm": 2.804685592651367,
+      "learning_rate": 3.7038107471633474e-05,
+      "loss": 0.0322,
+      "step": 9300
+    },
+    {
+      "epoch": 7.833680700291788,
+      "grad_norm": 1.1729462146759033,
+      "learning_rate": 3.666345536287732e-05,
+      "loss": 0.0318,
+      "step": 9400
+    },
+    {
+      "epoch": 7.917048770320967,
+      "grad_norm": 0.402351051568985,
+      "learning_rate": 3.6288803254121165e-05,
+      "loss": 0.0328,
+      "step": 9500
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.9323753714561462,
+      "learning_rate": 3.591415114536501e-05,
+      "loss": 0.0315,
+      "step": 9600
+    },
+    {
+      "epoch": 8.0,
+      "eval_administration_accuracy": 0.9343339587242027,
+      "eval_administration_f1": 0.9306710379016078,
+      "eval_corruption_accuracy": 0.9579945799457995,
+      "eval_corruption_f1": 0.956449462862611,
+      "eval_democracy_accuracy": 0.9521575984990619,
+      "eval_democracy_f1": 0.9518824877840592,
+      "eval_development_accuracy": 0.9153637690223057,
+      "eval_development_f1": 0.9115308958113573,
+      "eval_economy_accuracy": 0.9289139045236606,
+      "eval_economy_f1": 0.927826113707109,
+      "eval_education_accuracy": 0.9651865749426725,
+      "eval_education_f1": 0.9640713442699961,
+      "eval_environment_accuracy": 0.979153637690223,
+      "eval_environment_f1": 0.9780608387582607,
+      "eval_instability_accuracy": 0.9423598082134668,
+      "eval_instability_f1": 0.9402276314269008,
+      "eval_leadership_accuracy": 0.8358348968105066,
+      "eval_leadership_f1": 0.8373107575051231,
+      "eval_loss": 0.3004125952720642,
+      "eval_overall_accuracy": 0.9358018900701827,
+      "eval_overall_f1": 0.9347143795562429,
+      "eval_race_accuracy": 0.9542422347300397,
+      "eval_race_f1": 0.9531584962150744,
+      "eval_religion_accuracy": 0.9559099437148217,
+      "eval_religion_f1": 0.9557494733641548,
+      "eval_runtime": 11.0167,
+      "eval_safety_accuracy": 0.9081717740254326,
+      "eval_safety_f1": 0.9096340150686618,
+      "eval_samples_per_second": 870.856,
+      "eval_steps_per_second": 54.463,
+      "step": 9600
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 19184,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 2
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.080213808303309e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "gradient_accumulation_steps": 2,
+    "learning_rate": 7e-05,
+    "num_train_epochs": 16
+  }
+}

run-2/checkpoint-9600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a417688ba3a38960888d219af94bafd1d9551df9005996513f2ac72dfc76c145
+size 5368

run-3/checkpoint-2399/config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20",
+    "21": "LABEL_21",
+    "22": "LABEL_22",
+    "23": "LABEL_23",
+    "24": "LABEL_24",
+    "25": "LABEL_25",
+    "26": "LABEL_26",
+    "27": "LABEL_27",
+    "28": "LABEL_28",
+    "29": "LABEL_29",
+    "30": "LABEL_30",
+    "31": "LABEL_31",
+    "32": "LABEL_32",
+    "33": "LABEL_33",
+    "34": "LABEL_34",
+    "35": "LABEL_35",
+    "36": "LABEL_36",
+    "37": "LABEL_37",
+    "38": "LABEL_38",
+    "39": "LABEL_39",
+    "40": "LABEL_40",
+    "41": "LABEL_41",
+    "42": "LABEL_42",
+    "43": "LABEL_43",
+    "44": "LABEL_44",
+    "45": "LABEL_45",
+    "46": "LABEL_46",
+    "47": "LABEL_47"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_21": 21,
+    "LABEL_22": 22,
+    "LABEL_23": 23,
+    "LABEL_24": 24,
+    "LABEL_25": 25,
+    "LABEL_26": 26,
+    "LABEL_27": 27,
+    "LABEL_28": 28,
+    "LABEL_29": 29,
+    "LABEL_3": 3,
+    "LABEL_30": 30,
+    "LABEL_31": 31,
+    "LABEL_32": 32,
+    "LABEL_33": 33,
+    "LABEL_34": 34,
+    "LABEL_35": 35,
+    "LABEL_36": 36,
+    "LABEL_37": 37,
+    "LABEL_38": 38,
+    "LABEL_39": 39,
+    "LABEL_4": 4,
+    "LABEL_40": 40,
+    "LABEL_41": 41,
+    "LABEL_42": 42,
+    "LABEL_43": 43,
+    "LABEL_44": 44,
+    "LABEL_45": 45,
+    "LABEL_46": 46,
+    "LABEL_47": 47,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-3/checkpoint-2399/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8110a1a418d11311bbe6626de555c200d3eaaa703654697275995e81a68954e3
+size 438100144

run-3/checkpoint-2399/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b1beca8967cfa6ad4956b3d3d14442dbb80815621011735a65eef74c188bb7c
+size 876321402

run-3/checkpoint-2399/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03f6521411fa3fb31926db64cfd06b37e9d7c0607f2eec0bf790c73df4910854
+size 14244

run-3/checkpoint-2399/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:682405df65ef7d615cbe34704d2dda54adc24ce53ed603b2d26612ee1de8aa21
+size 988

run-3/checkpoint-2399/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17c054bc86d448e79f0bbaa2e17a04e4966aa89a69f0a1f25078d59dd4884943
+size 1064

run-3/checkpoint-2399/trainer_state.json ADDED Viewed

	@@ -0,0 +1,242 @@

+{
+  "best_global_step": 2399,
+  "best_metric": 0.9219705720705208,
+  "best_model_checkpoint": "./results/run-3/checkpoint-2399",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 2399,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.041684035014589414,
+      "grad_norm": 1.7545671463012695,
+      "learning_rate": 1.386e-05,
+      "loss": 1.2954,
+      "step": 100
+    },
+    {
+      "epoch": 0.08336807002917883,
+      "grad_norm": 0.7225435376167297,
+      "learning_rate": 2.7859999999999998e-05,
+      "loss": 0.5134,
+      "step": 200
+    },
+    {
+      "epoch": 0.12505210504376824,
+      "grad_norm": 0.9463444948196411,
+      "learning_rate": 4.1859999999999996e-05,
+      "loss": 0.4399,
+      "step": 300
+    },
+    {
+      "epoch": 0.16673614005835766,
+      "grad_norm": 0.8181287050247192,
+      "learning_rate": 5.586e-05,
+      "loss": 0.3608,
+      "step": 400
+    },
+    {
+      "epoch": 0.20842017507294705,
+      "grad_norm": 1.4074561595916748,
+      "learning_rate": 6.986e-05,
+      "loss": 0.3303,
+      "step": 500
+    },
+    {
+      "epoch": 0.25010421008753647,
+      "grad_norm": 1.232994556427002,
+      "learning_rate": 6.98170731707317e-05,
+      "loss": 0.3118,
+      "step": 600
+    },
+    {
+      "epoch": 0.29178824510212586,
+      "grad_norm": 1.1151797771453857,
+      "learning_rate": 6.96341463414634e-05,
+      "loss": 0.3067,
+      "step": 700
+    },
+    {
+      "epoch": 0.3334722801167153,
+      "grad_norm": 1.3453563451766968,
+      "learning_rate": 6.944937176644493e-05,
+      "loss": 0.2959,
+      "step": 800
+    },
+    {
+      "epoch": 0.3751563151313047,
+      "grad_norm": 1.3014110326766968,
+      "learning_rate": 6.926459719142646e-05,
+      "loss": 0.2803,
+      "step": 900
+    },
+    {
+      "epoch": 0.4168403501458941,
+      "grad_norm": 2.4783546924591064,
+      "learning_rate": 6.907982261640798e-05,
+      "loss": 0.275,
+      "step": 1000
+    },
+    {
+      "epoch": 0.45852438516048355,
+      "grad_norm": 1.0991694927215576,
+      "learning_rate": 6.88950480413895e-05,
+      "loss": 0.2725,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5002084201750729,
+      "grad_norm": 1.8534690141677856,
+      "learning_rate": 6.871027346637102e-05,
+      "loss": 0.2965,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5418924551896623,
+      "grad_norm": 1.533751130104065,
+      "learning_rate": 6.852549889135254e-05,
+      "loss": 0.257,
+      "step": 1300
+    },
+    {
+      "epoch": 0.5835764902042517,
+      "grad_norm": 1.39555025100708,
+      "learning_rate": 6.834072431633407e-05,
+      "loss": 0.2666,
+      "step": 1400
+    },
+    {
+      "epoch": 0.6252605252188412,
+      "grad_norm": 1.1627668142318726,
+      "learning_rate": 6.81559497413156e-05,
+      "loss": 0.2461,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6669445602334306,
+      "grad_norm": 1.319166660308838,
+      "learning_rate": 6.79711751662971e-05,
+      "loss": 0.242,
+      "step": 1600
+    },
+    {
+      "epoch": 0.70862859524802,
+      "grad_norm": 1.3535823822021484,
+      "learning_rate": 6.778640059127863e-05,
+      "loss": 0.2463,
+      "step": 1700
+    },
+    {
+      "epoch": 0.7503126302626094,
+      "grad_norm": 1.8609535694122314,
+      "learning_rate": 6.760162601626016e-05,
+      "loss": 0.2367,
+      "step": 1800
+    },
+    {
+      "epoch": 0.7919966652771988,
+      "grad_norm": 1.86128830909729,
+      "learning_rate": 6.741685144124168e-05,
+      "loss": 0.2449,
+      "step": 1900
+    },
+    {
+      "epoch": 0.8336807002917882,
+      "grad_norm": 1.8068938255310059,
+      "learning_rate": 6.723207686622321e-05,
+      "loss": 0.2329,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8753647353063777,
+      "grad_norm": 1.4341034889221191,
+      "learning_rate": 6.704730229120472e-05,
+      "loss": 0.2342,
+      "step": 2100
+    },
+    {
+      "epoch": 0.9170487703209671,
+      "grad_norm": 0.7307045459747314,
+      "learning_rate": 6.686252771618624e-05,
+      "loss": 0.2358,
+      "step": 2200
+    },
+    {
+      "epoch": 0.9587328053355565,
+      "grad_norm": 2.0308947563171387,
+      "learning_rate": 6.667775314116777e-05,
+      "loss": 0.2244,
+      "step": 2300
+    },
+    {
+      "epoch": 1.0,
+      "eval_administration_accuracy": 0.9317281634354805,
+      "eval_administration_f1": 0.9110301299328539,
+      "eval_corruption_accuracy": 0.9541380029184907,
+      "eval_corruption_f1": 0.9489574147600867,
+      "eval_democracy_accuracy": 0.9473629351678132,
+      "eval_democracy_f1": 0.935646230598331,
+      "eval_development_accuracy": 0.910464873879508,
+      "eval_development_f1": 0.9008646598644421,
+      "eval_economy_accuracy": 0.9235980821346675,
+      "eval_economy_f1": 0.9156600494130359,
+      "eval_education_accuracy": 0.9622680842193038,
+      "eval_education_f1": 0.9586233907920864,
+      "eval_environment_accuracy": 0.978319783197832,
+      "eval_environment_f1": 0.9770754665605412,
+      "eval_instability_accuracy": 0.9398582447362935,
+      "eval_instability_f1": 0.9299109706262821,
+      "eval_leadership_accuracy": 0.8081092349385033,
+      "eval_leadership_f1": 0.7818188134942813,
+      "eval_loss": 0.2264394313097,
+      "eval_overall_accuracy": 0.9310245987075256,
+      "eval_overall_f1": 0.9219705720705208,
+      "eval_race_accuracy": 0.9487179487179487,
+      "eval_race_f1": 0.9448562040025291,
+      "eval_religion_accuracy": 0.9527829893683553,
+      "eval_religion_f1": 0.950851997767183,
+      "eval_runtime": 11.1066,
+      "eval_safety_accuracy": 0.9149468417761101,
+      "eval_safety_f1": 0.9083515370345979,
+      "eval_samples_per_second": 863.809,
+      "eval_steps_per_second": 54.022,
+      "step": 2399
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 38384,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9686485853798400.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "gradient_accumulation_steps": 1,
+    "learning_rate": 7e-05,
+    "num_train_epochs": 16
+  }
+}

run-3/checkpoint-2399/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2574f00335e03e693d14802bd78255c32eb346c265bc7cfbd1b32046ac22108
+size 5368

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a417688ba3a38960888d219af94bafd1d9551df9005996513f2ac72dfc76c145
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2574f00335e03e693d14802bd78255c32eb346c265bc7cfbd1b32046ac22108
 size 5368