Upload with huggingface_hub

Browse files

Files changed (7) hide show

config.json +134 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1258 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,134 @@

+{
+  "_name_or_path": "Youssef320/LSTM-finetuned-50label-15epoch",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bidirectional": true,
+  "classifier_dropout": null,
+  "finetuning_task": "opentable",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 300,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20",
+    "21": "LABEL_21",
+    "22": "LABEL_22",
+    "23": "LABEL_23",
+    "24": "LABEL_24",
+    "25": "LABEL_25",
+    "26": "LABEL_26",
+    "27": "LABEL_27",
+    "28": "LABEL_28",
+    "29": "LABEL_29",
+    "30": "LABEL_30",
+    "31": "LABEL_31",
+    "32": "LABEL_32",
+    "33": "LABEL_33",
+    "34": "LABEL_34",
+    "35": "LABEL_35",
+    "36": "LABEL_36",
+    "37": "LABEL_37",
+    "38": "LABEL_38",
+    "39": "LABEL_39",
+    "40": "LABEL_40",
+    "41": "LABEL_41",
+    "42": "LABEL_42",
+    "43": "LABEL_43",
+    "44": "LABEL_44",
+    "45": "LABEL_45",
+    "46": "LABEL_46",
+    "47": "LABEL_47",
+    "48": "LABEL_48",
+    "49": "LABEL_49"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_21": 21,
+    "LABEL_22": 22,
+    "LABEL_23": 23,
+    "LABEL_24": 24,
+    "LABEL_25": 25,
+    "LABEL_26": 26,
+    "LABEL_27": 27,
+    "LABEL_28": 28,
+    "LABEL_29": 29,
+    "LABEL_3": 3,
+    "LABEL_30": 30,
+    "LABEL_31": 31,
+    "LABEL_32": 32,
+    "LABEL_33": 33,
+    "LABEL_34": 34,
+    "LABEL_35": 35,
+    "LABEL_36": 36,
+    "LABEL_37": 37,
+    "LABEL_38": 38,
+    "LABEL_39": 39,
+    "LABEL_4": 4,
+    "LABEL_40": 40,
+    "LABEL_41": 41,
+    "LABEL_42": 42,
+    "LABEL_43": 43,
+    "LABEL_44": 44,
+    "LABEL_45": 45,
+    "LABEL_46": 46,
+    "LABEL_47": 47,
+    "LABEL_48": 48,
+    "LABEL_49": 49,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 1,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.1",
+  "type_vocab_size": 2,
+  "update_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 30522
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31f9fc54d30d0ee964d5b3c35cf70ad7aaac54057e916a0cab2bb2ca34339d9e
+size 93018703

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c516e4ff3a9d1d1b170aa5dd91c3589f6f3c0b343d7020fdb5bd858ff96f5bbc
+size 46514455

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ef4b557a6a1f7ad0168da21859118df49ef8916eb8ced18893eb3476a2bef0b
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1a242c99dff776764f1754a7b0d7c0380bb4870865a110d7efeab5af40587ff
+size 623

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1258 @@

+{
+  "best_metric": 2.9716455936431885,
+  "best_model_checkpoint": "/root/workspace/mounts/blobs/blob-deeplm2/v-youmohamed/OUTPUT/checkpoint-896",
+  "epoch": 1.899688597363016,
+  "global_step": 896,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 3.7521,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002,
+      "loss": 3.4722,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 3.3737,
+      "step": 15
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002,
+      "loss": 3.3422,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002,
+      "loss": 3.2973,
+      "step": 25
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002,
+      "loss": 3.2657,
+      "step": 30
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002,
+      "loss": 3.2831,
+      "step": 35
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0002,
+      "loss": 3.2618,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002,
+      "loss": 3.2306,
+      "step": 45
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0002,
+      "loss": 3.2366,
+      "step": 50
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002,
+      "loss": 3.2351,
+      "step": 55
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0002,
+      "loss": 3.2498,
+      "step": 60
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 3.0548903942108154,
+      "eval_runtime": 12.4122,
+      "eval_samples_per_second": 9988.553,
+      "eval_steps_per_second": 156.137,
+      "eval_top3_3_weighted_f1_score ": 0.3635597179689758,
+      "eval_top_1_macro_f1_score": 0.12749506628104146,
+      "eval_top_1_weighted_f1score": 0.17965168935293338,
+      "eval_top_3_macro_f1_score": 0.27169270972798243,
+      "step": 64
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002,
+      "loss": 3.2185,
+      "step": 65
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002,
+      "loss": 3.2281,
+      "step": 70
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002,
+      "loss": 3.2107,
+      "step": 75
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002,
+      "loss": 3.1923,
+      "step": 80
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002,
+      "loss": 3.2002,
+      "step": 85
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002,
+      "loss": 3.1936,
+      "step": 90
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002,
+      "loss": 3.1864,
+      "step": 95
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002,
+      "loss": 3.1851,
+      "step": 100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0002,
+      "loss": 3.2114,
+      "step": 105
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002,
+      "loss": 3.1978,
+      "step": 110
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002,
+      "loss": 3.2071,
+      "step": 115
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002,
+      "loss": 3.1736,
+      "step": 120
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002,
+      "loss": 3.1662,
+      "step": 125
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 3.03450345993042,
+      "eval_runtime": 12.3026,
+      "eval_samples_per_second": 10077.544,
+      "eval_steps_per_second": 157.528,
+      "eval_top3_3_weighted_f1_score ": 0.367365798951655,
+      "eval_top_1_macro_f1_score": 0.13108849715797372,
+      "eval_top_1_weighted_f1score": 0.1856398470154161,
+      "eval_top_3_macro_f1_score": 0.2767454300628382,
+      "step": 128
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002,
+      "loss": 3.1539,
+      "step": 130
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002,
+      "loss": 3.2208,
+      "step": 135
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002,
+      "loss": 3.1691,
+      "step": 140
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0002,
+      "loss": 3.1579,
+      "step": 145
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0002,
+      "loss": 3.1827,
+      "step": 150
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002,
+      "loss": 3.1546,
+      "step": 155
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002,
+      "loss": 3.1561,
+      "step": 160
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002,
+      "loss": 3.1529,
+      "step": 165
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002,
+      "loss": 3.1775,
+      "step": 170
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002,
+      "loss": 3.152,
+      "step": 175
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0002,
+      "loss": 3.1556,
+      "step": 180
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002,
+      "loss": 3.1562,
+      "step": 185
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002,
+      "loss": 3.16,
+      "step": 190
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 3.0158042907714844,
+      "eval_runtime": 12.5431,
+      "eval_samples_per_second": 9884.289,
+      "eval_steps_per_second": 154.507,
+      "eval_top3_3_weighted_f1_score ": 0.3724159289868765,
+      "eval_top_1_macro_f1_score": 0.13421610412877683,
+      "eval_top_1_weighted_f1score": 0.18861048252163506,
+      "eval_top_3_macro_f1_score": 0.2791788451621761,
+      "step": 192
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002,
+      "loss": 3.1525,
+      "step": 195
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002,
+      "loss": 3.1471,
+      "step": 200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002,
+      "loss": 3.1479,
+      "step": 205
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002,
+      "loss": 3.1221,
+      "step": 210
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002,
+      "loss": 3.1531,
+      "step": 215
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002,
+      "loss": 3.1237,
+      "step": 220
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002,
+      "loss": 3.1619,
+      "step": 225
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002,
+      "loss": 3.1405,
+      "step": 230
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002,
+      "loss": 3.1649,
+      "step": 235
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002,
+      "loss": 3.1444,
+      "step": 240
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002,
+      "loss": 3.1373,
+      "step": 245
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002,
+      "loss": 3.1303,
+      "step": 250
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002,
+      "loss": 3.1154,
+      "step": 255
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 3.0033798217773438,
+      "eval_runtime": 12.4351,
+      "eval_samples_per_second": 9970.191,
+      "eval_steps_per_second": 155.85,
+      "eval_top3_3_weighted_f1_score ": 0.3769780434228148,
+      "eval_top_1_macro_f1_score": 0.13432065892500267,
+      "eval_top_1_weighted_f1score": 0.18801869311169406,
+      "eval_top_3_macro_f1_score": 0.28440917781504094,
+      "step": 256
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002,
+      "loss": 3.1335,
+      "step": 260
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002,
+      "loss": 3.1378,
+      "step": 265
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002,
+      "loss": 3.1427,
+      "step": 270
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002,
+      "loss": 3.1226,
+      "step": 275
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002,
+      "loss": 3.126,
+      "step": 280
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002,
+      "loss": 3.139,
+      "step": 285
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002,
+      "loss": 3.1391,
+      "step": 290
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0002,
+      "loss": 3.1416,
+      "step": 295
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002,
+      "loss": 3.133,
+      "step": 300
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0002,
+      "loss": 3.1336,
+      "step": 305
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0002,
+      "loss": 3.1213,
+      "step": 310
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002,
+      "loss": 3.1144,
+      "step": 315
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0002,
+      "loss": 3.1257,
+      "step": 320
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 2.9847888946533203,
+      "eval_runtime": 12.4682,
+      "eval_samples_per_second": 9943.722,
+      "eval_steps_per_second": 155.436,
+      "eval_top3_3_weighted_f1_score ": 0.3782555483193414,
+      "eval_top_1_macro_f1_score": 0.1332053681737893,
+      "eval_top_1_weighted_f1score": 0.18758504608314192,
+      "eval_top_3_macro_f1_score": 0.2819546880264732,
+      "step": 320
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0002,
+      "loss": 3.1373,
+      "step": 325
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0002,
+      "loss": 3.1284,
+      "step": 330
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0002,
+      "loss": 3.1107,
+      "step": 335
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0002,
+      "loss": 3.1181,
+      "step": 340
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0002,
+      "loss": 3.145,
+      "step": 345
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0002,
+      "loss": 3.1185,
+      "step": 350
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0002,
+      "loss": 3.1189,
+      "step": 355
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002,
+      "loss": 3.14,
+      "step": 360
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0002,
+      "loss": 3.1101,
+      "step": 365
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002,
+      "loss": 3.1137,
+      "step": 370
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0002,
+      "loss": 3.1133,
+      "step": 375
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0002,
+      "loss": 3.1227,
+      "step": 380
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 2.9721128940582275,
+      "eval_runtime": 12.3698,
+      "eval_samples_per_second": 10022.814,
+      "eval_steps_per_second": 156.672,
+      "eval_top3_3_weighted_f1_score ": 0.38056857139903855,
+      "eval_top_1_macro_f1_score": 0.13385895070094989,
+      "eval_top_1_weighted_f1score": 0.1886778688260468,
+      "eval_top_3_macro_f1_score": 0.2843530525848158,
+      "step": 384
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0002,
+      "loss": 3.1068,
+      "step": 385
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0002,
+      "loss": 3.1013,
+      "step": 390
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0002,
+      "loss": 3.1157,
+      "step": 395
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0002,
+      "loss": 3.1285,
+      "step": 400
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002,
+      "loss": 3.1209,
+      "step": 405
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002,
+      "loss": 3.1084,
+      "step": 410
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0002,
+      "loss": 3.1085,
+      "step": 415
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002,
+      "loss": 3.0964,
+      "step": 420
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002,
+      "loss": 3.0977,
+      "step": 425
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002,
+      "loss": 3.1077,
+      "step": 430
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002,
+      "loss": 3.1209,
+      "step": 435
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002,
+      "loss": 3.1191,
+      "step": 440
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0002,
+      "loss": 3.1058,
+      "step": 445
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 2.973684549331665,
+      "eval_runtime": 12.3568,
+      "eval_samples_per_second": 10033.312,
+      "eval_steps_per_second": 156.836,
+      "eval_top3_3_weighted_f1_score ": 0.3815054842495814,
+      "eval_top_1_macro_f1_score": 0.13689945428212444,
+      "eval_top_1_weighted_f1score": 0.19158272343260493,
+      "eval_top_3_macro_f1_score": 0.28709815898256036,
+      "step": 448
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0002,
+      "loss": 3.0965,
+      "step": 450
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0002,
+      "loss": 3.1091,
+      "step": 455
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0002,
+      "loss": 3.1282,
+      "step": 460
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0002,
+      "loss": 3.1004,
+      "step": 465
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002,
+      "loss": 3.124,
+      "step": 470
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0002,
+      "loss": 3.0761,
+      "step": 475
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0002,
+      "loss": 3.0486,
+      "step": 480
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0002,
+      "loss": 3.0358,
+      "step": 485
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0002,
+      "loss": 3.0124,
+      "step": 490
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0002,
+      "loss": 3.0363,
+      "step": 495
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0002,
+      "loss": 3.0223,
+      "step": 500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002,
+      "loss": 3.0283,
+      "step": 505
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0002,
+      "loss": 3.0411,
+      "step": 510
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 3.0033085346221924,
+      "eval_runtime": 12.3385,
+      "eval_samples_per_second": 10048.213,
+      "eval_steps_per_second": 157.069,
+      "eval_top3_3_weighted_f1_score ": 0.38084561975369874,
+      "eval_top_1_macro_f1_score": 0.13521743605085645,
+      "eval_top_1_weighted_f1score": 0.18797578254383546,
+      "eval_top_3_macro_f1_score": 0.2897663126149453,
+      "step": 512
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0002,
+      "loss": 3.0425,
+      "step": 515
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0002,
+      "loss": 3.0122,
+      "step": 520
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0002,
+      "loss": 3.0186,
+      "step": 525
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0002,
+      "loss": 3.034,
+      "step": 530
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0002,
+      "loss": 3.0444,
+      "step": 535
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0002,
+      "loss": 3.0289,
+      "step": 540
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0002,
+      "loss": 3.0539,
+      "step": 545
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0002,
+      "loss": 3.0165,
+      "step": 550
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0002,
+      "loss": 3.0315,
+      "step": 555
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0002,
+      "loss": 3.0457,
+      "step": 560
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0002,
+      "loss": 3.0518,
+      "step": 565
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0002,
+      "loss": 3.0271,
+      "step": 570
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0002,
+      "loss": 3.0259,
+      "step": 575
+    },
+    {
+      "epoch": 1.22,
+      "eval_loss": 3.003117799758911,
+      "eval_runtime": 12.3306,
+      "eval_samples_per_second": 10054.688,
+      "eval_steps_per_second": 157.17,
+      "eval_top3_3_weighted_f1_score ": 0.3808180416513238,
+      "eval_top_1_macro_f1_score": 0.1357746878516193,
+      "eval_top_1_weighted_f1score": 0.18830594414771443,
+      "eval_top_3_macro_f1_score": 0.2872982485151964,
+      "step": 576
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0002,
+      "loss": 3.0503,
+      "step": 580
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0002,
+      "loss": 3.0367,
+      "step": 585
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002,
+      "loss": 3.0622,
+      "step": 590
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0002,
+      "loss": 3.0268,
+      "step": 595
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0002,
+      "loss": 3.0288,
+      "step": 600
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0002,
+      "loss": 3.0374,
+      "step": 605
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0002,
+      "loss": 3.0423,
+      "step": 610
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0002,
+      "loss": 3.0421,
+      "step": 615
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0002,
+      "loss": 3.0486,
+      "step": 620
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0002,
+      "loss": 3.0581,
+      "step": 625
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0002,
+      "loss": 3.0522,
+      "step": 630
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0002,
+      "loss": 3.038,
+      "step": 635
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0002,
+      "loss": 3.0224,
+      "step": 640
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 2.991966485977173,
+      "eval_runtime": 12.3903,
+      "eval_samples_per_second": 10006.224,
+      "eval_steps_per_second": 156.413,
+      "eval_top3_3_weighted_f1_score ": 0.38244182168677654,
+      "eval_top_1_macro_f1_score": 0.13697887613478638,
+      "eval_top_1_weighted_f1score": 0.19008342397049477,
+      "eval_top_3_macro_f1_score": 0.28950530056980883,
+      "step": 640
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002,
+      "loss": 3.0515,
+      "step": 645
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0002,
+      "loss": 3.059,
+      "step": 650
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0002,
+      "loss": 3.0618,
+      "step": 655
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0002,
+      "loss": 3.0419,
+      "step": 660
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0002,
+      "loss": 3.0413,
+      "step": 665
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0002,
+      "loss": 3.0274,
+      "step": 670
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0002,
+      "loss": 3.0381,
+      "step": 675
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0002,
+      "loss": 3.0307,
+      "step": 680
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0002,
+      "loss": 3.0472,
+      "step": 685
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0002,
+      "loss": 3.055,
+      "step": 690
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0002,
+      "loss": 3.0575,
+      "step": 695
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0002,
+      "loss": 3.0266,
+      "step": 700
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 2.990971088409424,
+      "eval_runtime": 12.4127,
+      "eval_samples_per_second": 9988.145,
+      "eval_steps_per_second": 156.13,
+      "eval_top3_3_weighted_f1_score ": 0.38137876299092255,
+      "eval_top_1_macro_f1_score": 0.13838382537775124,
+      "eval_top_1_weighted_f1score": 0.19131550228883154,
+      "eval_top_3_macro_f1_score": 0.28803327800883843,
+      "step": 704
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0002,
+      "loss": 3.0492,
+      "step": 705
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0002,
+      "loss": 3.0395,
+      "step": 710
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0002,
+      "loss": 3.0649,
+      "step": 715
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0002,
+      "loss": 3.0681,
+      "step": 720
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0002,
+      "loss": 3.0649,
+      "step": 725
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0002,
+      "loss": 3.0393,
+      "step": 730
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0002,
+      "loss": 3.0517,
+      "step": 735
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0002,
+      "loss": 3.032,
+      "step": 740
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0002,
+      "loss": 3.0583,
+      "step": 745
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0002,
+      "loss": 3.0401,
+      "step": 750
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0002,
+      "loss": 3.0565,
+      "step": 755
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0002,
+      "loss": 3.0654,
+      "step": 760
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0002,
+      "loss": 3.0533,
+      "step": 765
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 2.9771080017089844,
+      "eval_runtime": 12.6533,
+      "eval_samples_per_second": 9798.249,
+      "eval_steps_per_second": 153.162,
+      "eval_top3_3_weighted_f1_score ": 0.3832560873676479,
+      "eval_top_1_macro_f1_score": 0.13752697035489958,
+      "eval_top_1_weighted_f1score": 0.18965901401189703,
+      "eval_top_3_macro_f1_score": 0.2904255030755513,
+      "step": 768
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0002,
+      "loss": 3.0475,
+      "step": 770
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0002,
+      "loss": 3.0636,
+      "step": 775
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0002,
+      "loss": 3.0349,
+      "step": 780
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0002,
+      "loss": 3.0396,
+      "step": 785
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0002,
+      "loss": 3.0486,
+      "step": 790
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0002,
+      "loss": 3.0499,
+      "step": 795
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0002,
+      "loss": 3.0419,
+      "step": 800
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0002,
+      "loss": 3.0155,
+      "step": 805
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0002,
+      "loss": 3.048,
+      "step": 810
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0002,
+      "loss": 3.0334,
+      "step": 815
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0002,
+      "loss": 3.0489,
+      "step": 820
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0002,
+      "loss": 3.0506,
+      "step": 825
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0002,
+      "loss": 3.0532,
+      "step": 830
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 2.9731740951538086,
+      "eval_runtime": 12.2931,
+      "eval_samples_per_second": 10085.346,
+      "eval_steps_per_second": 157.65,
+      "eval_top3_3_weighted_f1_score ": 0.38454672509114807,
+      "eval_top_1_macro_f1_score": 0.13915252180450877,
+      "eval_top_1_weighted_f1score": 0.19237329003887355,
+      "eval_top_3_macro_f1_score": 0.2905488168931788,
+      "step": 832
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0002,
+      "loss": 3.0578,
+      "step": 835
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0002,
+      "loss": 3.0778,
+      "step": 840
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0002,
+      "loss": 3.0624,
+      "step": 845
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0002,
+      "loss": 3.0681,
+      "step": 850
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0002,
+      "loss": 3.0398,
+      "step": 855
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002,
+      "loss": 3.0389,
+      "step": 860
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0002,
+      "loss": 3.0533,
+      "step": 865
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0002,
+      "loss": 3.0695,
+      "step": 870
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0002,
+      "loss": 3.0616,
+      "step": 875
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0002,
+      "loss": 3.0538,
+      "step": 880
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002,
+      "loss": 3.0669,
+      "step": 885
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0002,
+      "loss": 3.043,
+      "step": 890
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 3.0493,
+      "step": 895
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 2.9716455936431885,
+      "eval_runtime": 12.3359,
+      "eval_samples_per_second": 10050.36,
+      "eval_steps_per_second": 157.103,
+      "eval_top3_3_weighted_f1_score ": 0.3843987215479838,
+      "eval_top_1_macro_f1_score": 0.13965577931407566,
+      "eval_top_1_weighted_f1score": 0.19375781342563833,
+      "eval_top_3_macro_f1_score": 0.2898983574642249,
+      "step": 896
+    }
+  ],
+  "max_steps": 942,
+  "num_train_epochs": 2,
+  "total_flos": 1221880575338496.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a523df346e0248898c1cff8da6613e3d68b41fa62e2cb66497109db46d63e5cd
+size 3695