rm0013 commited on Sep 7, 2025

Commit

7749968

verified ·

1 Parent(s): 8ad64f3

Upload folder using huggingface_hub

Browse files

Files changed (29) hide show

checkpoint-1000/config.json +176 -0
checkpoint-1000/model.safetensors +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +7 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer_config.json +56 -0
checkpoint-1000/trainer_state.json +1273 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1000/vocab.txt +0 -0
checkpoint-770/config.json +176 -0
checkpoint-770/model.safetensors +3 -0
checkpoint-770/optimizer.pt +3 -0
checkpoint-770/rng_state.pth +3 -0
checkpoint-770/scheduler.pt +3 -0
checkpoint-770/special_tokens_map.json +7 -0
checkpoint-770/tokenizer.json +0 -0
checkpoint-770/tokenizer_config.json +56 -0
checkpoint-770/trainer_state.json +985 -0
checkpoint-770/training_args.bin +3 -0
checkpoint-770/vocab.txt +0 -0
config.json +176 -0
model.safetensors +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +56 -0
training_args.bin +3 -0
vocab.txt +0 -0

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,176 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForTokenClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "B-Activity",
+    "1": "B-Administration",
+    "2": "B-Age",
+    "3": "B-Area",
+    "4": "B-Biological_attribute",
+    "5": "B-Biological_structure",
+    "6": "B-Clinical_event",
+    "7": "B-Color",
+    "8": "B-Coreference",
+    "9": "B-Date",
+    "10": "B-Detailed_description",
+    "11": "B-Diagnostic_procedure",
+    "12": "B-Disease_disorder",
+    "13": "B-Distance",
+    "14": "B-Dosage",
+    "15": "B-Duration",
+    "16": "B-Family_history",
+    "17": "B-Frequency",
+    "18": "B-Height",
+    "19": "B-History",
+    "20": "B-Lab_value",
+    "21": "B-Mass",
+    "22": "B-Medication",
+    "23": "B-Nonbiological_location",
+    "24": "B-Occupation",
+    "25": "B-Other_entity",
+    "26": "B-Other_event",
+    "27": "B-Outcome",
+    "28": "B-Personal_background",
+    "29": "B-Qualitative_concept",
+    "30": "B-Quantitative_concept",
+    "31": "B-Severity",
+    "32": "B-Sex",
+    "33": "B-Shape",
+    "34": "B-Sign_symptom",
+    "35": "B-Subject",
+    "36": "B-Texture",
+    "37": "B-Therapeutic_procedure",
+    "38": "B-Time",
+    "39": "B-Volume",
+    "40": "B-Weight",
+    "41": "I-Activity",
+    "42": "I-Administration",
+    "43": "I-Age",
+    "44": "I-Area",
+    "45": "I-Biological_structure",
+    "46": "I-Clinical_event",
+    "47": "I-Coreference",
+    "48": "I-Date",
+    "49": "I-Detailed_description",
+    "50": "I-Diagnostic_procedure",
+    "51": "I-Disease_disorder",
+    "52": "I-Distance",
+    "53": "I-Dosage",
+    "54": "I-Duration",
+    "55": "I-Family_history",
+    "56": "I-History",
+    "57": "I-Lab_value",
+    "58": "I-Mass",
+    "59": "I-Medication",
+    "60": "I-Nonbiological_location",
+    "61": "I-Other_entity",
+    "62": "I-Outcome",
+    "63": "I-Personal_background",
+    "64": "I-Quantitative_concept",
+    "65": "I-Severity",
+    "66": "I-Sex",
+    "67": "I-Sign_symptom",
+    "68": "I-Subject",
+    "69": "I-Texture",
+    "70": "I-Therapeutic_procedure",
+    "71": "I-Time",
+    "72": "I-Volume",
+    "73": "O"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "B-Activity": 0,
+    "B-Administration": 1,
+    "B-Age": 2,
+    "B-Area": 3,
+    "B-Biological_attribute": 4,
+    "B-Biological_structure": 5,
+    "B-Clinical_event": 6,
+    "B-Color": 7,
+    "B-Coreference": 8,
+    "B-Date": 9,
+    "B-Detailed_description": 10,
+    "B-Diagnostic_procedure": 11,
+    "B-Disease_disorder": 12,
+    "B-Distance": 13,
+    "B-Dosage": 14,
+    "B-Duration": 15,
+    "B-Family_history": 16,
+    "B-Frequency": 17,
+    "B-Height": 18,
+    "B-History": 19,
+    "B-Lab_value": 20,
+    "B-Mass": 21,
+    "B-Medication": 22,
+    "B-Nonbiological_location": 23,
+    "B-Occupation": 24,
+    "B-Other_entity": 25,
+    "B-Other_event": 26,
+    "B-Outcome": 27,
+    "B-Personal_background": 28,
+    "B-Qualitative_concept": 29,
+    "B-Quantitative_concept": 30,
+    "B-Severity": 31,
+    "B-Sex": 32,
+    "B-Shape": 33,
+    "B-Sign_symptom": 34,
+    "B-Subject": 35,
+    "B-Texture": 36,
+    "B-Therapeutic_procedure": 37,
+    "B-Time": 38,
+    "B-Volume": 39,
+    "B-Weight": 40,
+    "I-Activity": 41,
+    "I-Administration": 42,
+    "I-Age": 43,
+    "I-Area": 44,
+    "I-Biological_structure": 45,
+    "I-Clinical_event": 46,
+    "I-Coreference": 47,
+    "I-Date": 48,
+    "I-Detailed_description": 49,
+    "I-Diagnostic_procedure": 50,
+    "I-Disease_disorder": 51,
+    "I-Distance": 52,
+    "I-Dosage": 53,
+    "I-Duration": 54,
+    "I-Family_history": 55,
+    "I-History": 56,
+    "I-Lab_value": 57,
+    "I-Mass": 58,
+    "I-Medication": 59,
+    "I-Nonbiological_location": 60,
+    "I-Other_entity": 61,
+    "I-Outcome": 62,
+    "I-Personal_background": 63,
+    "I-Quantitative_concept": 64,
+    "I-Severity": 65,
+    "I-Sex": 66,
+    "I-Sign_symptom": 67,
+    "I-Subject": 68,
+    "I-Texture": 69,
+    "I-Therapeutic_procedure": 70,
+    "I-Time": 71,
+    "I-Volume": 72,
+    "O": 73
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "vocab_size": 30522
+}

checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66105cdf50d0239d3bac04e0fa72a22c3ba8b7df6f1842622809e99a35975a29
+size 265691496

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8b3d57ad76b70fe322f7703a6f6cba6bf5f5067fd514ce894dc9d21d18283e4
+size 531440954

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8915c23050f659e686094053a99d91ccceb84572d20ef244f15f83a250dc71fe
+size 13990

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74b67834aacf6f555d713cdb4b053a4620bd2b12a56cc8d1be6b42a81da28112
+size 1064

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1273 @@

+{
+  "best_metric": 0.6937354988399073,
+  "best_model_checkpoint": "outputs/models/distilbert-clinical-ner/checkpoint-770",
+  "epoch": 100.0,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.019590382902938554,
+      "eval_loss": 4.235354900360107,
+      "eval_precision": 0.01608187134502924,
+      "eval_recall": 0.025056947608200455,
+      "eval_runtime": 0.1555,
+      "eval_samples_per_second": 128.613,
+      "eval_steps_per_second": 12.861,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.023399014778325126,
+      "eval_loss": 4.040920734405518,
+      "eval_precision": 0.02546916890080429,
+      "eval_recall": 0.02164009111617312,
+      "eval_runtime": 0.1064,
+      "eval_samples_per_second": 187.984,
+      "eval_steps_per_second": 18.798,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.0045045045045045045,
+      "eval_loss": 3.6175544261932373,
+      "eval_precision": 0.2,
+      "eval_recall": 0.002277904328018223,
+      "eval_runtime": 0.1035,
+      "eval_samples_per_second": 193.236,
+      "eval_steps_per_second": 19.324,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.0,
+      "eval_loss": 3.0632073879241943,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 0.1056,
+      "eval_samples_per_second": 189.304,
+      "eval_steps_per_second": 18.93,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.285052537918091,
+      "learning_rate": 1e-05,
+      "loss": 3.7184,
+      "step": 50
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.0,
+      "eval_loss": 2.6725738048553467,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 0.1038,
+      "eval_samples_per_second": 192.708,
+      "eval_steps_per_second": 19.271,
+      "step": 50
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.0022753128555176336,
+      "eval_loss": 2.3172459602355957,
+      "eval_precision": 1.0,
+      "eval_recall": 0.0011389521640091116,
+      "eval_runtime": 0.1056,
+      "eval_samples_per_second": 189.369,
+      "eval_steps_per_second": 18.937,
+      "step": 60
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.24705882352941175,
+      "eval_loss": 2.010183334350586,
+      "eval_precision": 0.34854771784232363,
+      "eval_recall": 0.19134396355353075,
+      "eval_runtime": 0.1045,
+      "eval_samples_per_second": 191.384,
+      "eval_steps_per_second": 19.138,
+      "step": 70
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.3578104138851802,
+      "eval_loss": 1.7770382165908813,
+      "eval_precision": 0.432258064516129,
+      "eval_recall": 0.3052391799544419,
+      "eval_runtime": 0.1043,
+      "eval_samples_per_second": 191.78,
+      "eval_steps_per_second": 19.178,
+      "step": 80
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.4306709265175719,
+      "eval_loss": 1.578804612159729,
+      "eval_precision": 0.49053857350800584,
+      "eval_recall": 0.3838268792710706,
+      "eval_runtime": 0.1049,
+      "eval_samples_per_second": 190.736,
+      "eval_steps_per_second": 19.074,
+      "step": 90
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.6135512590408325,
+      "learning_rate": 2e-05,
+      "loss": 2.0341,
+      "step": 100
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.5129151291512916,
+      "eval_loss": 1.4062659740447998,
+      "eval_precision": 0.5574866310160428,
+      "eval_recall": 0.47494305239179957,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.876,
+      "eval_steps_per_second": 18.988,
+      "step": 100
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1": 0.5652435357787132,
+      "eval_loss": 1.2971620559692383,
+      "eval_precision": 0.5987261146496815,
+      "eval_recall": 0.5353075170842825,
+      "eval_runtime": 0.1046,
+      "eval_samples_per_second": 191.215,
+      "eval_steps_per_second": 19.122,
+      "step": 110
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1": 0.5844155844155845,
+      "eval_loss": 1.22593092918396,
+      "eval_precision": 0.6066176470588235,
+      "eval_recall": 0.5637813211845103,
+      "eval_runtime": 0.1052,
+      "eval_samples_per_second": 190.037,
+      "eval_steps_per_second": 19.004,
+      "step": 120
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1": 0.6020642201834862,
+      "eval_loss": 1.1731911897659302,
+      "eval_precision": 0.6062355658198614,
+      "eval_recall": 0.5979498861047836,
+      "eval_runtime": 0.1047,
+      "eval_samples_per_second": 190.934,
+      "eval_steps_per_second": 19.093,
+      "step": 130
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1": 0.6093023255813953,
+      "eval_loss": 1.1392405033111572,
+      "eval_precision": 0.6223277909738717,
+      "eval_recall": 0.5968109339407744,
+      "eval_runtime": 0.1076,
+      "eval_samples_per_second": 185.839,
+      "eval_steps_per_second": 18.584,
+      "step": 140
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 1.8851341009140015,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 1.0843,
+      "step": 150
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1": 0.6329849012775842,
+      "eval_loss": 1.1109048128128052,
+      "eval_precision": 0.6457345971563981,
+      "eval_recall": 0.6207289293849658,
+      "eval_runtime": 0.1045,
+      "eval_samples_per_second": 191.342,
+      "eval_steps_per_second": 19.134,
+      "step": 150
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1": 0.6323103647944412,
+      "eval_loss": 1.111675500869751,
+      "eval_precision": 0.6431095406360424,
+      "eval_recall": 0.621867881548975,
+      "eval_runtime": 0.1064,
+      "eval_samples_per_second": 187.947,
+      "eval_steps_per_second": 18.795,
+      "step": 160
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1": 0.6406976744186046,
+      "eval_loss": 1.1105479001998901,
+      "eval_precision": 0.6543942992874109,
+      "eval_recall": 0.6275626423690205,
+      "eval_runtime": 0.1038,
+      "eval_samples_per_second": 192.723,
+      "eval_steps_per_second": 19.272,
+      "step": 170
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1": 0.6418338108882521,
+      "eval_loss": 1.1081936359405518,
+      "eval_precision": 0.6459054209919262,
+      "eval_recall": 0.6378132118451025,
+      "eval_runtime": 0.1093,
+      "eval_samples_per_second": 182.962,
+      "eval_steps_per_second": 18.296,
+      "step": 180
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1": 0.656629994209612,
+      "eval_loss": 1.0905473232269287,
+      "eval_precision": 0.6678445229681979,
+      "eval_recall": 0.6457858769931663,
+      "eval_runtime": 0.1058,
+      "eval_samples_per_second": 189.016,
+      "eval_steps_per_second": 18.902,
+      "step": 190
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.453874111175537,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 0.6709,
+      "step": 200
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1": 0.6527536231884057,
+      "eval_loss": 1.0979650020599365,
+      "eval_precision": 0.6646989374262101,
+      "eval_recall": 0.6412300683371298,
+      "eval_runtime": 0.1051,
+      "eval_samples_per_second": 190.38,
+      "eval_steps_per_second": 19.038,
+      "step": 200
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1": 0.660889659156557,
+      "eval_loss": 1.1073075532913208,
+      "eval_precision": 0.6705744431418523,
+      "eval_recall": 0.6514806378132119,
+      "eval_runtime": 0.1063,
+      "eval_samples_per_second": 188.158,
+      "eval_steps_per_second": 18.816,
+      "step": 210
+    },
+    {
+      "epoch": 22.0,
+      "eval_f1": 0.6520231213872832,
+      "eval_loss": 1.109878420829773,
+      "eval_precision": 0.6619718309859155,
+      "eval_recall": 0.642369020501139,
+      "eval_runtime": 0.1108,
+      "eval_samples_per_second": 180.582,
+      "eval_steps_per_second": 18.058,
+      "step": 220
+    },
+    {
+      "epoch": 23.0,
+      "eval_f1": 0.6666666666666666,
+      "eval_loss": 1.1079308986663818,
+      "eval_precision": 0.6838323353293413,
+      "eval_recall": 0.6503416856492027,
+      "eval_runtime": 0.1051,
+      "eval_samples_per_second": 190.371,
+      "eval_steps_per_second": 19.037,
+      "step": 230
+    },
+    {
+      "epoch": 24.0,
+      "eval_f1": 0.6685714285714285,
+      "eval_loss": 1.0995490550994873,
+      "eval_precision": 0.6708715596330275,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1076,
+      "eval_samples_per_second": 185.917,
+      "eval_steps_per_second": 18.592,
+      "step": 240
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 1.9804632663726807,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.4563,
+      "step": 250
+    },
+    {
+      "epoch": 25.0,
+      "eval_f1": 0.6623831775700935,
+      "eval_loss": 1.1412475109100342,
+      "eval_precision": 0.6798561151079137,
+      "eval_recall": 0.6457858769931663,
+      "eval_runtime": 0.1043,
+      "eval_samples_per_second": 191.672,
+      "eval_steps_per_second": 19.167,
+      "step": 250
+    },
+    {
+      "epoch": 26.0,
+      "eval_f1": 0.6685878962536023,
+      "eval_loss": 1.1206316947937012,
+      "eval_precision": 0.676779463243874,
+      "eval_recall": 0.6605922551252847,
+      "eval_runtime": 0.1025,
+      "eval_samples_per_second": 195.213,
+      "eval_steps_per_second": 19.521,
+      "step": 260
+    },
+    {
+      "epoch": 27.0,
+      "eval_f1": 0.674013921113689,
+      "eval_loss": 1.1223537921905518,
+      "eval_precision": 0.6867612293144209,
+      "eval_recall": 0.6617312072892938,
+      "eval_runtime": 0.1023,
+      "eval_samples_per_second": 195.488,
+      "eval_steps_per_second": 19.549,
+      "step": 270
+    },
+    {
+      "epoch": 28.0,
+      "eval_f1": 0.6787595084844938,
+      "eval_loss": 1.1268706321716309,
+      "eval_precision": 0.6979542719614922,
+      "eval_recall": 0.6605922551252847,
+      "eval_runtime": 0.107,
+      "eval_samples_per_second": 186.844,
+      "eval_steps_per_second": 18.684,
+      "step": 280
+    },
+    {
+      "epoch": 29.0,
+      "eval_f1": 0.6817391304347827,
+      "eval_loss": 1.143689751625061,
+      "eval_precision": 0.6942148760330579,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1048,
+      "eval_samples_per_second": 190.916,
+      "eval_steps_per_second": 19.092,
+      "step": 290
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 1.2570631504058838,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 0.3229,
+      "step": 300
+    },
+    {
+      "epoch": 30.0,
+      "eval_f1": 0.6781807714450201,
+      "eval_loss": 1.1411770582199097,
+      "eval_precision": 0.6856810244470314,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1118,
+      "eval_samples_per_second": 178.865,
+      "eval_steps_per_second": 17.887,
+      "step": 300
+    },
+    {
+      "epoch": 31.0,
+      "eval_f1": 0.6797235023041475,
+      "eval_loss": 1.1665282249450684,
+      "eval_precision": 0.6876456876456877,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1061,
+      "eval_samples_per_second": 188.516,
+      "eval_steps_per_second": 18.852,
+      "step": 310
+    },
+    {
+      "epoch": 32.0,
+      "eval_f1": 0.6785714285714286,
+      "eval_loss": 1.147858738899231,
+      "eval_precision": 0.6864801864801865,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1079,
+      "eval_samples_per_second": 185.36,
+      "eval_steps_per_second": 18.536,
+      "step": 320
+    },
+    {
+      "epoch": 33.0,
+      "eval_f1": 0.6774193548387096,
+      "eval_loss": 1.1554282903671265,
+      "eval_precision": 0.6853146853146853,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1037,
+      "eval_samples_per_second": 192.925,
+      "eval_steps_per_second": 19.292,
+      "step": 330
+    },
+    {
+      "epoch": 34.0,
+      "eval_f1": 0.6797687861271676,
+      "eval_loss": 1.15742027759552,
+      "eval_precision": 0.6901408450704225,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.904,
+      "eval_steps_per_second": 18.99,
+      "step": 340
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 1.0945429801940918,
+      "learning_rate": 1.4444444444444446e-05,
+      "loss": 0.2396,
+      "step": 350
+    },
+    {
+      "epoch": 35.0,
+      "eval_f1": 0.6797235023041475,
+      "eval_loss": 1.1754865646362305,
+      "eval_precision": 0.6876456876456877,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1057,
+      "eval_samples_per_second": 189.199,
+      "eval_steps_per_second": 18.92,
+      "step": 350
+    },
+    {
+      "epoch": 36.0,
+      "eval_f1": 0.6735870818915801,
+      "eval_loss": 1.1885067224502563,
+      "eval_precision": 0.6822429906542056,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1,
+      "eval_samples_per_second": 200.0,
+      "eval_steps_per_second": 20.0,
+      "step": 360
+    },
+    {
+      "epoch": 37.0,
+      "eval_f1": 0.6806526806526807,
+      "eval_loss": 1.181584119796753,
+      "eval_precision": 0.6968973747016707,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1076,
+      "eval_samples_per_second": 185.858,
+      "eval_steps_per_second": 18.586,
+      "step": 370
+    },
+    {
+      "epoch": 38.0,
+      "eval_f1": 0.6787172011661807,
+      "eval_loss": 1.1876161098480225,
+      "eval_precision": 0.6953405017921147,
+      "eval_recall": 0.662870159453303,
+      "eval_runtime": 0.1161,
+      "eval_samples_per_second": 172.269,
+      "eval_steps_per_second": 17.227,
+      "step": 380
+    },
+    {
+      "epoch": 39.0,
+      "eval_f1": 0.6818713450292397,
+      "eval_loss": 1.2116471529006958,
+      "eval_precision": 0.7007211538461539,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1027,
+      "eval_samples_per_second": 194.71,
+      "eval_steps_per_second": 19.471,
+      "step": 390
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.8599975109100342,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.1848,
+      "step": 400
+    },
+    {
+      "epoch": 40.0,
+      "eval_f1": 0.6786542923433874,
+      "eval_loss": 1.1997044086456299,
+      "eval_precision": 0.6914893617021277,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1098,
+      "eval_samples_per_second": 182.124,
+      "eval_steps_per_second": 18.212,
+      "step": 400
+    },
+    {
+      "epoch": 41.0,
+      "eval_f1": 0.6817917393833625,
+      "eval_loss": 1.2281190156936646,
+      "eval_precision": 0.6967895362663495,
+      "eval_recall": 0.6674259681093394,
+      "eval_runtime": 0.1026,
+      "eval_samples_per_second": 195.027,
+      "eval_steps_per_second": 19.503,
+      "step": 410
+    },
+    {
+      "epoch": 42.0,
+      "eval_f1": 0.6820542412002308,
+      "eval_loss": 1.205224633216858,
+      "eval_precision": 0.6912280701754386,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1029,
+      "eval_samples_per_second": 194.454,
+      "eval_steps_per_second": 19.445,
+      "step": 420
+    },
+    {
+      "epoch": 43.0,
+      "eval_f1": 0.6834112149532711,
+      "eval_loss": 1.2441879510879517,
+      "eval_precision": 0.7014388489208633,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1013,
+      "eval_samples_per_second": 197.51,
+      "eval_steps_per_second": 19.751,
+      "step": 430
+    },
+    {
+      "epoch": 44.0,
+      "eval_f1": 0.6762672811059909,
+      "eval_loss": 1.2410287857055664,
+      "eval_precision": 0.6841491841491841,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1039,
+      "eval_samples_per_second": 192.454,
+      "eval_steps_per_second": 19.245,
+      "step": 440
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 0.8666434288024902,
+      "learning_rate": 1.2222222222222224e-05,
+      "loss": 0.1472,
+      "step": 450
+    },
+    {
+      "epoch": 45.0,
+      "eval_f1": 0.6809744779582366,
+      "eval_loss": 1.2373775243759155,
+      "eval_precision": 0.693853427895981,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1016,
+      "eval_samples_per_second": 196.912,
+      "eval_steps_per_second": 19.691,
+      "step": 450
+    },
+    {
+      "epoch": 46.0,
+      "eval_f1": 0.6786961583236321,
+      "eval_loss": 1.237067461013794,
+      "eval_precision": 0.694047619047619,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1002,
+      "eval_samples_per_second": 199.663,
+      "eval_steps_per_second": 19.966,
+      "step": 460
+    },
+    {
+      "epoch": 47.0,
+      "eval_f1": 0.6889016676250718,
+      "eval_loss": 1.2270065546035767,
+      "eval_precision": 0.6957026713124274,
+      "eval_recall": 0.6822323462414579,
+      "eval_runtime": 0.1051,
+      "eval_samples_per_second": 190.295,
+      "eval_steps_per_second": 19.03,
+      "step": 470
+    },
+    {
+      "epoch": 48.0,
+      "eval_f1": 0.6805555555555555,
+      "eval_loss": 1.238765001296997,
+      "eval_precision": 0.691764705882353,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1066,
+      "eval_samples_per_second": 187.677,
+      "eval_steps_per_second": 18.768,
+      "step": 480
+    },
+    {
+      "epoch": 49.0,
+      "eval_f1": 0.6790914385556202,
+      "eval_loss": 1.2525634765625,
+      "eval_precision": 0.6948748510131109,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1021,
+      "eval_samples_per_second": 195.942,
+      "eval_steps_per_second": 19.594,
+      "step": 490
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 0.8096102476119995,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 0.1184,
+      "step": 500
+    },
+    {
+      "epoch": 50.0,
+      "eval_f1": 0.681421083284799,
+      "eval_loss": 1.2390888929367065,
+      "eval_precision": 0.6972586412395709,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1042,
+      "eval_samples_per_second": 191.926,
+      "eval_steps_per_second": 19.193,
+      "step": 500
+    },
+    {
+      "epoch": 51.0,
+      "eval_f1": 0.6782810685249709,
+      "eval_loss": 1.2617552280426025,
+      "eval_precision": 0.6919431279620853,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1011,
+      "eval_samples_per_second": 197.736,
+      "eval_steps_per_second": 19.774,
+      "step": 510
+    },
+    {
+      "epoch": 52.0,
+      "eval_f1": 0.6814469078179697,
+      "eval_loss": 1.2573115825653076,
+      "eval_precision": 0.6985645933014354,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1033,
+      "eval_samples_per_second": 193.643,
+      "eval_steps_per_second": 19.364,
+      "step": 520
+    },
+    {
+      "epoch": 53.0,
+      "eval_f1": 0.681369704004643,
+      "eval_loss": 1.2631280422210693,
+      "eval_precision": 0.6946745562130178,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1027,
+      "eval_samples_per_second": 194.742,
+      "eval_steps_per_second": 19.474,
+      "step": 530
+    },
+    {
+      "epoch": 54.0,
+      "eval_f1": 0.6822429906542057,
+      "eval_loss": 1.2612630128860474,
+      "eval_precision": 0.7002398081534772,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1034,
+      "eval_samples_per_second": 193.355,
+      "eval_steps_per_second": 19.335,
+      "step": 540
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 1.258770227432251,
+      "learning_rate": 1e-05,
+      "loss": 0.0965,
+      "step": 550
+    },
+    {
+      "epoch": 55.0,
+      "eval_f1": 0.678592036930179,
+      "eval_loss": 1.2565994262695312,
+      "eval_precision": 0.6877192982456141,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1065,
+      "eval_samples_per_second": 187.769,
+      "eval_steps_per_second": 18.777,
+      "step": 550
+    },
+    {
+      "epoch": 56.0,
+      "eval_f1": 0.6720461095100864,
+      "eval_loss": 1.286030888557434,
+      "eval_precision": 0.6802800466744457,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1017,
+      "eval_samples_per_second": 196.637,
+      "eval_steps_per_second": 19.664,
+      "step": 560
+    },
+    {
+      "epoch": 57.0,
+      "eval_f1": 0.6774941995359629,
+      "eval_loss": 1.2746167182922363,
+      "eval_precision": 0.6903073286052009,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.104,
+      "eval_samples_per_second": 192.291,
+      "eval_steps_per_second": 19.229,
+      "step": 570
+    },
+    {
+      "epoch": 58.0,
+      "eval_f1": 0.6813441483198146,
+      "eval_loss": 1.2719839811325073,
+      "eval_precision": 0.6933962264150944,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1009,
+      "eval_samples_per_second": 198.12,
+      "eval_steps_per_second": 19.812,
+      "step": 580
+    },
+    {
+      "epoch": 59.0,
+      "eval_f1": 0.6845168800931315,
+      "eval_loss": 1.2790720462799072,
+      "eval_precision": 0.7,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1025,
+      "eval_samples_per_second": 195.09,
+      "eval_steps_per_second": 19.509,
+      "step": 590
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.6421855688095093,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.0841,
+      "step": 600
+    },
+    {
+      "epoch": 60.0,
+      "eval_f1": 0.6827309236947792,
+      "eval_loss": 1.2661317586898804,
+      "eval_precision": 0.6878612716763006,
+      "eval_recall": 0.6776765375854215,
+      "eval_runtime": 0.1054,
+      "eval_samples_per_second": 189.834,
+      "eval_steps_per_second": 18.983,
+      "step": 600
+    },
+    {
+      "epoch": 61.0,
+      "eval_f1": 0.6803039158386909,
+      "eval_loss": 1.2873255014419556,
+      "eval_precision": 0.6986794717887155,
+      "eval_recall": 0.662870159453303,
+      "eval_runtime": 0.1028,
+      "eval_samples_per_second": 194.643,
+      "eval_steps_per_second": 19.464,
+      "step": 610
+    },
+    {
+      "epoch": 62.0,
+      "eval_f1": 0.6809248554913295,
+      "eval_loss": 1.2766045331954956,
+      "eval_precision": 0.6913145539906104,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1044,
+      "eval_samples_per_second": 191.487,
+      "eval_steps_per_second": 19.149,
+      "step": 620
+    },
+    {
+      "epoch": 63.0,
+      "eval_f1": 0.6755658734764944,
+      "eval_loss": 1.2915081977844238,
+      "eval_precision": 0.6887573964497041,
+      "eval_recall": 0.662870159453303,
+      "eval_runtime": 0.1078,
+      "eval_samples_per_second": 185.542,
+      "eval_steps_per_second": 18.554,
+      "step": 630
+    },
+    {
+      "epoch": 64.0,
+      "eval_f1": 0.6732101616628174,
+      "eval_loss": 1.2793446779251099,
+      "eval_precision": 0.6826697892271663,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1016,
+      "eval_samples_per_second": 196.942,
+      "eval_steps_per_second": 19.694,
+      "step": 640
+    },
+    {
+      "epoch": 65.0,
+      "grad_norm": 0.5916463136672974,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.0714,
+      "step": 650
+    },
+    {
+      "epoch": 65.0,
+      "eval_f1": 0.6820276497695852,
+      "eval_loss": 1.3019025325775146,
+      "eval_precision": 0.6899766899766899,
+      "eval_recall": 0.6742596810933941,
+      "eval_runtime": 0.1008,
+      "eval_samples_per_second": 198.393,
+      "eval_steps_per_second": 19.839,
+      "step": 650
+    },
+    {
+      "epoch": 66.0,
+      "eval_f1": 0.6853473438412142,
+      "eval_loss": 1.2911741733551025,
+      "eval_precision": 0.7029940119760479,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.106,
+      "eval_samples_per_second": 188.757,
+      "eval_steps_per_second": 18.876,
+      "step": 660
+    },
+    {
+      "epoch": 67.0,
+      "eval_f1": 0.67816091954023,
+      "eval_loss": 1.2967917919158936,
+      "eval_precision": 0.6844547563805105,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1092,
+      "eval_samples_per_second": 183.175,
+      "eval_steps_per_second": 18.318,
+      "step": 670
+    },
+    {
+      "epoch": 68.0,
+      "eval_f1": 0.6895348837209303,
+      "eval_loss": 1.2946228981018066,
+      "eval_precision": 0.7042755344418052,
+      "eval_recall": 0.6753986332574032,
+      "eval_runtime": 0.1052,
+      "eval_samples_per_second": 190.167,
+      "eval_steps_per_second": 19.017,
+      "step": 680
+    },
+    {
+      "epoch": 69.0,
+      "eval_f1": 0.6863425925925927,
+      "eval_loss": 1.2976857423782349,
+      "eval_precision": 0.6976470588235294,
+      "eval_recall": 0.6753986332574032,
+      "eval_runtime": 0.103,
+      "eval_samples_per_second": 194.22,
+      "eval_steps_per_second": 19.422,
+      "step": 690
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 0.7995481491088867,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.064,
+      "step": 700
+    },
+    {
+      "epoch": 70.0,
+      "eval_f1": 0.6771014492753623,
+      "eval_loss": 1.295568585395813,
+      "eval_precision": 0.6894923258559622,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1031,
+      "eval_samples_per_second": 193.92,
+      "eval_steps_per_second": 19.392,
+      "step": 700
+    },
+    {
+      "epoch": 71.0,
+      "eval_f1": 0.6797687861271676,
+      "eval_loss": 1.2898850440979004,
+      "eval_precision": 0.6901408450704225,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1005,
+      "eval_samples_per_second": 198.942,
+      "eval_steps_per_second": 19.894,
+      "step": 710
+    },
+    {
+      "epoch": 72.0,
+      "eval_f1": 0.6806526806526807,
+      "eval_loss": 1.3075172901153564,
+      "eval_precision": 0.6968973747016707,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1087,
+      "eval_samples_per_second": 184.017,
+      "eval_steps_per_second": 18.402,
+      "step": 720
+    },
+    {
+      "epoch": 73.0,
+      "eval_f1": 0.683750728013978,
+      "eval_loss": 1.2973222732543945,
+      "eval_precision": 0.699642431466031,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1054,
+      "eval_samples_per_second": 189.672,
+      "eval_steps_per_second": 18.967,
+      "step": 730
+    },
+    {
+      "epoch": 74.0,
+      "eval_f1": 0.6872812135355894,
+      "eval_loss": 1.3102946281433105,
+      "eval_precision": 0.7045454545454546,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1064,
+      "eval_samples_per_second": 188.0,
+      "eval_steps_per_second": 18.8,
+      "step": 740
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 0.8353786468505859,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.0575,
+      "step": 750
+    },
+    {
+      "epoch": 75.0,
+      "eval_f1": 0.6797915460335843,
+      "eval_loss": 1.3147099018096924,
+      "eval_precision": 0.6914016489988222,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1049,
+      "eval_samples_per_second": 190.589,
+      "eval_steps_per_second": 19.059,
+      "step": 750
+    },
+    {
+      "epoch": 76.0,
+      "eval_f1": 0.6845168800931315,
+      "eval_loss": 1.3087732791900635,
+      "eval_precision": 0.7,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.105,
+      "eval_samples_per_second": 190.4,
+      "eval_steps_per_second": 19.04,
+      "step": 760
+    },
+    {
+      "epoch": 77.0,
+      "eval_f1": 0.6937354988399073,
+      "eval_loss": 1.3092721700668335,
+      "eval_precision": 0.706855791962175,
+      "eval_recall": 0.6810933940774487,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.996,
+      "eval_steps_per_second": 19.0,
+      "step": 770
+    },
+    {
+      "epoch": 78.0,
+      "eval_f1": 0.6890951276102089,
+      "eval_loss": 1.3059155941009521,
+      "eval_precision": 0.7021276595744681,
+      "eval_recall": 0.6765375854214123,
+      "eval_runtime": 0.1108,
+      "eval_samples_per_second": 180.481,
+      "eval_steps_per_second": 18.048,
+      "step": 780
+    },
+    {
+      "epoch": 79.0,
+      "eval_f1": 0.686012768427162,
+      "eval_loss": 1.3059110641479492,
+      "eval_precision": 0.6994082840236686,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1188,
+      "eval_samples_per_second": 168.352,
+      "eval_steps_per_second": 16.835,
+      "step": 790
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 0.9341310858726501,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.0521,
+      "step": 800
+    },
+    {
+      "epoch": 80.0,
+      "eval_f1": 0.684393063583815,
+      "eval_loss": 1.3110581636428833,
+      "eval_precision": 0.6948356807511737,
+      "eval_recall": 0.6742596810933941,
+      "eval_runtime": 0.1046,
+      "eval_samples_per_second": 191.295,
+      "eval_steps_per_second": 19.13,
+      "step": 800
+    },
+    {
+      "epoch": 81.0,
+      "eval_f1": 0.6876824284880326,
+      "eval_loss": 1.3156492710113525,
+      "eval_precision": 0.7053892215568862,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.894,
+      "eval_steps_per_second": 18.989,
+      "step": 810
+    },
+    {
+      "epoch": 82.0,
+      "eval_f1": 0.6812680115273776,
+      "eval_loss": 1.3226007223129272,
+      "eval_precision": 0.6896149358226371,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1059,
+      "eval_samples_per_second": 188.943,
+      "eval_steps_per_second": 18.894,
+      "step": 820
+    },
+    {
+      "epoch": 83.0,
+      "eval_f1": 0.686046511627907,
+      "eval_loss": 1.318352460861206,
+      "eval_precision": 0.7007125890736342,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1064,
+      "eval_samples_per_second": 187.885,
+      "eval_steps_per_second": 18.789,
+      "step": 830
+    },
+    {
+      "epoch": 84.0,
+      "eval_f1": 0.6872451951077461,
+      "eval_loss": 1.3170461654663086,
+      "eval_precision": 0.7032181168057211,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1059,
+      "eval_samples_per_second": 188.868,
+      "eval_steps_per_second": 18.887,
+      "step": 840
+    },
+    {
+      "epoch": 85.0,
+      "grad_norm": 0.3394979238510132,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0491,
+      "step": 850
+    },
+    {
+      "epoch": 85.0,
+      "eval_f1": 0.6856810244470314,
+      "eval_loss": 1.3184274435043335,
+      "eval_precision": 0.7011904761904761,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1079,
+      "eval_samples_per_second": 185.331,
+      "eval_steps_per_second": 18.533,
+      "step": 850
+    },
+    {
+      "epoch": 86.0,
+      "eval_f1": 0.6844238563983788,
+      "eval_loss": 1.3142564296722412,
+      "eval_precision": 0.696113074204947,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1054,
+      "eval_samples_per_second": 189.669,
+      "eval_steps_per_second": 18.967,
+      "step": 860
+    },
+    {
+      "epoch": 87.0,
+      "eval_f1": 0.6868451688009312,
+      "eval_loss": 1.3147000074386597,
+      "eval_precision": 0.7023809523809523,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1079,
+      "eval_samples_per_second": 185.364,
+      "eval_steps_per_second": 18.536,
+      "step": 870
+    },
+    {
+      "epoch": 88.0,
+      "eval_f1": 0.6852173913043478,
+      "eval_loss": 1.3220981359481812,
+      "eval_precision": 0.6977567886658795,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1143,
+      "eval_samples_per_second": 175.042,
+      "eval_steps_per_second": 17.504,
+      "step": 880
+    },
+    {
+      "epoch": 89.0,
+      "eval_f1": 0.6840277777777779,
+      "eval_loss": 1.3263325691223145,
+      "eval_precision": 0.6952941176470588,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1098,
+      "eval_samples_per_second": 182.123,
+      "eval_steps_per_second": 18.212,
+      "step": 890
+    },
+    {
+      "epoch": 90.0,
+      "grad_norm": 0.362501323223114,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.0467,
+      "step": 900
+    },
+    {
+      "epoch": 90.0,
+      "eval_f1": 0.6836321573163678,
+      "eval_loss": 1.321544885635376,
+      "eval_precision": 0.6944770857814336,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1062,
+      "eval_samples_per_second": 188.379,
+      "eval_steps_per_second": 18.838,
+      "step": 900
+    },
+    {
+      "epoch": 91.0,
+      "eval_f1": 0.6844238563983788,
+      "eval_loss": 1.3238760232925415,
+      "eval_precision": 0.696113074204947,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1075,
+      "eval_samples_per_second": 186.029,
+      "eval_steps_per_second": 18.603,
+      "step": 910
+    },
+    {
+      "epoch": 92.0,
+      "eval_f1": 0.6825028968713789,
+      "eval_loss": 1.3248389959335327,
+      "eval_precision": 0.6945754716981132,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1058,
+      "eval_samples_per_second": 189.077,
+      "eval_steps_per_second": 18.908,
+      "step": 920
+    },
+    {
+      "epoch": 93.0,
+      "eval_f1": 0.6801853997682503,
+      "eval_loss": 1.326583743095398,
+      "eval_precision": 0.6922169811320755,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1054,
+      "eval_samples_per_second": 189.799,
+      "eval_steps_per_second": 18.98,
+      "step": 930
+    },
+    {
+      "epoch": 94.0,
+      "eval_f1": 0.6836321573163678,
+      "eval_loss": 1.3237107992172241,
+      "eval_precision": 0.6944770857814336,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.896,
+      "eval_steps_per_second": 18.99,
+      "step": 940
+    },
+    {
+      "epoch": 95.0,
+      "grad_norm": 0.33692023158073425,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.0451,
+      "step": 950
+    },
+    {
+      "epoch": 95.0,
+      "eval_f1": 0.6836321573163678,
+      "eval_loss": 1.323667049407959,
+      "eval_precision": 0.6944770857814336,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1052,
+      "eval_samples_per_second": 190.154,
+      "eval_steps_per_second": 19.015,
+      "step": 950
+    },
+    {
+      "epoch": 96.0,
+      "eval_f1": 0.6840579710144927,
+      "eval_loss": 1.3248512744903564,
+      "eval_precision": 0.6965761511216056,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1046,
+      "eval_samples_per_second": 191.223,
+      "eval_steps_per_second": 19.122,
+      "step": 960
+    },
+    {
+      "epoch": 97.0,
+      "eval_f1": 0.6848520023215323,
+      "eval_loss": 1.326843023300171,
+      "eval_precision": 0.6982248520710059,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1043,
+      "eval_samples_per_second": 191.797,
+      "eval_steps_per_second": 19.18,
+      "step": 970
+    },
+    {
+      "epoch": 98.0,
+      "eval_f1": 0.6852173913043478,
+      "eval_loss": 1.3268158435821533,
+      "eval_precision": 0.6977567886658795,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1047,
+      "eval_samples_per_second": 190.969,
+      "eval_steps_per_second": 19.097,
+      "step": 980
+    },
+    {
+      "epoch": 99.0,
+      "eval_f1": 0.6848203939745077,
+      "eval_loss": 1.3256183862686157,
+      "eval_precision": 0.6969339622641509,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.91,
+      "eval_steps_per_second": 18.991,
+      "step": 990
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 0.3960552215576172,
+      "learning_rate": 0.0,
+      "loss": 0.0445,
+      "step": 1000
+    },
+    {
+      "epoch": 100.0,
+      "eval_f1": 0.6848203939745077,
+      "eval_loss": 1.3252696990966797,
+      "eval_precision": 0.6969339622641509,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1112,
+      "eval_samples_per_second": 179.827,
+      "eval_steps_per_second": 17.983,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 523292762112000.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:752be49abc948927108e2467a489df708fc2c98f0a2eb2cad2df41eff128d5d9
+size 5304

checkpoint-1000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-770/config.json ADDED Viewed

	@@ -0,0 +1,176 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForTokenClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "B-Activity",
+    "1": "B-Administration",
+    "2": "B-Age",
+    "3": "B-Area",
+    "4": "B-Biological_attribute",
+    "5": "B-Biological_structure",
+    "6": "B-Clinical_event",
+    "7": "B-Color",
+    "8": "B-Coreference",
+    "9": "B-Date",
+    "10": "B-Detailed_description",
+    "11": "B-Diagnostic_procedure",
+    "12": "B-Disease_disorder",
+    "13": "B-Distance",
+    "14": "B-Dosage",
+    "15": "B-Duration",
+    "16": "B-Family_history",
+    "17": "B-Frequency",
+    "18": "B-Height",
+    "19": "B-History",
+    "20": "B-Lab_value",
+    "21": "B-Mass",
+    "22": "B-Medication",
+    "23": "B-Nonbiological_location",
+    "24": "B-Occupation",
+    "25": "B-Other_entity",
+    "26": "B-Other_event",
+    "27": "B-Outcome",
+    "28": "B-Personal_background",
+    "29": "B-Qualitative_concept",
+    "30": "B-Quantitative_concept",
+    "31": "B-Severity",
+    "32": "B-Sex",
+    "33": "B-Shape",
+    "34": "B-Sign_symptom",
+    "35": "B-Subject",
+    "36": "B-Texture",
+    "37": "B-Therapeutic_procedure",
+    "38": "B-Time",
+    "39": "B-Volume",
+    "40": "B-Weight",
+    "41": "I-Activity",
+    "42": "I-Administration",
+    "43": "I-Age",
+    "44": "I-Area",
+    "45": "I-Biological_structure",
+    "46": "I-Clinical_event",
+    "47": "I-Coreference",
+    "48": "I-Date",
+    "49": "I-Detailed_description",
+    "50": "I-Diagnostic_procedure",
+    "51": "I-Disease_disorder",
+    "52": "I-Distance",
+    "53": "I-Dosage",
+    "54": "I-Duration",
+    "55": "I-Family_history",
+    "56": "I-History",
+    "57": "I-Lab_value",
+    "58": "I-Mass",
+    "59": "I-Medication",
+    "60": "I-Nonbiological_location",
+    "61": "I-Other_entity",
+    "62": "I-Outcome",
+    "63": "I-Personal_background",
+    "64": "I-Quantitative_concept",
+    "65": "I-Severity",
+    "66": "I-Sex",
+    "67": "I-Sign_symptom",
+    "68": "I-Subject",
+    "69": "I-Texture",
+    "70": "I-Therapeutic_procedure",
+    "71": "I-Time",
+    "72": "I-Volume",
+    "73": "O"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "B-Activity": 0,
+    "B-Administration": 1,
+    "B-Age": 2,
+    "B-Area": 3,
+    "B-Biological_attribute": 4,
+    "B-Biological_structure": 5,
+    "B-Clinical_event": 6,
+    "B-Color": 7,
+    "B-Coreference": 8,
+    "B-Date": 9,
+    "B-Detailed_description": 10,
+    "B-Diagnostic_procedure": 11,
+    "B-Disease_disorder": 12,
+    "B-Distance": 13,
+    "B-Dosage": 14,
+    "B-Duration": 15,
+    "B-Family_history": 16,
+    "B-Frequency": 17,
+    "B-Height": 18,
+    "B-History": 19,
+    "B-Lab_value": 20,
+    "B-Mass": 21,
+    "B-Medication": 22,
+    "B-Nonbiological_location": 23,
+    "B-Occupation": 24,
+    "B-Other_entity": 25,
+    "B-Other_event": 26,
+    "B-Outcome": 27,
+    "B-Personal_background": 28,
+    "B-Qualitative_concept": 29,
+    "B-Quantitative_concept": 30,
+    "B-Severity": 31,
+    "B-Sex": 32,
+    "B-Shape": 33,
+    "B-Sign_symptom": 34,
+    "B-Subject": 35,
+    "B-Texture": 36,
+    "B-Therapeutic_procedure": 37,
+    "B-Time": 38,
+    "B-Volume": 39,
+    "B-Weight": 40,
+    "I-Activity": 41,
+    "I-Administration": 42,
+    "I-Age": 43,
+    "I-Area": 44,
+    "I-Biological_structure": 45,
+    "I-Clinical_event": 46,
+    "I-Coreference": 47,
+    "I-Date": 48,
+    "I-Detailed_description": 49,
+    "I-Diagnostic_procedure": 50,
+    "I-Disease_disorder": 51,
+    "I-Distance": 52,
+    "I-Dosage": 53,
+    "I-Duration": 54,
+    "I-Family_history": 55,
+    "I-History": 56,
+    "I-Lab_value": 57,
+    "I-Mass": 58,
+    "I-Medication": 59,
+    "I-Nonbiological_location": 60,
+    "I-Other_entity": 61,
+    "I-Outcome": 62,
+    "I-Personal_background": 63,
+    "I-Quantitative_concept": 64,
+    "I-Severity": 65,
+    "I-Sex": 66,
+    "I-Sign_symptom": 67,
+    "I-Subject": 68,
+    "I-Texture": 69,
+    "I-Therapeutic_procedure": 70,
+    "I-Time": 71,
+    "I-Volume": 72,
+    "O": 73
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "vocab_size": 30522
+}

checkpoint-770/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:326f38cbbe8b00407d06f53521d4910fcb093e796b288f95c3aef96f06cc66a9
+size 265691496

checkpoint-770/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da32f62356caaccc4e811a59680b274a7aefdd85a8e22e90d77e216351e85b11
+size 531440954

checkpoint-770/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f56a8bf119fed612b50bb9bf41da5743f4e5076a930e56fb6dfdfa4736b2503
+size 13990

checkpoint-770/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f3b3e477747577ebcf7c540abe93633653f5162401d45c09c21e1fd38c550ce
+size 1064

checkpoint-770/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-770/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-770/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-770/trainer_state.json ADDED Viewed

	@@ -0,0 +1,985 @@

+{
+  "best_metric": 0.6937354988399073,
+  "best_model_checkpoint": "outputs/models/distilbert-clinical-ner/checkpoint-770",
+  "epoch": 77.0,
+  "eval_steps": 500,
+  "global_step": 770,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.019590382902938554,
+      "eval_loss": 4.235354900360107,
+      "eval_precision": 0.01608187134502924,
+      "eval_recall": 0.025056947608200455,
+      "eval_runtime": 0.1555,
+      "eval_samples_per_second": 128.613,
+      "eval_steps_per_second": 12.861,
+      "step": 10
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.023399014778325126,
+      "eval_loss": 4.040920734405518,
+      "eval_precision": 0.02546916890080429,
+      "eval_recall": 0.02164009111617312,
+      "eval_runtime": 0.1064,
+      "eval_samples_per_second": 187.984,
+      "eval_steps_per_second": 18.798,
+      "step": 20
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.0045045045045045045,
+      "eval_loss": 3.6175544261932373,
+      "eval_precision": 0.2,
+      "eval_recall": 0.002277904328018223,
+      "eval_runtime": 0.1035,
+      "eval_samples_per_second": 193.236,
+      "eval_steps_per_second": 19.324,
+      "step": 30
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.0,
+      "eval_loss": 3.0632073879241943,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 0.1056,
+      "eval_samples_per_second": 189.304,
+      "eval_steps_per_second": 18.93,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.285052537918091,
+      "learning_rate": 1e-05,
+      "loss": 3.7184,
+      "step": 50
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.0,
+      "eval_loss": 2.6725738048553467,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 0.1038,
+      "eval_samples_per_second": 192.708,
+      "eval_steps_per_second": 19.271,
+      "step": 50
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.0022753128555176336,
+      "eval_loss": 2.3172459602355957,
+      "eval_precision": 1.0,
+      "eval_recall": 0.0011389521640091116,
+      "eval_runtime": 0.1056,
+      "eval_samples_per_second": 189.369,
+      "eval_steps_per_second": 18.937,
+      "step": 60
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.24705882352941175,
+      "eval_loss": 2.010183334350586,
+      "eval_precision": 0.34854771784232363,
+      "eval_recall": 0.19134396355353075,
+      "eval_runtime": 0.1045,
+      "eval_samples_per_second": 191.384,
+      "eval_steps_per_second": 19.138,
+      "step": 70
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.3578104138851802,
+      "eval_loss": 1.7770382165908813,
+      "eval_precision": 0.432258064516129,
+      "eval_recall": 0.3052391799544419,
+      "eval_runtime": 0.1043,
+      "eval_samples_per_second": 191.78,
+      "eval_steps_per_second": 19.178,
+      "step": 80
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.4306709265175719,
+      "eval_loss": 1.578804612159729,
+      "eval_precision": 0.49053857350800584,
+      "eval_recall": 0.3838268792710706,
+      "eval_runtime": 0.1049,
+      "eval_samples_per_second": 190.736,
+      "eval_steps_per_second": 19.074,
+      "step": 90
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.6135512590408325,
+      "learning_rate": 2e-05,
+      "loss": 2.0341,
+      "step": 100
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.5129151291512916,
+      "eval_loss": 1.4062659740447998,
+      "eval_precision": 0.5574866310160428,
+      "eval_recall": 0.47494305239179957,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.876,
+      "eval_steps_per_second": 18.988,
+      "step": 100
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1": 0.5652435357787132,
+      "eval_loss": 1.2971620559692383,
+      "eval_precision": 0.5987261146496815,
+      "eval_recall": 0.5353075170842825,
+      "eval_runtime": 0.1046,
+      "eval_samples_per_second": 191.215,
+      "eval_steps_per_second": 19.122,
+      "step": 110
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1": 0.5844155844155845,
+      "eval_loss": 1.22593092918396,
+      "eval_precision": 0.6066176470588235,
+      "eval_recall": 0.5637813211845103,
+      "eval_runtime": 0.1052,
+      "eval_samples_per_second": 190.037,
+      "eval_steps_per_second": 19.004,
+      "step": 120
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1": 0.6020642201834862,
+      "eval_loss": 1.1731911897659302,
+      "eval_precision": 0.6062355658198614,
+      "eval_recall": 0.5979498861047836,
+      "eval_runtime": 0.1047,
+      "eval_samples_per_second": 190.934,
+      "eval_steps_per_second": 19.093,
+      "step": 130
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1": 0.6093023255813953,
+      "eval_loss": 1.1392405033111572,
+      "eval_precision": 0.6223277909738717,
+      "eval_recall": 0.5968109339407744,
+      "eval_runtime": 0.1076,
+      "eval_samples_per_second": 185.839,
+      "eval_steps_per_second": 18.584,
+      "step": 140
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 1.8851341009140015,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 1.0843,
+      "step": 150
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1": 0.6329849012775842,
+      "eval_loss": 1.1109048128128052,
+      "eval_precision": 0.6457345971563981,
+      "eval_recall": 0.6207289293849658,
+      "eval_runtime": 0.1045,
+      "eval_samples_per_second": 191.342,
+      "eval_steps_per_second": 19.134,
+      "step": 150
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1": 0.6323103647944412,
+      "eval_loss": 1.111675500869751,
+      "eval_precision": 0.6431095406360424,
+      "eval_recall": 0.621867881548975,
+      "eval_runtime": 0.1064,
+      "eval_samples_per_second": 187.947,
+      "eval_steps_per_second": 18.795,
+      "step": 160
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1": 0.6406976744186046,
+      "eval_loss": 1.1105479001998901,
+      "eval_precision": 0.6543942992874109,
+      "eval_recall": 0.6275626423690205,
+      "eval_runtime": 0.1038,
+      "eval_samples_per_second": 192.723,
+      "eval_steps_per_second": 19.272,
+      "step": 170
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1": 0.6418338108882521,
+      "eval_loss": 1.1081936359405518,
+      "eval_precision": 0.6459054209919262,
+      "eval_recall": 0.6378132118451025,
+      "eval_runtime": 0.1093,
+      "eval_samples_per_second": 182.962,
+      "eval_steps_per_second": 18.296,
+      "step": 180
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1": 0.656629994209612,
+      "eval_loss": 1.0905473232269287,
+      "eval_precision": 0.6678445229681979,
+      "eval_recall": 0.6457858769931663,
+      "eval_runtime": 0.1058,
+      "eval_samples_per_second": 189.016,
+      "eval_steps_per_second": 18.902,
+      "step": 190
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.453874111175537,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 0.6709,
+      "step": 200
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1": 0.6527536231884057,
+      "eval_loss": 1.0979650020599365,
+      "eval_precision": 0.6646989374262101,
+      "eval_recall": 0.6412300683371298,
+      "eval_runtime": 0.1051,
+      "eval_samples_per_second": 190.38,
+      "eval_steps_per_second": 19.038,
+      "step": 200
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1": 0.660889659156557,
+      "eval_loss": 1.1073075532913208,
+      "eval_precision": 0.6705744431418523,
+      "eval_recall": 0.6514806378132119,
+      "eval_runtime": 0.1063,
+      "eval_samples_per_second": 188.158,
+      "eval_steps_per_second": 18.816,
+      "step": 210
+    },
+    {
+      "epoch": 22.0,
+      "eval_f1": 0.6520231213872832,
+      "eval_loss": 1.109878420829773,
+      "eval_precision": 0.6619718309859155,
+      "eval_recall": 0.642369020501139,
+      "eval_runtime": 0.1108,
+      "eval_samples_per_second": 180.582,
+      "eval_steps_per_second": 18.058,
+      "step": 220
+    },
+    {
+      "epoch": 23.0,
+      "eval_f1": 0.6666666666666666,
+      "eval_loss": 1.1079308986663818,
+      "eval_precision": 0.6838323353293413,
+      "eval_recall": 0.6503416856492027,
+      "eval_runtime": 0.1051,
+      "eval_samples_per_second": 190.371,
+      "eval_steps_per_second": 19.037,
+      "step": 230
+    },
+    {
+      "epoch": 24.0,
+      "eval_f1": 0.6685714285714285,
+      "eval_loss": 1.0995490550994873,
+      "eval_precision": 0.6708715596330275,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1076,
+      "eval_samples_per_second": 185.917,
+      "eval_steps_per_second": 18.592,
+      "step": 240
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 1.9804632663726807,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.4563,
+      "step": 250
+    },
+    {
+      "epoch": 25.0,
+      "eval_f1": 0.6623831775700935,
+      "eval_loss": 1.1412475109100342,
+      "eval_precision": 0.6798561151079137,
+      "eval_recall": 0.6457858769931663,
+      "eval_runtime": 0.1043,
+      "eval_samples_per_second": 191.672,
+      "eval_steps_per_second": 19.167,
+      "step": 250
+    },
+    {
+      "epoch": 26.0,
+      "eval_f1": 0.6685878962536023,
+      "eval_loss": 1.1206316947937012,
+      "eval_precision": 0.676779463243874,
+      "eval_recall": 0.6605922551252847,
+      "eval_runtime": 0.1025,
+      "eval_samples_per_second": 195.213,
+      "eval_steps_per_second": 19.521,
+      "step": 260
+    },
+    {
+      "epoch": 27.0,
+      "eval_f1": 0.674013921113689,
+      "eval_loss": 1.1223537921905518,
+      "eval_precision": 0.6867612293144209,
+      "eval_recall": 0.6617312072892938,
+      "eval_runtime": 0.1023,
+      "eval_samples_per_second": 195.488,
+      "eval_steps_per_second": 19.549,
+      "step": 270
+    },
+    {
+      "epoch": 28.0,
+      "eval_f1": 0.6787595084844938,
+      "eval_loss": 1.1268706321716309,
+      "eval_precision": 0.6979542719614922,
+      "eval_recall": 0.6605922551252847,
+      "eval_runtime": 0.107,
+      "eval_samples_per_second": 186.844,
+      "eval_steps_per_second": 18.684,
+      "step": 280
+    },
+    {
+      "epoch": 29.0,
+      "eval_f1": 0.6817391304347827,
+      "eval_loss": 1.143689751625061,
+      "eval_precision": 0.6942148760330579,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1048,
+      "eval_samples_per_second": 190.916,
+      "eval_steps_per_second": 19.092,
+      "step": 290
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 1.2570631504058838,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 0.3229,
+      "step": 300
+    },
+    {
+      "epoch": 30.0,
+      "eval_f1": 0.6781807714450201,
+      "eval_loss": 1.1411770582199097,
+      "eval_precision": 0.6856810244470314,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1118,
+      "eval_samples_per_second": 178.865,
+      "eval_steps_per_second": 17.887,
+      "step": 300
+    },
+    {
+      "epoch": 31.0,
+      "eval_f1": 0.6797235023041475,
+      "eval_loss": 1.1665282249450684,
+      "eval_precision": 0.6876456876456877,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1061,
+      "eval_samples_per_second": 188.516,
+      "eval_steps_per_second": 18.852,
+      "step": 310
+    },
+    {
+      "epoch": 32.0,
+      "eval_f1": 0.6785714285714286,
+      "eval_loss": 1.147858738899231,
+      "eval_precision": 0.6864801864801865,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1079,
+      "eval_samples_per_second": 185.36,
+      "eval_steps_per_second": 18.536,
+      "step": 320
+    },
+    {
+      "epoch": 33.0,
+      "eval_f1": 0.6774193548387096,
+      "eval_loss": 1.1554282903671265,
+      "eval_precision": 0.6853146853146853,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1037,
+      "eval_samples_per_second": 192.925,
+      "eval_steps_per_second": 19.292,
+      "step": 330
+    },
+    {
+      "epoch": 34.0,
+      "eval_f1": 0.6797687861271676,
+      "eval_loss": 1.15742027759552,
+      "eval_precision": 0.6901408450704225,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.904,
+      "eval_steps_per_second": 18.99,
+      "step": 340
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 1.0945429801940918,
+      "learning_rate": 1.4444444444444446e-05,
+      "loss": 0.2396,
+      "step": 350
+    },
+    {
+      "epoch": 35.0,
+      "eval_f1": 0.6797235023041475,
+      "eval_loss": 1.1754865646362305,
+      "eval_precision": 0.6876456876456877,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1057,
+      "eval_samples_per_second": 189.199,
+      "eval_steps_per_second": 18.92,
+      "step": 350
+    },
+    {
+      "epoch": 36.0,
+      "eval_f1": 0.6735870818915801,
+      "eval_loss": 1.1885067224502563,
+      "eval_precision": 0.6822429906542056,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1,
+      "eval_samples_per_second": 200.0,
+      "eval_steps_per_second": 20.0,
+      "step": 360
+    },
+    {
+      "epoch": 37.0,
+      "eval_f1": 0.6806526806526807,
+      "eval_loss": 1.181584119796753,
+      "eval_precision": 0.6968973747016707,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1076,
+      "eval_samples_per_second": 185.858,
+      "eval_steps_per_second": 18.586,
+      "step": 370
+    },
+    {
+      "epoch": 38.0,
+      "eval_f1": 0.6787172011661807,
+      "eval_loss": 1.1876161098480225,
+      "eval_precision": 0.6953405017921147,
+      "eval_recall": 0.662870159453303,
+      "eval_runtime": 0.1161,
+      "eval_samples_per_second": 172.269,
+      "eval_steps_per_second": 17.227,
+      "step": 380
+    },
+    {
+      "epoch": 39.0,
+      "eval_f1": 0.6818713450292397,
+      "eval_loss": 1.2116471529006958,
+      "eval_precision": 0.7007211538461539,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1027,
+      "eval_samples_per_second": 194.71,
+      "eval_steps_per_second": 19.471,
+      "step": 390
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.8599975109100342,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.1848,
+      "step": 400
+    },
+    {
+      "epoch": 40.0,
+      "eval_f1": 0.6786542923433874,
+      "eval_loss": 1.1997044086456299,
+      "eval_precision": 0.6914893617021277,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1098,
+      "eval_samples_per_second": 182.124,
+      "eval_steps_per_second": 18.212,
+      "step": 400
+    },
+    {
+      "epoch": 41.0,
+      "eval_f1": 0.6817917393833625,
+      "eval_loss": 1.2281190156936646,
+      "eval_precision": 0.6967895362663495,
+      "eval_recall": 0.6674259681093394,
+      "eval_runtime": 0.1026,
+      "eval_samples_per_second": 195.027,
+      "eval_steps_per_second": 19.503,
+      "step": 410
+    },
+    {
+      "epoch": 42.0,
+      "eval_f1": 0.6820542412002308,
+      "eval_loss": 1.205224633216858,
+      "eval_precision": 0.6912280701754386,
+      "eval_recall": 0.673120728929385,
+      "eval_runtime": 0.1029,
+      "eval_samples_per_second": 194.454,
+      "eval_steps_per_second": 19.445,
+      "step": 420
+    },
+    {
+      "epoch": 43.0,
+      "eval_f1": 0.6834112149532711,
+      "eval_loss": 1.2441879510879517,
+      "eval_precision": 0.7014388489208633,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1013,
+      "eval_samples_per_second": 197.51,
+      "eval_steps_per_second": 19.751,
+      "step": 430
+    },
+    {
+      "epoch": 44.0,
+      "eval_f1": 0.6762672811059909,
+      "eval_loss": 1.2410287857055664,
+      "eval_precision": 0.6841491841491841,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1039,
+      "eval_samples_per_second": 192.454,
+      "eval_steps_per_second": 19.245,
+      "step": 440
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 0.8666434288024902,
+      "learning_rate": 1.2222222222222224e-05,
+      "loss": 0.1472,
+      "step": 450
+    },
+    {
+      "epoch": 45.0,
+      "eval_f1": 0.6809744779582366,
+      "eval_loss": 1.2373775243759155,
+      "eval_precision": 0.693853427895981,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1016,
+      "eval_samples_per_second": 196.912,
+      "eval_steps_per_second": 19.691,
+      "step": 450
+    },
+    {
+      "epoch": 46.0,
+      "eval_f1": 0.6786961583236321,
+      "eval_loss": 1.237067461013794,
+      "eval_precision": 0.694047619047619,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1002,
+      "eval_samples_per_second": 199.663,
+      "eval_steps_per_second": 19.966,
+      "step": 460
+    },
+    {
+      "epoch": 47.0,
+      "eval_f1": 0.6889016676250718,
+      "eval_loss": 1.2270065546035767,
+      "eval_precision": 0.6957026713124274,
+      "eval_recall": 0.6822323462414579,
+      "eval_runtime": 0.1051,
+      "eval_samples_per_second": 190.295,
+      "eval_steps_per_second": 19.03,
+      "step": 470
+    },
+    {
+      "epoch": 48.0,
+      "eval_f1": 0.6805555555555555,
+      "eval_loss": 1.238765001296997,
+      "eval_precision": 0.691764705882353,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1066,
+      "eval_samples_per_second": 187.677,
+      "eval_steps_per_second": 18.768,
+      "step": 480
+    },
+    {
+      "epoch": 49.0,
+      "eval_f1": 0.6790914385556202,
+      "eval_loss": 1.2525634765625,
+      "eval_precision": 0.6948748510131109,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1021,
+      "eval_samples_per_second": 195.942,
+      "eval_steps_per_second": 19.594,
+      "step": 490
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 0.8096102476119995,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 0.1184,
+      "step": 500
+    },
+    {
+      "epoch": 50.0,
+      "eval_f1": 0.681421083284799,
+      "eval_loss": 1.2390888929367065,
+      "eval_precision": 0.6972586412395709,
+      "eval_recall": 0.6662870159453302,
+      "eval_runtime": 0.1042,
+      "eval_samples_per_second": 191.926,
+      "eval_steps_per_second": 19.193,
+      "step": 500
+    },
+    {
+      "epoch": 51.0,
+      "eval_f1": 0.6782810685249709,
+      "eval_loss": 1.2617552280426025,
+      "eval_precision": 0.6919431279620853,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1011,
+      "eval_samples_per_second": 197.736,
+      "eval_steps_per_second": 19.774,
+      "step": 510
+    },
+    {
+      "epoch": 52.0,
+      "eval_f1": 0.6814469078179697,
+      "eval_loss": 1.2573115825653076,
+      "eval_precision": 0.6985645933014354,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1033,
+      "eval_samples_per_second": 193.643,
+      "eval_steps_per_second": 19.364,
+      "step": 520
+    },
+    {
+      "epoch": 53.0,
+      "eval_f1": 0.681369704004643,
+      "eval_loss": 1.2631280422210693,
+      "eval_precision": 0.6946745562130178,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1027,
+      "eval_samples_per_second": 194.742,
+      "eval_steps_per_second": 19.474,
+      "step": 530
+    },
+    {
+      "epoch": 54.0,
+      "eval_f1": 0.6822429906542057,
+      "eval_loss": 1.2612630128860474,
+      "eval_precision": 0.7002398081534772,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1034,
+      "eval_samples_per_second": 193.355,
+      "eval_steps_per_second": 19.335,
+      "step": 540
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 1.258770227432251,
+      "learning_rate": 1e-05,
+      "loss": 0.0965,
+      "step": 550
+    },
+    {
+      "epoch": 55.0,
+      "eval_f1": 0.678592036930179,
+      "eval_loss": 1.2565994262695312,
+      "eval_precision": 0.6877192982456141,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1065,
+      "eval_samples_per_second": 187.769,
+      "eval_steps_per_second": 18.777,
+      "step": 550
+    },
+    {
+      "epoch": 56.0,
+      "eval_f1": 0.6720461095100864,
+      "eval_loss": 1.286030888557434,
+      "eval_precision": 0.6802800466744457,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1017,
+      "eval_samples_per_second": 196.637,
+      "eval_steps_per_second": 19.664,
+      "step": 560
+    },
+    {
+      "epoch": 57.0,
+      "eval_f1": 0.6774941995359629,
+      "eval_loss": 1.2746167182922363,
+      "eval_precision": 0.6903073286052009,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.104,
+      "eval_samples_per_second": 192.291,
+      "eval_steps_per_second": 19.229,
+      "step": 570
+    },
+    {
+      "epoch": 58.0,
+      "eval_f1": 0.6813441483198146,
+      "eval_loss": 1.2719839811325073,
+      "eval_precision": 0.6933962264150944,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1009,
+      "eval_samples_per_second": 198.12,
+      "eval_steps_per_second": 19.812,
+      "step": 580
+    },
+    {
+      "epoch": 59.0,
+      "eval_f1": 0.6845168800931315,
+      "eval_loss": 1.2790720462799072,
+      "eval_precision": 0.7,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1025,
+      "eval_samples_per_second": 195.09,
+      "eval_steps_per_second": 19.509,
+      "step": 590
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.6421855688095093,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.0841,
+      "step": 600
+    },
+    {
+      "epoch": 60.0,
+      "eval_f1": 0.6827309236947792,
+      "eval_loss": 1.2661317586898804,
+      "eval_precision": 0.6878612716763006,
+      "eval_recall": 0.6776765375854215,
+      "eval_runtime": 0.1054,
+      "eval_samples_per_second": 189.834,
+      "eval_steps_per_second": 18.983,
+      "step": 600
+    },
+    {
+      "epoch": 61.0,
+      "eval_f1": 0.6803039158386909,
+      "eval_loss": 1.2873255014419556,
+      "eval_precision": 0.6986794717887155,
+      "eval_recall": 0.662870159453303,
+      "eval_runtime": 0.1028,
+      "eval_samples_per_second": 194.643,
+      "eval_steps_per_second": 19.464,
+      "step": 610
+    },
+    {
+      "epoch": 62.0,
+      "eval_f1": 0.6809248554913295,
+      "eval_loss": 1.2766045331954956,
+      "eval_precision": 0.6913145539906104,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1044,
+      "eval_samples_per_second": 191.487,
+      "eval_steps_per_second": 19.149,
+      "step": 620
+    },
+    {
+      "epoch": 63.0,
+      "eval_f1": 0.6755658734764944,
+      "eval_loss": 1.2915081977844238,
+      "eval_precision": 0.6887573964497041,
+      "eval_recall": 0.662870159453303,
+      "eval_runtime": 0.1078,
+      "eval_samples_per_second": 185.542,
+      "eval_steps_per_second": 18.554,
+      "step": 630
+    },
+    {
+      "epoch": 64.0,
+      "eval_f1": 0.6732101616628174,
+      "eval_loss": 1.2793446779251099,
+      "eval_precision": 0.6826697892271663,
+      "eval_recall": 0.664009111617312,
+      "eval_runtime": 0.1016,
+      "eval_samples_per_second": 196.942,
+      "eval_steps_per_second": 19.694,
+      "step": 640
+    },
+    {
+      "epoch": 65.0,
+      "grad_norm": 0.5916463136672974,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.0714,
+      "step": 650
+    },
+    {
+      "epoch": 65.0,
+      "eval_f1": 0.6820276497695852,
+      "eval_loss": 1.3019025325775146,
+      "eval_precision": 0.6899766899766899,
+      "eval_recall": 0.6742596810933941,
+      "eval_runtime": 0.1008,
+      "eval_samples_per_second": 198.393,
+      "eval_steps_per_second": 19.839,
+      "step": 650
+    },
+    {
+      "epoch": 66.0,
+      "eval_f1": 0.6853473438412142,
+      "eval_loss": 1.2911741733551025,
+      "eval_precision": 0.7029940119760479,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.106,
+      "eval_samples_per_second": 188.757,
+      "eval_steps_per_second": 18.876,
+      "step": 660
+    },
+    {
+      "epoch": 67.0,
+      "eval_f1": 0.67816091954023,
+      "eval_loss": 1.2967917919158936,
+      "eval_precision": 0.6844547563805105,
+      "eval_recall": 0.6719817767653758,
+      "eval_runtime": 0.1092,
+      "eval_samples_per_second": 183.175,
+      "eval_steps_per_second": 18.318,
+      "step": 670
+    },
+    {
+      "epoch": 68.0,
+      "eval_f1": 0.6895348837209303,
+      "eval_loss": 1.2946228981018066,
+      "eval_precision": 0.7042755344418052,
+      "eval_recall": 0.6753986332574032,
+      "eval_runtime": 0.1052,
+      "eval_samples_per_second": 190.167,
+      "eval_steps_per_second": 19.017,
+      "step": 680
+    },
+    {
+      "epoch": 69.0,
+      "eval_f1": 0.6863425925925927,
+      "eval_loss": 1.2976857423782349,
+      "eval_precision": 0.6976470588235294,
+      "eval_recall": 0.6753986332574032,
+      "eval_runtime": 0.103,
+      "eval_samples_per_second": 194.22,
+      "eval_steps_per_second": 19.422,
+      "step": 690
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 0.7995481491088867,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.064,
+      "step": 700
+    },
+    {
+      "epoch": 70.0,
+      "eval_f1": 0.6771014492753623,
+      "eval_loss": 1.295568585395813,
+      "eval_precision": 0.6894923258559622,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1031,
+      "eval_samples_per_second": 193.92,
+      "eval_steps_per_second": 19.392,
+      "step": 700
+    },
+    {
+      "epoch": 71.0,
+      "eval_f1": 0.6797687861271676,
+      "eval_loss": 1.2898850440979004,
+      "eval_precision": 0.6901408450704225,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.1005,
+      "eval_samples_per_second": 198.942,
+      "eval_steps_per_second": 19.894,
+      "step": 710
+    },
+    {
+      "epoch": 72.0,
+      "eval_f1": 0.6806526806526807,
+      "eval_loss": 1.3075172901153564,
+      "eval_precision": 0.6968973747016707,
+      "eval_recall": 0.6651480637813212,
+      "eval_runtime": 0.1087,
+      "eval_samples_per_second": 184.017,
+      "eval_steps_per_second": 18.402,
+      "step": 720
+    },
+    {
+      "epoch": 73.0,
+      "eval_f1": 0.683750728013978,
+      "eval_loss": 1.2973222732543945,
+      "eval_precision": 0.699642431466031,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1054,
+      "eval_samples_per_second": 189.672,
+      "eval_steps_per_second": 18.967,
+      "step": 730
+    },
+    {
+      "epoch": 74.0,
+      "eval_f1": 0.6872812135355894,
+      "eval_loss": 1.3102946281433105,
+      "eval_precision": 0.7045454545454546,
+      "eval_recall": 0.6708428246013668,
+      "eval_runtime": 0.1064,
+      "eval_samples_per_second": 188.0,
+      "eval_steps_per_second": 18.8,
+      "step": 740
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 0.8353786468505859,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.0575,
+      "step": 750
+    },
+    {
+      "epoch": 75.0,
+      "eval_f1": 0.6797915460335843,
+      "eval_loss": 1.3147099018096924,
+      "eval_precision": 0.6914016489988222,
+      "eval_recall": 0.6685649202733486,
+      "eval_runtime": 0.1049,
+      "eval_samples_per_second": 190.589,
+      "eval_steps_per_second": 19.059,
+      "step": 750
+    },
+    {
+      "epoch": 76.0,
+      "eval_f1": 0.6845168800931315,
+      "eval_loss": 1.3087732791900635,
+      "eval_precision": 0.7,
+      "eval_recall": 0.6697038724373576,
+      "eval_runtime": 0.105,
+      "eval_samples_per_second": 190.4,
+      "eval_steps_per_second": 19.04,
+      "step": 760
+    },
+    {
+      "epoch": 77.0,
+      "eval_f1": 0.6937354988399073,
+      "eval_loss": 1.3092721700668335,
+      "eval_precision": 0.706855791962175,
+      "eval_recall": 0.6810933940774487,
+      "eval_runtime": 0.1053,
+      "eval_samples_per_second": 189.996,
+      "eval_steps_per_second": 19.0,
+      "step": 770
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 402935426826240.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-770/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:752be49abc948927108e2467a489df708fc2c98f0a2eb2cad2df41eff128d5d9
+size 5304

checkpoint-770/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,176 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForTokenClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "B-Activity",
+    "1": "B-Administration",
+    "2": "B-Age",
+    "3": "B-Area",
+    "4": "B-Biological_attribute",
+    "5": "B-Biological_structure",
+    "6": "B-Clinical_event",
+    "7": "B-Color",
+    "8": "B-Coreference",
+    "9": "B-Date",
+    "10": "B-Detailed_description",
+    "11": "B-Diagnostic_procedure",
+    "12": "B-Disease_disorder",
+    "13": "B-Distance",
+    "14": "B-Dosage",
+    "15": "B-Duration",
+    "16": "B-Family_history",
+    "17": "B-Frequency",
+    "18": "B-Height",
+    "19": "B-History",
+    "20": "B-Lab_value",
+    "21": "B-Mass",
+    "22": "B-Medication",
+    "23": "B-Nonbiological_location",
+    "24": "B-Occupation",
+    "25": "B-Other_entity",
+    "26": "B-Other_event",
+    "27": "B-Outcome",
+    "28": "B-Personal_background",
+    "29": "B-Qualitative_concept",
+    "30": "B-Quantitative_concept",
+    "31": "B-Severity",
+    "32": "B-Sex",
+    "33": "B-Shape",
+    "34": "B-Sign_symptom",
+    "35": "B-Subject",
+    "36": "B-Texture",
+    "37": "B-Therapeutic_procedure",
+    "38": "B-Time",
+    "39": "B-Volume",
+    "40": "B-Weight",
+    "41": "I-Activity",
+    "42": "I-Administration",
+    "43": "I-Age",
+    "44": "I-Area",
+    "45": "I-Biological_structure",
+    "46": "I-Clinical_event",
+    "47": "I-Coreference",
+    "48": "I-Date",
+    "49": "I-Detailed_description",
+    "50": "I-Diagnostic_procedure",
+    "51": "I-Disease_disorder",
+    "52": "I-Distance",
+    "53": "I-Dosage",
+    "54": "I-Duration",
+    "55": "I-Family_history",
+    "56": "I-History",
+    "57": "I-Lab_value",
+    "58": "I-Mass",
+    "59": "I-Medication",
+    "60": "I-Nonbiological_location",
+    "61": "I-Other_entity",
+    "62": "I-Outcome",
+    "63": "I-Personal_background",
+    "64": "I-Quantitative_concept",
+    "65": "I-Severity",
+    "66": "I-Sex",
+    "67": "I-Sign_symptom",
+    "68": "I-Subject",
+    "69": "I-Texture",
+    "70": "I-Therapeutic_procedure",
+    "71": "I-Time",
+    "72": "I-Volume",
+    "73": "O"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "B-Activity": 0,
+    "B-Administration": 1,
+    "B-Age": 2,
+    "B-Area": 3,
+    "B-Biological_attribute": 4,
+    "B-Biological_structure": 5,
+    "B-Clinical_event": 6,
+    "B-Color": 7,
+    "B-Coreference": 8,
+    "B-Date": 9,
+    "B-Detailed_description": 10,
+    "B-Diagnostic_procedure": 11,
+    "B-Disease_disorder": 12,
+    "B-Distance": 13,
+    "B-Dosage": 14,
+    "B-Duration": 15,
+    "B-Family_history": 16,
+    "B-Frequency": 17,
+    "B-Height": 18,
+    "B-History": 19,
+    "B-Lab_value": 20,
+    "B-Mass": 21,
+    "B-Medication": 22,
+    "B-Nonbiological_location": 23,
+    "B-Occupation": 24,
+    "B-Other_entity": 25,
+    "B-Other_event": 26,
+    "B-Outcome": 27,
+    "B-Personal_background": 28,
+    "B-Qualitative_concept": 29,
+    "B-Quantitative_concept": 30,
+    "B-Severity": 31,
+    "B-Sex": 32,
+    "B-Shape": 33,
+    "B-Sign_symptom": 34,
+    "B-Subject": 35,
+    "B-Texture": 36,
+    "B-Therapeutic_procedure": 37,
+    "B-Time": 38,
+    "B-Volume": 39,
+    "B-Weight": 40,
+    "I-Activity": 41,
+    "I-Administration": 42,
+    "I-Age": 43,
+    "I-Area": 44,
+    "I-Biological_structure": 45,
+    "I-Clinical_event": 46,
+    "I-Coreference": 47,
+    "I-Date": 48,
+    "I-Detailed_description": 49,
+    "I-Diagnostic_procedure": 50,
+    "I-Disease_disorder": 51,
+    "I-Distance": 52,
+    "I-Dosage": 53,
+    "I-Duration": 54,
+    "I-Family_history": 55,
+    "I-History": 56,
+    "I-Lab_value": 57,
+    "I-Mass": 58,
+    "I-Medication": 59,
+    "I-Nonbiological_location": 60,
+    "I-Other_entity": 61,
+    "I-Outcome": 62,
+    "I-Personal_background": 63,
+    "I-Quantitative_concept": 64,
+    "I-Severity": 65,
+    "I-Sex": 66,
+    "I-Sign_symptom": 67,
+    "I-Subject": 68,
+    "I-Texture": 69,
+    "I-Therapeutic_procedure": 70,
+    "I-Time": 71,
+    "I-Volume": 72,
+    "O": 73
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "vocab_size": 30522
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:326f38cbbe8b00407d06f53521d4910fcb093e796b288f95c3aef96f06cc66a9
+size 265691496

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:752be49abc948927108e2467a489df708fc2c98f0a2eb2cad2df41eff128d5d9
+size 5304

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff