adamadam111 commited on Jul 8, 2025

Commit

16145b8

verified ·

1 Parent(s): 229b5aa

Upload folder using huggingface_hub

Browse files

Files changed (22) hide show

checkpoint-4500/config.json +43 -0
checkpoint-4500/model.safetensors +3 -0
checkpoint-4500/optimizer.pt +3 -0
checkpoint-4500/rng_state.pth +3 -0
checkpoint-4500/scheduler.pt +3 -0
checkpoint-4500/special_tokens_map.json +7 -0
checkpoint-4500/tokenizer.json +0 -0
checkpoint-4500/tokenizer_config.json +58 -0
checkpoint-4500/trainer_state.json +781 -0
checkpoint-4500/training_args.bin +3 -0
checkpoint-4500/vocab.txt +0 -0
checkpoint-5000/config.json +43 -0
checkpoint-5000/model.safetensors +3 -0
checkpoint-5000/optimizer.pt +3 -0
checkpoint-5000/rng_state.pth +3 -0
checkpoint-5000/scheduler.pt +3 -0
checkpoint-5000/special_tokens_map.json +7 -0
checkpoint-5000/tokenizer.json +0 -0
checkpoint-5000/tokenizer_config.json +58 -0
checkpoint-5000/trainer_state.json +863 -0
checkpoint-5000/training_args.bin +3 -0
checkpoint-5000/vocab.txt +0 -0

checkpoint-4500/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "BrosForDocumentClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bbox_scale": 100.0,
+  "classifier_dropout_prob": 0.1,
+  "dim_bbox": 8,
+  "dim_bbox_projection": 64,
+  "dim_bbox_sinusoid_emb_1d": 24,
+  "dim_bbox_sinusoid_emb_2d": 192,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "form",
+    "1": "invoice",
+    "2": "budget",
+    "3": "file folder",
+    "4": "questionnaire"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "budget": 2,
+    "file folder": 3,
+    "form": 0,
+    "invoice": 1,
+    "questionnaire": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bros",
+  "n_relations": 1,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pe_type": "crel",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.0",
+  "type_vocab_size": 2,
+  "vocab_size": 30522
+}

checkpoint-4500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c734282224483402874fe0d8b9670e9d06e66a03724d1e68498e9b7eca98951a
+size 438021652

checkpoint-4500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9331b0d8e134e282ce5c64d7df4cbe52f7237165270812e5b8d742b7db105a5
+size 871429498

checkpoint-4500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f81594be2e47b64f681f892d4e630e3eb0a96022bd503a0e9ed224a3d9fe2bd
+size 14244

checkpoint-4500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:803ff710c7cc7ca3c1db1a96a251f3adc9a7434ab9c0d55acd8afc98758c4b4f
+size 1064

checkpoint-4500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-4500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-4500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-4500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,781 @@

+{
+  "best_global_step": 4500,
+  "best_metric": 0.852,
+  "best_model_checkpoint": "./bros-docclass-finetuned/checkpoint-4500",
+  "epoch": 9.0,
+  "eval_steps": 500,
+  "global_step": 4500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 9.038439750671387,
+      "learning_rate": 1.9804000000000002e-05,
+      "loss": 1.2156,
+      "step": 50
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 12.505393028259277,
+      "learning_rate": 1.9604e-05,
+      "loss": 0.8366,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 17.0165958404541,
+      "learning_rate": 1.9404e-05,
+      "loss": 0.7993,
+      "step": 150
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 25.100793838500977,
+      "learning_rate": 1.9204e-05,
+      "loss": 0.6683,
+      "step": 200
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 12.89208698272705,
+      "learning_rate": 1.9004000000000003e-05,
+      "loss": 0.7392,
+      "step": 250
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 19.72749137878418,
+      "learning_rate": 1.8804e-05,
+      "loss": 0.666,
+      "step": 300
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 30.814998626708984,
+      "learning_rate": 1.8604000000000003e-05,
+      "loss": 0.6453,
+      "step": 350
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.3695790767669678,
+      "learning_rate": 1.8404000000000002e-05,
+      "loss": 0.6402,
+      "step": 400
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 3.071685791015625,
+      "learning_rate": 1.8204e-05,
+      "loss": 0.6646,
+      "step": 450
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 19.854291915893555,
+      "learning_rate": 1.8004000000000002e-05,
+      "loss": 0.6606,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.798,
+      "eval_f1": 0.7962131024443857,
+      "eval_loss": 0.6697192788124084,
+      "eval_precision": 0.8016786327842085,
+      "eval_recall": 0.798,
+      "eval_runtime": 16.5436,
+      "eval_samples_per_second": 60.446,
+      "eval_steps_per_second": 7.556,
+      "step": 500
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 3.369779109954834,
+      "learning_rate": 1.7804e-05,
+      "loss": 0.5355,
+      "step": 550
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 20.186811447143555,
+      "learning_rate": 1.7604e-05,
+      "loss": 0.5781,
+      "step": 600
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 19.78652000427246,
+      "learning_rate": 1.7404e-05,
+      "loss": 0.5731,
+      "step": 650
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.9622361063957214,
+      "learning_rate": 1.7204e-05,
+      "loss": 0.5907,
+      "step": 700
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 22.184574127197266,
+      "learning_rate": 1.7004000000000002e-05,
+      "loss": 0.4993,
+      "step": 750
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 37.49524688720703,
+      "learning_rate": 1.6804e-05,
+      "loss": 0.6767,
+      "step": 800
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 0.731647789478302,
+      "learning_rate": 1.6604000000000002e-05,
+      "loss": 0.6219,
+      "step": 850
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 5.991142272949219,
+      "learning_rate": 1.6404e-05,
+      "loss": 0.5425,
+      "step": 900
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 35.003902435302734,
+      "learning_rate": 1.6204000000000003e-05,
+      "loss": 0.5822,
+      "step": 950
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 7.839473247528076,
+      "learning_rate": 1.6004e-05,
+      "loss": 0.5845,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.828,
+      "eval_f1": 0.8261256801910406,
+      "eval_loss": 0.6260756254196167,
+      "eval_precision": 0.8353381322045145,
+      "eval_recall": 0.828,
+      "eval_runtime": 16.5173,
+      "eval_samples_per_second": 60.543,
+      "eval_steps_per_second": 7.568,
+      "step": 1000
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 22.77824592590332,
+      "learning_rate": 1.5804000000000003e-05,
+      "loss": 0.526,
+      "step": 1050
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 28.53985023498535,
+      "learning_rate": 1.5604000000000002e-05,
+      "loss": 0.3672,
+      "step": 1100
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 13.204597473144531,
+      "learning_rate": 1.5404e-05,
+      "loss": 0.521,
+      "step": 1150
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 33.86636734008789,
+      "learning_rate": 1.5204e-05,
+      "loss": 0.4376,
+      "step": 1200
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 3.819549798965454,
+      "learning_rate": 1.5004e-05,
+      "loss": 0.5127,
+      "step": 1250
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 9.592472076416016,
+      "learning_rate": 1.4804000000000001e-05,
+      "loss": 0.4313,
+      "step": 1300
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 2.242670774459839,
+      "learning_rate": 1.4604000000000001e-05,
+      "loss": 0.4445,
+      "step": 1350
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 61.427616119384766,
+      "learning_rate": 1.4404e-05,
+      "loss": 0.4974,
+      "step": 1400
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 0.4456544816493988,
+      "learning_rate": 1.4204000000000002e-05,
+      "loss": 0.4999,
+      "step": 1450
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 33.89624786376953,
+      "learning_rate": 1.4004000000000002e-05,
+      "loss": 0.4223,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.818,
+      "eval_f1": 0.8172688666919534,
+      "eval_loss": 0.7300030589103699,
+      "eval_precision": 0.8328778365646615,
+      "eval_recall": 0.818,
+      "eval_runtime": 16.4984,
+      "eval_samples_per_second": 60.612,
+      "eval_steps_per_second": 7.576,
+      "step": 1500
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 18.57257652282715,
+      "learning_rate": 1.3804000000000002e-05,
+      "loss": 0.4925,
+      "step": 1550
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 40.097713470458984,
+      "learning_rate": 1.3604000000000002e-05,
+      "loss": 0.2834,
+      "step": 1600
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 191.4404754638672,
+      "learning_rate": 1.3404e-05,
+      "loss": 0.4128,
+      "step": 1650
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 67.55642700195312,
+      "learning_rate": 1.3204000000000001e-05,
+      "loss": 0.3483,
+      "step": 1700
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 26.829570770263672,
+      "learning_rate": 1.3004000000000001e-05,
+      "loss": 0.3372,
+      "step": 1750
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 12.817995071411133,
+      "learning_rate": 1.2804000000000001e-05,
+      "loss": 0.4087,
+      "step": 1800
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 1.6152303218841553,
+      "learning_rate": 1.2604e-05,
+      "loss": 0.4033,
+      "step": 1850
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 0.07653416693210602,
+      "learning_rate": 1.2404e-05,
+      "loss": 0.3495,
+      "step": 1900
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 2.4822909832000732,
+      "learning_rate": 1.2204e-05,
+      "loss": 0.4195,
+      "step": 1950
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 91.26575469970703,
+      "learning_rate": 1.2004e-05,
+      "loss": 0.3644,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.839,
+      "eval_f1": 0.8384490586281527,
+      "eval_loss": 0.7187097668647766,
+      "eval_precision": 0.8450004509095641,
+      "eval_recall": 0.839,
+      "eval_runtime": 16.8707,
+      "eval_samples_per_second": 59.274,
+      "eval_steps_per_second": 7.409,
+      "step": 2000
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 4.009641170501709,
+      "learning_rate": 1.1803999999999999e-05,
+      "loss": 0.3486,
+      "step": 2050
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 16.93126106262207,
+      "learning_rate": 1.1604000000000003e-05,
+      "loss": 0.3628,
+      "step": 2100
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 65.41966247558594,
+      "learning_rate": 1.1404000000000001e-05,
+      "loss": 0.2832,
+      "step": 2150
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 36.100013732910156,
+      "learning_rate": 1.1204000000000001e-05,
+      "loss": 0.3515,
+      "step": 2200
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 13.878293991088867,
+      "learning_rate": 1.1004000000000002e-05,
+      "loss": 0.282,
+      "step": 2250
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 82.44599914550781,
+      "learning_rate": 1.0804000000000002e-05,
+      "loss": 0.2804,
+      "step": 2300
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 3.182461977005005,
+      "learning_rate": 1.0604e-05,
+      "loss": 0.2802,
+      "step": 2350
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.41410791873931885,
+      "learning_rate": 1.0404e-05,
+      "loss": 0.309,
+      "step": 2400
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 37.641319274902344,
+      "learning_rate": 1.0204000000000001e-05,
+      "loss": 0.284,
+      "step": 2450
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.98016619682312,
+      "learning_rate": 1.0004000000000001e-05,
+      "loss": 0.3447,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.844,
+      "eval_f1": 0.844281271446929,
+      "eval_loss": 0.7856075167655945,
+      "eval_precision": 0.8486261672220536,
+      "eval_recall": 0.844,
+      "eval_runtime": 16.8405,
+      "eval_samples_per_second": 59.381,
+      "eval_steps_per_second": 7.423,
+      "step": 2500
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.1525699645280838,
+      "learning_rate": 9.804000000000001e-06,
+      "loss": 0.2387,
+      "step": 2550
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.08033642917871475,
+      "learning_rate": 9.604000000000002e-06,
+      "loss": 0.2718,
+      "step": 2600
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 0.4260154366493225,
+      "learning_rate": 9.404e-06,
+      "loss": 0.3076,
+      "step": 2650
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 13.845452308654785,
+      "learning_rate": 9.204e-06,
+      "loss": 0.3018,
+      "step": 2700
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.18619368970394135,
+      "learning_rate": 9.004e-06,
+      "loss": 0.1924,
+      "step": 2750
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.2769290506839752,
+      "learning_rate": 8.804e-06,
+      "loss": 0.2033,
+      "step": 2800
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 2.3528101444244385,
+      "learning_rate": 8.604000000000001e-06,
+      "loss": 0.2645,
+      "step": 2850
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 0.7793205380439758,
+      "learning_rate": 8.404000000000001e-06,
+      "loss": 0.243,
+      "step": 2900
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 5.553439617156982,
+      "learning_rate": 8.204000000000001e-06,
+      "loss": 0.3189,
+      "step": 2950
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.482384592294693,
+      "learning_rate": 8.004e-06,
+      "loss": 0.2533,
+      "step": 3000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.832,
+      "eval_f1": 0.8305888522667962,
+      "eval_loss": 0.8593474626541138,
+      "eval_precision": 0.8398522097237431,
+      "eval_recall": 0.832,
+      "eval_runtime": 16.8439,
+      "eval_samples_per_second": 59.369,
+      "eval_steps_per_second": 7.421,
+      "step": 3000
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 7.8804826736450195,
+      "learning_rate": 7.804e-06,
+      "loss": 0.2671,
+      "step": 3050
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 0.4820297658443451,
+      "learning_rate": 7.604e-06,
+      "loss": 0.1255,
+      "step": 3100
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 23.434314727783203,
+      "learning_rate": 7.404e-06,
+      "loss": 0.2414,
+      "step": 3150
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.35348212718963623,
+      "learning_rate": 7.204000000000001e-06,
+      "loss": 0.2153,
+      "step": 3200
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 33.563053131103516,
+      "learning_rate": 7.004000000000001e-06,
+      "loss": 0.2589,
+      "step": 3250
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 0.13904573023319244,
+      "learning_rate": 6.804e-06,
+      "loss": 0.253,
+      "step": 3300
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 0.17627717554569244,
+      "learning_rate": 6.604000000000001e-06,
+      "loss": 0.3281,
+      "step": 3350
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.2751530110836029,
+      "learning_rate": 6.404e-06,
+      "loss": 0.1926,
+      "step": 3400
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 0.1987292319536209,
+      "learning_rate": 6.204e-06,
+      "loss": 0.232,
+      "step": 3450
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.8847119808197021,
+      "learning_rate": 6.004000000000001e-06,
+      "loss": 0.1605,
+      "step": 3500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.847,
+      "eval_f1": 0.8464652675343645,
+      "eval_loss": 0.8528432846069336,
+      "eval_precision": 0.8499221841477009,
+      "eval_recall": 0.847,
+      "eval_runtime": 16.8832,
+      "eval_samples_per_second": 59.231,
+      "eval_steps_per_second": 7.404,
+      "step": 3500
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 5.153850555419922,
+      "learning_rate": 5.804000000000001e-06,
+      "loss": 0.1543,
+      "step": 3550
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.14595018327236176,
+      "learning_rate": 5.604000000000001e-06,
+      "loss": 0.1685,
+      "step": 3600
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 0.2887927293777466,
+      "learning_rate": 5.404e-06,
+      "loss": 0.1567,
+      "step": 3650
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 0.2623150646686554,
+      "learning_rate": 5.2040000000000005e-06,
+      "loss": 0.2714,
+      "step": 3700
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.04045703634619713,
+      "learning_rate": 5.004e-06,
+      "loss": 0.1672,
+      "step": 3750
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 2.894289970397949,
+      "learning_rate": 4.804e-06,
+      "loss": 0.1748,
+      "step": 3800
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 0.3380846679210663,
+      "learning_rate": 4.604e-06,
+      "loss": 0.1617,
+      "step": 3850
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 38.41429138183594,
+      "learning_rate": 4.4040000000000005e-06,
+      "loss": 0.3048,
+      "step": 3900
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 0.3114001154899597,
+      "learning_rate": 4.204e-06,
+      "loss": 0.1535,
+      "step": 3950
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.10832878202199936,
+      "learning_rate": 4.004e-06,
+      "loss": 0.1855,
+      "step": 4000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.847,
+      "eval_f1": 0.8465633748668708,
+      "eval_loss": 0.8490852117538452,
+      "eval_precision": 0.8483482604799019,
+      "eval_recall": 0.847,
+      "eval_runtime": 16.5292,
+      "eval_samples_per_second": 60.499,
+      "eval_steps_per_second": 7.562,
+      "step": 4000
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 0.09421584755182266,
+      "learning_rate": 3.8040000000000003e-06,
+      "loss": 0.1689,
+      "step": 4050
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 1.5713932514190674,
+      "learning_rate": 3.604e-06,
+      "loss": 0.1557,
+      "step": 4100
+    },
+    {
+      "epoch": 8.3,
+      "grad_norm": 0.2470749169588089,
+      "learning_rate": 3.404e-06,
+      "loss": 0.1846,
+      "step": 4150
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 1.1986793279647827,
+      "learning_rate": 3.2040000000000006e-06,
+      "loss": 0.1269,
+      "step": 4200
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 4.091843605041504,
+      "learning_rate": 3.0040000000000004e-06,
+      "loss": 0.1492,
+      "step": 4250
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 0.12018954753875732,
+      "learning_rate": 2.804e-06,
+      "loss": 0.1986,
+      "step": 4300
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.3240673243999481,
+      "learning_rate": 2.6040000000000004e-06,
+      "loss": 0.1442,
+      "step": 4350
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 3.653069496154785,
+      "learning_rate": 2.404e-06,
+      "loss": 0.1531,
+      "step": 4400
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 5.728586196899414,
+      "learning_rate": 2.2040000000000004e-06,
+      "loss": 0.2052,
+      "step": 4450
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 7.657519340515137,
+      "learning_rate": 2.004e-06,
+      "loss": 0.1738,
+      "step": 4500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.852,
+      "eval_f1": 0.8512761651471602,
+      "eval_loss": 0.8877223134040833,
+      "eval_precision": 0.8546560428736699,
+      "eval_recall": 0.852,
+      "eval_runtime": 16.5529,
+      "eval_samples_per_second": 60.412,
+      "eval_steps_per_second": 7.552,
+      "step": 4500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9473612083200000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-4500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89b560840c2c90d1414d71d66ff5e4a2e615b3668acd2084f3457d01ca8c7238
+size 5304

checkpoint-4500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "BrosForDocumentClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bbox_scale": 100.0,
+  "classifier_dropout_prob": 0.1,
+  "dim_bbox": 8,
+  "dim_bbox_projection": 64,
+  "dim_bbox_sinusoid_emb_1d": 24,
+  "dim_bbox_sinusoid_emb_2d": 192,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "form",
+    "1": "invoice",
+    "2": "budget",
+    "3": "file folder",
+    "4": "questionnaire"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "budget": 2,
+    "file folder": 3,
+    "form": 0,
+    "invoice": 1,
+    "questionnaire": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bros",
+  "n_relations": 1,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pe_type": "crel",
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.0",
+  "type_vocab_size": 2,
+  "vocab_size": 30522
+}

checkpoint-5000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eaa63b6e01524ef3b252d1870b11dd3a8d4af77eb549b42111575188fc50a04
+size 438021652

checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:576cefa562bc053a8f0e5d49c9dd6d2a1de824d51706ba28454fc843689323e9
+size 871429498

checkpoint-5000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02963f477e31738ebaabc79695fb55551b27b4f9145cf72586be3594d7af3397
+size 14244

checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2be67f6aac8e482bb2022409709d8774ffb125292c0c9cf025c0ae747f3a6d57
+size 1064

checkpoint-5000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-5000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-5000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-5000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,863 @@

+{
+  "best_global_step": 4500,
+  "best_metric": 0.852,
+  "best_model_checkpoint": "./bros-docclass-finetuned/checkpoint-4500",
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "grad_norm": 9.038439750671387,
+      "learning_rate": 1.9804000000000002e-05,
+      "loss": 1.2156,
+      "step": 50
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 12.505393028259277,
+      "learning_rate": 1.9604e-05,
+      "loss": 0.8366,
+      "step": 100
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 17.0165958404541,
+      "learning_rate": 1.9404e-05,
+      "loss": 0.7993,
+      "step": 150
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 25.100793838500977,
+      "learning_rate": 1.9204e-05,
+      "loss": 0.6683,
+      "step": 200
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 12.89208698272705,
+      "learning_rate": 1.9004000000000003e-05,
+      "loss": 0.7392,
+      "step": 250
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 19.72749137878418,
+      "learning_rate": 1.8804e-05,
+      "loss": 0.666,
+      "step": 300
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 30.814998626708984,
+      "learning_rate": 1.8604000000000003e-05,
+      "loss": 0.6453,
+      "step": 350
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.3695790767669678,
+      "learning_rate": 1.8404000000000002e-05,
+      "loss": 0.6402,
+      "step": 400
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 3.071685791015625,
+      "learning_rate": 1.8204e-05,
+      "loss": 0.6646,
+      "step": 450
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 19.854291915893555,
+      "learning_rate": 1.8004000000000002e-05,
+      "loss": 0.6606,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.798,
+      "eval_f1": 0.7962131024443857,
+      "eval_loss": 0.6697192788124084,
+      "eval_precision": 0.8016786327842085,
+      "eval_recall": 0.798,
+      "eval_runtime": 16.5436,
+      "eval_samples_per_second": 60.446,
+      "eval_steps_per_second": 7.556,
+      "step": 500
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 3.369779109954834,
+      "learning_rate": 1.7804e-05,
+      "loss": 0.5355,
+      "step": 550
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 20.186811447143555,
+      "learning_rate": 1.7604e-05,
+      "loss": 0.5781,
+      "step": 600
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 19.78652000427246,
+      "learning_rate": 1.7404e-05,
+      "loss": 0.5731,
+      "step": 650
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.9622361063957214,
+      "learning_rate": 1.7204e-05,
+      "loss": 0.5907,
+      "step": 700
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 22.184574127197266,
+      "learning_rate": 1.7004000000000002e-05,
+      "loss": 0.4993,
+      "step": 750
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 37.49524688720703,
+      "learning_rate": 1.6804e-05,
+      "loss": 0.6767,
+      "step": 800
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 0.731647789478302,
+      "learning_rate": 1.6604000000000002e-05,
+      "loss": 0.6219,
+      "step": 850
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 5.991142272949219,
+      "learning_rate": 1.6404e-05,
+      "loss": 0.5425,
+      "step": 900
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 35.003902435302734,
+      "learning_rate": 1.6204000000000003e-05,
+      "loss": 0.5822,
+      "step": 950
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 7.839473247528076,
+      "learning_rate": 1.6004e-05,
+      "loss": 0.5845,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.828,
+      "eval_f1": 0.8261256801910406,
+      "eval_loss": 0.6260756254196167,
+      "eval_precision": 0.8353381322045145,
+      "eval_recall": 0.828,
+      "eval_runtime": 16.5173,
+      "eval_samples_per_second": 60.543,
+      "eval_steps_per_second": 7.568,
+      "step": 1000
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 22.77824592590332,
+      "learning_rate": 1.5804000000000003e-05,
+      "loss": 0.526,
+      "step": 1050
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 28.53985023498535,
+      "learning_rate": 1.5604000000000002e-05,
+      "loss": 0.3672,
+      "step": 1100
+    },
+    {
+      "epoch": 2.3,
+      "grad_norm": 13.204597473144531,
+      "learning_rate": 1.5404e-05,
+      "loss": 0.521,
+      "step": 1150
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 33.86636734008789,
+      "learning_rate": 1.5204e-05,
+      "loss": 0.4376,
+      "step": 1200
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 3.819549798965454,
+      "learning_rate": 1.5004e-05,
+      "loss": 0.5127,
+      "step": 1250
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 9.592472076416016,
+      "learning_rate": 1.4804000000000001e-05,
+      "loss": 0.4313,
+      "step": 1300
+    },
+    {
+      "epoch": 2.7,
+      "grad_norm": 2.242670774459839,
+      "learning_rate": 1.4604000000000001e-05,
+      "loss": 0.4445,
+      "step": 1350
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 61.427616119384766,
+      "learning_rate": 1.4404e-05,
+      "loss": 0.4974,
+      "step": 1400
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 0.4456544816493988,
+      "learning_rate": 1.4204000000000002e-05,
+      "loss": 0.4999,
+      "step": 1450
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 33.89624786376953,
+      "learning_rate": 1.4004000000000002e-05,
+      "loss": 0.4223,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.818,
+      "eval_f1": 0.8172688666919534,
+      "eval_loss": 0.7300030589103699,
+      "eval_precision": 0.8328778365646615,
+      "eval_recall": 0.818,
+      "eval_runtime": 16.4984,
+      "eval_samples_per_second": 60.612,
+      "eval_steps_per_second": 7.576,
+      "step": 1500
+    },
+    {
+      "epoch": 3.1,
+      "grad_norm": 18.57257652282715,
+      "learning_rate": 1.3804000000000002e-05,
+      "loss": 0.4925,
+      "step": 1550
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 40.097713470458984,
+      "learning_rate": 1.3604000000000002e-05,
+      "loss": 0.2834,
+      "step": 1600
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 191.4404754638672,
+      "learning_rate": 1.3404e-05,
+      "loss": 0.4128,
+      "step": 1650
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 67.55642700195312,
+      "learning_rate": 1.3204000000000001e-05,
+      "loss": 0.3483,
+      "step": 1700
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 26.829570770263672,
+      "learning_rate": 1.3004000000000001e-05,
+      "loss": 0.3372,
+      "step": 1750
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 12.817995071411133,
+      "learning_rate": 1.2804000000000001e-05,
+      "loss": 0.4087,
+      "step": 1800
+    },
+    {
+      "epoch": 3.7,
+      "grad_norm": 1.6152303218841553,
+      "learning_rate": 1.2604e-05,
+      "loss": 0.4033,
+      "step": 1850
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 0.07653416693210602,
+      "learning_rate": 1.2404e-05,
+      "loss": 0.3495,
+      "step": 1900
+    },
+    {
+      "epoch": 3.9,
+      "grad_norm": 2.4822909832000732,
+      "learning_rate": 1.2204e-05,
+      "loss": 0.4195,
+      "step": 1950
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 91.26575469970703,
+      "learning_rate": 1.2004e-05,
+      "loss": 0.3644,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.839,
+      "eval_f1": 0.8384490586281527,
+      "eval_loss": 0.7187097668647766,
+      "eval_precision": 0.8450004509095641,
+      "eval_recall": 0.839,
+      "eval_runtime": 16.8707,
+      "eval_samples_per_second": 59.274,
+      "eval_steps_per_second": 7.409,
+      "step": 2000
+    },
+    {
+      "epoch": 4.1,
+      "grad_norm": 4.009641170501709,
+      "learning_rate": 1.1803999999999999e-05,
+      "loss": 0.3486,
+      "step": 2050
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 16.93126106262207,
+      "learning_rate": 1.1604000000000003e-05,
+      "loss": 0.3628,
+      "step": 2100
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 65.41966247558594,
+      "learning_rate": 1.1404000000000001e-05,
+      "loss": 0.2832,
+      "step": 2150
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 36.100013732910156,
+      "learning_rate": 1.1204000000000001e-05,
+      "loss": 0.3515,
+      "step": 2200
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 13.878293991088867,
+      "learning_rate": 1.1004000000000002e-05,
+      "loss": 0.282,
+      "step": 2250
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 82.44599914550781,
+      "learning_rate": 1.0804000000000002e-05,
+      "loss": 0.2804,
+      "step": 2300
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 3.182461977005005,
+      "learning_rate": 1.0604e-05,
+      "loss": 0.2802,
+      "step": 2350
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.41410791873931885,
+      "learning_rate": 1.0404e-05,
+      "loss": 0.309,
+      "step": 2400
+    },
+    {
+      "epoch": 4.9,
+      "grad_norm": 37.641319274902344,
+      "learning_rate": 1.0204000000000001e-05,
+      "loss": 0.284,
+      "step": 2450
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.98016619682312,
+      "learning_rate": 1.0004000000000001e-05,
+      "loss": 0.3447,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.844,
+      "eval_f1": 0.844281271446929,
+      "eval_loss": 0.7856075167655945,
+      "eval_precision": 0.8486261672220536,
+      "eval_recall": 0.844,
+      "eval_runtime": 16.8405,
+      "eval_samples_per_second": 59.381,
+      "eval_steps_per_second": 7.423,
+      "step": 2500
+    },
+    {
+      "epoch": 5.1,
+      "grad_norm": 0.1525699645280838,
+      "learning_rate": 9.804000000000001e-06,
+      "loss": 0.2387,
+      "step": 2550
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.08033642917871475,
+      "learning_rate": 9.604000000000002e-06,
+      "loss": 0.2718,
+      "step": 2600
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 0.4260154366493225,
+      "learning_rate": 9.404e-06,
+      "loss": 0.3076,
+      "step": 2650
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 13.845452308654785,
+      "learning_rate": 9.204e-06,
+      "loss": 0.3018,
+      "step": 2700
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.18619368970394135,
+      "learning_rate": 9.004e-06,
+      "loss": 0.1924,
+      "step": 2750
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.2769290506839752,
+      "learning_rate": 8.804e-06,
+      "loss": 0.2033,
+      "step": 2800
+    },
+    {
+      "epoch": 5.7,
+      "grad_norm": 2.3528101444244385,
+      "learning_rate": 8.604000000000001e-06,
+      "loss": 0.2645,
+      "step": 2850
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 0.7793205380439758,
+      "learning_rate": 8.404000000000001e-06,
+      "loss": 0.243,
+      "step": 2900
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 5.553439617156982,
+      "learning_rate": 8.204000000000001e-06,
+      "loss": 0.3189,
+      "step": 2950
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.482384592294693,
+      "learning_rate": 8.004e-06,
+      "loss": 0.2533,
+      "step": 3000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.832,
+      "eval_f1": 0.8305888522667962,
+      "eval_loss": 0.8593474626541138,
+      "eval_precision": 0.8398522097237431,
+      "eval_recall": 0.832,
+      "eval_runtime": 16.8439,
+      "eval_samples_per_second": 59.369,
+      "eval_steps_per_second": 7.421,
+      "step": 3000
+    },
+    {
+      "epoch": 6.1,
+      "grad_norm": 7.8804826736450195,
+      "learning_rate": 7.804e-06,
+      "loss": 0.2671,
+      "step": 3050
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 0.4820297658443451,
+      "learning_rate": 7.604e-06,
+      "loss": 0.1255,
+      "step": 3100
+    },
+    {
+      "epoch": 6.3,
+      "grad_norm": 23.434314727783203,
+      "learning_rate": 7.404e-06,
+      "loss": 0.2414,
+      "step": 3150
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 0.35348212718963623,
+      "learning_rate": 7.204000000000001e-06,
+      "loss": 0.2153,
+      "step": 3200
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 33.563053131103516,
+      "learning_rate": 7.004000000000001e-06,
+      "loss": 0.2589,
+      "step": 3250
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 0.13904573023319244,
+      "learning_rate": 6.804e-06,
+      "loss": 0.253,
+      "step": 3300
+    },
+    {
+      "epoch": 6.7,
+      "grad_norm": 0.17627717554569244,
+      "learning_rate": 6.604000000000001e-06,
+      "loss": 0.3281,
+      "step": 3350
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 0.2751530110836029,
+      "learning_rate": 6.404e-06,
+      "loss": 0.1926,
+      "step": 3400
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 0.1987292319536209,
+      "learning_rate": 6.204e-06,
+      "loss": 0.232,
+      "step": 3450
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.8847119808197021,
+      "learning_rate": 6.004000000000001e-06,
+      "loss": 0.1605,
+      "step": 3500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.847,
+      "eval_f1": 0.8464652675343645,
+      "eval_loss": 0.8528432846069336,
+      "eval_precision": 0.8499221841477009,
+      "eval_recall": 0.847,
+      "eval_runtime": 16.8832,
+      "eval_samples_per_second": 59.231,
+      "eval_steps_per_second": 7.404,
+      "step": 3500
+    },
+    {
+      "epoch": 7.1,
+      "grad_norm": 5.153850555419922,
+      "learning_rate": 5.804000000000001e-06,
+      "loss": 0.1543,
+      "step": 3550
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 0.14595018327236176,
+      "learning_rate": 5.604000000000001e-06,
+      "loss": 0.1685,
+      "step": 3600
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 0.2887927293777466,
+      "learning_rate": 5.404e-06,
+      "loss": 0.1567,
+      "step": 3650
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 0.2623150646686554,
+      "learning_rate": 5.2040000000000005e-06,
+      "loss": 0.2714,
+      "step": 3700
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.04045703634619713,
+      "learning_rate": 5.004e-06,
+      "loss": 0.1672,
+      "step": 3750
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 2.894289970397949,
+      "learning_rate": 4.804e-06,
+      "loss": 0.1748,
+      "step": 3800
+    },
+    {
+      "epoch": 7.7,
+      "grad_norm": 0.3380846679210663,
+      "learning_rate": 4.604e-06,
+      "loss": 0.1617,
+      "step": 3850
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 38.41429138183594,
+      "learning_rate": 4.4040000000000005e-06,
+      "loss": 0.3048,
+      "step": 3900
+    },
+    {
+      "epoch": 7.9,
+      "grad_norm": 0.3114001154899597,
+      "learning_rate": 4.204e-06,
+      "loss": 0.1535,
+      "step": 3950
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.10832878202199936,
+      "learning_rate": 4.004e-06,
+      "loss": 0.1855,
+      "step": 4000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.847,
+      "eval_f1": 0.8465633748668708,
+      "eval_loss": 0.8490852117538452,
+      "eval_precision": 0.8483482604799019,
+      "eval_recall": 0.847,
+      "eval_runtime": 16.5292,
+      "eval_samples_per_second": 60.499,
+      "eval_steps_per_second": 7.562,
+      "step": 4000
+    },
+    {
+      "epoch": 8.1,
+      "grad_norm": 0.09421584755182266,
+      "learning_rate": 3.8040000000000003e-06,
+      "loss": 0.1689,
+      "step": 4050
+    },
+    {
+      "epoch": 8.2,
+      "grad_norm": 1.5713932514190674,
+      "learning_rate": 3.604e-06,
+      "loss": 0.1557,
+      "step": 4100
+    },
+    {
+      "epoch": 8.3,
+      "grad_norm": 0.2470749169588089,
+      "learning_rate": 3.404e-06,
+      "loss": 0.1846,
+      "step": 4150
+    },
+    {
+      "epoch": 8.4,
+      "grad_norm": 1.1986793279647827,
+      "learning_rate": 3.2040000000000006e-06,
+      "loss": 0.1269,
+      "step": 4200
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 4.091843605041504,
+      "learning_rate": 3.0040000000000004e-06,
+      "loss": 0.1492,
+      "step": 4250
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 0.12018954753875732,
+      "learning_rate": 2.804e-06,
+      "loss": 0.1986,
+      "step": 4300
+    },
+    {
+      "epoch": 8.7,
+      "grad_norm": 0.3240673243999481,
+      "learning_rate": 2.6040000000000004e-06,
+      "loss": 0.1442,
+      "step": 4350
+    },
+    {
+      "epoch": 8.8,
+      "grad_norm": 3.653069496154785,
+      "learning_rate": 2.404e-06,
+      "loss": 0.1531,
+      "step": 4400
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 5.728586196899414,
+      "learning_rate": 2.2040000000000004e-06,
+      "loss": 0.2052,
+      "step": 4450
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 7.657519340515137,
+      "learning_rate": 2.004e-06,
+      "loss": 0.1738,
+      "step": 4500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.852,
+      "eval_f1": 0.8512761651471602,
+      "eval_loss": 0.8877223134040833,
+      "eval_precision": 0.8546560428736699,
+      "eval_recall": 0.852,
+      "eval_runtime": 16.5529,
+      "eval_samples_per_second": 60.412,
+      "eval_steps_per_second": 7.552,
+      "step": 4500
+    },
+    {
+      "epoch": 9.1,
+      "grad_norm": 5.215471267700195,
+      "learning_rate": 1.8040000000000002e-06,
+      "loss": 0.1422,
+      "step": 4550
+    },
+    {
+      "epoch": 9.2,
+      "grad_norm": 0.04474487900733948,
+      "learning_rate": 1.604e-06,
+      "loss": 0.1342,
+      "step": 4600
+    },
+    {
+      "epoch": 9.3,
+      "grad_norm": 0.04985995218157768,
+      "learning_rate": 1.404e-06,
+      "loss": 0.1891,
+      "step": 4650
+    },
+    {
+      "epoch": 9.4,
+      "grad_norm": 0.4687720239162445,
+      "learning_rate": 1.204e-06,
+      "loss": 0.1469,
+      "step": 4700
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 6.679148197174072,
+      "learning_rate": 1.004e-06,
+      "loss": 0.1893,
+      "step": 4750
+    },
+    {
+      "epoch": 9.6,
+      "grad_norm": 0.26801905035972595,
+      "learning_rate": 8.04e-07,
+      "loss": 0.1194,
+      "step": 4800
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 0.0896608754992485,
+      "learning_rate": 6.040000000000001e-07,
+      "loss": 0.1187,
+      "step": 4850
+    },
+    {
+      "epoch": 9.8,
+      "grad_norm": 0.16843467950820923,
+      "learning_rate": 4.04e-07,
+      "loss": 0.1472,
+      "step": 4900
+    },
+    {
+      "epoch": 9.9,
+      "grad_norm": 0.023157618939876556,
+      "learning_rate": 2.0400000000000003e-07,
+      "loss": 0.1273,
+      "step": 4950
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 9.227570533752441,
+      "learning_rate": 4e-09,
+      "loss": 0.1248,
+      "step": 5000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.846,
+      "eval_f1": 0.8453734677993351,
+      "eval_loss": 0.8945107460021973,
+      "eval_precision": 0.8485569397622855,
+      "eval_recall": 0.846,
+      "eval_runtime": 16.575,
+      "eval_samples_per_second": 60.332,
+      "eval_steps_per_second": 7.541,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0526235648e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89b560840c2c90d1414d71d66ff5e4a2e615b3668acd2084f3457d01ca8c7238
+size 5304

checkpoint-5000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff