MariaOls commited on Oct 13, 2025

Commit

2572771

verified ·

1 Parent(s): fa0eaea

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

added_tokens.json +4 -0
assets/gazetteer.json +168 -0
assets/gazetteer.txt +161 -0
checkpoint-1131/added_tokens.json +4 -0
checkpoint-1131/config.json +32 -0
checkpoint-1131/model.safetensors +3 -0
checkpoint-1131/optimizer.pt +3 -0
checkpoint-1131/rng_state.pth +3 -0
checkpoint-1131/scheduler.pt +3 -0
checkpoint-1131/special_tokens_map.json +23 -0
checkpoint-1131/tokenizer.json +0 -0
checkpoint-1131/tokenizer_config.json +78 -0
checkpoint-1131/trainer_state.json +223 -0
checkpoint-1131/training_args.bin +3 -0
checkpoint-1131/vocab.txt +0 -0
checkpoint-1508/added_tokens.json +4 -0
checkpoint-1508/config.json +32 -0
checkpoint-1508/model.safetensors +3 -0
checkpoint-1508/optimizer.pt +3 -0
checkpoint-1508/rng_state.pth +3 -0
checkpoint-1508/scheduler.pt +3 -0
checkpoint-1508/special_tokens_map.json +23 -0
checkpoint-1508/tokenizer.json +0 -0
checkpoint-1508/tokenizer_config.json +78 -0
checkpoint-1508/trainer_state.json +291 -0
checkpoint-1508/training_args.bin +3 -0
checkpoint-1508/vocab.txt +0 -0
checkpoint-377/added_tokens.json +4 -0
checkpoint-377/config.json +32 -0
checkpoint-377/model.safetensors +3 -0
checkpoint-377/optimizer.pt +3 -0
checkpoint-377/rng_state.pth +3 -0
checkpoint-377/scheduler.pt +3 -0
checkpoint-377/special_tokens_map.json +23 -0
checkpoint-377/tokenizer.json +0 -0
checkpoint-377/tokenizer_config.json +78 -0
checkpoint-377/trainer_state.json +94 -0
checkpoint-377/training_args.bin +3 -0
checkpoint-377/vocab.txt +0 -0
checkpoint-754/added_tokens.json +4 -0
checkpoint-754/config.json +32 -0
checkpoint-754/model.safetensors +3 -0
checkpoint-754/optimizer.pt +3 -0
checkpoint-754/rng_state.pth +3 -0
checkpoint-754/scheduler.pt +3 -0
checkpoint-754/special_tokens_map.json +23 -0
checkpoint-754/tokenizer.json +0 -0
checkpoint-754/tokenizer_config.json +78 -0
checkpoint-754/trainer_state.json +162 -0
checkpoint-754/training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</cand>": 119548,
+  "<cand>": 119547
+}

assets/gazetteer.json ADDED Viewed

	@@ -0,0 +1,168 @@

+{
+  "version": "1.0",
+  "source": "ruscorpora_вводныеСлова-DiMaDataset.xlsx",
+  "size": 161,
+  "items": [
+    "Соответственно",
+    "соответственно",
+    "Действительно",
+    "действительно",
+    "естесственно",
+    "естестевенно",
+    "В-четвертых",
+    "Естественно",
+    "Определенно",
+    "По-видимому",
+    "безусловнее",
+    "в-последних",
+    "в-четвертых",
+    "естественно",
+    "оказывается",
+    "по-видимому",
+    "Безусловно",
+    "З-з-значит",
+    "Наконец-то",
+    "Несомненно",
+    "Разумеется",
+    "Собственно",
+    "Фактически",
+    "безусловно",
+    "желательно",
+    "наконец-то",
+    "несомненно",
+    "разумеется",
+    "собственно",
+    "фактически",
+    "Бесспорно",
+    "В-третьих",
+    "Во первых",
+    "Во-вторых",
+    "Во-первых",
+    "Вообще-то",
+    "Наверняка",
+    "бесспорно",
+    "в-седьмых",
+    "в-третьих",
+    "во-вторых",
+    "во-первых",
+    "вообще-то",
+    "говорится",
+    "наверняка",
+    "В-шестых",
+    "Вероятно",
+    "Возможно",
+    "Допустим",
+    "Казалось",
+    "Наверное",
+    "Например",
+    "Напротив",
+    "Очевидно",
+    "По-моему",
+    "Случайно",
+    "вероятно",
+    "возможно",
+    "допустим",
+    "известно",
+    "казалось",
+    "наверное",
+    "наоборот",
+    "например",
+    "напротив",
+    "нооборот",
+    "очевидно",
+    "по-моему",
+    "случайно",
+    "В-пятых",
+    "Впрочем",
+    "Главное",
+    "Говорят",
+    "Дескать",
+    "КОНЕЧНО",
+    "Кажется",
+    "Конечно",
+    "Наверно",
+    "Наконец",
+    "Пожалуй",
+    "впрочем",
+    "главное",
+    "говорят",
+    "дескать",
+    "кажется",
+    "конечно",
+    "наверно",
+    "наконец",
+    "пожалуй",
+    "помойму",
+    "понятно",
+    "почитай",
+    "собссно",
+    "спасибо",
+    "Бывало",
+    "Вернее",
+    "Видать",
+    "Видимо",
+    "Вообще",
+    "Значит",
+    "Короче",
+    "Кстати",
+    "Однако",
+    "Похоже",
+    "Правда",
+    "Скажем",
+    "Словом",
+    "Точнее",
+    "ХОРОШО",
+    "Хорошо",
+    "Честно",
+    "бывало",
+    "ваапче",
+    "вернее",
+    "видать",
+    "видимо",
+    "вообще",
+    "впрямь",
+    "значит",
+    "канешн",
+    "короче",
+    "кстати",
+    "однако",
+    "первых",
+    "похоже",
+    "правда",
+    "правдо",
+    "просто",
+    "скажем",
+    "скорее",
+    "словом",
+    "точнее",
+    "хорошо",
+    "Верно",
+    "Видно",
+    "Жалко",
+    "Лучше",
+    "Может",
+    "Никак",
+    "Точно",
+    "верно",
+    "видно",
+    "вобще",
+    "жалко",
+    "знать",
+    "канеш",
+    "лучше",
+    "может",
+    "никак",
+    "право",
+    "точно",
+    "Жаль",
+    "ИМХО",
+    "Итак",
+    "ваще",
+    "жаль",
+    "имхо",
+    "МОЛ",
+    "Мол",
+    "мол",
+    "чай"
+  ]
+}

assets/gazetteer.txt ADDED Viewed

	@@ -0,0 +1,161 @@

+Соответственно
+соответственно
+Действительно
+действительно
+естесственно
+естестевенно
+В-четвертых
+Естественно
+Определенно
+По-видимому
+безусловнее
+в-последних
+в-четвертых
+естественно
+оказывается
+по-видимому
+Безусловно
+З-з-значит
+Наконец-то
+Несомненно
+Разумеется
+Собственно
+Фактически
+безусловно
+желательно
+наконец-то
+несомненно
+разумеется
+собственно
+фактически
+Бесспорно
+В-третьих
+Во первых
+Во-вторых
+Во-первых
+Вообще-то
+Наверняка
+бесспорно
+в-седьмых
+в-третьих
+во-вторых
+во-первых
+вообще-то
+говорится
+наверняка
+В-шестых
+Вероятно
+Возможно
+Допустим
+Казалось
+Наверное
+Например
+Напротив
+Очевидно
+По-моему
+Случайно
+вероятно
+возможно
+допустим
+известно
+казалось
+наверное
+наоборот
+например
+напротив
+нооборот
+очевидно
+по-моему
+случайно
+В-пятых
+Впрочем
+Главное
+Говорят
+Дескать
+КОНЕЧНО
+Кажется
+Конечно
+Наверно
+Наконец
+Пожалуй
+впрочем
+главное
+говорят
+дескать
+кажется
+конечно
+наверно
+наконец
+пожалуй
+помойму
+понятно
+почитай
+собссно
+спасибо
+Бывало
+Вернее
+Видать
+Видимо
+Вообще
+Значит
+Короче
+Кстати
+Однако
+Похоже
+Правда
+Скажем
+Словом
+Точнее
+ХОРОШО
+Хорошо
+Честно
+бывало
+ваапче
+вернее
+видать
+видимо
+вообще
+впрямь
+значит
+канешн
+короче
+кстати
+однако
+первых
+похоже
+правда
+правдо
+просто
+скажем
+скорее
+словом
+точнее
+хорошо
+Верно
+Видно
+Жалко
+Лучше
+Может
+Никак
+Точно
+верно
+видно
+вобще
+жалко
+знать
+канеш
+лучше
+может
+никак
+право
+точно
+Жаль
+ИМХО
+Итак
+ваще
+жаль
+имхо
+МОЛ
+Мол
+мол
+чай

checkpoint-1131/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</cand>": 119548,
+  "<cand>": 119547
+}

checkpoint-1131/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119549
+}

checkpoint-1131/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec9b4e02309731a17a0e550199dfc0b653b8b2efb72a87cbe399f458df4d060a
+size 711449600

checkpoint-1131/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2cb20821891b7df7b9cffbd730ee591d833df2c136e22191a72e76023bd1592
+size 1423014650

checkpoint-1131/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e6a15a956ca04b9fd80efa1f51e14a191a110a65c311c93eab6f494f62ceade
+size 13990

checkpoint-1131/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62d3f58ffe473a793ea74276e88ca54ec1783dc62272aa59b827b2e2d708ac48
+size 1064

checkpoint-1131/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-1131/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1131/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119547": {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119548": {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<cand>",
+    "</cand>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1131/trainer_state.json ADDED Viewed

	@@ -0,0 +1,223 @@

+{
+  "best_metric": 0.9873248832555037,
+  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-1131",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1131,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13262599469496023,
+      "grad_norm": 8.819928169250488,
+      "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6464,
+      "step": 50
+    },
+    {
+      "epoch": 0.26525198938992045,
+      "grad_norm": 6.598285675048828,
+      "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.388,
+      "step": 100
+    },
+    {
+      "epoch": 0.3978779840848806,
+      "grad_norm": 0.30871227383613586,
+      "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1931,
+      "step": 150
+    },
+    {
+      "epoch": 0.5305039787798409,
+      "grad_norm": 6.666228294372559,
+      "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1591,
+      "step": 200
+    },
+    {
+      "epoch": 0.6631299734748011,
+      "grad_norm": 0.44178861379623413,
+      "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1984,
+      "step": 250
+    },
+    {
+      "epoch": 0.7957559681697612,
+      "grad_norm": 0.37462666630744934,
+      "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1124,
+      "step": 300
+    },
+    {
+      "epoch": 0.9283819628647215,
+      "grad_norm": 0.0416572205722332,
+      "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.0809,
+      "step": 350
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9812206572769953,
+      "eval_f1": 0.9865410497981157,
+      "eval_loss": 0.0956883653998375,
+      "eval_precision": 0.9932249322493225,
+      "eval_recall": 0.9799465240641712,
+      "eval_runtime": 60.5192,
+      "eval_samples_per_second": 17.598,
+      "eval_steps_per_second": 1.107,
+      "step": 377
+    },
+    {
+      "epoch": 1.0610079575596818,
+      "grad_norm": 8.403841018676758,
+      "learning_rate": 1.6330140014738394e-05,
+      "loss": 0.0611,
+      "step": 400
+    },
+    {
+      "epoch": 1.193633952254642,
+      "grad_norm": 0.022825542837381363,
+      "learning_rate": 1.5593220338983053e-05,
+      "loss": 0.0758,
+      "step": 450
+    },
+    {
+      "epoch": 1.3262599469496021,
+      "grad_norm": 97.80863952636719,
+      "learning_rate": 1.485630066322771e-05,
+      "loss": 0.0747,
+      "step": 500
+    },
+    {
+      "epoch": 1.4588859416445623,
+      "grad_norm": 0.03205716982483864,
+      "learning_rate": 1.4119380987472366e-05,
+      "loss": 0.0719,
+      "step": 550
+    },
+    {
+      "epoch": 1.5915119363395225,
+      "grad_norm": 13.893011093139648,
+      "learning_rate": 1.3382461311717023e-05,
+      "loss": 0.1053,
+      "step": 600
+    },
+    {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 0.03504275158047676,
+      "learning_rate": 1.2645541635961683e-05,
+      "loss": 0.0494,
+      "step": 650
+    },
+    {
+      "epoch": 1.8567639257294428,
+      "grad_norm": 0.11265891045331955,
+      "learning_rate": 1.190862196020634e-05,
+      "loss": 0.0142,
+      "step": 700
+    },
+    {
+      "epoch": 1.9893899204244032,
+      "grad_norm": 0.06097806990146637,
+      "learning_rate": 1.1171702284450996e-05,
+      "loss": 0.048,
+      "step": 750
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9784037558685446,
+      "eval_f1": 0.984778292521509,
+      "eval_loss": 0.17541147768497467,
+      "eval_precision": 0.9750982961992136,
+      "eval_recall": 0.9946524064171123,
+      "eval_runtime": 65.725,
+      "eval_samples_per_second": 16.204,
+      "eval_steps_per_second": 1.019,
+      "step": 754
+    },
+    {
+      "epoch": 2.1220159151193636,
+      "grad_norm": 0.010624129325151443,
+      "learning_rate": 1.0434782608695653e-05,
+      "loss": 0.0328,
+      "step": 800
+    },
+    {
+      "epoch": 2.2546419098143238,
+      "grad_norm": 0.009882211685180664,
+      "learning_rate": 9.697862932940311e-06,
+      "loss": 0.0254,
+      "step": 850
+    },
+    {
+      "epoch": 2.387267904509284,
+      "grad_norm": 0.006466939579695463,
+      "learning_rate": 8.960943257184968e-06,
+      "loss": 0.0412,
+      "step": 900
+    },
+    {
+      "epoch": 2.519893899204244,
+      "grad_norm": 0.025009147822856903,
+      "learning_rate": 8.224023581429625e-06,
+      "loss": 0.0377,
+      "step": 950
+    },
+    {
+      "epoch": 2.6525198938992043,
+      "grad_norm": 16.0838565826416,
+      "learning_rate": 7.487103905674282e-06,
+      "loss": 0.0263,
+      "step": 1000
+    },
+    {
+      "epoch": 2.7851458885941645,
+      "grad_norm": 0.006907904986292124,
+      "learning_rate": 6.750184229918939e-06,
+      "loss": 0.0039,
+      "step": 1050
+    },
+    {
+      "epoch": 2.9177718832891246,
+      "grad_norm": 0.03146808221936226,
+      "learning_rate": 6.013264554163597e-06,
+      "loss": 0.0266,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9821596244131455,
+      "eval_f1": 0.9873248832555037,
+      "eval_loss": 0.12112097442150116,
+      "eval_precision": 0.9853528628495339,
+      "eval_recall": 0.9893048128342246,
+      "eval_runtime": 65.4812,
+      "eval_samples_per_second": 16.264,
+      "eval_steps_per_second": 1.023,
+      "step": 1131
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1508,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 639096753469440.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1131/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
+size 5304

checkpoint-1131/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1508/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</cand>": 119548,
+  "<cand>": 119547
+}

checkpoint-1508/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119549
+}

checkpoint-1508/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30d84210b336753e94b844397015ae6635e4a978e6b132eaca6da156c50aead
+size 711449600

checkpoint-1508/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9b811be240a41d4a804950f308a647956d67f40ae2709923fe949706ade9b7b
+size 1423014650

checkpoint-1508/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19c5c01782d6444d26abf0ebe821fd3fa952a5be7b5f26ec6e1147e4c8612b4e
+size 13990

checkpoint-1508/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a047f6a531e52dd15f099073182b2a42f5f21f7c304a459f1c93a142e9a0af0
+size 1064

checkpoint-1508/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-1508/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1508/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119547": {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119548": {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<cand>",
+    "</cand>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1508/trainer_state.json ADDED Viewed

	@@ -0,0 +1,291 @@

+{
+  "best_metric": 0.9899665551839465,
+  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-1508",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 1508,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13262599469496023,
+      "grad_norm": 8.819928169250488,
+      "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6464,
+      "step": 50
+    },
+    {
+      "epoch": 0.26525198938992045,
+      "grad_norm": 6.598285675048828,
+      "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.388,
+      "step": 100
+    },
+    {
+      "epoch": 0.3978779840848806,
+      "grad_norm": 0.30871227383613586,
+      "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1931,
+      "step": 150
+    },
+    {
+      "epoch": 0.5305039787798409,
+      "grad_norm": 6.666228294372559,
+      "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1591,
+      "step": 200
+    },
+    {
+      "epoch": 0.6631299734748011,
+      "grad_norm": 0.44178861379623413,
+      "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1984,
+      "step": 250
+    },
+    {
+      "epoch": 0.7957559681697612,
+      "grad_norm": 0.37462666630744934,
+      "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1124,
+      "step": 300
+    },
+    {
+      "epoch": 0.9283819628647215,
+      "grad_norm": 0.0416572205722332,
+      "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.0809,
+      "step": 350
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9812206572769953,
+      "eval_f1": 0.9865410497981157,
+      "eval_loss": 0.0956883653998375,
+      "eval_precision": 0.9932249322493225,
+      "eval_recall": 0.9799465240641712,
+      "eval_runtime": 60.5192,
+      "eval_samples_per_second": 17.598,
+      "eval_steps_per_second": 1.107,
+      "step": 377
+    },
+    {
+      "epoch": 1.0610079575596818,
+      "grad_norm": 8.403841018676758,
+      "learning_rate": 1.6330140014738394e-05,
+      "loss": 0.0611,
+      "step": 400
+    },
+    {
+      "epoch": 1.193633952254642,
+      "grad_norm": 0.022825542837381363,
+      "learning_rate": 1.5593220338983053e-05,
+      "loss": 0.0758,
+      "step": 450
+    },
+    {
+      "epoch": 1.3262599469496021,
+      "grad_norm": 97.80863952636719,
+      "learning_rate": 1.485630066322771e-05,
+      "loss": 0.0747,
+      "step": 500
+    },
+    {
+      "epoch": 1.4588859416445623,
+      "grad_norm": 0.03205716982483864,
+      "learning_rate": 1.4119380987472366e-05,
+      "loss": 0.0719,
+      "step": 550
+    },
+    {
+      "epoch": 1.5915119363395225,
+      "grad_norm": 13.893011093139648,
+      "learning_rate": 1.3382461311717023e-05,
+      "loss": 0.1053,
+      "step": 600
+    },
+    {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 0.03504275158047676,
+      "learning_rate": 1.2645541635961683e-05,
+      "loss": 0.0494,
+      "step": 650
+    },
+    {
+      "epoch": 1.8567639257294428,
+      "grad_norm": 0.11265891045331955,
+      "learning_rate": 1.190862196020634e-05,
+      "loss": 0.0142,
+      "step": 700
+    },
+    {
+      "epoch": 1.9893899204244032,
+      "grad_norm": 0.06097806990146637,
+      "learning_rate": 1.1171702284450996e-05,
+      "loss": 0.048,
+      "step": 750
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9784037558685446,
+      "eval_f1": 0.984778292521509,
+      "eval_loss": 0.17541147768497467,
+      "eval_precision": 0.9750982961992136,
+      "eval_recall": 0.9946524064171123,
+      "eval_runtime": 65.725,
+      "eval_samples_per_second": 16.204,
+      "eval_steps_per_second": 1.019,
+      "step": 754
+    },
+    {
+      "epoch": 2.1220159151193636,
+      "grad_norm": 0.010624129325151443,
+      "learning_rate": 1.0434782608695653e-05,
+      "loss": 0.0328,
+      "step": 800
+    },
+    {
+      "epoch": 2.2546419098143238,
+      "grad_norm": 0.009882211685180664,
+      "learning_rate": 9.697862932940311e-06,
+      "loss": 0.0254,
+      "step": 850
+    },
+    {
+      "epoch": 2.387267904509284,
+      "grad_norm": 0.006466939579695463,
+      "learning_rate": 8.960943257184968e-06,
+      "loss": 0.0412,
+      "step": 900
+    },
+    {
+      "epoch": 2.519893899204244,
+      "grad_norm": 0.025009147822856903,
+      "learning_rate": 8.224023581429625e-06,
+      "loss": 0.0377,
+      "step": 950
+    },
+    {
+      "epoch": 2.6525198938992043,
+      "grad_norm": 16.0838565826416,
+      "learning_rate": 7.487103905674282e-06,
+      "loss": 0.0263,
+      "step": 1000
+    },
+    {
+      "epoch": 2.7851458885941645,
+      "grad_norm": 0.006907904986292124,
+      "learning_rate": 6.750184229918939e-06,
+      "loss": 0.0039,
+      "step": 1050
+    },
+    {
+      "epoch": 2.9177718832891246,
+      "grad_norm": 0.03146808221936226,
+      "learning_rate": 6.013264554163597e-06,
+      "loss": 0.0266,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9821596244131455,
+      "eval_f1": 0.9873248832555037,
+      "eval_loss": 0.12112097442150116,
+      "eval_precision": 0.9853528628495339,
+      "eval_recall": 0.9893048128342246,
+      "eval_runtime": 65.4812,
+      "eval_samples_per_second": 16.264,
+      "eval_steps_per_second": 1.023,
+      "step": 1131
+    },
+    {
+      "epoch": 3.050397877984085,
+      "grad_norm": 0.00711169233545661,
+      "learning_rate": 5.276344878408254e-06,
+      "loss": 0.0191,
+      "step": 1150
+    },
+    {
+      "epoch": 3.183023872679045,
+      "grad_norm": 0.10712441056966782,
+      "learning_rate": 4.5394252026529115e-06,
+      "loss": 0.0079,
+      "step": 1200
+    },
+    {
+      "epoch": 3.315649867374005,
+      "grad_norm": 0.014097067527472973,
+      "learning_rate": 3.8025055268975686e-06,
+      "loss": 0.0218,
+      "step": 1250
+    },
+    {
+      "epoch": 3.4482758620689653,
+      "grad_norm": 0.08094095438718796,
+      "learning_rate": 3.065585851142226e-06,
+      "loss": 0.0053,
+      "step": 1300
+    },
+    {
+      "epoch": 3.5809018567639255,
+      "grad_norm": 0.012457519769668579,
+      "learning_rate": 2.328666175386883e-06,
+      "loss": 0.0003,
+      "step": 1350
+    },
+    {
+      "epoch": 3.713527851458886,
+      "grad_norm": 0.05693735554814339,
+      "learning_rate": 1.59174649963154e-06,
+      "loss": 0.0003,
+      "step": 1400
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 0.004445453640073538,
+      "learning_rate": 8.548268238761975e-07,
+      "loss": 0.0246,
+      "step": 1450
+    },
+    {
+      "epoch": 3.9787798408488064,
+      "grad_norm": 0.004754351451992989,
+      "learning_rate": 1.1790714812085484e-07,
+      "loss": 0.0111,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9859154929577465,
+      "eval_f1": 0.9899665551839465,
+      "eval_loss": 0.10738077014684677,
+      "eval_precision": 0.9906291834002677,
+      "eval_recall": 0.9893048128342246,
+      "eval_runtime": 65.4731,
+      "eval_samples_per_second": 16.266,
+      "eval_steps_per_second": 1.023,
+      "step": 1508
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1508,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 850572264215040.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1508/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
+size 5304

checkpoint-1508/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-377/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</cand>": 119548,
+  "<cand>": 119547
+}

checkpoint-377/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119549
+}

checkpoint-377/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ded7c527bf4f9cf448e7a1f8c244f442ee35e8ddf0b77ce3ce54bb9f8e4ce263
+size 711449600

checkpoint-377/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:155a5a5f11c545764eead711ae7536af829e153aa81aca1630679af82398d252
+size 1423014650

checkpoint-377/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:779680481c3672208d95f7d276d71d8000a74b3b459885f98af7ca5ec5fc3b24
+size 13990

checkpoint-377/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7699596f69ddac9b184d0c8e7b8faac5edb9ce845a40964370e105bb5de53f2
+size 1064

checkpoint-377/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-377/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-377/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119547": {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119548": {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<cand>",
+    "</cand>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-377/trainer_state.json ADDED Viewed

	@@ -0,0 +1,94 @@

+{
+  "best_metric": 0.9865410497981157,
+  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-377",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 377,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13262599469496023,
+      "grad_norm": 8.819928169250488,
+      "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6464,
+      "step": 50
+    },
+    {
+      "epoch": 0.26525198938992045,
+      "grad_norm": 6.598285675048828,
+      "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.388,
+      "step": 100
+    },
+    {
+      "epoch": 0.3978779840848806,
+      "grad_norm": 0.30871227383613586,
+      "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1931,
+      "step": 150
+    },
+    {
+      "epoch": 0.5305039787798409,
+      "grad_norm": 6.666228294372559,
+      "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1591,
+      "step": 200
+    },
+    {
+      "epoch": 0.6631299734748011,
+      "grad_norm": 0.44178861379623413,
+      "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1984,
+      "step": 250
+    },
+    {
+      "epoch": 0.7957559681697612,
+      "grad_norm": 0.37462666630744934,
+      "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1124,
+      "step": 300
+    },
+    {
+      "epoch": 0.9283819628647215,
+      "grad_norm": 0.0416572205722332,
+      "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.0809,
+      "step": 350
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9812206572769953,
+      "eval_f1": 0.9865410497981157,
+      "eval_loss": 0.0956883653998375,
+      "eval_precision": 0.9932249322493225,
+      "eval_recall": 0.9799465240641712,
+      "eval_runtime": 60.5192,
+      "eval_samples_per_second": 17.598,
+      "eval_steps_per_second": 1.107,
+      "step": 377
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1508,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 213580399188480.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-377/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
+size 5304

checkpoint-377/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-754/added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</cand>": 119548,
+  "<cand>": 119547
+}

checkpoint-754/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119549
+}

checkpoint-754/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abe96bf17c5ab694697666cdeed273085c6e509493dc0d2f29322ae07db9ad68
+size 711449600

checkpoint-754/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44199bd2dbf22a5f947f048391a17d003c7e0d73ef60c43dffd44b21ea64cde3
+size 1423014650

checkpoint-754/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2a22678f170ec99a58395a30e6a3f31da12a92e843748aa42dcbf2fae10eeff
+size 13990

checkpoint-754/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8f67f5a885f6273acf3a74afc30c00afa53b55a5312a9a33f7b64a37dbd79ca
+size 1064

checkpoint-754/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-754/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-754/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119547": {
+      "content": "<cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "119548": {
+      "content": "</cand>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<cand>",
+    "</cand>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-754/trainer_state.json ADDED Viewed

	@@ -0,0 +1,162 @@

+{
+  "best_metric": 0.9865410497981157,
+  "best_model_checkpoint": "./DiMa_new_artifacts\\checkpoint-377",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 754,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13262599469496023,
+      "grad_norm": 8.819928169250488,
+      "learning_rate": 6.622516556291392e-06,
+      "loss": 0.6464,
+      "step": 50
+    },
+    {
+      "epoch": 0.26525198938992045,
+      "grad_norm": 6.598285675048828,
+      "learning_rate": 1.3245033112582784e-05,
+      "loss": 0.388,
+      "step": 100
+    },
+    {
+      "epoch": 0.3978779840848806,
+      "grad_norm": 0.30871227383613586,
+      "learning_rate": 1.9867549668874173e-05,
+      "loss": 0.1931,
+      "step": 150
+    },
+    {
+      "epoch": 0.5305039787798409,
+      "grad_norm": 6.666228294372559,
+      "learning_rate": 1.9277818717759768e-05,
+      "loss": 0.1591,
+      "step": 200
+    },
+    {
+      "epoch": 0.6631299734748011,
+      "grad_norm": 0.44178861379623413,
+      "learning_rate": 1.8540899042004423e-05,
+      "loss": 0.1984,
+      "step": 250
+    },
+    {
+      "epoch": 0.7957559681697612,
+      "grad_norm": 0.37462666630744934,
+      "learning_rate": 1.780397936624908e-05,
+      "loss": 0.1124,
+      "step": 300
+    },
+    {
+      "epoch": 0.9283819628647215,
+      "grad_norm": 0.0416572205722332,
+      "learning_rate": 1.7067059690493736e-05,
+      "loss": 0.0809,
+      "step": 350
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9812206572769953,
+      "eval_f1": 0.9865410497981157,
+      "eval_loss": 0.0956883653998375,
+      "eval_precision": 0.9932249322493225,
+      "eval_recall": 0.9799465240641712,
+      "eval_runtime": 60.5192,
+      "eval_samples_per_second": 17.598,
+      "eval_steps_per_second": 1.107,
+      "step": 377
+    },
+    {
+      "epoch": 1.0610079575596818,
+      "grad_norm": 8.403841018676758,
+      "learning_rate": 1.6330140014738394e-05,
+      "loss": 0.0611,
+      "step": 400
+    },
+    {
+      "epoch": 1.193633952254642,
+      "grad_norm": 0.022825542837381363,
+      "learning_rate": 1.5593220338983053e-05,
+      "loss": 0.0758,
+      "step": 450
+    },
+    {
+      "epoch": 1.3262599469496021,
+      "grad_norm": 97.80863952636719,
+      "learning_rate": 1.485630066322771e-05,
+      "loss": 0.0747,
+      "step": 500
+    },
+    {
+      "epoch": 1.4588859416445623,
+      "grad_norm": 0.03205716982483864,
+      "learning_rate": 1.4119380987472366e-05,
+      "loss": 0.0719,
+      "step": 550
+    },
+    {
+      "epoch": 1.5915119363395225,
+      "grad_norm": 13.893011093139648,
+      "learning_rate": 1.3382461311717023e-05,
+      "loss": 0.1053,
+      "step": 600
+    },
+    {
+      "epoch": 1.7241379310344827,
+      "grad_norm": 0.03504275158047676,
+      "learning_rate": 1.2645541635961683e-05,
+      "loss": 0.0494,
+      "step": 650
+    },
+    {
+      "epoch": 1.8567639257294428,
+      "grad_norm": 0.11265891045331955,
+      "learning_rate": 1.190862196020634e-05,
+      "loss": 0.0142,
+      "step": 700
+    },
+    {
+      "epoch": 1.9893899204244032,
+      "grad_norm": 0.06097806990146637,
+      "learning_rate": 1.1171702284450996e-05,
+      "loss": 0.048,
+      "step": 750
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9784037558685446,
+      "eval_f1": 0.984778292521509,
+      "eval_loss": 0.17541147768497467,
+      "eval_precision": 0.9750982961992136,
+      "eval_recall": 0.9946524064171123,
+      "eval_runtime": 65.725,
+      "eval_samples_per_second": 16.204,
+      "eval_steps_per_second": 1.019,
+      "step": 754
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 1508,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 427095020613120.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-754/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be09fe3a5beb0d44eb74f02908e775d4761990fab8ae3b1d7435c5c9a50e5e93
+size 5304