Fedoration commited on Sep 4, 2023

Commit

4e13d83

1 Parent(s): d6ff5b6

added checkpoints

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/config.json +40 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/optimizer.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/pytorch_model.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/rng_state.pth +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/scheduler.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/trainer_state.json +217 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/training_args.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/config.json +40 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/optimizer.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/pytorch_model.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/rng_state.pth +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/scheduler.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/trainer_state.json +319 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/training_args.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/config.json +40 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/optimizer.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/pytorch_model.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/rng_state.pth +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/scheduler.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/trainer_state.json +421 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/training_args.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/config.json +40 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/optimizer.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/pytorch_model.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/rng_state.pth +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/scheduler.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/trainer_state.json +523 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/training_args.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/config.json +40 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/optimizer.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/pytorch_model.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/rng_state.pth +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/scheduler.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/trainer_state.json +625 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/training_args.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/config.json +40 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/optimizer.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/pytorch_model.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/rng_state.pth +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/scheduler.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/trainer_state.json +727 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/training_args.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/config.json +40 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/optimizer.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/pytorch_model.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/rng_state.pth +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/scheduler.pt +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/trainer_state.json +829 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/training_args.bin +3 -0
rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-67338/config.json +40 -0

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ec7b17b24be98bb5061bee26e48fcb0342f48a66630e356ef3575d4d7cba6d3
+size 1418281093

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45fd50b290bd60448e72ce386cbd24817b01c712099ea20c4888d14be5d08d06
+size 709125289

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e6c4fae2dbc4e09dcb1916b3513181a62899bf27dcfddffe76449df6be937a2
+size 14575

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45c6f90078a2450ac8516906119b963c86e82b14a8e8f9482b75b9f2e26282b4
+size 627

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/trainer_state.json ADDED Viewed

	@@ -0,0 +1,217 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 14964,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 2e-05,
+      "loss": 0.1264,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9865446716899895e-05,
+      "loss": 0.0227,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9730893433799788e-05,
+      "loss": 0.0203,
+      "step": 1500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.959634015069968e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.946178686759957e-05,
+      "loss": 0.0185,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9327233584499463e-05,
+      "loss": 0.0177,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.9192680301399356e-05,
+      "loss": 0.0181,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.905812701829925e-05,
+      "loss": 0.0171,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.8923573735199142e-05,
+      "loss": 0.0174,
+      "step": 4500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.8789020452099035e-05,
+      "loss": 0.017,
+      "step": 5000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.8654467168998925e-05,
+      "loss": 0.0168,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.8519913885898818e-05,
+      "loss": 0.0161,
+      "step": 6000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.838536060279871e-05,
+      "loss": 0.0156,
+      "step": 6500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.8250807319698604e-05,
+      "loss": 0.0167,
+      "step": 7000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9943580499255906,
+      "eval_f1": 0.0,
+      "eval_loss": 0.015657523646950722,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.099,
+      "eval_samples_per_second": 708.913,
+      "eval_steps_per_second": 5.542,
+      "step": 7482
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8116254036598497e-05,
+      "loss": 0.0152,
+      "step": 7500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7981700753498386e-05,
+      "loss": 0.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.784714747039828e-05,
+      "loss": 0.0116,
+      "step": 8500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7712594187298172e-05,
+      "loss": 0.0116,
+      "step": 9000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7578040904198065e-05,
+      "loss": 0.0114,
+      "step": 9500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7443487621097955e-05,
+      "loss": 0.0114,
+      "step": 10000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7308934337997848e-05,
+      "loss": 0.0114,
+      "step": 10500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.717438105489774e-05,
+      "loss": 0.0118,
+      "step": 11000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7039827771797634e-05,
+      "loss": 0.0119,
+      "step": 11500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.6905274488697524e-05,
+      "loss": 0.0111,
+      "step": 12000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6770721205597417e-05,
+      "loss": 0.0118,
+      "step": 12500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.663616792249731e-05,
+      "loss": 0.0116,
+      "step": 13000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.6501614639397203e-05,
+      "loss": 0.0112,
+      "step": 13500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.6367061356297096e-05,
+      "loss": 0.0114,
+      "step": 14000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.6232508073196985e-05,
+      "loss": 0.0115,
+      "step": 14500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9940472490465726,
+      "eval_f1": 0.0,
+      "eval_loss": 0.016565397381782532,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 82.6741,
+      "eval_samples_per_second": 609.659,
+      "eval_steps_per_second": 4.766,
+      "step": 14964
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 74820,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 1.7008214784542912e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-14964/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713488e20afd5141b39f9aaa67feba7da0a360f752dbaa308013d8d5212f449
+size 4091

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fd2e501a8385c447d794fe6ee9b83ef4c2e239115db3ba191ebc165a10e527f
+size 1418281093

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c233ab490e4a16384978560e9ce243b94e4d0edde66e9c7736ac72bc328cbed
+size 709125289

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26c94452baca72f151e8fd71f227f974658fc15f84f8df12aa691d214f2d3bb1
+size 14575

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95aa11d132c66709e53ab1861363db19e03cdd43abe90abb88ecfb1d00f88ed7
+size 627

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/trainer_state.json ADDED Viewed

	@@ -0,0 +1,319 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 22446,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 2e-05,
+      "loss": 0.1264,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9865446716899895e-05,
+      "loss": 0.0227,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9730893433799788e-05,
+      "loss": 0.0203,
+      "step": 1500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.959634015069968e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.946178686759957e-05,
+      "loss": 0.0185,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9327233584499463e-05,
+      "loss": 0.0177,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.9192680301399356e-05,
+      "loss": 0.0181,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.905812701829925e-05,
+      "loss": 0.0171,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.8923573735199142e-05,
+      "loss": 0.0174,
+      "step": 4500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.8789020452099035e-05,
+      "loss": 0.017,
+      "step": 5000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.8654467168998925e-05,
+      "loss": 0.0168,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.8519913885898818e-05,
+      "loss": 0.0161,
+      "step": 6000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.838536060279871e-05,
+      "loss": 0.0156,
+      "step": 6500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.8250807319698604e-05,
+      "loss": 0.0167,
+      "step": 7000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9943580499255906,
+      "eval_f1": 0.0,
+      "eval_loss": 0.015657523646950722,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.099,
+      "eval_samples_per_second": 708.913,
+      "eval_steps_per_second": 5.542,
+      "step": 7482
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8116254036598497e-05,
+      "loss": 0.0152,
+      "step": 7500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7981700753498386e-05,
+      "loss": 0.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.784714747039828e-05,
+      "loss": 0.0116,
+      "step": 8500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7712594187298172e-05,
+      "loss": 0.0116,
+      "step": 9000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7578040904198065e-05,
+      "loss": 0.0114,
+      "step": 9500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7443487621097955e-05,
+      "loss": 0.0114,
+      "step": 10000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7308934337997848e-05,
+      "loss": 0.0114,
+      "step": 10500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.717438105489774e-05,
+      "loss": 0.0118,
+      "step": 11000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7039827771797634e-05,
+      "loss": 0.0119,
+      "step": 11500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.6905274488697524e-05,
+      "loss": 0.0111,
+      "step": 12000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6770721205597417e-05,
+      "loss": 0.0118,
+      "step": 12500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.663616792249731e-05,
+      "loss": 0.0116,
+      "step": 13000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.6501614639397203e-05,
+      "loss": 0.0112,
+      "step": 13500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.6367061356297096e-05,
+      "loss": 0.0114,
+      "step": 14000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.6232508073196985e-05,
+      "loss": 0.0115,
+      "step": 14500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9940472490465726,
+      "eval_f1": 0.0,
+      "eval_loss": 0.016565397381782532,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 82.6741,
+      "eval_samples_per_second": 609.659,
+      "eval_steps_per_second": 4.766,
+      "step": 14964
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6097954790096878e-05,
+      "loss": 0.0109,
+      "step": 15000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.596340150699677e-05,
+      "loss": 0.0077,
+      "step": 15500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5828848223896664e-05,
+      "loss": 0.0075,
+      "step": 16000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.5694294940796557e-05,
+      "loss": 0.0076,
+      "step": 16500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.555974165769645e-05,
+      "loss": 0.0076,
+      "step": 17000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.542518837459634e-05,
+      "loss": 0.0077,
+      "step": 17500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.5290635091496233e-05,
+      "loss": 0.0077,
+      "step": 18000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.5156081808396126e-05,
+      "loss": 0.0076,
+      "step": 18500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.5021528525296019e-05,
+      "loss": 0.0078,
+      "step": 19000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.4886975242195912e-05,
+      "loss": 0.008,
+      "step": 19500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.4752421959095805e-05,
+      "loss": 0.0077,
+      "step": 20000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.4617868675995694e-05,
+      "loss": 0.0078,
+      "step": 20500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.4483315392895587e-05,
+      "loss": 0.0081,
+      "step": 21000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.434876210979548e-05,
+      "loss": 0.0081,
+      "step": 21500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.4214208826695373e-05,
+      "loss": 0.0078,
+      "step": 22000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9940838138558689,
+      "eval_f1": 0.0,
+      "eval_loss": 0.020097261294722557,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.581,
+      "eval_samples_per_second": 704.139,
+      "eval_steps_per_second": 5.504,
+      "step": 22446
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 74820,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2.5512322176814368e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-22446/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713488e20afd5141b39f9aaa67feba7da0a360f752dbaa308013d8d5212f449
+size 4091

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5a688150a58135e72dadfc5d4565bc907692c77456484bef730d739ff3a3399
+size 1418281093

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad549c3c9a145d0ba0d3601a1b8871ffef6ec50f3964391cf383c6aeb10a44da
+size 709125289

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9bec1569f2b2b19949906563cbd6e2d8a69b35607a8366b6695d838b750331b
+size 14575

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5c5e1d1870ca9edfabe43cd9960ac818f48f088d52b8f2b3a331c9e576d215a
+size 627

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/trainer_state.json ADDED Viewed

	@@ -0,0 +1,421 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 29928,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 2e-05,
+      "loss": 0.1264,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9865446716899895e-05,
+      "loss": 0.0227,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9730893433799788e-05,
+      "loss": 0.0203,
+      "step": 1500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.959634015069968e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.946178686759957e-05,
+      "loss": 0.0185,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9327233584499463e-05,
+      "loss": 0.0177,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.9192680301399356e-05,
+      "loss": 0.0181,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.905812701829925e-05,
+      "loss": 0.0171,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.8923573735199142e-05,
+      "loss": 0.0174,
+      "step": 4500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.8789020452099035e-05,
+      "loss": 0.017,
+      "step": 5000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.8654467168998925e-05,
+      "loss": 0.0168,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.8519913885898818e-05,
+      "loss": 0.0161,
+      "step": 6000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.838536060279871e-05,
+      "loss": 0.0156,
+      "step": 6500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.8250807319698604e-05,
+      "loss": 0.0167,
+      "step": 7000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9943580499255906,
+      "eval_f1": 0.0,
+      "eval_loss": 0.015657523646950722,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.099,
+      "eval_samples_per_second": 708.913,
+      "eval_steps_per_second": 5.542,
+      "step": 7482
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8116254036598497e-05,
+      "loss": 0.0152,
+      "step": 7500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7981700753498386e-05,
+      "loss": 0.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.784714747039828e-05,
+      "loss": 0.0116,
+      "step": 8500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7712594187298172e-05,
+      "loss": 0.0116,
+      "step": 9000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7578040904198065e-05,
+      "loss": 0.0114,
+      "step": 9500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7443487621097955e-05,
+      "loss": 0.0114,
+      "step": 10000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7308934337997848e-05,
+      "loss": 0.0114,
+      "step": 10500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.717438105489774e-05,
+      "loss": 0.0118,
+      "step": 11000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7039827771797634e-05,
+      "loss": 0.0119,
+      "step": 11500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.6905274488697524e-05,
+      "loss": 0.0111,
+      "step": 12000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6770721205597417e-05,
+      "loss": 0.0118,
+      "step": 12500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.663616792249731e-05,
+      "loss": 0.0116,
+      "step": 13000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.6501614639397203e-05,
+      "loss": 0.0112,
+      "step": 13500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.6367061356297096e-05,
+      "loss": 0.0114,
+      "step": 14000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.6232508073196985e-05,
+      "loss": 0.0115,
+      "step": 14500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9940472490465726,
+      "eval_f1": 0.0,
+      "eval_loss": 0.016565397381782532,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 82.6741,
+      "eval_samples_per_second": 609.659,
+      "eval_steps_per_second": 4.766,
+      "step": 14964
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6097954790096878e-05,
+      "loss": 0.0109,
+      "step": 15000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.596340150699677e-05,
+      "loss": 0.0077,
+      "step": 15500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5828848223896664e-05,
+      "loss": 0.0075,
+      "step": 16000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.5694294940796557e-05,
+      "loss": 0.0076,
+      "step": 16500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.555974165769645e-05,
+      "loss": 0.0076,
+      "step": 17000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.542518837459634e-05,
+      "loss": 0.0077,
+      "step": 17500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.5290635091496233e-05,
+      "loss": 0.0077,
+      "step": 18000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.5156081808396126e-05,
+      "loss": 0.0076,
+      "step": 18500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.5021528525296019e-05,
+      "loss": 0.0078,
+      "step": 19000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.4886975242195912e-05,
+      "loss": 0.008,
+      "step": 19500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.4752421959095805e-05,
+      "loss": 0.0077,
+      "step": 20000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.4617868675995694e-05,
+      "loss": 0.0078,
+      "step": 20500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.4483315392895587e-05,
+      "loss": 0.0081,
+      "step": 21000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.434876210979548e-05,
+      "loss": 0.0081,
+      "step": 21500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.4214208826695373e-05,
+      "loss": 0.0078,
+      "step": 22000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9940838138558689,
+      "eval_f1": 0.0,
+      "eval_loss": 0.020097261294722557,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.581,
+      "eval_samples_per_second": 704.139,
+      "eval_steps_per_second": 5.504,
+      "step": 22446
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 1.4079655543595265e-05,
+      "loss": 0.0074,
+      "step": 22500
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.3945102260495158e-05,
+      "loss": 0.0051,
+      "step": 23000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.3810548977395049e-05,
+      "loss": 0.0052,
+      "step": 23500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.3675995694294942e-05,
+      "loss": 0.005,
+      "step": 24000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.3541442411194833e-05,
+      "loss": 0.0056,
+      "step": 24500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 1.3406889128094726e-05,
+      "loss": 0.0049,
+      "step": 25000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 1.3272335844994619e-05,
+      "loss": 0.0054,
+      "step": 25500
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.3137782561894512e-05,
+      "loss": 0.0052,
+      "step": 26000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 1.3003229278794403e-05,
+      "loss": 0.0055,
+      "step": 26500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.2868675995694295e-05,
+      "loss": 0.0053,
+      "step": 27000
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 1.2734122712594188e-05,
+      "loss": 0.0055,
+      "step": 27500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 1.259956942949408e-05,
+      "loss": 0.0056,
+      "step": 28000
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 1.2465016146393974e-05,
+      "loss": 0.0056,
+      "step": 28500
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 1.2330462863293867e-05,
+      "loss": 0.0056,
+      "step": 29000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.219590958019376e-05,
+      "loss": 0.0056,
+      "step": 29500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9940216536800652,
+      "eval_f1": 0.0,
+      "eval_loss": 0.023068198934197426,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.8028,
+      "eval_samples_per_second": 616.153,
+      "eval_steps_per_second": 4.816,
+      "step": 29928
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 74820,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 3.4016429569085824e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-29928/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713488e20afd5141b39f9aaa67feba7da0a360f752dbaa308013d8d5212f449
+size 4091

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d46bdaf7365344d25ab56a273686b443074ac5df5b3da18af552adfb8bb0159
+size 1418281093

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:420b30ad532637403259d1699e64db702f87677d6643105e5e5d9d86ebb4f92e
+size 709125289

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21ea456c1c79bc9fb04e070c6d6156fad4a9b07018a34e6d964fb53c806593e2
+size 14575

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dcee0eaa0686cccc9bf89fbdc18b90fe7a8add00f6fc71d0c5923474a451192
+size 627

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/trainer_state.json ADDED Viewed

	@@ -0,0 +1,523 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 37410,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 2e-05,
+      "loss": 0.1264,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9865446716899895e-05,
+      "loss": 0.0227,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9730893433799788e-05,
+      "loss": 0.0203,
+      "step": 1500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.959634015069968e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.946178686759957e-05,
+      "loss": 0.0185,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9327233584499463e-05,
+      "loss": 0.0177,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.9192680301399356e-05,
+      "loss": 0.0181,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.905812701829925e-05,
+      "loss": 0.0171,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.8923573735199142e-05,
+      "loss": 0.0174,
+      "step": 4500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.8789020452099035e-05,
+      "loss": 0.017,
+      "step": 5000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.8654467168998925e-05,
+      "loss": 0.0168,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.8519913885898818e-05,
+      "loss": 0.0161,
+      "step": 6000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.838536060279871e-05,
+      "loss": 0.0156,
+      "step": 6500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.8250807319698604e-05,
+      "loss": 0.0167,
+      "step": 7000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9943580499255906,
+      "eval_f1": 0.0,
+      "eval_loss": 0.015657523646950722,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.099,
+      "eval_samples_per_second": 708.913,
+      "eval_steps_per_second": 5.542,
+      "step": 7482
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8116254036598497e-05,
+      "loss": 0.0152,
+      "step": 7500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7981700753498386e-05,
+      "loss": 0.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.784714747039828e-05,
+      "loss": 0.0116,
+      "step": 8500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7712594187298172e-05,
+      "loss": 0.0116,
+      "step": 9000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7578040904198065e-05,
+      "loss": 0.0114,
+      "step": 9500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7443487621097955e-05,
+      "loss": 0.0114,
+      "step": 10000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7308934337997848e-05,
+      "loss": 0.0114,
+      "step": 10500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.717438105489774e-05,
+      "loss": 0.0118,
+      "step": 11000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7039827771797634e-05,
+      "loss": 0.0119,
+      "step": 11500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.6905274488697524e-05,
+      "loss": 0.0111,
+      "step": 12000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6770721205597417e-05,
+      "loss": 0.0118,
+      "step": 12500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.663616792249731e-05,
+      "loss": 0.0116,
+      "step": 13000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.6501614639397203e-05,
+      "loss": 0.0112,
+      "step": 13500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.6367061356297096e-05,
+      "loss": 0.0114,
+      "step": 14000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.6232508073196985e-05,
+      "loss": 0.0115,
+      "step": 14500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9940472490465726,
+      "eval_f1": 0.0,
+      "eval_loss": 0.016565397381782532,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 82.6741,
+      "eval_samples_per_second": 609.659,
+      "eval_steps_per_second": 4.766,
+      "step": 14964
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6097954790096878e-05,
+      "loss": 0.0109,
+      "step": 15000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.596340150699677e-05,
+      "loss": 0.0077,
+      "step": 15500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5828848223896664e-05,
+      "loss": 0.0075,
+      "step": 16000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.5694294940796557e-05,
+      "loss": 0.0076,
+      "step": 16500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.555974165769645e-05,
+      "loss": 0.0076,
+      "step": 17000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.542518837459634e-05,
+      "loss": 0.0077,
+      "step": 17500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.5290635091496233e-05,
+      "loss": 0.0077,
+      "step": 18000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.5156081808396126e-05,
+      "loss": 0.0076,
+      "step": 18500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.5021528525296019e-05,
+      "loss": 0.0078,
+      "step": 19000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.4886975242195912e-05,
+      "loss": 0.008,
+      "step": 19500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.4752421959095805e-05,
+      "loss": 0.0077,
+      "step": 20000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.4617868675995694e-05,
+      "loss": 0.0078,
+      "step": 20500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.4483315392895587e-05,
+      "loss": 0.0081,
+      "step": 21000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.434876210979548e-05,
+      "loss": 0.0081,
+      "step": 21500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.4214208826695373e-05,
+      "loss": 0.0078,
+      "step": 22000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9940838138558689,
+      "eval_f1": 0.0,
+      "eval_loss": 0.020097261294722557,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.581,
+      "eval_samples_per_second": 704.139,
+      "eval_steps_per_second": 5.504,
+      "step": 22446
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 1.4079655543595265e-05,
+      "loss": 0.0074,
+      "step": 22500
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.3945102260495158e-05,
+      "loss": 0.0051,
+      "step": 23000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.3810548977395049e-05,
+      "loss": 0.0052,
+      "step": 23500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.3675995694294942e-05,
+      "loss": 0.005,
+      "step": 24000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.3541442411194833e-05,
+      "loss": 0.0056,
+      "step": 24500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 1.3406889128094726e-05,
+      "loss": 0.0049,
+      "step": 25000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 1.3272335844994619e-05,
+      "loss": 0.0054,
+      "step": 25500
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.3137782561894512e-05,
+      "loss": 0.0052,
+      "step": 26000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 1.3003229278794403e-05,
+      "loss": 0.0055,
+      "step": 26500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.2868675995694295e-05,
+      "loss": 0.0053,
+      "step": 27000
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 1.2734122712594188e-05,
+      "loss": 0.0055,
+      "step": 27500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 1.259956942949408e-05,
+      "loss": 0.0056,
+      "step": 28000
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 1.2465016146393974e-05,
+      "loss": 0.0056,
+      "step": 28500
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 1.2330462863293867e-05,
+      "loss": 0.0056,
+      "step": 29000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.219590958019376e-05,
+      "loss": 0.0056,
+      "step": 29500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9940216536800652,
+      "eval_f1": 0.0,
+      "eval_loss": 0.023068198934197426,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.8028,
+      "eval_samples_per_second": 616.153,
+      "eval_steps_per_second": 4.816,
+      "step": 29928
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 1.206135629709365e-05,
+      "loss": 0.0053,
+      "step": 30000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.1926803013993542e-05,
+      "loss": 0.0035,
+      "step": 30500
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 1.1792249730893435e-05,
+      "loss": 0.0037,
+      "step": 31000
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 1.1657696447793328e-05,
+      "loss": 0.0039,
+      "step": 31500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 1.152314316469322e-05,
+      "loss": 0.0037,
+      "step": 32000
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 1.1388589881593113e-05,
+      "loss": 0.0038,
+      "step": 32500
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 1.1254036598493004e-05,
+      "loss": 0.004,
+      "step": 33000
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 1.1119483315392897e-05,
+      "loss": 0.0039,
+      "step": 33500
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 1.0984930032292788e-05,
+      "loss": 0.004,
+      "step": 34000
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 1.0850376749192681e-05,
+      "loss": 0.0041,
+      "step": 34500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 1.0715823466092574e-05,
+      "loss": 0.0042,
+      "step": 35000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 1.0581270182992467e-05,
+      "loss": 0.004,
+      "step": 35500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 1.0446716899892357e-05,
+      "loss": 0.0042,
+      "step": 36000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 1.031216361679225e-05,
+      "loss": 0.0041,
+      "step": 36500
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 1.0177610333692143e-05,
+      "loss": 0.0042,
+      "step": 37000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9940509055275022,
+      "eval_f1": 0.0,
+      "eval_loss": 0.025542501360177994,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.0096,
+      "eval_samples_per_second": 709.806,
+      "eval_steps_per_second": 5.549,
+      "step": 37410
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 74820,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 4.252053696135728e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-37410/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713488e20afd5141b39f9aaa67feba7da0a360f752dbaa308013d8d5212f449
+size 4091

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9de640f5776860cd313a47097c975e864bb42ca47fc51730f89698d9d2857cc4
+size 1418281093

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bab6353e25df2b251f3b7462ad687d29b3d68929b15b559c28369de6db587918
+size 709125289

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2ee5b3486670d33998adce168a823ad85a897e28c706d6b3b4c7d317ac3008b
+size 14575

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04b8e9929c5c026cdb0866b798ad37fddb86cbbceb958e03b72203a2e6c7d4dd
+size 627

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/trainer_state.json ADDED Viewed

	@@ -0,0 +1,625 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 44892,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 2e-05,
+      "loss": 0.1264,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9865446716899895e-05,
+      "loss": 0.0227,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9730893433799788e-05,
+      "loss": 0.0203,
+      "step": 1500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.959634015069968e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.946178686759957e-05,
+      "loss": 0.0185,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9327233584499463e-05,
+      "loss": 0.0177,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.9192680301399356e-05,
+      "loss": 0.0181,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.905812701829925e-05,
+      "loss": 0.0171,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.8923573735199142e-05,
+      "loss": 0.0174,
+      "step": 4500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.8789020452099035e-05,
+      "loss": 0.017,
+      "step": 5000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.8654467168998925e-05,
+      "loss": 0.0168,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.8519913885898818e-05,
+      "loss": 0.0161,
+      "step": 6000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.838536060279871e-05,
+      "loss": 0.0156,
+      "step": 6500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.8250807319698604e-05,
+      "loss": 0.0167,
+      "step": 7000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9943580499255906,
+      "eval_f1": 0.0,
+      "eval_loss": 0.015657523646950722,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.099,
+      "eval_samples_per_second": 708.913,
+      "eval_steps_per_second": 5.542,
+      "step": 7482
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8116254036598497e-05,
+      "loss": 0.0152,
+      "step": 7500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7981700753498386e-05,
+      "loss": 0.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.784714747039828e-05,
+      "loss": 0.0116,
+      "step": 8500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7712594187298172e-05,
+      "loss": 0.0116,
+      "step": 9000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7578040904198065e-05,
+      "loss": 0.0114,
+      "step": 9500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7443487621097955e-05,
+      "loss": 0.0114,
+      "step": 10000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7308934337997848e-05,
+      "loss": 0.0114,
+      "step": 10500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.717438105489774e-05,
+      "loss": 0.0118,
+      "step": 11000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7039827771797634e-05,
+      "loss": 0.0119,
+      "step": 11500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.6905274488697524e-05,
+      "loss": 0.0111,
+      "step": 12000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6770721205597417e-05,
+      "loss": 0.0118,
+      "step": 12500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.663616792249731e-05,
+      "loss": 0.0116,
+      "step": 13000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.6501614639397203e-05,
+      "loss": 0.0112,
+      "step": 13500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.6367061356297096e-05,
+      "loss": 0.0114,
+      "step": 14000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.6232508073196985e-05,
+      "loss": 0.0115,
+      "step": 14500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9940472490465726,
+      "eval_f1": 0.0,
+      "eval_loss": 0.016565397381782532,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 82.6741,
+      "eval_samples_per_second": 609.659,
+      "eval_steps_per_second": 4.766,
+      "step": 14964
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6097954790096878e-05,
+      "loss": 0.0109,
+      "step": 15000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.596340150699677e-05,
+      "loss": 0.0077,
+      "step": 15500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5828848223896664e-05,
+      "loss": 0.0075,
+      "step": 16000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.5694294940796557e-05,
+      "loss": 0.0076,
+      "step": 16500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.555974165769645e-05,
+      "loss": 0.0076,
+      "step": 17000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.542518837459634e-05,
+      "loss": 0.0077,
+      "step": 17500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.5290635091496233e-05,
+      "loss": 0.0077,
+      "step": 18000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.5156081808396126e-05,
+      "loss": 0.0076,
+      "step": 18500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.5021528525296019e-05,
+      "loss": 0.0078,
+      "step": 19000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.4886975242195912e-05,
+      "loss": 0.008,
+      "step": 19500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.4752421959095805e-05,
+      "loss": 0.0077,
+      "step": 20000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.4617868675995694e-05,
+      "loss": 0.0078,
+      "step": 20500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.4483315392895587e-05,
+      "loss": 0.0081,
+      "step": 21000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.434876210979548e-05,
+      "loss": 0.0081,
+      "step": 21500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.4214208826695373e-05,
+      "loss": 0.0078,
+      "step": 22000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9940838138558689,
+      "eval_f1": 0.0,
+      "eval_loss": 0.020097261294722557,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.581,
+      "eval_samples_per_second": 704.139,
+      "eval_steps_per_second": 5.504,
+      "step": 22446
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 1.4079655543595265e-05,
+      "loss": 0.0074,
+      "step": 22500
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.3945102260495158e-05,
+      "loss": 0.0051,
+      "step": 23000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.3810548977395049e-05,
+      "loss": 0.0052,
+      "step": 23500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.3675995694294942e-05,
+      "loss": 0.005,
+      "step": 24000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.3541442411194833e-05,
+      "loss": 0.0056,
+      "step": 24500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 1.3406889128094726e-05,
+      "loss": 0.0049,
+      "step": 25000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 1.3272335844994619e-05,
+      "loss": 0.0054,
+      "step": 25500
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.3137782561894512e-05,
+      "loss": 0.0052,
+      "step": 26000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 1.3003229278794403e-05,
+      "loss": 0.0055,
+      "step": 26500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.2868675995694295e-05,
+      "loss": 0.0053,
+      "step": 27000
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 1.2734122712594188e-05,
+      "loss": 0.0055,
+      "step": 27500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 1.259956942949408e-05,
+      "loss": 0.0056,
+      "step": 28000
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 1.2465016146393974e-05,
+      "loss": 0.0056,
+      "step": 28500
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 1.2330462863293867e-05,
+      "loss": 0.0056,
+      "step": 29000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.219590958019376e-05,
+      "loss": 0.0056,
+      "step": 29500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9940216536800652,
+      "eval_f1": 0.0,
+      "eval_loss": 0.023068198934197426,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.8028,
+      "eval_samples_per_second": 616.153,
+      "eval_steps_per_second": 4.816,
+      "step": 29928
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 1.206135629709365e-05,
+      "loss": 0.0053,
+      "step": 30000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.1926803013993542e-05,
+      "loss": 0.0035,
+      "step": 30500
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 1.1792249730893435e-05,
+      "loss": 0.0037,
+      "step": 31000
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 1.1657696447793328e-05,
+      "loss": 0.0039,
+      "step": 31500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 1.152314316469322e-05,
+      "loss": 0.0037,
+      "step": 32000
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 1.1388589881593113e-05,
+      "loss": 0.0038,
+      "step": 32500
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 1.1254036598493004e-05,
+      "loss": 0.004,
+      "step": 33000
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 1.1119483315392897e-05,
+      "loss": 0.0039,
+      "step": 33500
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 1.0984930032292788e-05,
+      "loss": 0.004,
+      "step": 34000
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 1.0850376749192681e-05,
+      "loss": 0.0041,
+      "step": 34500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 1.0715823466092574e-05,
+      "loss": 0.0042,
+      "step": 35000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 1.0581270182992467e-05,
+      "loss": 0.004,
+      "step": 35500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 1.0446716899892357e-05,
+      "loss": 0.0042,
+      "step": 36000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 1.031216361679225e-05,
+      "loss": 0.0041,
+      "step": 36500
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 1.0177610333692143e-05,
+      "loss": 0.0042,
+      "step": 37000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9940509055275022,
+      "eval_f1": 0.0,
+      "eval_loss": 0.025542501360177994,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.0096,
+      "eval_samples_per_second": 709.806,
+      "eval_steps_per_second": 5.549,
+      "step": 37410
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 1.0043057050592036e-05,
+      "loss": 0.0038,
+      "step": 37500
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 9.908503767491927e-06,
+      "loss": 0.0029,
+      "step": 38000
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 9.77395048439182e-06,
+      "loss": 0.003,
+      "step": 38500
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 9.639397201291713e-06,
+      "loss": 0.003,
+      "step": 39000
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 9.504843918191604e-06,
+      "loss": 0.003,
+      "step": 39500
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 9.370290635091497e-06,
+      "loss": 0.0029,
+      "step": 40000
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 9.23573735199139e-06,
+      "loss": 0.0031,
+      "step": 40500
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 9.101184068891282e-06,
+      "loss": 0.0031,
+      "step": 41000
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 8.966630785791175e-06,
+      "loss": 0.0031,
+      "step": 41500
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 8.832077502691066e-06,
+      "loss": 0.0032,
+      "step": 42000
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 8.697524219590959e-06,
+      "loss": 0.003,
+      "step": 42500
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 8.56297093649085e-06,
+      "loss": 0.0032,
+      "step": 43000
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.428417653390743e-06,
+      "loss": 0.0033,
+      "step": 43500
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 8.293864370290636e-06,
+      "loss": 0.0032,
+      "step": 44000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 8.159311087190527e-06,
+      "loss": 0.0032,
+      "step": 44500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9940655314512207,
+      "eval_f1": 0.0,
+      "eval_loss": 0.031192485243082047,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.6971,
+      "eval_samples_per_second": 616.95,
+      "eval_steps_per_second": 4.823,
+      "step": 44892
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 74820,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5.1024644353628736e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-44892/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713488e20afd5141b39f9aaa67feba7da0a360f752dbaa308013d8d5212f449
+size 4091

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a2c94b3fa4105f0848e039f53ebc926d5c50bab3ec3ef6ee702b2cac182fc88
+size 1418281093

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e93ea760e69150887aa70367fc7c023cde354ea5bbdc7677ff27694947e6896b
+size 709125289

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff9f9ba597613c9b6de2929cd52809617964b278efcc8d2d7f05547c143c6c43
+size 14575

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58cdca43612bcf5318fcbf9957a0b062eac9129103ad04c51d2784c587eaceab
+size 627

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/trainer_state.json ADDED Viewed

	@@ -0,0 +1,727 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 52374,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 2e-05,
+      "loss": 0.1264,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9865446716899895e-05,
+      "loss": 0.0227,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9730893433799788e-05,
+      "loss": 0.0203,
+      "step": 1500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.959634015069968e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.946178686759957e-05,
+      "loss": 0.0185,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9327233584499463e-05,
+      "loss": 0.0177,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.9192680301399356e-05,
+      "loss": 0.0181,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.905812701829925e-05,
+      "loss": 0.0171,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.8923573735199142e-05,
+      "loss": 0.0174,
+      "step": 4500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.8789020452099035e-05,
+      "loss": 0.017,
+      "step": 5000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.8654467168998925e-05,
+      "loss": 0.0168,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.8519913885898818e-05,
+      "loss": 0.0161,
+      "step": 6000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.838536060279871e-05,
+      "loss": 0.0156,
+      "step": 6500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.8250807319698604e-05,
+      "loss": 0.0167,
+      "step": 7000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9943580499255906,
+      "eval_f1": 0.0,
+      "eval_loss": 0.015657523646950722,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.099,
+      "eval_samples_per_second": 708.913,
+      "eval_steps_per_second": 5.542,
+      "step": 7482
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8116254036598497e-05,
+      "loss": 0.0152,
+      "step": 7500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7981700753498386e-05,
+      "loss": 0.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.784714747039828e-05,
+      "loss": 0.0116,
+      "step": 8500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7712594187298172e-05,
+      "loss": 0.0116,
+      "step": 9000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7578040904198065e-05,
+      "loss": 0.0114,
+      "step": 9500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7443487621097955e-05,
+      "loss": 0.0114,
+      "step": 10000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7308934337997848e-05,
+      "loss": 0.0114,
+      "step": 10500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.717438105489774e-05,
+      "loss": 0.0118,
+      "step": 11000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7039827771797634e-05,
+      "loss": 0.0119,
+      "step": 11500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.6905274488697524e-05,
+      "loss": 0.0111,
+      "step": 12000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6770721205597417e-05,
+      "loss": 0.0118,
+      "step": 12500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.663616792249731e-05,
+      "loss": 0.0116,
+      "step": 13000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.6501614639397203e-05,
+      "loss": 0.0112,
+      "step": 13500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.6367061356297096e-05,
+      "loss": 0.0114,
+      "step": 14000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.6232508073196985e-05,
+      "loss": 0.0115,
+      "step": 14500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9940472490465726,
+      "eval_f1": 0.0,
+      "eval_loss": 0.016565397381782532,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 82.6741,
+      "eval_samples_per_second": 609.659,
+      "eval_steps_per_second": 4.766,
+      "step": 14964
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6097954790096878e-05,
+      "loss": 0.0109,
+      "step": 15000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.596340150699677e-05,
+      "loss": 0.0077,
+      "step": 15500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5828848223896664e-05,
+      "loss": 0.0075,
+      "step": 16000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.5694294940796557e-05,
+      "loss": 0.0076,
+      "step": 16500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.555974165769645e-05,
+      "loss": 0.0076,
+      "step": 17000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.542518837459634e-05,
+      "loss": 0.0077,
+      "step": 17500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.5290635091496233e-05,
+      "loss": 0.0077,
+      "step": 18000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.5156081808396126e-05,
+      "loss": 0.0076,
+      "step": 18500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.5021528525296019e-05,
+      "loss": 0.0078,
+      "step": 19000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.4886975242195912e-05,
+      "loss": 0.008,
+      "step": 19500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.4752421959095805e-05,
+      "loss": 0.0077,
+      "step": 20000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.4617868675995694e-05,
+      "loss": 0.0078,
+      "step": 20500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.4483315392895587e-05,
+      "loss": 0.0081,
+      "step": 21000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.434876210979548e-05,
+      "loss": 0.0081,
+      "step": 21500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.4214208826695373e-05,
+      "loss": 0.0078,
+      "step": 22000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9940838138558689,
+      "eval_f1": 0.0,
+      "eval_loss": 0.020097261294722557,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.581,
+      "eval_samples_per_second": 704.139,
+      "eval_steps_per_second": 5.504,
+      "step": 22446
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 1.4079655543595265e-05,
+      "loss": 0.0074,
+      "step": 22500
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.3945102260495158e-05,
+      "loss": 0.0051,
+      "step": 23000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.3810548977395049e-05,
+      "loss": 0.0052,
+      "step": 23500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.3675995694294942e-05,
+      "loss": 0.005,
+      "step": 24000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.3541442411194833e-05,
+      "loss": 0.0056,
+      "step": 24500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 1.3406889128094726e-05,
+      "loss": 0.0049,
+      "step": 25000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 1.3272335844994619e-05,
+      "loss": 0.0054,
+      "step": 25500
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.3137782561894512e-05,
+      "loss": 0.0052,
+      "step": 26000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 1.3003229278794403e-05,
+      "loss": 0.0055,
+      "step": 26500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.2868675995694295e-05,
+      "loss": 0.0053,
+      "step": 27000
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 1.2734122712594188e-05,
+      "loss": 0.0055,
+      "step": 27500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 1.259956942949408e-05,
+      "loss": 0.0056,
+      "step": 28000
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 1.2465016146393974e-05,
+      "loss": 0.0056,
+      "step": 28500
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 1.2330462863293867e-05,
+      "loss": 0.0056,
+      "step": 29000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.219590958019376e-05,
+      "loss": 0.0056,
+      "step": 29500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9940216536800652,
+      "eval_f1": 0.0,
+      "eval_loss": 0.023068198934197426,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.8028,
+      "eval_samples_per_second": 616.153,
+      "eval_steps_per_second": 4.816,
+      "step": 29928
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 1.206135629709365e-05,
+      "loss": 0.0053,
+      "step": 30000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.1926803013993542e-05,
+      "loss": 0.0035,
+      "step": 30500
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 1.1792249730893435e-05,
+      "loss": 0.0037,
+      "step": 31000
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 1.1657696447793328e-05,
+      "loss": 0.0039,
+      "step": 31500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 1.152314316469322e-05,
+      "loss": 0.0037,
+      "step": 32000
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 1.1388589881593113e-05,
+      "loss": 0.0038,
+      "step": 32500
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 1.1254036598493004e-05,
+      "loss": 0.004,
+      "step": 33000
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 1.1119483315392897e-05,
+      "loss": 0.0039,
+      "step": 33500
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 1.0984930032292788e-05,
+      "loss": 0.004,
+      "step": 34000
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 1.0850376749192681e-05,
+      "loss": 0.0041,
+      "step": 34500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 1.0715823466092574e-05,
+      "loss": 0.0042,
+      "step": 35000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 1.0581270182992467e-05,
+      "loss": 0.004,
+      "step": 35500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 1.0446716899892357e-05,
+      "loss": 0.0042,
+      "step": 36000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 1.031216361679225e-05,
+      "loss": 0.0041,
+      "step": 36500
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 1.0177610333692143e-05,
+      "loss": 0.0042,
+      "step": 37000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9940509055275022,
+      "eval_f1": 0.0,
+      "eval_loss": 0.025542501360177994,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.0096,
+      "eval_samples_per_second": 709.806,
+      "eval_steps_per_second": 5.549,
+      "step": 37410
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 1.0043057050592036e-05,
+      "loss": 0.0038,
+      "step": 37500
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 9.908503767491927e-06,
+      "loss": 0.0029,
+      "step": 38000
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 9.77395048439182e-06,
+      "loss": 0.003,
+      "step": 38500
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 9.639397201291713e-06,
+      "loss": 0.003,
+      "step": 39000
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 9.504843918191604e-06,
+      "loss": 0.003,
+      "step": 39500
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 9.370290635091497e-06,
+      "loss": 0.0029,
+      "step": 40000
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 9.23573735199139e-06,
+      "loss": 0.0031,
+      "step": 40500
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 9.101184068891282e-06,
+      "loss": 0.0031,
+      "step": 41000
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 8.966630785791175e-06,
+      "loss": 0.0031,
+      "step": 41500
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 8.832077502691066e-06,
+      "loss": 0.0032,
+      "step": 42000
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 8.697524219590959e-06,
+      "loss": 0.003,
+      "step": 42500
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 8.56297093649085e-06,
+      "loss": 0.0032,
+      "step": 43000
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.428417653390743e-06,
+      "loss": 0.0033,
+      "step": 43500
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 8.293864370290636e-06,
+      "loss": 0.0032,
+      "step": 44000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 8.159311087190527e-06,
+      "loss": 0.0032,
+      "step": 44500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9940655314512207,
+      "eval_f1": 0.0,
+      "eval_loss": 0.031192485243082047,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.6971,
+      "eval_samples_per_second": 616.95,
+      "eval_steps_per_second": 4.823,
+      "step": 44892
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 8.02475780409042e-06,
+      "loss": 0.003,
+      "step": 45000
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 7.890204520990313e-06,
+      "loss": 0.0022,
+      "step": 45500
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 7.755651237890205e-06,
+      "loss": 0.0024,
+      "step": 46000
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 7.621097954790098e-06,
+      "loss": 0.0022,
+      "step": 46500
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 7.486544671689991e-06,
+      "loss": 0.0024,
+      "step": 47000
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 7.351991388589882e-06,
+      "loss": 0.0025,
+      "step": 47500
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 7.217438105489775e-06,
+      "loss": 0.0025,
+      "step": 48000
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 7.082884822389667e-06,
+      "loss": 0.0025,
+      "step": 48500
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 6.948331539289559e-06,
+      "loss": 0.0026,
+      "step": 49000
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 6.813778256189451e-06,
+      "loss": 0.0025,
+      "step": 49500
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 6.679224973089344e-06,
+      "loss": 0.0026,
+      "step": 50000
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 6.544671689989236e-06,
+      "loss": 0.0025,
+      "step": 50500
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 6.410118406889129e-06,
+      "loss": 0.0025,
+      "step": 51000
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 6.275565123789022e-06,
+      "loss": 0.0025,
+      "step": 51500
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 6.141011840688913e-06,
+      "loss": 0.0025,
+      "step": 52000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9939119592521766,
+      "eval_f1": 0.0,
+      "eval_loss": 0.03196028992533684,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.5312,
+      "eval_samples_per_second": 704.63,
+      "eval_steps_per_second": 5.508,
+      "step": 52374
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 74820,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 5.95287517459002e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-52374/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713488e20afd5141b39f9aaa67feba7da0a360f752dbaa308013d8d5212f449
+size 4091

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d99c525306a2f5415aced53b4f26a4f948a39d19ab91beee79f05a3c0d2dc91
+size 1418281093

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4584cb25d54c7bc100b750d5185dab318806f87dc469c72235b959bd7ea4852c
+size 709125289

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d630713282a7e689b0e08e8ab7654d39f94f47b8f456bac345c21dba19706091
+size 14575

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67fdbe2ad084cae31bd619a47ba1b70ba128ff67dd25af4b47b1bd149313fe24
+size 627

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/trainer_state.json ADDED Viewed

	@@ -0,0 +1,829 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 59856,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 2e-05,
+      "loss": 0.1264,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.9865446716899895e-05,
+      "loss": 0.0227,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9730893433799788e-05,
+      "loss": 0.0203,
+      "step": 1500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.959634015069968e-05,
+      "loss": 0.0197,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.946178686759957e-05,
+      "loss": 0.0185,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.9327233584499463e-05,
+      "loss": 0.0177,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 1.9192680301399356e-05,
+      "loss": 0.0181,
+      "step": 3500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.905812701829925e-05,
+      "loss": 0.0171,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 1.8923573735199142e-05,
+      "loss": 0.0174,
+      "step": 4500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.8789020452099035e-05,
+      "loss": 0.017,
+      "step": 5000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.8654467168998925e-05,
+      "loss": 0.0168,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.8519913885898818e-05,
+      "loss": 0.0161,
+      "step": 6000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 1.838536060279871e-05,
+      "loss": 0.0156,
+      "step": 6500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.8250807319698604e-05,
+      "loss": 0.0167,
+      "step": 7000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9943580499255906,
+      "eval_f1": 0.0,
+      "eval_loss": 0.015657523646950722,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.099,
+      "eval_samples_per_second": 708.913,
+      "eval_steps_per_second": 5.542,
+      "step": 7482
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8116254036598497e-05,
+      "loss": 0.0152,
+      "step": 7500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.7981700753498386e-05,
+      "loss": 0.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.784714747039828e-05,
+      "loss": 0.0116,
+      "step": 8500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 1.7712594187298172e-05,
+      "loss": 0.0116,
+      "step": 9000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.7578040904198065e-05,
+      "loss": 0.0114,
+      "step": 9500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.7443487621097955e-05,
+      "loss": 0.0114,
+      "step": 10000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.7308934337997848e-05,
+      "loss": 0.0114,
+      "step": 10500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.717438105489774e-05,
+      "loss": 0.0118,
+      "step": 11000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7039827771797634e-05,
+      "loss": 0.0119,
+      "step": 11500
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 1.6905274488697524e-05,
+      "loss": 0.0111,
+      "step": 12000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.6770721205597417e-05,
+      "loss": 0.0118,
+      "step": 12500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.663616792249731e-05,
+      "loss": 0.0116,
+      "step": 13000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.6501614639397203e-05,
+      "loss": 0.0112,
+      "step": 13500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.6367061356297096e-05,
+      "loss": 0.0114,
+      "step": 14000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.6232508073196985e-05,
+      "loss": 0.0115,
+      "step": 14500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9940472490465726,
+      "eval_f1": 0.0,
+      "eval_loss": 0.016565397381782532,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 82.6741,
+      "eval_samples_per_second": 609.659,
+      "eval_steps_per_second": 4.766,
+      "step": 14964
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.6097954790096878e-05,
+      "loss": 0.0109,
+      "step": 15000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.596340150699677e-05,
+      "loss": 0.0077,
+      "step": 15500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5828848223896664e-05,
+      "loss": 0.0075,
+      "step": 16000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.5694294940796557e-05,
+      "loss": 0.0076,
+      "step": 16500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 1.555974165769645e-05,
+      "loss": 0.0076,
+      "step": 17000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.542518837459634e-05,
+      "loss": 0.0077,
+      "step": 17500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.5290635091496233e-05,
+      "loss": 0.0077,
+      "step": 18000
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.5156081808396126e-05,
+      "loss": 0.0076,
+      "step": 18500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.5021528525296019e-05,
+      "loss": 0.0078,
+      "step": 19000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.4886975242195912e-05,
+      "loss": 0.008,
+      "step": 19500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.4752421959095805e-05,
+      "loss": 0.0077,
+      "step": 20000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 1.4617868675995694e-05,
+      "loss": 0.0078,
+      "step": 20500
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.4483315392895587e-05,
+      "loss": 0.0081,
+      "step": 21000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.434876210979548e-05,
+      "loss": 0.0081,
+      "step": 21500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.4214208826695373e-05,
+      "loss": 0.0078,
+      "step": 22000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9940838138558689,
+      "eval_f1": 0.0,
+      "eval_loss": 0.020097261294722557,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.581,
+      "eval_samples_per_second": 704.139,
+      "eval_steps_per_second": 5.504,
+      "step": 22446
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 1.4079655543595265e-05,
+      "loss": 0.0074,
+      "step": 22500
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.3945102260495158e-05,
+      "loss": 0.0051,
+      "step": 23000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.3810548977395049e-05,
+      "loss": 0.0052,
+      "step": 23500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.3675995694294942e-05,
+      "loss": 0.005,
+      "step": 24000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.3541442411194833e-05,
+      "loss": 0.0056,
+      "step": 24500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 1.3406889128094726e-05,
+      "loss": 0.0049,
+      "step": 25000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 1.3272335844994619e-05,
+      "loss": 0.0054,
+      "step": 25500
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 1.3137782561894512e-05,
+      "loss": 0.0052,
+      "step": 26000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 1.3003229278794403e-05,
+      "loss": 0.0055,
+      "step": 26500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.2868675995694295e-05,
+      "loss": 0.0053,
+      "step": 27000
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 1.2734122712594188e-05,
+      "loss": 0.0055,
+      "step": 27500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 1.259956942949408e-05,
+      "loss": 0.0056,
+      "step": 28000
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 1.2465016146393974e-05,
+      "loss": 0.0056,
+      "step": 28500
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 1.2330462863293867e-05,
+      "loss": 0.0056,
+      "step": 29000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 1.219590958019376e-05,
+      "loss": 0.0056,
+      "step": 29500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9940216536800652,
+      "eval_f1": 0.0,
+      "eval_loss": 0.023068198934197426,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.8028,
+      "eval_samples_per_second": 616.153,
+      "eval_steps_per_second": 4.816,
+      "step": 29928
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 1.206135629709365e-05,
+      "loss": 0.0053,
+      "step": 30000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.1926803013993542e-05,
+      "loss": 0.0035,
+      "step": 30500
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 1.1792249730893435e-05,
+      "loss": 0.0037,
+      "step": 31000
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 1.1657696447793328e-05,
+      "loss": 0.0039,
+      "step": 31500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 1.152314316469322e-05,
+      "loss": 0.0037,
+      "step": 32000
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 1.1388589881593113e-05,
+      "loss": 0.0038,
+      "step": 32500
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 1.1254036598493004e-05,
+      "loss": 0.004,
+      "step": 33000
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 1.1119483315392897e-05,
+      "loss": 0.0039,
+      "step": 33500
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 1.0984930032292788e-05,
+      "loss": 0.004,
+      "step": 34000
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 1.0850376749192681e-05,
+      "loss": 0.0041,
+      "step": 34500
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 1.0715823466092574e-05,
+      "loss": 0.0042,
+      "step": 35000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 1.0581270182992467e-05,
+      "loss": 0.004,
+      "step": 35500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 1.0446716899892357e-05,
+      "loss": 0.0042,
+      "step": 36000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 1.031216361679225e-05,
+      "loss": 0.0041,
+      "step": 36500
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 1.0177610333692143e-05,
+      "loss": 0.0042,
+      "step": 37000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9940509055275022,
+      "eval_f1": 0.0,
+      "eval_loss": 0.025542501360177994,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.0096,
+      "eval_samples_per_second": 709.806,
+      "eval_steps_per_second": 5.549,
+      "step": 37410
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 1.0043057050592036e-05,
+      "loss": 0.0038,
+      "step": 37500
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 9.908503767491927e-06,
+      "loss": 0.0029,
+      "step": 38000
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 9.77395048439182e-06,
+      "loss": 0.003,
+      "step": 38500
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 9.639397201291713e-06,
+      "loss": 0.003,
+      "step": 39000
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 9.504843918191604e-06,
+      "loss": 0.003,
+      "step": 39500
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 9.370290635091497e-06,
+      "loss": 0.0029,
+      "step": 40000
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 9.23573735199139e-06,
+      "loss": 0.0031,
+      "step": 40500
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 9.101184068891282e-06,
+      "loss": 0.0031,
+      "step": 41000
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 8.966630785791175e-06,
+      "loss": 0.0031,
+      "step": 41500
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 8.832077502691066e-06,
+      "loss": 0.0032,
+      "step": 42000
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 8.697524219590959e-06,
+      "loss": 0.003,
+      "step": 42500
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 8.56297093649085e-06,
+      "loss": 0.0032,
+      "step": 43000
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.428417653390743e-06,
+      "loss": 0.0033,
+      "step": 43500
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 8.293864370290636e-06,
+      "loss": 0.0032,
+      "step": 44000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 8.159311087190527e-06,
+      "loss": 0.0032,
+      "step": 44500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9940655314512207,
+      "eval_f1": 0.0,
+      "eval_loss": 0.031192485243082047,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.6971,
+      "eval_samples_per_second": 616.95,
+      "eval_steps_per_second": 4.823,
+      "step": 44892
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 8.02475780409042e-06,
+      "loss": 0.003,
+      "step": 45000
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 7.890204520990313e-06,
+      "loss": 0.0022,
+      "step": 45500
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 7.755651237890205e-06,
+      "loss": 0.0024,
+      "step": 46000
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 7.621097954790098e-06,
+      "loss": 0.0022,
+      "step": 46500
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 7.486544671689991e-06,
+      "loss": 0.0024,
+      "step": 47000
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 7.351991388589882e-06,
+      "loss": 0.0025,
+      "step": 47500
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 7.217438105489775e-06,
+      "loss": 0.0025,
+      "step": 48000
+    },
+    {
+      "epoch": 6.48,
+      "learning_rate": 7.082884822389667e-06,
+      "loss": 0.0025,
+      "step": 48500
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 6.948331539289559e-06,
+      "loss": 0.0026,
+      "step": 49000
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 6.813778256189451e-06,
+      "loss": 0.0025,
+      "step": 49500
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 6.679224973089344e-06,
+      "loss": 0.0026,
+      "step": 50000
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 6.544671689989236e-06,
+      "loss": 0.0025,
+      "step": 50500
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 6.410118406889129e-06,
+      "loss": 0.0025,
+      "step": 51000
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 6.275565123789022e-06,
+      "loss": 0.0025,
+      "step": 51500
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 6.141011840688913e-06,
+      "loss": 0.0025,
+      "step": 52000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9939119592521766,
+      "eval_f1": 0.0,
+      "eval_loss": 0.03196028992533684,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 71.5312,
+      "eval_samples_per_second": 704.63,
+      "eval_steps_per_second": 5.508,
+      "step": 52374
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 6.006458557588806e-06,
+      "loss": 0.0023,
+      "step": 52500
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 5.871905274488698e-06,
+      "loss": 0.002,
+      "step": 53000
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 5.73735199138859e-06,
+      "loss": 0.0019,
+      "step": 53500
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 5.602798708288482e-06,
+      "loss": 0.002,
+      "step": 54000
+    },
+    {
+      "epoch": 7.28,
+      "learning_rate": 5.468245425188375e-06,
+      "loss": 0.002,
+      "step": 54500
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 5.333692142088267e-06,
+      "loss": 0.0019,
+      "step": 55000
+    },
+    {
+      "epoch": 7.42,
+      "learning_rate": 5.19913885898816e-06,
+      "loss": 0.002,
+      "step": 55500
+    },
+    {
+      "epoch": 7.48,
+      "learning_rate": 5.064585575888053e-06,
+      "loss": 0.0018,
+      "step": 56000
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 4.930032292787945e-06,
+      "loss": 0.0022,
+      "step": 56500
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 4.795479009687837e-06,
+      "loss": 0.002,
+      "step": 57000
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 4.660925726587729e-06,
+      "loss": 0.002,
+      "step": 57500
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 4.526372443487621e-06,
+      "loss": 0.0021,
+      "step": 58000
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 4.391819160387513e-06,
+      "loss": 0.0021,
+      "step": 58500
+    },
+    {
+      "epoch": 7.89,
+      "learning_rate": 4.2572658772874056e-06,
+      "loss": 0.0021,
+      "step": 59000
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 4.1227125941872986e-06,
+      "loss": 0.0023,
+      "step": 59500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9939704629470505,
+      "eval_f1": 0.0,
+      "eval_loss": 0.03371906280517578,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 81.4913,
+      "eval_samples_per_second": 618.508,
+      "eval_steps_per_second": 4.835,
+      "step": 59856
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 74820,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 6.803285913817166e+17,
+  "trial_name": null,
+  "trial_params": null
+}

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-59856/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f713488e20afd5141b39f9aaa67feba7da0a360f752dbaa308013d8d5212f449
+size 4091

rubert-base-cased-conversational-512-tatoeba_dataset/02-09-2023-11-01-00/checkpoint-67338/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "DeepPavlov/rubert-base-cased-conversational",
+  "architectures": [
+    "BertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "U"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "O": 0,
+    "U": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}