MuhammadHelmy commited on Jul 23, 2025

Commit

546a5d6

verified ·

1 Parent(s): 7988bf1

Upload folder using huggingface_hub

Browse files

Files changed (30) hide show

.gitattributes +3 -0
checkpoint-7500/config.json +78 -0
checkpoint-7500/model.safetensors +3 -0
checkpoint-7500/optimizer.pt +3 -0
checkpoint-7500/rng_state.pth +3 -0
checkpoint-7500/scheduler.pt +3 -0
checkpoint-7500/special_tokens_map.json +37 -0
checkpoint-7500/tokenizer.json +3 -0
checkpoint-7500/tokenizer_config.json +66 -0
checkpoint-7500/trainer_state.json +319 -0
checkpoint-7500/training_args.bin +3 -0
checkpoint-7500/vocab.txt +0 -0
checkpoint-8236/config.json +78 -0
checkpoint-8236/model.safetensors +3 -0
checkpoint-8236/optimizer.pt +3 -0
checkpoint-8236/rng_state.pth +3 -0
checkpoint-8236/scheduler.pt +3 -0
checkpoint-8236/special_tokens_map.json +37 -0
checkpoint-8236/tokenizer.json +3 -0
checkpoint-8236/tokenizer_config.json +66 -0
checkpoint-8236/trainer_state.json +338 -0
checkpoint-8236/training_args.bin +3 -0
checkpoint-8236/vocab.txt +0 -0
config.json +78 -0
model.safetensors +3 -0
special_tokens_map.json +37 -0
tokenizer.json +3 -0
tokenizer_config.json +66 -0
training_args.bin +3 -0
vocab.txt +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-7500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-8236/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-7500/config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 501153
+}

checkpoint-7500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d8d79d702599c2192e5b15515269df298de7479ff0c439862f99a481f490883
+size 1883795932

checkpoint-7500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dee3c716ff6eb96535e390b377dbb720ed8ac39321619f61eb1ff7fb0c2dade
+size 3767712058

checkpoint-7500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a0eaad9cbd70a4e1acc4256745f20f9b2d5dc8e282406c2caf0b8298568f3f1
+size 14244

checkpoint-7500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:169c88efcd6ba472b0a671e6aa3f5138f864f1da5f2e2b84429033aa5df3fde7
+size 1064

checkpoint-7500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-7500/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94d868657dd92b0a5a4d1c3a8580e44099f595c8ef7c95d0d48d4de01e5c1834
+size 13632184

checkpoint-7500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "full_tokenizer_file": null,
+  "mask_token": "[MASK]",
+  "max_length": 256,
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

checkpoint-7500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,319 @@

+{
+  "best_global_step": 7500,
+  "best_metric": 0.7552966570626944,
+  "best_model_checkpoint": "./labse-Matryoshka-AuthId/checkpoint-7500",
+  "epoch": 3.642544924720738,
+  "eval_steps": 500,
+  "global_step": 7500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.24283632831471588,
+      "grad_norm": 8.226706504821777,
+      "learning_rate": 1.8788246721709567e-05,
+      "loss": 1.8844,
+      "step": 500
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "eval_accuracy": 0.580466682703873,
+      "eval_f1_macro": 0.4960676688683372,
+      "eval_loss": 1.5094239711761475,
+      "eval_precision_macro": 0.5214977084503927,
+      "eval_recall_macro": 0.5479464513669718,
+      "eval_runtime": 79.4803,
+      "eval_samples_per_second": 52.302,
+      "eval_steps_per_second": 3.271,
+      "step": 500
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "grad_norm": 23.343076705932617,
+      "learning_rate": 1.757406508013599e-05,
+      "loss": 1.0439,
+      "step": 1000
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "eval_accuracy": 0.6338705797450084,
+      "eval_f1_macro": 0.5443060410532249,
+      "eval_loss": 1.180512547492981,
+      "eval_precision_macro": 0.5964210887979737,
+      "eval_recall_macro": 0.5815396599629518,
+      "eval_runtime": 79.5018,
+      "eval_samples_per_second": 52.288,
+      "eval_steps_per_second": 3.27,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "grad_norm": 22.333507537841797,
+      "learning_rate": 1.635988343856241e-05,
+      "loss": 0.7775,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "eval_accuracy": 0.7168631224440702,
+      "eval_f1_macro": 0.6352859818957786,
+      "eval_loss": 1.000940203666687,
+      "eval_precision_macro": 0.6284925893229054,
+      "eval_recall_macro": 0.6892646842795946,
+      "eval_runtime": 79.7404,
+      "eval_samples_per_second": 52.132,
+      "eval_steps_per_second": 3.261,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "grad_norm": 17.205595016479492,
+      "learning_rate": 1.514570179698883e-05,
+      "loss": 0.6235,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "eval_accuracy": 0.7002646139042579,
+      "eval_f1_macro": 0.6444992633781246,
+      "eval_loss": 1.0062403678894043,
+      "eval_precision_macro": 0.6416324743101667,
+      "eval_recall_macro": 0.7175728403685042,
+      "eval_runtime": 79.8787,
+      "eval_samples_per_second": 52.041,
+      "eval_steps_per_second": 3.255,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "grad_norm": 6.284836769104004,
+      "learning_rate": 1.393152015541525e-05,
+      "loss": 0.4443,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "eval_accuracy": 0.752225162376714,
+      "eval_f1_macro": 0.7005112117395045,
+      "eval_loss": 0.8306922316551208,
+      "eval_precision_macro": 0.7030961323363835,
+      "eval_recall_macro": 0.7405526082434787,
+      "eval_runtime": 79.5711,
+      "eval_samples_per_second": 52.243,
+      "eval_steps_per_second": 3.268,
+      "step": 2500
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "grad_norm": 14.860431671142578,
+      "learning_rate": 1.2717338513841673e-05,
+      "loss": 0.3917,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "eval_accuracy": 0.776040413759923,
+      "eval_f1_macro": 0.7195032487137867,
+      "eval_loss": 0.7922475934028625,
+      "eval_precision_macro": 0.718432845056206,
+      "eval_recall_macro": 0.7476174763134192,
+      "eval_runtime": 79.7377,
+      "eval_samples_per_second": 52.133,
+      "eval_steps_per_second": 3.261,
+      "step": 3000
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "grad_norm": 15.658327102661133,
+      "learning_rate": 1.1503156872268093e-05,
+      "loss": 0.3384,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "eval_accuracy": 0.7914361318258359,
+      "eval_f1_macro": 0.7267579331806328,
+      "eval_loss": 0.7427302598953247,
+      "eval_precision_macro": 0.7315940928020874,
+      "eval_recall_macro": 0.7473775054197197,
+      "eval_runtime": 79.5326,
+      "eval_samples_per_second": 52.268,
+      "eval_steps_per_second": 3.269,
+      "step": 3500
+    },
+    {
+      "epoch": 1.942690626517727,
+      "grad_norm": 3.790079355239868,
+      "learning_rate": 1.0288975230694513e-05,
+      "loss": 0.3212,
+      "step": 4000
+    },
+    {
+      "epoch": 1.942690626517727,
+      "eval_accuracy": 0.7666586480635074,
+      "eval_f1_macro": 0.7040518310115823,
+      "eval_loss": 0.8302342891693115,
+      "eval_precision_macro": 0.7097429428181893,
+      "eval_recall_macro": 0.7427055724786205,
+      "eval_runtime": 79.7283,
+      "eval_samples_per_second": 52.14,
+      "eval_steps_per_second": 3.261,
+      "step": 4000
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "grad_norm": 20.00322151184082,
+      "learning_rate": 9.074793589120935e-06,
+      "loss": 0.2072,
+      "step": 4500
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "eval_accuracy": 0.7926389222997354,
+      "eval_f1_macro": 0.7306884775555181,
+      "eval_loss": 0.7662757039070129,
+      "eval_precision_macro": 0.7372020807956,
+      "eval_recall_macro": 0.7527073689440521,
+      "eval_runtime": 79.8142,
+      "eval_samples_per_second": 52.083,
+      "eval_steps_per_second": 3.258,
+      "step": 4500
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "grad_norm": 9.991105079650879,
+      "learning_rate": 7.860611947547354e-06,
+      "loss": 0.1837,
+      "step": 5000
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "eval_accuracy": 0.7887899927832571,
+      "eval_f1_macro": 0.7303342643678596,
+      "eval_loss": 0.8012056946754456,
+      "eval_precision_macro": 0.7383307287980656,
+      "eval_recall_macro": 0.749799051904019,
+      "eval_runtime": 79.4999,
+      "eval_samples_per_second": 52.289,
+      "eval_steps_per_second": 3.27,
+      "step": 5000
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "grad_norm": 2.5781819820404053,
+      "learning_rate": 6.646430305973774e-06,
+      "loss": 0.1853,
+      "step": 5500
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "eval_accuracy": 0.8169352898725042,
+      "eval_f1_macro": 0.7425975963793477,
+      "eval_loss": 0.7290380597114563,
+      "eval_precision_macro": 0.7490380424010595,
+      "eval_recall_macro": 0.7728571995465946,
+      "eval_runtime": 79.7501,
+      "eval_samples_per_second": 52.125,
+      "eval_steps_per_second": 3.26,
+      "step": 5500
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "grad_norm": 13.812039375305176,
+      "learning_rate": 5.432248664400195e-06,
+      "loss": 0.1702,
+      "step": 6000
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "eval_accuracy": 0.8025018041857108,
+      "eval_f1_macro": 0.7478693465335228,
+      "eval_loss": 0.7762283682823181,
+      "eval_precision_macro": 0.7494886922567287,
+      "eval_recall_macro": 0.7661448691705909,
+      "eval_runtime": 79.5684,
+      "eval_samples_per_second": 52.244,
+      "eval_steps_per_second": 3.268,
+      "step": 6000
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "grad_norm": 19.965606689453125,
+      "learning_rate": 4.2180670228266156e-06,
+      "loss": 0.115,
+      "step": 6500
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "eval_accuracy": 0.8085157565552081,
+      "eval_f1_macro": 0.7550956906548623,
+      "eval_loss": 0.8461021184921265,
+      "eval_precision_macro": 0.7547053436507176,
+      "eval_recall_macro": 0.7770605308609413,
+      "eval_runtime": 79.7407,
+      "eval_samples_per_second": 52.131,
+      "eval_steps_per_second": 3.261,
+      "step": 6500
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "grad_norm": 5.473484039306641,
+      "learning_rate": 3.0038853812530354e-06,
+      "loss": 0.0881,
+      "step": 7000
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "eval_accuracy": 0.8051479432282896,
+      "eval_f1_macro": 0.7518260599241406,
+      "eval_loss": 0.8820834755897522,
+      "eval_precision_macro": 0.7561690673733429,
+      "eval_recall_macro": 0.7634548535133201,
+      "eval_runtime": 79.7355,
+      "eval_samples_per_second": 52.135,
+      "eval_steps_per_second": 3.261,
+      "step": 7000
+    },
+    {
+      "epoch": 3.642544924720738,
+      "grad_norm": 0.03955981135368347,
+      "learning_rate": 1.789703739679456e-06,
+      "loss": 0.0854,
+      "step": 7500
+    },
+    {
+      "epoch": 3.642544924720738,
+      "eval_accuracy": 0.8171758479672842,
+      "eval_f1_macro": 0.7552966570626944,
+      "eval_loss": 0.8381013870239258,
+      "eval_precision_macro": 0.7568149477995186,
+      "eval_recall_macro": 0.7706908260368737,
+      "eval_runtime": 79.5261,
+      "eval_samples_per_second": 52.272,
+      "eval_steps_per_second": 3.269,
+      "step": 7500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8236,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5788172219388416e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-7500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ea67396e2e70da3680b12a1b662e3dd1c5a582e94f8467a623f4cdb0c3d71ae
+size 5304

checkpoint-7500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-8236/config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 501153
+}

checkpoint-8236/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:885f9337978168bcfd02eb28417d352fd8ba3fb132845d80382af195cbca40fe
+size 1883795932

checkpoint-8236/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:070586218f43065b0e2c63593f357186981547f10822db28eb7d14d814f4cf4f
+size 3767712058

checkpoint-8236/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4c544b64bb1824b4cfc374f9f2408569ca375ee08972d4aaab9ddc84abb6d10
+size 14244

checkpoint-8236/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c49c4c3f9280587c8ffc7eba095e0030369b0c09f7ff72035d62a66e48c3f2d2
+size 1064

checkpoint-8236/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-8236/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94d868657dd92b0a5a4d1c3a8580e44099f595c8ef7c95d0d48d4de01e5c1834
+size 13632184

checkpoint-8236/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "full_tokenizer_file": null,
+  "mask_token": "[MASK]",
+  "max_length": 256,
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

checkpoint-8236/trainer_state.json ADDED Viewed

	@@ -0,0 +1,338 @@

+{
+  "best_global_step": 7500,
+  "best_metric": 0.7552966570626944,
+  "best_model_checkpoint": "./labse-Matryoshka-AuthId/checkpoint-7500",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 8236,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.24283632831471588,
+      "grad_norm": 8.226706504821777,
+      "learning_rate": 1.8788246721709567e-05,
+      "loss": 1.8844,
+      "step": 500
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "eval_accuracy": 0.580466682703873,
+      "eval_f1_macro": 0.4960676688683372,
+      "eval_loss": 1.5094239711761475,
+      "eval_precision_macro": 0.5214977084503927,
+      "eval_recall_macro": 0.5479464513669718,
+      "eval_runtime": 79.4803,
+      "eval_samples_per_second": 52.302,
+      "eval_steps_per_second": 3.271,
+      "step": 500
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "grad_norm": 23.343076705932617,
+      "learning_rate": 1.757406508013599e-05,
+      "loss": 1.0439,
+      "step": 1000
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "eval_accuracy": 0.6338705797450084,
+      "eval_f1_macro": 0.5443060410532249,
+      "eval_loss": 1.180512547492981,
+      "eval_precision_macro": 0.5964210887979737,
+      "eval_recall_macro": 0.5815396599629518,
+      "eval_runtime": 79.5018,
+      "eval_samples_per_second": 52.288,
+      "eval_steps_per_second": 3.27,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "grad_norm": 22.333507537841797,
+      "learning_rate": 1.635988343856241e-05,
+      "loss": 0.7775,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "eval_accuracy": 0.7168631224440702,
+      "eval_f1_macro": 0.6352859818957786,
+      "eval_loss": 1.000940203666687,
+      "eval_precision_macro": 0.6284925893229054,
+      "eval_recall_macro": 0.6892646842795946,
+      "eval_runtime": 79.7404,
+      "eval_samples_per_second": 52.132,
+      "eval_steps_per_second": 3.261,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "grad_norm": 17.205595016479492,
+      "learning_rate": 1.514570179698883e-05,
+      "loss": 0.6235,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "eval_accuracy": 0.7002646139042579,
+      "eval_f1_macro": 0.6444992633781246,
+      "eval_loss": 1.0062403678894043,
+      "eval_precision_macro": 0.6416324743101667,
+      "eval_recall_macro": 0.7175728403685042,
+      "eval_runtime": 79.8787,
+      "eval_samples_per_second": 52.041,
+      "eval_steps_per_second": 3.255,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "grad_norm": 6.284836769104004,
+      "learning_rate": 1.393152015541525e-05,
+      "loss": 0.4443,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "eval_accuracy": 0.752225162376714,
+      "eval_f1_macro": 0.7005112117395045,
+      "eval_loss": 0.8306922316551208,
+      "eval_precision_macro": 0.7030961323363835,
+      "eval_recall_macro": 0.7405526082434787,
+      "eval_runtime": 79.5711,
+      "eval_samples_per_second": 52.243,
+      "eval_steps_per_second": 3.268,
+      "step": 2500
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "grad_norm": 14.860431671142578,
+      "learning_rate": 1.2717338513841673e-05,
+      "loss": 0.3917,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "eval_accuracy": 0.776040413759923,
+      "eval_f1_macro": 0.7195032487137867,
+      "eval_loss": 0.7922475934028625,
+      "eval_precision_macro": 0.718432845056206,
+      "eval_recall_macro": 0.7476174763134192,
+      "eval_runtime": 79.7377,
+      "eval_samples_per_second": 52.133,
+      "eval_steps_per_second": 3.261,
+      "step": 3000
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "grad_norm": 15.658327102661133,
+      "learning_rate": 1.1503156872268093e-05,
+      "loss": 0.3384,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "eval_accuracy": 0.7914361318258359,
+      "eval_f1_macro": 0.7267579331806328,
+      "eval_loss": 0.7427302598953247,
+      "eval_precision_macro": 0.7315940928020874,
+      "eval_recall_macro": 0.7473775054197197,
+      "eval_runtime": 79.5326,
+      "eval_samples_per_second": 52.268,
+      "eval_steps_per_second": 3.269,
+      "step": 3500
+    },
+    {
+      "epoch": 1.942690626517727,
+      "grad_norm": 3.790079355239868,
+      "learning_rate": 1.0288975230694513e-05,
+      "loss": 0.3212,
+      "step": 4000
+    },
+    {
+      "epoch": 1.942690626517727,
+      "eval_accuracy": 0.7666586480635074,
+      "eval_f1_macro": 0.7040518310115823,
+      "eval_loss": 0.8302342891693115,
+      "eval_precision_macro": 0.7097429428181893,
+      "eval_recall_macro": 0.7427055724786205,
+      "eval_runtime": 79.7283,
+      "eval_samples_per_second": 52.14,
+      "eval_steps_per_second": 3.261,
+      "step": 4000
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "grad_norm": 20.00322151184082,
+      "learning_rate": 9.074793589120935e-06,
+      "loss": 0.2072,
+      "step": 4500
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "eval_accuracy": 0.7926389222997354,
+      "eval_f1_macro": 0.7306884775555181,
+      "eval_loss": 0.7662757039070129,
+      "eval_precision_macro": 0.7372020807956,
+      "eval_recall_macro": 0.7527073689440521,
+      "eval_runtime": 79.8142,
+      "eval_samples_per_second": 52.083,
+      "eval_steps_per_second": 3.258,
+      "step": 4500
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "grad_norm": 9.991105079650879,
+      "learning_rate": 7.860611947547354e-06,
+      "loss": 0.1837,
+      "step": 5000
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "eval_accuracy": 0.7887899927832571,
+      "eval_f1_macro": 0.7303342643678596,
+      "eval_loss": 0.8012056946754456,
+      "eval_precision_macro": 0.7383307287980656,
+      "eval_recall_macro": 0.749799051904019,
+      "eval_runtime": 79.4999,
+      "eval_samples_per_second": 52.289,
+      "eval_steps_per_second": 3.27,
+      "step": 5000
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "grad_norm": 2.5781819820404053,
+      "learning_rate": 6.646430305973774e-06,
+      "loss": 0.1853,
+      "step": 5500
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "eval_accuracy": 0.8169352898725042,
+      "eval_f1_macro": 0.7425975963793477,
+      "eval_loss": 0.7290380597114563,
+      "eval_precision_macro": 0.7490380424010595,
+      "eval_recall_macro": 0.7728571995465946,
+      "eval_runtime": 79.7501,
+      "eval_samples_per_second": 52.125,
+      "eval_steps_per_second": 3.26,
+      "step": 5500
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "grad_norm": 13.812039375305176,
+      "learning_rate": 5.432248664400195e-06,
+      "loss": 0.1702,
+      "step": 6000
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "eval_accuracy": 0.8025018041857108,
+      "eval_f1_macro": 0.7478693465335228,
+      "eval_loss": 0.7762283682823181,
+      "eval_precision_macro": 0.7494886922567287,
+      "eval_recall_macro": 0.7661448691705909,
+      "eval_runtime": 79.5684,
+      "eval_samples_per_second": 52.244,
+      "eval_steps_per_second": 3.268,
+      "step": 6000
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "grad_norm": 19.965606689453125,
+      "learning_rate": 4.2180670228266156e-06,
+      "loss": 0.115,
+      "step": 6500
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "eval_accuracy": 0.8085157565552081,
+      "eval_f1_macro": 0.7550956906548623,
+      "eval_loss": 0.8461021184921265,
+      "eval_precision_macro": 0.7547053436507176,
+      "eval_recall_macro": 0.7770605308609413,
+      "eval_runtime": 79.7407,
+      "eval_samples_per_second": 52.131,
+      "eval_steps_per_second": 3.261,
+      "step": 6500
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "grad_norm": 5.473484039306641,
+      "learning_rate": 3.0038853812530354e-06,
+      "loss": 0.0881,
+      "step": 7000
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "eval_accuracy": 0.8051479432282896,
+      "eval_f1_macro": 0.7518260599241406,
+      "eval_loss": 0.8820834755897522,
+      "eval_precision_macro": 0.7561690673733429,
+      "eval_recall_macro": 0.7634548535133201,
+      "eval_runtime": 79.7355,
+      "eval_samples_per_second": 52.135,
+      "eval_steps_per_second": 3.261,
+      "step": 7000
+    },
+    {
+      "epoch": 3.642544924720738,
+      "grad_norm": 0.03955981135368347,
+      "learning_rate": 1.789703739679456e-06,
+      "loss": 0.0854,
+      "step": 7500
+    },
+    {
+      "epoch": 3.642544924720738,
+      "eval_accuracy": 0.8171758479672842,
+      "eval_f1_macro": 0.7552966570626944,
+      "eval_loss": 0.8381013870239258,
+      "eval_precision_macro": 0.7568149477995186,
+      "eval_recall_macro": 0.7706908260368737,
+      "eval_runtime": 79.5261,
+      "eval_samples_per_second": 52.272,
+      "eval_steps_per_second": 3.269,
+      "step": 7500
+    },
+    {
+      "epoch": 3.885381253035454,
+      "grad_norm": 6.264761447906494,
+      "learning_rate": 5.755220981058767e-07,
+      "loss": 0.0848,
+      "step": 8000
+    },
+    {
+      "epoch": 3.885381253035454,
+      "eval_accuracy": 0.8077940822708685,
+      "eval_f1_macro": 0.7527204408320765,
+      "eval_loss": 0.8696035742759705,
+      "eval_precision_macro": 0.7535730472048996,
+      "eval_recall_macro": 0.7700727790457579,
+      "eval_runtime": 79.6143,
+      "eval_samples_per_second": 52.214,
+      "eval_steps_per_second": 3.266,
+      "step": 8000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8236,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.7337239662270464e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-8236/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ea67396e2e70da3680b12a1b662e3dd1c5a582e94f8467a623f4cdb0c3d71ae
+size 5304

checkpoint-8236/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 501153
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d8d79d702599c2192e5b15515269df298de7479ff0c439862f99a481f490883
+size 1883795932

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94d868657dd92b0a5a4d1c3a8580e44099f595c8ef7c95d0d48d4de01e5c1834
+size 13632184

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "full_tokenizer_file": null,
+  "mask_token": "[MASK]",
+  "max_length": 256,
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ea67396e2e70da3680b12a1b662e3dd1c5a582e94f8467a623f4cdb0c3d71ae
+size 5304

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff