bobox commited on Jul 23, 2024

Commit

e5ea348

verified ·

1 Parent(s): 4b6a227

Training in progress, step 1540, checkpoint

Browse files

Files changed (17) hide show

checkpoint-1540/1_Pooling/config.json +10 -0
checkpoint-1540/README.md +0 -0
checkpoint-1540/added_tokens.json +3 -0
checkpoint-1540/config.json +35 -0
checkpoint-1540/config_sentence_transformers.json +10 -0
checkpoint-1540/modules.json +14 -0
checkpoint-1540/optimizer.pt +3 -0
checkpoint-1540/pytorch_model.bin +3 -0
checkpoint-1540/rng_state.pth +3 -0
checkpoint-1540/scheduler.pt +3 -0
checkpoint-1540/sentence_bert_config.json +4 -0
checkpoint-1540/special_tokens_map.json +15 -0
checkpoint-1540/spm.model +3 -0
checkpoint-1540/tokenizer.json +0 -0
checkpoint-1540/tokenizer_config.json +58 -0
checkpoint-1540/trainer_state.json +333 -0
checkpoint-1540/training_args.bin +3 -0

checkpoint-1540/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

checkpoint-1540/README.md ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1540/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-1540/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2Model"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.4",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-1540/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.0.1",
+    "transformers": "4.42.4",
+    "pytorch": "2.3.1+cu121"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": null
+}

checkpoint-1540/modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

checkpoint-1540/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64442df3d29d7f919cee599932884e9fc8eb220843409b94ad999c725502e89d
+size 1130520122

checkpoint-1540/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da783cc8782ecbe6690c2fba419574d6df51cb50b1e509c8d197be8238332fa7
+size 565251810

checkpoint-1540/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab90a68b39be619760ba6dbf6b191504b704ef8e4eb8a46b1e3e6998565c9b36
+size 14244

checkpoint-1540/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:521c244446e03ff9932f095ae3b572508f0e5b7772deddc404628fa014160cc4
+size 1064

checkpoint-1540/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

checkpoint-1540/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1540/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-1540/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1540/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-1540/trainer_state.json ADDED Viewed

	@@ -0,0 +1,333 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.2000779524490061,
+  "eval_steps": 1540,
+  "global_step": 1540,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020007795244900612,
+      "grad_norm": 20.274534225463867,
+      "learning_rate": 1.121454860359385e-06,
+      "loss": 10.0783,
+      "step": 154
+    },
+    {
+      "epoch": 0.040015590489801224,
+      "grad_norm": 37.92953109741211,
+      "learning_rate": 2.288374106949556e-06,
+      "loss": 7.9365,
+      "step": 308
+    },
+    {
+      "epoch": 0.06002338573470183,
+      "grad_norm": 10.249253273010254,
+      "learning_rate": 3.4552933535397265e-06,
+      "loss": 7.0986,
+      "step": 462
+    },
+    {
+      "epoch": 0.08003118097960245,
+      "grad_norm": 37.03239822387695,
+      "learning_rate": 4.622212600129898e-06,
+      "loss": 6.0384,
+      "step": 616
+    },
+    {
+      "epoch": 0.10003897622450306,
+      "grad_norm": 28.280763626098633,
+      "learning_rate": 5.7891318467200685e-06,
+      "loss": 5.2434,
+      "step": 770
+    },
+    {
+      "epoch": 0.12004677146940367,
+      "grad_norm": 26.781627655029297,
+      "learning_rate": 6.95605109331024e-06,
+      "loss": 4.4737,
+      "step": 924
+    },
+    {
+      "epoch": 0.14005456671430427,
+      "grad_norm": 40.773719787597656,
+      "learning_rate": 8.122970339900411e-06,
+      "loss": 3.953,
+      "step": 1078
+    },
+    {
+      "epoch": 0.1600623619592049,
+      "grad_norm": 4.9041428565979,
+      "learning_rate": 9.28988958649058e-06,
+      "loss": 3.7847,
+      "step": 1232
+    },
+    {
+      "epoch": 0.1800701572041055,
+      "grad_norm": 40.02103805541992,
+      "learning_rate": 1.0456808833080752e-05,
+      "loss": 3.3807,
+      "step": 1386
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "grad_norm": 17.65666961669922,
+      "learning_rate": 1.1623728079670923e-05,
+      "loss": 3.3067,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_Vitaminc_cosine_accuracy": 0.55859375,
+      "eval_Vitaminc_cosine_accuracy_threshold": 0.7416476011276245,
+      "eval_Vitaminc_cosine_ap": 0.5386900578010883,
+      "eval_Vitaminc_cosine_f1": 0.6542553191489362,
+      "eval_Vitaminc_cosine_f1_threshold": 0.39137744903564453,
+      "eval_Vitaminc_cosine_precision": 0.48616600790513836,
+      "eval_Vitaminc_cosine_recall": 1.0,
+      "eval_Vitaminc_dot_accuracy": 0.55859375,
+      "eval_Vitaminc_dot_accuracy_threshold": 168.04440307617188,
+      "eval_Vitaminc_dot_ap": 0.5406067293020295,
+      "eval_Vitaminc_dot_f1": 0.6542553191489362,
+      "eval_Vitaminc_dot_f1_threshold": 82.83587646484375,
+      "eval_Vitaminc_dot_precision": 0.48616600790513836,
+      "eval_Vitaminc_dot_recall": 1.0,
+      "eval_Vitaminc_euclidean_accuracy": 0.57421875,
+      "eval_Vitaminc_euclidean_accuracy_threshold": 10.546405792236328,
+      "eval_Vitaminc_euclidean_ap": 0.5319997521875279,
+      "eval_Vitaminc_euclidean_f1": 0.6556473829201103,
+      "eval_Vitaminc_euclidean_f1_threshold": 14.913542747497559,
+      "eval_Vitaminc_euclidean_precision": 0.49583333333333335,
+      "eval_Vitaminc_euclidean_recall": 0.967479674796748,
+      "eval_Vitaminc_manhattan_accuracy": 0.5625,
+      "eval_Vitaminc_manhattan_accuracy_threshold": 209.30810546875,
+      "eval_Vitaminc_manhattan_ap": 0.5310137997739139,
+      "eval_Vitaminc_manhattan_f1": 0.6594005449591281,
+      "eval_Vitaminc_manhattan_f1_threshold": 300.77703857421875,
+      "eval_Vitaminc_manhattan_precision": 0.4959016393442623,
+      "eval_Vitaminc_manhattan_recall": 0.983739837398374,
+      "eval_Vitaminc_max_accuracy": 0.57421875,
+      "eval_Vitaminc_max_accuracy_threshold": 209.30810546875,
+      "eval_Vitaminc_max_ap": 0.5406067293020295,
+      "eval_Vitaminc_max_f1": 0.6594005449591281,
+      "eval_Vitaminc_max_f1_threshold": 300.77703857421875,
+      "eval_Vitaminc_max_precision": 0.4959016393442623,
+      "eval_Vitaminc_max_recall": 1.0,
+      "eval_mrpc_cosine_accuracy": 0.70703125,
+      "eval_mrpc_cosine_accuracy_threshold": 0.7692825198173523,
+      "eval_mrpc_cosine_ap": 0.7930850238332522,
+      "eval_mrpc_cosine_f1": 0.8009708737864077,
+      "eval_mrpc_cosine_f1_threshold": 0.6043864488601685,
+      "eval_mrpc_cosine_precision": 0.6762295081967213,
+      "eval_mrpc_cosine_recall": 0.9821428571428571,
+      "eval_mrpc_dot_accuracy": 0.68359375,
+      "eval_mrpc_dot_accuracy_threshold": 111.09579467773438,
+      "eval_mrpc_dot_ap": 0.685668349677386,
+      "eval_mrpc_dot_f1": 0.8028846153846153,
+      "eval_mrpc_dot_f1_threshold": 100.36712646484375,
+      "eval_mrpc_dot_precision": 0.6733870967741935,
+      "eval_mrpc_dot_recall": 0.9940476190476191,
+      "eval_mrpc_euclidean_accuracy": 0.6953125,
+      "eval_mrpc_euclidean_accuracy_threshold": 8.249982833862305,
+      "eval_mrpc_euclidean_ap": 0.8099812581176395,
+      "eval_mrpc_euclidean_f1": 0.7999999999999999,
+      "eval_mrpc_euclidean_f1_threshold": 10.622720718383789,
+      "eval_mrpc_euclidean_precision": 0.6960352422907489,
+      "eval_mrpc_euclidean_recall": 0.9404761904761905,
+      "eval_mrpc_manhattan_accuracy": 0.6953125,
+      "eval_mrpc_manhattan_accuracy_threshold": 166.01010131835938,
+      "eval_mrpc_manhattan_ap": 0.8185487109494757,
+      "eval_mrpc_manhattan_f1": 0.7970660146699267,
+      "eval_mrpc_manhattan_f1_threshold": 243.34291076660156,
+      "eval_mrpc_manhattan_precision": 0.6763485477178424,
+      "eval_mrpc_manhattan_recall": 0.9702380952380952,
+      "eval_mrpc_max_accuracy": 0.70703125,
+      "eval_mrpc_max_accuracy_threshold": 166.01010131835938,
+      "eval_mrpc_max_ap": 0.8185487109494757,
+      "eval_mrpc_max_f1": 0.8028846153846153,
+      "eval_mrpc_max_f1_threshold": 243.34291076660156,
+      "eval_mrpc_max_precision": 0.6960352422907489,
+      "eval_mrpc_max_recall": 0.9940476190476191,
+      "eval_negation_cosine_accuracy": 1.0,
+      "eval_negation_dot_accuracy": 0.0,
+      "eval_negation_euclidean_accuracy": 1.0,
+      "eval_negation_manhattan_accuracy": 1.0,
+      "eval_negation_max_accuracy": 1.0,
+      "eval_nli-pairs_loss": 2.87699031829834,
+      "eval_nli-pairs_runtime": 3.3618,
+      "eval_nli-pairs_samples_per_second": 190.374,
+      "eval_nli-pairs_steps_per_second": 4.759,
+      "eval_sequential_score": 0.5406067293020295,
+      "eval_sts-test_pearson_cosine": 0.731642468323062,
+      "eval_sts-test_pearson_dot": 0.7060174899825389,
+      "eval_sts-test_pearson_euclidean": 0.7213340791831213,
+      "eval_sts-test_pearson_manhattan": 0.7306876393922224,
+      "eval_sts-test_pearson_max": 0.731642468323062,
+      "eval_sts-test_spearman_cosine": 0.7388342851809555,
+      "eval_sts-test_spearman_dot": 0.7163801725525887,
+      "eval_sts-test_spearman_euclidean": 0.7248067929450137,
+      "eval_sts-test_spearman_manhattan": 0.7326322535482364,
+      "eval_sts-test_spearman_max": 0.7388342851809555,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_vitaminc-pairs_loss": 5.996066570281982,
+      "eval_vitaminc-pairs_runtime": 0.7123,
+      "eval_vitaminc-pairs_samples_per_second": 151.627,
+      "eval_vitaminc-pairs_steps_per_second": 4.212,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_negation-triplets_loss": 4.761821746826172,
+      "eval_negation-triplets_runtime": 0.1742,
+      "eval_negation-triplets_samples_per_second": 510.962,
+      "eval_negation-triplets_steps_per_second": 17.223,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_qnli-contrastive_loss": 3.127272605895996,
+      "eval_qnli-contrastive_runtime": 0.2192,
+      "eval_qnli-contrastive_samples_per_second": 583.919,
+      "eval_qnli-contrastive_steps_per_second": 18.247,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_scitail-pairs-qa_loss": 0.2922694981098175,
+      "eval_scitail-pairs-qa_runtime": 0.5702,
+      "eval_scitail-pairs-qa_samples_per_second": 224.477,
+      "eval_scitail-pairs-qa_steps_per_second": 7.015,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_scitail-pairs-pos_loss": 1.1873807907104492,
+      "eval_scitail-pairs-pos_runtime": 1.0164,
+      "eval_scitail-pairs-pos_samples_per_second": 125.931,
+      "eval_scitail-pairs-pos_steps_per_second": 3.935,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_xsum-pairs_loss": 1.7732343673706055,
+      "eval_xsum-pairs_runtime": 0.9302,
+      "eval_xsum-pairs_samples_per_second": 137.603,
+      "eval_xsum-pairs_steps_per_second": 4.3,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_compression-pairs_loss": 0.9279663562774658,
+      "eval_compression-pairs_runtime": 0.1883,
+      "eval_compression-pairs_samples_per_second": 679.719,
+      "eval_compression-pairs_steps_per_second": 21.241,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_sciq_pairs_loss": 0.772415816783905,
+      "eval_sciq_pairs_runtime": 4.2316,
+      "eval_sciq_pairs_samples_per_second": 30.249,
+      "eval_sciq_pairs_steps_per_second": 0.945,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_qasc_pairs_loss": 2.3403422832489014,
+      "eval_qasc_pairs_runtime": 0.7364,
+      "eval_qasc_pairs_samples_per_second": 173.826,
+      "eval_qasc_pairs_steps_per_second": 5.432,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_qasc_facts_sym_loss": 1.3449885845184326,
+      "eval_qasc_facts_sym_runtime": 0.1874,
+      "eval_qasc_facts_sym_samples_per_second": 683.091,
+      "eval_qasc_facts_sym_steps_per_second": 21.347,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_openbookqa_pairs_loss": 3.779522657394409,
+      "eval_openbookqa_pairs_runtime": 0.6356,
+      "eval_openbookqa_pairs_samples_per_second": 201.399,
+      "eval_openbookqa_pairs_steps_per_second": 6.294,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_msmarco_pairs_loss": 3.28946852684021,
+      "eval_msmarco_pairs_runtime": 1.6437,
+      "eval_msmarco_pairs_samples_per_second": 77.871,
+      "eval_msmarco_pairs_steps_per_second": 2.433,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_nq_pairs_loss": 3.1534435749053955,
+      "eval_nq_pairs_runtime": 3.0776,
+      "eval_nq_pairs_samples_per_second": 41.591,
+      "eval_nq_pairs_steps_per_second": 1.3,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_trivia_pairs_loss": 3.8939096927642822,
+      "eval_trivia_pairs_runtime": 5.1055,
+      "eval_trivia_pairs_samples_per_second": 25.071,
+      "eval_trivia_pairs_steps_per_second": 0.783,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_quora_pairs_loss": 1.3539156913757324,
+      "eval_quora_pairs_runtime": 17.3308,
+      "eval_quora_pairs_samples_per_second": 92.321,
+      "eval_quora_pairs_steps_per_second": 2.25,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_gooaq_pairs_loss": 3.378002405166626,
+      "eval_gooaq_pairs_runtime": 1.018,
+      "eval_gooaq_pairs_samples_per_second": 125.731,
+      "eval_gooaq_pairs_steps_per_second": 3.929,
+      "step": 1540
+    },
+    {
+      "epoch": 0.2000779524490061,
+      "eval_mrpc_pairs_loss": 0.49983811378479004,
+      "eval_mrpc_pairs_runtime": 0.1796,
+      "eval_mrpc_pairs_samples_per_second": 712.509,
+      "eval_mrpc_pairs_steps_per_second": 22.266,
+      "step": 1540
+    }
+  ],
+  "logging_steps": 154,
+  "max_steps": 30788,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1540,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 42,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1540/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:046f35193fb875fe3ff7d615dff47f0dba2b07fce875797be7a677efbfacd570
+size 5624