Upload 12 files

Browse files

Files changed (12) hide show

deberta-qnli/deberta-qnli/checkpoint-4911/config.json +32 -0
deberta-qnli/deberta-qnli/checkpoint-4911/merges.txt +0 -0
deberta-qnli/deberta-qnli/checkpoint-4911/model.safetensors +3 -0
deberta-qnli/deberta-qnli/checkpoint-4911/optimizer.pt +3 -0
deberta-qnli/deberta-qnli/checkpoint-4911/rng_state.pth +3 -0
deberta-qnli/deberta-qnli/checkpoint-4911/scheduler.pt +3 -0
deberta-qnli/deberta-qnli/checkpoint-4911/special_tokens_map.json +51 -0
deberta-qnli/deberta-qnli/checkpoint-4911/tokenizer.json +0 -0
deberta-qnli/deberta-qnli/checkpoint-4911/tokenizer_config.json +59 -0
deberta-qnli/deberta-qnli/checkpoint-4911/trainer_state.json +123 -0
deberta-qnli/deberta-qnli/checkpoint-4911/training_args.bin +3 -0
deberta-qnli/deberta-qnli/checkpoint-4911/vocab.json +0 -0

deberta-qnli/deberta-qnli/checkpoint-4911/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "/ibex/user/anb/Model_merging/EMR_Merging-main/merge_lm/ckpts/deberta/deberta-base",
+  "architectures": [
+    "DebertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "c2p",
+    "p2c"
+  ],
+  "position_biased_input": false,
+  "relative_attention": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.1",
+  "type_vocab_size": 0,
+  "vocab_size": 50265
+}

deberta-qnli/deberta-qnli/checkpoint-4911/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-qnli/deberta-qnli/checkpoint-4911/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02d1c517d966d9cc81a55845970daacf77472c50da8dff5269c7e664b5145469
+size 556799560

deberta-qnli/deberta-qnli/checkpoint-4911/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf5c9592761b181c88251ac01de03448a8fdbe0a5af8b7b3e80fbd0d2752286c
+size 1113718138

deberta-qnli/deberta-qnli/checkpoint-4911/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ee3a43cd9f7e8f467e02b8d8ff601250dcb13493ccb4d90952d806fa88e4bbf
+size 14244

deberta-qnli/deberta-qnli/checkpoint-4911/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4896bf2aaf76eeacf30133f9563b7b3159a860ac5c12bea8bcff81bdf6623af0
+size 1064

deberta-qnli/deberta-qnli/checkpoint-4911/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

deberta-qnli/deberta-qnli/checkpoint-4911/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

deberta-qnli/deberta-qnli/checkpoint-4911/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "[MASK]",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "errors": "replace",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "DebertaTokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "gpt2"
+}

deberta-qnli/deberta-qnli/checkpoint-4911/trainer_state.json ADDED Viewed

	@@ -0,0 +1,123 @@

+{
+  "best_metric": 0.9330038440417353,
+  "best_model_checkpoint": "./deberta/deberta-qnli/checkpoint-4911",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 4911,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.30543677458766033,
+      "grad_norm": 5.354988098144531,
+      "learning_rate": 1.9010513296227584e-05,
+      "loss": 0.4179,
+      "step": 500
+    },
+    {
+      "epoch": 0.6108735491753207,
+      "grad_norm": 7.173541069030762,
+      "learning_rate": 1.777365491651206e-05,
+      "loss": 0.2748,
+      "step": 1000
+    },
+    {
+      "epoch": 0.916310323762981,
+      "grad_norm": 3.50677227973938,
+      "learning_rate": 1.653679653679654e-05,
+      "loss": 0.2491,
+      "step": 1500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9253157605711148,
+      "eval_loss": 0.19617952406406403,
+      "eval_runtime": 6.7054,
+      "eval_samples_per_second": 814.721,
+      "eval_steps_per_second": 12.826,
+      "step": 1637
+    },
+    {
+      "epoch": 1.2217470983506413,
+      "grad_norm": 3.626004695892334,
+      "learning_rate": 1.5299938157081016e-05,
+      "loss": 0.1925,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5271838729383018,
+      "grad_norm": 9.916162490844727,
+      "learning_rate": 1.4063079777365494e-05,
+      "loss": 0.1691,
+      "step": 2500
+    },
+    {
+      "epoch": 1.832620647525962,
+      "grad_norm": 5.97003173828125,
+      "learning_rate": 1.282622139764997e-05,
+      "loss": 0.1734,
+      "step": 3000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9298920007321985,
+      "eval_loss": 0.19554761052131653,
+      "eval_runtime": 6.8772,
+      "eval_samples_per_second": 794.369,
+      "eval_steps_per_second": 12.505,
+      "step": 3274
+    },
+    {
+      "epoch": 2.1380574221136226,
+      "grad_norm": 9.623324394226074,
+      "learning_rate": 1.1589363017934447e-05,
+      "loss": 0.1429,
+      "step": 3500
+    },
+    {
+      "epoch": 2.4434941967012827,
+      "grad_norm": 3.011240005493164,
+      "learning_rate": 1.0352504638218925e-05,
+      "loss": 0.1062,
+      "step": 4000
+    },
+    {
+      "epoch": 2.748930971288943,
+      "grad_norm": 7.096580505371094,
+      "learning_rate": 9.115646258503402e-06,
+      "loss": 0.11,
+      "step": 4500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9330038440417353,
+      "eval_loss": 0.1976637840270996,
+      "eval_runtime": 6.8831,
+      "eval_samples_per_second": 793.688,
+      "eval_steps_per_second": 12.494,
+      "step": 4911
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8185,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.197901179497576e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

deberta-qnli/deberta-qnli/checkpoint-4911/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e431aee41afeb9dcbadda2b0c76e759af0d8a93c66f1cbe5e875005ab0f0a4e4
+size 5176

deberta-qnli/deberta-qnli/checkpoint-4911/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff