Upload 15 files

Browse files

Files changed (15) hide show

README.md +52 -0
added_tokens.json +3 -0
all_results.json +8 -0
config.json +48 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +789 -0
predict_results.txt +997 -0
special_tokens_map.json +15 -0
spm.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
train_results.json +8 -0
trainer_state.json +30 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,52 @@

+---
+license: mit
+base_model: microsoft/deberta-v2-xxlarge
+tags:
+- generated_from_trainer
+model-index:
+- name: results_deberta_few
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# results_deberta_few
+This model is a fine-tuned version of [microsoft/deberta-v2-xxlarge](https://huggingface.co/microsoft/deberta-v2-xxlarge) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 5.0
+### Training results
+### Framework versions
+- Transformers 4.39.0.dev0
+- Pytorch 2.2.1+cu121
+- Datasets 2.18.0
+- Tokenizers 0.15.2

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "train_loss": 0.6695034980773926,
+    "train_runtime": 19.6359,
+    "train_samples": 6,
+    "train_samples_per_second": 1.528,
+    "train_steps_per_second": 0.255
+}

config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_name_or_path": "microsoft/deberta-v2-xxlarge",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_head_size": 64,
+  "attention_probs_dropout_prob": 0.1,
+  "conv_act": "gelu",
+  "conv_kernel_size": 3,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1536,
+  "id2label": {
+    "0": "0",
+    "1": "1"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 6144,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 48,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1536,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "single_label_classification",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b40c0560815ad3edbab16bab899912cb12ea40bfd08216d76ff0b2c3a891de4e
+size 4999085984

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a3a69deecc8cf8753497a104e3d61d276239c8362a26ff475f4cf11fcfb5a5e
+size 1268666408

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,789 @@

+{
+  "metadata": {
+    "total_size": 6267654152
+  },
+  "weight_map": {
+    "classifier.bias": "model-00002-of-00002.safetensors",
+    "classifier.weight": "model-00002-of-00002.safetensors",
+    "deberta.embeddings.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.embeddings.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.embeddings.word_embeddings.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.conv.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.conv.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.rel_embeddings.weight": "model-00002-of-00002.safetensors",
+    "pooler.dense.bias": "model-00002-of-00002.safetensors",
+    "pooler.dense.weight": "model-00002-of-00002.safetensors"
+  }
+}

predict_results.txt ADDED Viewed

	@@ -0,0 +1,997 @@

+index	prediction
+0	0
+1	0
+2	0
+3	1
+4	1
+5	0
+6	0
+7	0
+8	0
+9	0
+10	0
+11	0
+12	1
+13	0
+14	1
+15	0
+16	0
+17	0
+18	0
+19	0
+20	0
+21	0
+22	0
+23	0
+24	1
+25	0
+26	0
+27	0
+28	0
+29	0
+30	0
+31	0
+32	0
+33	0
+34	0
+35	1
+36	0
+37	0
+38	0
+39	0
+40	0
+41	0
+42	0
+43	1
+44	0
+45	0
+46	0
+47	0
+48	1
+49	0
+50	0
+51	1
+52	0
+53	1
+54	0
+55	0
+56	0
+57	0
+58	0
+59	0
+60	0
+61	0
+62	0
+63	0
+64	0
+65	0
+66	0
+67	0
+68	0
+69	0
+70	0
+71	0
+72	0
+73	0
+74	0
+75	0
+76	0
+77	0
+78	1
+79	0
+80	0
+81	0
+82	0
+83	0
+84	0
+85	0
+86	0
+87	0
+88	0
+89	0
+90	0
+91	1
+92	0
+93	0
+94	1
+95	0
+96	0
+97	0
+98	0
+99	0
+100	0
+101	0
+102	0
+103	0
+104	0
+105	0
+106	1
+107	0
+108	1
+109	0
+110	0
+111	0
+112	0
+113	0
+114	0
+115	0
+116	0
+117	0
+118	0
+119	0
+120	1
+121	0
+122	0
+123	0
+124	0
+125	0
+126	0
+127	0
+128	1
+129	0
+130	0
+131	0
+132	0
+133	0
+134	0
+135	0
+136	0
+137	0
+138	0
+139	0
+140	0
+141	0
+142	0
+143	0
+144	0
+145	0
+146	0
+147	0
+148	0
+149	1
+150	0
+151	0
+152	0
+153	0
+154	0
+155	0
+156	0
+157	0
+158	0
+159	0
+160	0
+161	0
+162	0
+163	0
+164	0
+165	0
+166	0
+167	0
+168	1
+169	0
+170	1
+171	0
+172	0
+173	0
+174	0
+175	0
+176	0
+177	0
+178	1
+179	0
+180	0
+181	0
+182	0
+183	0
+184	0
+185	0
+186	0
+187	0
+188	0
+189	0
+190	0
+191	0
+192	0
+193	0
+194	0
+195	0
+196	0
+197	1
+198	0
+199	0
+200	0
+201	0
+202	0
+203	0
+204	0
+205	0
+206	0
+207	0
+208	0
+209	0
+210	0
+211	0
+212	0
+213	0
+214	0
+215	0
+216	0
+217	0
+218	0
+219	0
+220	0
+221	0
+222	0
+223	0
+224	0
+225	0
+226	0
+227	0
+228	1
+229	0
+230	0
+231	0
+232	0
+233	0
+234	0
+235	0
+236	0
+237	0
+238	0
+239	0
+240	1
+241	0
+242	0
+243	0
+244	0
+245	0
+246	0
+247	0
+248	0
+249	0
+250	0
+251	0
+252	1
+253	0
+254	0
+255	0
+256	0
+257	0
+258	0
+259	0
+260	0
+261	0
+262	0
+263	0
+264	0
+265	0
+266	0
+267	1
+268	0
+269	0
+270	0
+271	0
+272	0
+273	0
+274	0
+275	1
+276	0
+277	0
+278	0
+279	0
+280	0
+281	0
+282	0
+283	0
+284	1
+285	0
+286	0
+287	1
+288	1
+289	0
+290	0
+291	0
+292	0
+293	0
+294	0
+295	0
+296	0
+297	0
+298	0
+299	0
+300	0
+301	0
+302	0
+303	0
+304	0
+305	1
+306	0
+307	0
+308	0
+309	0
+310	0
+311	0
+312	0
+313	1
+314	0
+315	0
+316	0
+317	0
+318	0
+319	0
+320	0
+321	0
+322	0
+323	0
+324	0
+325	1
+326	1
+327	0
+328	1
+329	0
+330	0
+331	0
+332	0
+333	1
+334	0
+335	0
+336	1
+337	0
+338	0
+339	0
+340	0
+341	0
+342	0
+343	0
+344	1
+345	0
+346	0
+347	0
+348	1
+349	0
+350	0
+351	0
+352	0
+353	0
+354	0
+355	0
+356	0
+357	0
+358	0
+359	0
+360	0
+361	0
+362	0
+363	0
+364	0
+365	0
+366	0
+367	1
+368	0
+369	0
+370	0
+371	0
+372	0
+373	0
+374	0
+375	0
+376	0
+377	0
+378	0
+379	0
+380	0
+381	0
+382	1
+383	0
+384	0
+385	0
+386	0
+387	0
+388	0
+389	0
+390	0
+391	0
+392	0
+393	0
+394	0
+395	0
+396	0
+397	0
+398	0
+399	0
+400	0
+401	0
+402	0
+403	0
+404	0
+405	0
+406	0
+407	0
+408	0
+409	0
+410	1
+411	1
+412	0
+413	0
+414	0
+415	0
+416	0
+417	0
+418	0
+419	0
+420	0
+421	0
+422	0
+423	0
+424	1
+425	1
+426	1
+427	1
+428	0
+429	0
+430	0
+431	0
+432	0
+433	0
+434	1
+435	0
+436	0
+437	0
+438	0
+439	0
+440	0
+441	0
+442	0
+443	0
+444	0
+445	1
+446	0
+447	0
+448	0
+449	0
+450	0
+451	0
+452	0
+453	0
+454	0
+455	0
+456	0
+457	0
+458	0
+459	1
+460	0
+461	0
+462	0
+463	0
+464	0
+465	0
+466	1
+467	0
+468	1
+469	1
+470	0
+471	0
+472	0
+473	0
+474	0
+475	0
+476	0
+477	0
+478	0
+479	0
+480	0
+481	0
+482	0
+483	1
+484	0
+485	1
+486	0
+487	0
+488	0
+489	1
+490	0
+491	0
+492	0
+493	0
+494	0
+495	0
+496	0
+497	0
+498	0
+499	0
+500	0
+501	0
+502	1
+503	0
+504	1
+505	0
+506	0
+507	0
+508	0
+509	0
+510	1
+511	0
+512	1
+513	0
+514	0
+515	0
+516	0
+517	1
+518	0
+519	0
+520	0
+521	0
+522	0
+523	0
+524	0
+525	0
+526	0
+527	0
+528	0
+529	0
+530	0
+531	0
+532	0
+533	0
+534	0
+535	0
+536	0
+537	0
+538	0
+539	0
+540	0
+541	0
+542	1
+543	0
+544	0
+545	0
+546	1
+547	0
+548	0
+549	0
+550	0
+551	1
+552	0
+553	0
+554	0
+555	0
+556	0
+557	0
+558	1
+559	0
+560	0
+561	0
+562	0
+563	1
+564	0
+565	0
+566	0
+567	0
+568	0
+569	0
+570	0
+571	0
+572	0
+573	0
+574	0
+575	0
+576	0
+577	1
+578	0
+579	0
+580	0
+581	0
+582	0
+583	0
+584	0
+585	0
+586	0
+587	0
+588	0
+589	0
+590	0
+591	1
+592	0
+593	0
+594	1
+595	0
+596	0
+597	0
+598	0
+599	1
+600	0
+601	0
+602	0
+603	1
+604	0
+605	0
+606	1
+607	0
+608	0
+609	0
+610	0
+611	1
+612	0
+613	0
+614	0
+615	1
+616	0
+617	0
+618	0
+619	1
+620	0
+621	0
+622	0
+623	0
+624	0
+625	0
+626	0
+627	0
+628	0
+629	1
+630	0
+631	1
+632	0
+633	0
+634	0
+635	0
+636	0
+637	0
+638	0
+639	0
+640	0
+641	0
+642	0
+643	0
+644	0
+645	0
+646	0
+647	1
+648	0
+649	0
+650	0
+651	0
+652	0
+653	0
+654	0
+655	0
+656	0
+657	0
+658	0
+659	1
+660	1
+661	0
+662	0
+663	0
+664	0
+665	0
+666	0
+667	0
+668	0
+669	0
+670	1
+671	0
+672	1
+673	0
+674	1
+675	0
+676	0
+677	0
+678	0
+679	0
+680	0
+681	0
+682	0
+683	0
+684	0
+685	0
+686	0
+687	0
+688	0
+689	0
+690	0
+691	0
+692	0
+693	0
+694	0
+695	1
+696	0
+697	0
+698	0
+699	0
+700	0
+701	0
+702	0
+703	0
+704	1
+705	0
+706	1
+707	0
+708	0
+709	0
+710	0
+711	0
+712	0
+713	0
+714	0
+715	0
+716	0
+717	0
+718	0
+719	0
+720	0
+721	0
+722	0
+723	0
+724	0
+725	0
+726	0
+727	1
+728	0
+729	0
+730	0
+731	0
+732	0
+733	0
+734	0
+735	0
+736	0
+737	0
+738	0
+739	1
+740	0
+741	1
+742	0
+743	0
+744	0
+745	0
+746	0
+747	0
+748	0
+749	0
+750	0
+751	0
+752	0
+753	1
+754	0
+755	0
+756	0
+757	0
+758	1
+759	0
+760	1
+761	0
+762	0
+763	0
+764	0
+765	1
+766	0
+767	0
+768	1
+769	0
+770	0
+771	1
+772	0
+773	0
+774	0
+775	0
+776	0
+777	0
+778	0
+779	1
+780	0
+781	0
+782	0
+783	0
+784	0
+785	0
+786	0
+787	0
+788	1
+789	0
+790	0
+791	0
+792	0
+793	0
+794	0
+795	0
+796	0
+797	0
+798	0
+799	0
+800	0
+801	1
+802	0
+803	0
+804	1
+805	0
+806	0
+807	0
+808	0
+809	1
+810	0
+811	0
+812	0
+813	0
+814	1
+815	0
+816	0
+817	0
+818	0
+819	0
+820	0
+821	0
+822	0
+823	0
+824	0
+825	0
+826	1
+827	0
+828	0
+829	0
+830	0
+831	0
+832	0
+833	0
+834	0
+835	0
+836	1
+837	0
+838	0
+839	0
+840	0
+841	0
+842	0
+843	0
+844	0
+845	0
+846	0
+847	0
+848	0
+849	0
+850	0
+851	0
+852	0
+853	0
+854	0
+855	0
+856	1
+857	0
+858	0
+859	0
+860	1
+861	0
+862	0
+863	0
+864	0
+865	0
+866	0
+867	0
+868	0
+869	0
+870	0
+871	0
+872	1
+873	0
+874	0
+875	0
+876	0
+877	0
+878	0
+879	0
+880	0
+881	0
+882	0
+883	0
+884	0
+885	0
+886	0
+887	0
+888	0
+889	0
+890	0
+891	0
+892	0
+893	0
+894	0
+895	1
+896	0
+897	0
+898	0
+899	0
+900	0
+901	1
+902	0
+903	0
+904	1
+905	1
+906	0
+907	0
+908	0
+909	0
+910	0
+911	1
+912	0
+913	0
+914	1
+915	1
+916	0
+917	0
+918	1
+919	0
+920	0
+921	0
+922	0
+923	0
+924	0
+925	0
+926	0
+927	0
+928	0
+929	0
+930	0
+931	1
+932	0
+933	0
+934	0
+935	0
+936	0
+937	0
+938	0
+939	0
+940	0
+941	1
+942	0
+943	0
+944	0
+945	0
+946	1
+947	0
+948	0
+949	0
+950	1
+951	1
+952	0
+953	0
+954	0
+955	0
+956	0
+957	1
+958	0
+959	0
+960	0
+961	0
+962	0
+963	0
+964	0
+965	0
+966	0
+967	0
+968	0
+969	0
+970	0
+971	0
+972	0
+973	0
+974	0
+975	0
+976	0
+977	0
+978	0
+979	0
+980	0
+981	1
+982	1
+983	0
+984	0
+985	0
+986	1
+987	0
+988	0
+989	0
+990	1
+991	1
+992	0
+993	0
+994	0
+995	1

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5598d5e96f339a8d980c15f9afd405a2e5e1be7db41de3ed13b0f03fac1e8c17
+size 2447305

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "train_loss": 0.6695034980773926,
+    "train_runtime": 19.6359,
+    "train_samples": 6,
+    "train_samples_per_second": 1.528,
+    "train_steps_per_second": 0.255
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 5,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 5.0,
+      "step": 5,
+      "total_flos": 126200725032960.0,
+      "train_loss": 0.6695034980773926,
+      "train_runtime": 19.6359,
+      "train_samples_per_second": 1.528,
+      "train_steps_per_second": 0.255
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 5,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 126200725032960.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c322145114e00457e6fa21972f40419e79726fa3928d817209ed4ef2c62b7071
+size 4920