Upload 8 files

Browse files

Files changed (8) hide show

config.json +29 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +628 -0
special_tokens_map.json +7 -0
tokenizer_config.json +53 -0
training_args.json +142 -0
vocab.txt +33 -0

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "DualEsmForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "classifier_dropout": 0.4,
+  "emb_layer_norm_before": false,
+  "esmfold_config": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 10240,
+  "is_folding_model": false,
+  "layer_norm_eps": 1e-05,
+  "mask_token_id": 32,
+  "max_position_embeddings": 1026,
+  "model_type": "esm",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 36,
+  "pad_token_id": 1,
+  "position_embedding_type": "rotary",
+  "token_dropout": true,
+  "torch_dtype": "float16",
+  "transformers_version": "4.52.3",
+  "use_cache": true,
+  "vocab_list": null,
+  "vocab_size": 33
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:975d37910ed8c2725e91c822fea42874032017c3c7d0fca862059261ded9b231
+size 4983086152

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1960ef1d16af798aba8f0a03c99cee95c9100b6d70dfe20b6d616111c3e4c8d1
+size 708108358

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,628 @@

+{
+  "metadata": {
+    "total_size": 5691120710
+  },
+  "weight_map": {
+    "classifier.bias": "model-00002-of-00002.safetensors",
+    "classifier.weight": "model-00002-of-00002.safetensors",
+    "combiner.bias": "model-00002-of-00002.safetensors",
+    "combiner.weight": "model-00002-of-00002.safetensors",
+    "esm.contact_head.regression.bias": "model-00002-of-00002.safetensors",
+    "esm.contact_head.regression.weight": "model-00002-of-00002.safetensors",
+    "esm.embeddings.word_embeddings.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.emb_layer_norm_after.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.emb_layer_norm_after.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.0.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.0.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.1.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.10.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.11.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.12.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.13.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.14.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.15.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.16.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.17.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.18.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.19.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.2.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.20.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.21.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.22.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.23.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.24.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.25.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.26.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.27.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.28.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.29.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.3.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.30.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.31.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.31.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.31.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.self.key.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.self.key.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.self.query.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.self.query.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.self.rotary_embeddings.inv_freq": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.self.value.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.attention.self.value.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.32.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.self.key.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.self.key.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.self.query.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.self.query.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.self.rotary_embeddings.inv_freq": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.self.value.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.attention.self.value.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.33.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.self.key.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.self.key.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.self.query.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.self.query.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.self.rotary_embeddings.inv_freq": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.self.value.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.attention.self.value.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.34.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.self.key.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.self.key.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.self.query.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.self.query.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.self.rotary_embeddings.inv_freq": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.self.value.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.attention.self.value.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.output.dense.bias": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.35.output.dense.weight": "model-00002-of-00002.safetensors",
+    "esm.encoder.layer.4.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.4.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.5.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.6.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.7.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.8.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.self.key.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.self.key.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.self.query.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.self.query.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.self.rotary_embeddings.inv_freq": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.self.value.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.attention.self.value.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.output.dense.bias": "model-00001-of-00002.safetensors",
+    "esm.encoder.layer.9.output.dense.weight": "model-00001-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "<cls>",
+  "eos_token": "<eos>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<cls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<cls>",
+  "eos_token": "<eos>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "EsmTokenizer",
+  "unk_token": "<unk>"
+}

training_args.json ADDED Viewed

	@@ -0,0 +1,142 @@

+{
+  "output_dir": "esm2_t36_3B_UR50D-dual-seq",
+  "overwrite_output_dir": false,
+  "do_train": true,
+  "do_eval": true,
+  "do_predict": false,
+  "eval_strategy": "epoch",
+  "prediction_loss_only": false,
+  "per_device_train_batch_size": 256,
+  "per_device_eval_batch_size": 256,
+  "per_gpu_train_batch_size": null,
+  "per_gpu_eval_batch_size": null,
+  "gradient_accumulation_steps": 16,
+  "eval_accumulation_steps": null,
+  "eval_delay": 0,
+  "torch_empty_cache_steps": null,
+  "learning_rate": 0.0004,
+  "weight_decay": 0.01,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.999,
+  "adam_epsilon": 1e-08,
+  "max_grad_norm": 1.0,
+  "num_train_epochs": 69,
+  "max_steps": -1,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": {},
+  "warmup_ratio": 0.0,
+  "warmup_steps": 1000,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "log_on_each_node": true,
+  "logging_dir": "./logs-esm2-dual-650M",
+  "logging_strategy": "steps",
+  "logging_first_step": false,
+  "logging_steps": 100,
+  "logging_nan_inf_filter": true,
+  "save_strategy": "epoch",
+  "save_steps": 500,
+  "save_total_limit": null,
+  "save_safetensors": true,
+  "save_on_each_node": false,
+  "save_only_model": false,
+  "restore_callback_states_from_checkpoint": false,
+  "no_cuda": false,
+  "use_cpu": false,
+  "use_mps_device": false,
+  "seed": 42,
+  "data_seed": null,
+  "jit_mode_eval": false,
+  "use_ipex": false,
+  "bf16": false,
+  "fp16": true,
+  "fp16_opt_level": "O1",
+  "half_precision_backend": "auto",
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "local_rank": 0,
+  "ddp_backend": null,
+  "tpu_num_cores": null,
+  "tpu_metrics_debug": false,
+  "debug": [],
+  "dataloader_drop_last": false,
+  "eval_steps": null,
+  "dataloader_num_workers": 0,
+  "dataloader_prefetch_factor": null,
+  "past_index": -1,
+  "run_name": "esm2_t36_3B_UR50D-dual-seq",
+  "disable_tqdm": false,
+  "remove_unused_columns": true,
+  "label_names": [
+    "labels"
+  ],
+  "load_best_model_at_end": true,
+  "metric_for_best_model": "eval_accuracy",
+  "greater_is_better": true,
+  "ignore_data_skip": false,
+  "fsdp": [],
+  "fsdp_min_num_params": 0,
+  "fsdp_config": {
+    "min_num_params": 0,
+    "xla": false,
+    "xla_fsdp_v2": false,
+    "xla_fsdp_grad_ckpt": false
+  },
+  "fsdp_transformer_layer_cls_to_wrap": null,
+  "accelerator_config": "AcceleratorConfig(split_batches=False, dispatch_batches=None, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False)",
+  "deepspeed": "ds_config.json",
+  "label_smoothing_factor": 0.0,
+  "optim": "adamw_torch",
+  "optim_args": null,
+  "adafactor": false,
+  "group_by_length": false,
+  "length_column_name": "length",
+  "report_to": [],
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "skip_memory_metrics": true,
+  "use_legacy_prediction_loop": false,
+  "push_to_hub": false,
+  "resume_from_checkpoint": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_always_push": false,
+  "gradient_checkpointing": false,
+  "gradient_checkpointing_kwargs": null,
+  "include_inputs_for_metrics": false,
+  "include_for_metrics": [],
+  "eval_do_concat_batches": true,
+  "fp16_backend": "auto",
+  "push_to_hub_model_id": null,
+  "push_to_hub_organization": null,
+  "push_to_hub_token": null,
+  "mp_parameters": "",
+  "auto_find_batch_size": false,
+  "full_determinism": false,
+  "torchdynamo": null,
+  "ray_scope": "last",
+  "ddp_timeout": 1800,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "include_tokens_per_second": false,
+  "include_num_input_tokens_seen": false,
+  "neftune_noise_alpha": null,
+  "optim_target_modules": null,
+  "batch_eval_metrics": false,
+  "eval_on_start": false,
+  "use_liger_kernel": false,
+  "eval_use_gather_object": false,
+  "average_tokens_across_devices": false,
+  "distributed_state": "Distributed environment: DistributedType.DEEPSPEED  Backend: nccl\nNum processes: 8\nProcess index: 0\nLocal process index: 0\nDevice: cuda:0\n",
+  "_n_gpu": 1,
+  "__cached__setup_devices": "cuda:0",
+  "deepspeed_plugin": "DeepSpeedPlugin(hf_ds_config=<transformers.integrations.deepspeed.HfTrainerDeepSpeedConfig object at 0x7fe4d740e510>, gradient_accumulation_steps=16, gradient_clipping=1.0, zero_stage=2, is_train_batch_min=True, offload_optimizer_device='cpu', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=False, zero3_save_16bit_model=False, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')",
+  "hf_deepspeed_config": "<transformers.integrations.deepspeed.HfTrainerDeepSpeedConfig object at 0x7fe4d740e510>"
+}

vocab.txt ADDED Viewed

	@@ -0,0 +1,33 @@

+<cls>
+<pad>
+<eos>
+<unk>
+L
+A
+G
+V
+S
+E
+R
+T
+I
+D
+P
+K
+Q
+N
+F
+Y
+M
+H
+W
+C
+X
+B
+U
+Z
+O
+.
+-
+<null_1>
+<mask>