Upload 3 files

Browse files

Files changed (3) hide show

README(1).md +52 -0
config(2).json +29 -0
model(1).safetensors +3 -0

README(1).md ADDED Viewed

	@@ -0,0 +1,52 @@

+---
+library_name: transformers
+pipeline_tag: feature-extraction
+model_name: InstaDeepAI/IDP-ESM2-8M
+---
+# IDP-ESM2-8M
+**IDP-ESM2-8M** is an ESM2-style encoder for intrinsically disorded protein sequence representation learning, trained on [IDP-Euka-90](https://huggingface.co/datasets/jeanq1/IDP-Euka-90).
+This repository provides a Transformer encoder suitable for extracting **sequence embeddings**.
+---
+## Quick start: generate embeddings
+The snippet below loads the tokenizer and model, runs a forward pass on a couple of sequences and extracts embeddings for each sequence.
+```python
+from transformers import AutoTokenizer, AutoModel
+import torch
+# --- Config ---
+model_name = "InstaDeepAI/IDP-ESM2-8M"
+# --- Load model and tokenizer ---
+tokenizer = AutoTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
+model = AutoModel.from_pretrained(model_name)
+model.eval()
+# (optional) use GPU if available
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model.to(device)
+# --- Input sequences ---
+sequences = [
+    "MDDNHYPHHHHNHHNHHSTSGGCGESQFTTKLSVNTFARTHPMIQNDLIDLDLISGSAFTMKSKSQQ",
+    "PADRDLSSPFGSTVPGVGPNAAAASNAAAAAAAAATAGSNKHQTPPTTFR",
+]
+# --- Tokenize ---
+inputs = tokenizer(
+    sequences,
+    return_tensors="pt",
+    padding=True,
+    truncation=True,
+)
+inputs = {k: v.to(device) for k, v in inputs.items()}
+# --- Forward pass ---
+with torch.no_grad():
+    outputs = model(**inputs)
+    embeddings = outputs.last_hidden_state  # shape: (batch, seq_len, hidden_dim)

config(2).json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "EsmForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "classifier_dropout": null,
+  "emb_layer_norm_before": false,
+  "esmfold_config": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 320,
+  "initializer_range": 0.02,
+  "intermediate_size": 1280,
+  "is_folding_model": false,
+  "layer_norm_eps": 1e-05,
+  "mask_token_id": 32,
+  "max_position_embeddings": 1026,
+  "model_type": "esm",
+  "num_attention_heads": 20,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "position_embedding_type": "rotary",
+  "token_dropout": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.54.1",
+  "use_cache": true,
+  "vocab_list": null,
+  "vocab_size": 33
+}

model(1).safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03234e27ad0c9a7f3f423d0ad391ae2f73c3900da0643c91a64b7f1d42729762
+size 30062544