ft-ESM

ft-ESM is a finetuned version of the 650M-parameter ESM2 protein language model, finetuned on paired antibody sequences from Jaffe et al. Datasets used for pre-training are available on Zenodo and code is available on GitHub. More details can be found in our paper published in Patterns.

Use

Load the model and tokenizer as follows:

from transformers import EsmTokenizer, EsmForMaskedLM

model = EsmForMaskedLM.from_pretrained("brineylab/ft-ESM")
tokenizer = EsmTokenizer.from_pretrained("brineylab/ft-ESM")

The tokenizer expects sequences formatted as: HEAVY_CHAIN<cls><cls>LIGHT_CHAIN.