mila-intel
/

protst-esm1b-for-sequential-classification

Feature Extraction

Model card Files Files and versions

Jiqing commited on Jan 24, 2024

Commit

f0b2e2a

·

verified ·

1 Parent(s): b733fa5

Update README.md

Files changed (1) hide show

README.md +1 -3

README.md CHANGED Viewed

@@ -10,7 +10,7 @@ ProtST for binary localization
 ## Running script
 ```python
 from transformers import AutoModel, AutoTokenizer, HfArgumentParser, TrainingArguments, Trainer
-from transformers.data.data_collator import DataCollatorForLanguageModeling, DataCollatorForTokenClassification, DataCollatorWithPadding
 from transformers.trainer_pt_utils import get_parameter_names
 from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS
 from datasets import load_dataset
@@ -125,8 +125,6 @@ if __name__ == "__main__":
     for split in ["train", "validation", "test"]:
         raw_dataset[split] = raw_dataset[split].map(func_tokenize_protein, batched=False, remove_columns=["Unnamed: 0", "prot_seq", "localization"])
-    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm_probability=0.0)
-    data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer)
     data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
     transformers.utils.logging.set_verbosity_info()

 ## Running script
 ```python
 from transformers import AutoModel, AutoTokenizer, HfArgumentParser, TrainingArguments, Trainer
+from transformers.data.data_collator import DataCollatorWithPadding
 from transformers.trainer_pt_utils import get_parameter_names
 from transformers.pytorch_utils import ALL_LAYERNORM_LAYERS
 from datasets import load_dataset
     for split in ["train", "validation", "test"]:
         raw_dataset[split] = raw_dataset[split].map(func_tokenize_protein, batched=False, remove_columns=["Unnamed: 0", "prot_seq", "localization"])
     data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
     transformers.utils.logging.set_verbosity_info()