ritikapatri
/

AMP-ProGen2

Model card Files Files and versions

xet

Community

ritikapatri commited on May 29, 2024

Commit

733d17e

verified ·

1 Parent(s): ab03a8e

Delete amp_finetune.py

Browse files

Files changed (1) hide show

amp_finetune.py +0 -114

amp_finetune.py DELETED Viewed

@@ -1,114 +0,0 @@
-from Bio import SeqIO
-import pandas as pd
-import ssl
-import io
-from urllib.request import urlopen
-from datasets import Dataset
-from tokenizers import Tokenizer
-import torch
-from progen.progen2.models.progen.modeling_progen import ProGenForCausalLM
-from transformers import PreTrainedTokenizerFast, TrainingArguments, Trainer, DataCollatorForLanguageModeling
-import math
-import os
-# parsing data file
-os.environ["TOKENIZERS_PARALLELISM"] = "false"
-# source 1
-ssl._create_default_https_context = ssl._create_unverified_context
-url = "https://aps.unmc.edu/assets/sequences/APD_sequence_release_09142020.fasta"
-response = urlopen(url)
-str = response.read().decode("utf-8", "ignore")
-aps_file = io.StringIO(str)
-sequences = []
-for record in SeqIO.parse(aps_file, "fasta"):
-    header = record.id
-    description = record.description
-    sequence = record.seq
-    a = sequence._data
-    dec = a.decode()
-    sequences.append(dec)
-# source 2
-# http://dramp.cpu-bioinfor.org/
-dramp_file = "amp_datasets/general_amps.fasta"
-for record in SeqIO.parse(dramp_file, "fasta"):
-    header = record.id
-    description = record.description
-    sequence = record.seq
-    a = sequence._data
-    dec = a.decode()
-    sequences.append(dec)
-# # source 3
-# https://dbaasp.org/home
-dbaasp_file = "amp_datasets/peptides-fasta.txt"
-for record in SeqIO.parse(dbaasp_file, "fasta"):
-    header = record.id
-    description = record.description
-    sequence = record.seq
-    a = sequence._data
-    dec = a.decode()
-    sequences.append(dec)
-train_len = int(len(sequences) * 0.8)
-test_len = int(len(sequences) - train_len)
-train = sequences[:train_len]
-test = sequences[:test_len]
-# model and tokenizer
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model = ProGenForCausalLM.from_pretrained('checkpoints/progen2-small', low_cpu_mem_usage=True).to(device)
-num_params = sum(p.numel() for p in model.parameters())
-tokenizer = PreTrainedTokenizerFast(tokenizer_file = "progen/progen2/tokenizer.json", pad_token="[PAD]")
-train = [tokenizer(sequence) for sequence in train]
-# print(train[0])
-test = [tokenizer(sequence) for sequence in test]
-# print(test[0])
-training_args = TrainingArguments(
-    output_dir="./amp_model",
-    evaluation_strategy = "epoch",
-    save_strategy = "epoch",
-    learning_rate=5e-4,
-    per_device_train_batch_size=16,
-    per_device_eval_batch_size=16,
-    num_train_epochs=20,
-    weight_decay=0.01,
-    load_best_model_at_end=True,
-)
-data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False, mlm_probability=0.15)
-trainer = Trainer(
-    model=model,
-    args=training_args,
-    train_dataset=train,
-    eval_dataset=test,
-    data_collator=data_collator
-)
-trainer.train()
-# use for downstream tasks
-    # classication AMP / non-AMP
-    # generative model for generating new AMP sequences
-target_input = tokenizer('')
-# attention_mask = torch.ones(len(input_ids), device=device)
-with torch.no_grad():
-    output = model.generate(input_ids=None, max_length=1024, num_return_sequences=1, pad_token_id=tokenizer.pad_token_id)
-# generated_sequences = [tokenizer.decode(output)]
-tokenizer.batch_decode(output, skip_special_tokens=True)
-# generated_sequences = tokenizer.batch_decode(output, skip_special_tokens=True)
-generated_sequences = [tokenizer.decode(s, skip_special_tokens=True) for s in output]
-with open('output.txt', 'w') as f:
-    for s in generated_sequences:
-        f.write(s + "\n")