AlexandrKovalenko1981
/

dummy

@@ -1,96 +0,0 @@
-from datasets import load_dataset
-from transformers import AutoTokenizer, DataCollatorWithPadding
-from torch.utils.data import DataLoader
-from transformers import AutoModelForSequenceClassification
-from transformers import AdamW
-from transformers import get_scheduler
-import torch
-from tqdm.auto import tqdm
-import evaluate
-raw_datasets = load_dataset("glue","mrpc")
-checkpoint = 'bert-base-cased'
-tokenizer = AutoTokenizer.from_pretrained(checkpoint)
-def tokenize_function(example):
-    return tokenizer(example['sentence1'], example['sentence2'], truncation=True)
-tokenized_dataset = raw_datasets.map(tokenize_function, batched=True)
-tokenized_dataset = tokenized_dataset.remove_columns(['sentence1', 'sentence2','idx'])
-tokenized_dataset = tokenized_dataset.rename_column('label','labels')
-#print(tokenized_dataset.column_names["train"])
-tokenized_dataset.set_format('torch')
-#print(tokenized_dataset)
-data_collator = DataCollatorWithPadding(tokenizer)
-train_dataloader = DataLoader(
-    tokenized_dataset['validation'], batch_size=8, collate_fn=data_collator
-)
-eval_dataloader = DataLoader(
-    tokenized_dataset['validation'], batch_size=8, collate_fn=data_collator
-)
-#for batch in train_dataloader:
-#    break
-#print({k: v.shape for k, v in batch.items()})
-#print()
-#print(batch)
-#print()
-model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
-#outputs = model(**batch)
-#print(outputs.loss, outputs.logits.shape)
-optimizer = AdamW(model.parameters(), lr=5e-5)
-#loss = outputs.loss
-#loss.backward()
-#optimizer.step()
-#optimizer.zero_grad()
-num_epochs = 3
-num_training_steps = num_epochs * len(train_dataloader)
-lr_scheduler = get_scheduler(
-    'linear',
-    optimizer=optimizer,
-    num_warmup_steps=0,
-    num_training_steps=num_training_steps
-)
-device = torch.device('mps') if torch.backends.mps.is_available() else torch.device('cpu')
-model.to(device)
-print(f'Using device: {device}')
-progress_bar = tqdm(range(num_training_steps))
-model.train()
-for epoch in range(num_epochs):
-    for batch in train_dataloader:
-        batch = {k: v.to(device) for k, v in batch.items()}
-        outputs = model(**batch)
-        loss = outputs.loss
-        loss.backward()
-        optimizer.step()
-        lr_scheduler.step()
-        optimizer.zero_grad()
-        progress_bar.update(1)
-metric= evaluate.load('glue','mrpc')
-model.eval()
-for batch in eval_dataloader:
-    batch = {k: v.to(device) for k, v in batch.items()}
-    with torch.no_grad():
-        outputs = model(**batch)
-    logits = outputs.logits
-    predictions = torch.argmax(logits, dim=-1)
-    metric.add_batch(predictions=predictions, references=batch['labels'])
-result = metric.compute()
-print(result)