Ulys5e
/

fduhomework02

Model card Files Files and versions

xet

Community

Update README.md

by ViolettaY - opened Nov 23, 2025

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+43

-64

Files changed (1) hide show

README.md +43 -64

README.md CHANGED Viewed

@@ -1,65 +1,44 @@
----
-license: apache-2.0
----
-pip install transformers datasets torch scikit-learn
-import torch
 from datasets import load_dataset
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
-from sklearn.model_selection import train_test_split
-from sklearn.metrics import accuracy_score, f1_score
-def load_and_prepare_data():
-    dataset = load_dataset("emotion")
-    train_dataset = dataset["train"]
-    test_dataset = dataset["test"]
-    return train_dataset, test_dataset
-def tokenize_dataset(dataset):
-    tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
-    def tokenize_function(examples):
-        return tokenizer(examples["text"], padding="max_length", truncation=True)
-    tokenized_dataset = dataset.map(tokenize_function, batched=True)
-    return tokenized_dataset
-def load_model():
-    num_labels = 6
-    model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=num_labels)
-    return model
-def define_training_arguments():
-    training_args = TrainingArguments(
-        output_dir="./results",
-        num_train_epochs=3,
-        per_device_train_batch_size=16,
-        per_device_eval_batch_size=64,
-        warmup_steps=500,
-        weight_decay=0.01,
-        logging_dir="./logs",
-        logging_steps=10,
-        evaluation_strategy="epoch",
-        save_strategy="epoch",
-        load_best_model_at_end=True,
-        metric_for_best_model="accuracy",
-        greater_is_better=True,
-    )
-    return training_args
-def compute_metrics(eval_pred):
-    logits, labels = eval_pred
-    predictions = torch.argmax(torch.tensor(logits), dim=-1)
-    accuracy = accuracy_score(labels, predictions)
-    f1 = f1_score(labels, predictions, average="weighted")
-    return {"accuracy": accuracy, "f1": f1}
-def main():
-    train_dataset, test_dataset = load_and_prepare_data()
-    tokenized_train_dataset = tokenize_dataset(train_dataset)
-    tokenized_test_dataset = tokenize_dataset(test_dataset)
-    model = load_model()
-    training_args = define_training_arguments()
-    trainer = Trainer(
-        model=model,
-        args=training_args,
-        train_dataset=tokenized_train_dataset,
-        eval_dataset=tokenized_test_dataset,
-        compute_metrics=compute_metrics,
-    )
-    trainer.train()
-    trainer.evaluate()
-    trainer.save_model()
-if __name__ == "__main__":
-    main()

+from transformers import AutoModelForSequenceClassification, AutoTokenizer
 from datasets import load_dataset
+import torch
+from sklearn.metrics import classification_report, confusion_matrix
+# Загружаем модель и токенизатор
+model_name = 'your_model_name'
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSequenceClassification.from_pretrained(model_name)
+# Загружаем датасет
+dataset = load_dataset('mnli', split='validation_matched[:1%]')
+# Токенизация
+def tokenize_function(examples):
+    return tokenizer(examples["premise"], examples["hypothesis"], truncation=True)
+tokenized_dataset = dataset.map(tokenize_function, batched=True)
+labels = tokenized_dataset['label']
+# Готовим батчи для предсказаний
+inputs = tokenized_dataset.remove_columns(['premise', 'hypothesis'])
+inputs.set_format(type="torch")
+loader = torch.utils.data.DataLoader(inputs, batch_size=8)
+# Используем GPU, если доступно
+device = torch.device("cuda") if torch.cuda.isavailable() else torch.device("cpu")
+model.to(device)
+# Получаем предсказания
+preds = []
+for batch in loader:
+    outputs = model(**batch.to(device))
+    preds.extend(outputs.logits.argmax(dim=-1).tolist())
+predicted_labels = preds
+# Оцениваем производительность
+report = classification_report(labels, predicted_labels)
+matrix = confusion_matrix(labels, predicted_labels)
+print(report)
+print("\nМатрица путаницы:")
+print(matrix)