zeng981
/

nplClinicalBERT

Model card Files Files and versions

zeng981 commited on May 16, 2025

Commit

af249ba

·

verified ·

1 Parent(s): 5a5d524

Upload 1 (4).py

Files changed (1) hide show

1 (4).py +100 -0

1 (4).py ADDED Viewed

	@@ -0,0 +1,100 @@

+import json
+import torch
+import numpy as np
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import classification_report
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
+from torch.utils.data import Dataset
+from rouge_score import rouge_scorer
+# Step 1: 加载数据
+with open("train_data1(2).json", "r", encoding="utf-8") as f:
+    raw_data = json.load(f)
+texts = [d["input"] for d in raw_data]
+labels = [d["output"] for d in raw_data]
+label2id = {label: i for i, label in enumerate(sorted(set(labels)))}
+id2label = {i: label for label, i in label2id.items()}
+y_numeric = [label2id[label] for label in labels]
+X_train, X_val, y_train, y_val = train_test_split(texts, y_numeric, test_size=0.2, random_state=42)
+# Step 2: 自定义数据集类
+class MedicalDataset(Dataset):
+    def __init__(self, texts, labels, tokenizer, max_len=128):
+        self.texts = texts
+        self.labels = labels
+        self.tokenizer = tokenizer
+        self.max_len = max_len
+    def __len__(self):
+        return len(self.texts)
+    def __getitem__(self, idx):
+        encoded = self.tokenizer(
+            self.texts[idx],
+            truncation=True,
+            padding='max_length',
+            max_length=self.max_len,
+            return_tensors='pt'
+        )
+        return {
+            'input_ids': encoded['input_ids'].squeeze(0),
+            'attention_mask': encoded['attention_mask'].squeeze(0),
+            'labels': torch.tensor(self.labels[idx])
+        }
+# Step 3: 加载本地模型
+model_path = "ClinicalBERT"
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+model = AutoModelForSequenceClassification.from_pretrained(model_path, num_labels=len(label2id))
+train_dataset = MedicalDataset(X_train, y_train, tokenizer)
+val_dataset = MedicalDataset(X_val, y_val, tokenizer)
+# Step 4: 设置训练参数（无 evaluation_strategy）
+training_args = TrainingArguments(
+    output_dir="./results",
+    save_strategy="no",
+    do_train=True,
+    do_eval=True,
+    per_device_train_batch_size=8,
+    per_device_eval_batch_size=8,
+    num_train_epochs=3,
+    logging_dir="./logs",
+    logging_steps=10
+)
+# Step 5: 训练
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=train_dataset,
+    eval_dataset=val_dataset,
+    tokenizer=tokenizer
+)
+trainer.train()
+trainer.evaluate()
+# Step 6: 分类评估
+preds = trainer.predict(val_dataset).predictions
+pred_ids = np.argmax(preds, axis=1)
+true_labels = [id2label[i] for i in y_val]
+pred_labels = [id2label[i] for i in pred_ids]
+print(" 分类报告：")
+print(classification_report(true_labels, pred_labels))
+# Step 7: ROUGE 分数计算
+scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True)
+rouge1_scores, rougeL_scores = [], []
+for ref, pred in zip(true_labels, pred_labels):
+    score = scorer.score(ref, pred)
+    rouge1_scores.append(score['rouge1'].fmeasure)
+    rougeL_scores.append(score['rougeL'].fmeasure)
+print(f"\n Avg ROUGE-1 F1: {np.mean(rouge1_scores):.4f}")
+print(f" Avg ROUGE-L F1: {np.mean(rougeL_scores):.4f}")