Spaces:

pangxiang
/

capricode-codefix

Sleeping

pangxiang commited on Oct 23, 2025

Commit

80b3a89

verified ·

1 Parent(s): 0d29db9

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -1,29 +1,27 @@
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
-from datasets import Dataset
 import json
-with open('train_data.json', 'r') as f:
-    data = json.load(f)
-texts = []
-labels = []
-for label, samples in data.items():
-    for text in samples:
-        texts.append(text)
-        labels.append(label)
-dataset = Dataset.from_dict({"text": texts, "label": labels})
-model_name = "prajjwal1/bert-tiny"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)
-def tokenize_function(examples):
-    return tokenizer(examples["text"], padding="max_length", truncation=True)
-tokenized_datasets = dataset.map(tokenize_function, batched=True)
-training_args = TrainingArguments(output_dir="results", num_train_epochs=2)
-trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_datasets)
-trainer.train()
-model.save_pretrained("trained_model")

 import json
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
+def load_training_data():
+    with open('train_data.json', 'r', encoding='utf-8') as f:
+        return json.load(f)
+def train_model():
+    # 加载数据
+    data = load_training_data()
+    # 初始化tokenizer和模型（使用小模型）
+    tokenizer = AutoTokenizer.from_pretrained("microsoft/DialoGPT-small")
+    model = AutoModelForCausalLM.from_pretrained("microsoft/DialoGPT-small")
+    # 数据处理和训练逻辑
+    # ... 这里添加你的训练代码
+    # 保存模型
+    model.save_pretrained("./trained_model")
+    tokenizer.save_pretrained("./trained_model")
+    print("模型训练完成！")
+if __name__ == "__main__":
+    train_model()