muhtasham
/

gpt2-tokenizer

Model card Files Files and versions

訓練模型

#2

by Elena0111 - opened Sep 8, 2024

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

Files changed (1) hide show

訓練模型 +34 -0

訓練模型 ADDED Viewed

	@@ -0,0 +1,34 @@

+from transformers import GPT2Tokenizer, GPT2LMHeadModel, Trainer, TrainingArguments
+from datasets import Dataset
+# 加載數據
+data = https://www.ird.gov.hk/datagovhk/brfee.csv # 您的稅務數據集
+dataset = Dataset.from_dict(data)
+# 加載預訓練模型和標記器
+model_name = "gpt2"  # 或 "gpt-3" 根據您的需求
+tokenizer = GPT2Tokenizer.from_pretrained(model_name)
+model = GPT2LMHeadModel.from_pretrained(model_name)
+# 數據預處理
+def preprocess_function(examples):
+    return tokenizer(examples['text'], truncation=True, padding='max_length')
+tokenized_dataset = dataset.map(preprocess_function, batched=True)
+# 設置訓練參數
+training_args = TrainingArguments(
+    output_dir='./results',
+    num_train_epochs=3,
+    per_device_train_batch_size=4,
+    save_steps=10_000,
+    logging_dir='./logs',
+)
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset,
+)
+trainer.train()