Upload 3 files

Files changed (3) hide show

combined_tokenized_data.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

+transformers==4.28.1
+datasets==2.12.0
+accelerate==0.21.0
+torch==2.0.1

train_phi3.py ADDED Viewed

+from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
+from datasets import load_dataset
+# Load model and tokenizer
+model_name = "microsoft/Phi-3-mini-128k-instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+# Load dataset
+dataset = load_dataset("text", data_files="combined_tokenized_data.txt")["train"]
+# ... (rest of your code for tokenization, data collator, training arguments, etc.)