train-diffuser

Paused

nroggendorff commited on Aug 3, 2024

Commit

2f3f337

verified ·

1 Parent(s): def4636

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -9,11 +9,11 @@ from tokenizers import ByteLevelBPETokenizer
 MAX_SEQ_LENGTH = 512
 BATCH_SIZE = 128
-EPOCHS = 3
 LEARNING_RATE = 2e-2
 FACTOR = 256
 VOCAB_SIZE = 32000
-INPUT_DATASET = "nroggendorff/openhermes"
 OUTPUT_REPO = "smallama"
 FP16 = True
 WARMUP_STEPS = 20
@@ -23,7 +23,7 @@ CLIPPING = 1.0
 PUSH_TO_HUB = True
 def load_data():
-    dataset = load_dataset(INPUT_DATASET, split="train").select(range(int(5e+5)))
     return dataset
 def create_tokenizer(training_corpus):

 MAX_SEQ_LENGTH = 512
 BATCH_SIZE = 128
+EPOCHS = 2
 LEARNING_RATE = 2e-2
 FACTOR = 256
 VOCAB_SIZE = 32000
+INPUT_DATASET = "nroggendorff/elephant"
 OUTPUT_REPO = "smallama"
 FP16 = True
 WARMUP_STEPS = 20
 PUSH_TO_HUB = True
 def load_data():
+    dataset = load_dataset(INPUT_DATASET, split="train").select(range(int(2.5e+6)))
     return dataset
 def create_tokenizer(training_corpus):