train-diffuser

Paused

nroggendorff commited on Jul 29, 2024

Commit

3baa40e

verified ·

1 Parent(s): ee095db

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -8,10 +8,10 @@ from datasets import load_dataset
 from tokenizers import ByteLevelBPETokenizer
 MAX_SEQ_LENGTH = 512
-BATCH_SIZE = 16
 EPOCHS = 4
 LEARNING_RATE = 2e-4
-FACTOR = 128
 VOCAB_SIZE = 32000
 INPUT_DATASET = "nroggendorff/oak"
 OUTPUT_REPO = "smallama"
@@ -104,10 +104,7 @@ def train_model(model, tokenizer, dataset, push):
         weight_decay=DECAY,
         gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
         fp16=FP16,
-        max_grad_norm=CLIPPING,
-        evaluation_strategy="steps",
-        eval_steps=10,
-        logging_steps=10
     )
     optimizer = AdamW(model.parameters(), lr=args.learning_rate)

 from tokenizers import ByteLevelBPETokenizer
 MAX_SEQ_LENGTH = 512
+BATCH_SIZE = 64
 EPOCHS = 4
 LEARNING_RATE = 2e-4
+FACTOR = 4
 VOCAB_SIZE = 32000
 INPUT_DATASET = "nroggendorff/oak"
 OUTPUT_REPO = "smallama"
         weight_decay=DECAY,
         gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
         fp16=FP16,
+        max_grad_norm=CLIPPING
     )
     optimizer = AdamW(model.parameters(), lr=args.learning_rate)