train-diffuser

Paused

nroggendorff commited on Jul 17, 2024

Commit

c987618

verified ·

1 Parent(s): aa4a704

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -59,10 +59,10 @@ print(tokenizer.apply_chat_template([{"role": "user", "content": "Why is the sky
 config = LlamaConfig(
     vocab_size=tokenizer.vocab_size,
-    hidden_size=int(512 / 1),
-    intermediate_size=int(1024 / 1),
-    num_hidden_layers=int(8 / 1),
-    num_attention_heads=int(8 / 1),
     max_position_embeddings=int(512 / 1),
     rms_norm_eps=1e-6,
     initializer_range=0.02,
@@ -97,7 +97,7 @@ print(dataset['text'][2])
 args = TrainingArguments(
     output_dir="mayo",
-    num_train_epochs=4,
     gradient_accumulation_steps=4,
     per_device_train_batch_size=1,
     learning_rate=1e-5,

 config = LlamaConfig(
     vocab_size=tokenizer.vocab_size,
+    hidden_size=int(512 / 4),
+    intermediate_size=int(1024 / 4),
+    num_hidden_layers=int(8 / 4),
+    num_attention_heads=int(8 / 4),
     max_position_embeddings=int(512 / 1),
     rms_norm_eps=1e-6,
     initializer_range=0.02,
 args = TrainingArguments(
     output_dir="mayo",
+    num_train_epochs=1,
     gradient_accumulation_steps=4,
     per_device_train_batch_size=1,
     learning_rate=1e-5,