Spaces:

WeReCooking
/

ACE-Step-CPU

Running

Nekochu commited on 26 days ago

Commit

560b5e0

1 Parent(s): e69e9ec

fix: use float32 not bfloat16 for CPU training (bf16 deadlocks on CPU)

Files changed (1) hide show

app.py CHANGED Viewed

@@ -349,7 +349,7 @@ try:
         output_dir="{output_dir}/preprocessed_tensors",
         checkpoint_dir="{ACE_CHECKPOINT_DIR}",
         variant="turbo", max_duration=60.0,
-        device="cpu", precision="bfloat16",
     )
     processed = result.get("processed", 0)
     failed = result.get("failed", 0)
@@ -366,8 +366,8 @@ try:
     model = load_decoder_for_training(
         checkpoint_dir="{ACE_CHECKPOINT_DIR}", variant="turbo",
-        device="cpu", precision="bfloat16",
-    ).bfloat16()
     trainer = FixedLoRATrainer(model,
         LoRAConfigV2(r={rank}, alpha={rank}, dropout=0.0),
@@ -376,7 +376,7 @@ try:
             dataset_dir="{output_dir}/preprocessed_tensors",
             output_dir="{output_dir}",
             max_epochs={epochs}, batch_size=1, learning_rate={lr},
-            device="cpu", precision="bfloat16", seed=42,
             num_workers=0, pin_memory=False,
         ))

         output_dir="{output_dir}/preprocessed_tensors",
         checkpoint_dir="{ACE_CHECKPOINT_DIR}",
         variant="turbo", max_duration=60.0,
+        device="cpu", precision="float32",
     )
     processed = result.get("processed", 0)
     failed = result.get("failed", 0)
     model = load_decoder_for_training(
         checkpoint_dir="{ACE_CHECKPOINT_DIR}", variant="turbo",
+        device="cpu", precision="float32",
+    ).float()
     trainer = FixedLoRATrainer(model,
         LoRAConfigV2(r={rank}, alpha={rank}, dropout=0.0),
             dataset_dir="{output_dir}/preprocessed_tensors",
             output_dir="{output_dir}",
             max_epochs={epochs}, batch_size=1, learning_rate={lr},
+            device="cpu", precision="float32", seed=42,
             num_workers=0, pin_memory=False,
         ))