Spaces:

mnhatdaous
/

learnable-speech

Sleeping

App Files Files Community

mnhatdaous commited on Aug 17

Commit

3b4f4ee

1 Parent(s): 0216954

update yamls

Browse files

Files changed (20) hide show

dac-vae/base.yml +5 -6
dac-vae/config.yml +5 -6
flowae/configs/datasets/dae.yaml +6 -6
flowae/configs/datasets/imagenet_ae.yaml +25 -6
flowae/configs/datasets/imagenet_zdm.yaml +23 -6
flowae/configs/experiments/dito-B-audio.yaml +10 -11
flowae/configs/experiments/dito-B-f8c4-noise-sync.yaml +9 -9
flowae/configs/experiments/dito-B-f8c4.yaml +8 -8
flowae/configs/experiments/dito-L-f8c4.yaml +8 -8
flowae/configs/experiments/dito-XL-f8c4-noise-sync.yaml +9 -9
flowae/configs/experiments/dito-XL-f8c4.yaml +8 -8
flowae/configs/experiments/eval50k_zdm-XL_dito-XL-f8c4-noise-sync.yaml +9 -9
flowae/configs/experiments/eval50k_zdm-XL_dito-XL-f8c4.yaml +9 -9
flowae/configs/experiments/zdm-XL_dito-XL-f8c4-noise-sync.yaml +9 -9
flowae/configs/experiments/zdm-XL_dito-XL-f8c4.yaml +10 -10
flowae/configs/models/zdm-XL_imagenet.yaml +4 -4
flowae/configs/trainers/dito.yaml +3 -3
flowae/configs/trainers/glpto.yaml +4 -4
flowae/configs/trainers/zdm.yaml +2 -2
flowae/load/wandb.yaml +3 -3

dac-vae/base.yml CHANGED Viewed

@@ -19,12 +19,11 @@ discriminator:
   periods: [2, 3, 5, 7, 11]
   fft_sizes: [2048, 1024, 512]
   bands:
-  - [0.0, 0.1]
-  - [0.1, 0.25]
-  - [0.25, 0.5]
-  - [0.5, 0.75]
-  - [0.75, 1.0]
 max_norm: 1000
 max_norm_d: 10

   periods: [2, 3, 5, 7, 11]
   fft_sizes: [2048, 1024, 512]
   bands:
+    - [0.0, 0.1]
+    - [0.1, 0.25]
+    - [0.25, 0.5]
+    - [0.5, 0.75]
+    - [0.75, 1.0]
 max_norm: 1000
 max_norm_d: 10

dac-vae/config.yml CHANGED Viewed

@@ -19,12 +19,11 @@ discriminator:
   periods: [2, 3, 5, 7, 11]
   fft_sizes: [2048, 1024, 512]
   bands:
-  - [0.0, 0.1]
-  - [0.1, 0.25]
-  - [0.25, 0.5]
-  - [0.5, 0.75]
-  - [0.75, 1.0]
 max_norm: 1000
 max_norm_d: 10

   periods: [2, 3, 5, 7, 11]
   fft_sizes: [2048, 1024, 512]
   bands:
+    - [0.0, 0.1]
+    - [0.1, 0.25]
+    - [0.25, 0.5]
+    - [0.5, 0.75]
+    - [0.75, 1.0]
 max_norm: 1000
 max_norm_d: 10

flowae/configs/datasets/dae.yaml CHANGED Viewed

@@ -6,7 +6,7 @@ datasets:
       dataset:
         name: class_folder_audio
         args:
-          root_path: "/home/masuser/minimax-audio/dataset/Emilia/EN"
           sample_rate: 24000
           duration: 0.38
           shuffle: true
@@ -19,14 +19,14 @@ datasets:
       batch_size: 52
       num_workers: 8
       drop_last: true
   val:
     name: wrapper_audio_cae
     args:
       dataset:
         name: class_folder_audio
         args:
-          root_path: "/home/masuser/minimax-audio/dataset/libritts"
           sample_rate: 24000
           duration: 5.0
           shuffle: false
@@ -39,14 +39,14 @@ datasets:
       batch_size: 4
       num_workers: 8
       drop_last: false
   eval_ae:
     name: wrapper_audio_cae
     args:
       dataset:
         name: class_folder_audio
         args:
-          root_path: "/home/masuser/minimax-audio/dataset/libritts"
           sample_rate: 24000
           duration: 5.0
           shuffle: false
@@ -67,4 +67,4 @@ eval_ae_max_samples: 100
 val_idx: [0, 1, 2, 3, 4, 5, 6, 7]
 # Enable autoencoder evaluation
-evaluate_ae: true

       dataset:
         name: class_folder_audio
         args:
+          root_path: '/home/masuser/minimax-audio/dataset/Emilia/EN'
           sample_rate: 24000
           duration: 0.38
           shuffle: true
       batch_size: 52
       num_workers: 8
       drop_last: true
   val:
     name: wrapper_audio_cae
     args:
       dataset:
         name: class_folder_audio
         args:
+          root_path: '/home/masuser/minimax-audio/dataset/libritts'
           sample_rate: 24000
           duration: 5.0
           shuffle: false
       batch_size: 4
       num_workers: 8
       drop_last: false
   eval_ae:
     name: wrapper_audio_cae
     args:
       dataset:
         name: class_folder_audio
         args:
+          root_path: '/home/masuser/minimax-audio/dataset/libritts'
           sample_rate: 24000
           duration: 5.0
           shuffle: false
 val_idx: [0, 1, 2, 3, 4, 5, 6, 7]
 # Enable autoencoder evaluation
+evaluate_ae: true

flowae/configs/datasets/imagenet_ae.yaml CHANGED Viewed

@@ -4,7 +4,14 @@ datasets:
     args:
       dataset:
         name: class_folder
-        args: {root_path: /home/masuser/minimax-audio/mnist_png/training, resize: 256, rand_crop: 256, rand_flip: true, image_only: true}
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
@@ -12,13 +19,19 @@ datasets:
     loader:
       batch_size: 14
       num_workers: 24
   val:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
-        args: {root_path: /home/masuser/minimax-audio/mnist_png/testing, resize: 256, square_crop: true, image_only: true}
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
@@ -26,13 +39,19 @@ datasets:
     loader:
       batch_size: 14
       num_workers: 24
   eval_ae:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
-        args: {root_path: /home/masuser/minimax-audio/mnist_png/testing, resize: 256, square_crop: true, image_only: true}
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
@@ -44,4 +63,4 @@ datasets:
 visualize_ae_dir: /mnt/nvme/dito
 visualize_ae_random_n_samples: 32
-eval_ae_max_samples: 5000

     args:
       dataset:
         name: class_folder
+        args:
+          {
+            root_path: /home/masuser/minimax-audio/mnist_png/training,
+            resize: 256,
+            rand_crop: 256,
+            rand_flip: true,
+            image_only: true,
+          }
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
     loader:
       batch_size: 14
       num_workers: 24
   val:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
+        args:
+          {
+            root_path: /home/masuser/minimax-audio/mnist_png/testing,
+            resize: 256,
+            square_crop: true,
+            image_only: true,
+          }
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
     loader:
       batch_size: 14
       num_workers: 24
   eval_ae:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
+        args:
+          {
+            root_path: /home/masuser/minimax-audio/mnist_png/testing,
+            resize: 256,
+            square_crop: true,
+            image_only: true,
+          }
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
 visualize_ae_dir: /mnt/nvme/dito
 visualize_ae_random_n_samples: 32
+eval_ae_max_samples: 5000

flowae/configs/datasets/imagenet_zdm.yaml CHANGED Viewed

@@ -4,7 +4,14 @@ datasets:
     args:
       dataset:
         name: class_folder
-        args: {root_path: /home/masuser/minimax-audio/mnist_png/training, resize: 256, square_crop: true, rand_flip: true, drop_label_p: 0.1}
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
@@ -12,13 +19,18 @@ datasets:
     loader:
       batch_size: 64
       num_workers: 24
   val:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
-        args: {root_path: /home/masuser/minimax-audio/mnist_png/testing, resize: 256, square_crop: true}
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
@@ -26,13 +38,18 @@ datasets:
     loader:
       batch_size: 64
       num_workers: 24
   eval_zdm:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
-        args: {root_path: /home/masuser/minimax-audio/mnist_png/testing, resize: 256, square_crop: true}
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
@@ -50,4 +67,4 @@ visualize_zdm_random_n_samples: 12
 visualize_zdm_batch_size: 6
 visualize_zdm_guidance_list: [4]
 visualize_zdm_denoising_file: null
-eval_zdm_max_samples: 5000

     args:
       dataset:
         name: class_folder
+        args:
+          {
+            root_path: /home/masuser/minimax-audio/mnist_png/training,
+            resize: 256,
+            square_crop: true,
+            rand_flip: true,
+            drop_label_p: 0.1,
+          }
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
     loader:
       batch_size: 64
       num_workers: 24
   val:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
+        args:
+          {
+            root_path: /home/masuser/minimax-audio/mnist_png/testing,
+            resize: 256,
+            square_crop: true,
+          }
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
     loader:
       batch_size: 64
       num_workers: 24
   eval_zdm:
     name: wrapper_cae
     args:
       dataset:
         name: class_folder
+        args:
+          {
+            root_path: /home/masuser/minimax-audio/mnist_png/testing,
+            resize: 256,
+            square_crop: true,
+          }
       resize_inp: 256
       gt_glores_lb: 256
       gt_glores_ub: 256
 visualize_zdm_batch_size: 6
 visualize_zdm_guidance_list: [4]
 visualize_zdm_denoising_file: null
+eval_zdm_max_samples: 5000

flowae/configs/experiments/dito-B-audio.yaml CHANGED Viewed

@@ -8,21 +8,21 @@ model:
     # Encoder
     encoder:
       name: dac_encoder
-      args: {config_name: snake}
     # Latent configuration - now fully convolutional
-    z_channels: 64  # Number of latent channels
     zaug_p: 0.1
     zaug_decoding_loss_type: suffix
     zaug_zdm_diffusion:
       name: fm
-      args: {timescale: 1000.0}
     # Decoder (identity for DiTo)
     decoder:
       name: identity
     # Renderer - Fully convolutional for dynamic duration
     renderer:
       name: fixres_renderer_wrapper
@@ -37,12 +37,11 @@ model:
             c2: 512
             pe_dim: 320
             t_dim: 1280
     # Diffusion configuration
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
-    render_n_steps: 50

     # Encoder
     encoder:
       name: dac_encoder
+      args: { config_name: snake }
     # Latent configuration - now fully convolutional
+    z_channels: 64 # Number of latent channels
     zaug_p: 0.1
     zaug_decoding_loss_type: suffix
     zaug_zdm_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
     # Decoder (identity for DiTo)
     decoder:
       name: identity
     # Renderer - Fully convolutional for dynamic duration
     renderer:
       name: fixres_renderer_wrapper
             c2: 512
             pe_dim: 320
             t_dim: 1280
     # Diffusion configuration
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
+    render_n_steps: 50

flowae/configs/experiments/dito-B-f8c4-noise-sync.yaml CHANGED Viewed

@@ -7,8 +7,8 @@ model:
   args:
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [64, 1, 1]
     z_layernorm: true
@@ -16,10 +16,10 @@ model:
     zaug_decoding_loss_type: suffix
     zaug_zdm_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -33,11 +33,11 @@ model:
             c2: 512
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   args:
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [64, 1, 1]
     z_layernorm: true
     zaug_decoding_loss_type: suffix
     zaug_zdm_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 512
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/dito-B-f8c4.yaml CHANGED Viewed

@@ -7,13 +7,13 @@ model:
   args:
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -27,11 +27,11 @@ model:
             c2: 512
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   args:
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 512
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/dito-L-f8c4.yaml CHANGED Viewed

@@ -7,13 +7,13 @@ model:
   args:
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -27,11 +27,11 @@ model:
             c2: 768
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   args:
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 768
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/dito-XL-f8c4-noise-sync.yaml CHANGED Viewed

@@ -7,8 +7,8 @@ model:
   args:
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
@@ -16,10 +16,10 @@ model:
     zaug_decoding_loss_type: suffix
     zaug_zdm_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -33,11 +33,11 @@ model:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   args:
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
     zaug_decoding_loss_type: suffix
     zaug_zdm_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/dito-XL-f8c4.yaml CHANGED Viewed

@@ -7,13 +7,13 @@ model:
   args:
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -27,11 +27,11 @@ model:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   args:
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/eval50k_zdm-XL_dito-XL-f8c4-noise-sync.yaml CHANGED Viewed

@@ -11,16 +11,16 @@ model:
   args:
     zdm_force_guidance: 2.0
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -34,11 +34,11 @@ model:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   args:
     zdm_force_guidance: 2.0
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/eval50k_zdm-XL_dito-XL-f8c4.yaml CHANGED Viewed

@@ -11,16 +11,16 @@ model:
   args:
     zdm_force_guidance: 2.0
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -34,11 +34,11 @@ model:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   args:
     zdm_force_guidance: 2.0
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/zdm-XL_dito-XL-f8c4-noise-sync.yaml CHANGED Viewed

@@ -8,16 +8,16 @@ model:
   name: dito
   args:
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -31,11 +31,11 @@ model:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   name: dito
   args:
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/experiments/zdm-XL_dito-XL-f8c4.yaml CHANGED Viewed

@@ -4,20 +4,20 @@ __base__:
   - configs/trainers/zdm.yaml
 model:
-  load_ckpt:
   name: dito
   args:
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
-      args: {config_name: f8c4}
     z_shape: [4, 32, 32]
     z_layernorm: true
-    decoder: {name: identity}
     renderer:
       name: fixres_renderer_wrapper
       args:
@@ -31,11 +31,11 @@ model:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    render_sampler: {name: fm_euler_sampler}
     render_n_steps: 50
     loss_config: {}

   - configs/trainers/zdm.yaml
 model:
+  load_ckpt:
   name: dito
   args:
     renderer_ema_rate: 1
     encoder:
       name: vqgan_encoder
+      args: { config_name: f8c4 }
     z_shape: [4, 32, 32]
     z_layernorm: true
+    decoder: { name: identity }
     renderer:
       name: fixres_renderer_wrapper
       args:
             c2: 1024
             pe_dim: 320
             t_dim: 1280
     render_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    render_sampler: { name: fm_euler_sampler }
     render_n_steps: 50
     loss_config: {}

flowae/configs/models/zdm-XL_imagenet.yaml CHANGED Viewed

@@ -2,11 +2,11 @@ model:
   args:
     zdm_net:
       name: dit_xl_2
-      args: {n_classes: 1001}
     zdm_diffusion:
       name: fm
-      args: {timescale: 1000.0}
-    zdm_sampler: {name: fm_euler_sampler}
     zdm_n_steps: 200
     zdm_train_normalize: false
-    zdm_class_cond: 1000

   args:
     zdm_net:
       name: dit_xl_2
+      args: { n_classes: 1001 }
     zdm_diffusion:
       name: fm
+      args: { timescale: 1000.0 }
+    zdm_sampler: { name: fm_euler_sampler }
     zdm_n_steps: 200
     zdm_train_normalize: false
+    zdm_class_cond: 1000

flowae/configs/trainers/dito.yaml CHANGED Viewed

@@ -11,9 +11,9 @@ vis_iter: 50000
 optimizers:
   encoder:
     name: adamw
-    args: {lr: 1.e-4}
   renderer:
     name: adamw
-    args: {lr: 1.e-4}
-evaluate_ae: true

 optimizers:
   encoder:
     name: adamw
+    args: { lr: 1.e-4 }
   renderer:
     name: adamw
+    args: { lr: 1.e-4 }
+evaluate_ae: true

flowae/configs/trainers/glpto.yaml CHANGED Viewed

@@ -11,14 +11,14 @@ vis_iter: 50000
 optimizers:
   encoder:
     name: adam
-    args: {lr: 1.e-4, betas: [0.5, 0.9]}
   renderer:
     name: adam
-    args: {lr: 1.e-4, betas: [0.5, 0.9]}
   disc:
     name: adam
-    args: {lr: 1.e-4, betas: [0.5, 0.9]}
 gan_start_after_iters: 50000
 find_unused_parameters: true
-evaluate_ae: true

 optimizers:
   encoder:
     name: adam
+    args: { lr: 1.e-4, betas: [0.5, 0.9] }
   renderer:
     name: adam
+    args: { lr: 1.e-4, betas: [0.5, 0.9] }
   disc:
     name: adam
+    args: { lr: 1.e-4, betas: [0.5, 0.9] }
 gan_start_after_iters: 50000
 find_unused_parameters: true
+evaluate_ae: true

flowae/configs/trainers/zdm.yaml CHANGED Viewed

@@ -14,7 +14,7 @@ ckpt_select_metric:
 optimizers:
   zdm:
     name: adamw
-    args: {lr: 1.e-4, weight_decay: 0.0}
 find_unused_parameters: true
-evaluate_zdm: true

 optimizers:
   zdm:
     name: adamw
+    args: { lr: 1.e-4, weight_decay: 0.0 }
 find_unused_parameters: true
+evaluate_zdm: true

flowae/load/wandb.yaml CHANGED Viewed

@@ -1,3 +1,3 @@
-entity:
-api_key:
-project:

+entity:
+api_key:
+project: