younadi commited on Mar 12

Commit

6179bb6

1 Parent(s): ff1ceb8

commit

Browse files

Files changed (16) hide show

source/.ipynb +22 -0
source/create_dataset.bash +4 -2
source/create_dataset.py +29 -7
source/demos/ftd/create_dataset.log +16 -0
source/demos/ftd/metadata.json +1 -1
source/demos/rs_artifacts/recover_schedules.log +19 -19
source/demos/rs_artifacts/recover_schedules_pbar.log +1 -1
source/demos/train_artifacts/checkpoints/best_checkpoint.pth +1 -1
source/demos/train_artifacts/checkpoints/last_checkpoint.pth +1 -1
source/demos/train_artifacts/train.log +41 -41
source/demos/train_artifacts/train_pbar_epoch.log +1 -1
source/demos/train_artifacts/train_pbar_val.log +1 -1
source/launch_create_dataset.py +23 -0
source/launch_process_dataset.py +18 -0
source/launch_train.py +42 -0
source/train.py +162 -97

source/.ipynb CHANGED Viewed

@@ -3,6 +3,28 @@
   {
    "cell_type": "code",
    "execution_count": 2,
    "id": "ee46ab38",
    "metadata": {},
    "outputs": [

   {
    "cell_type": "code",
    "execution_count": 2,
+   "id": "6ff2d58c",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "False"
+      ]
+     },
+     "execution_count": 2,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "import os\n",
+    "os.path.exists(\"\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
    "id": "ee46ab38",
    "metadata": {},
    "outputs": [

source/create_dataset.bash CHANGED Viewed

@@ -1,5 +1,5 @@
 python create_dataset.py\
-    --testing True\
     --nb_jobs 7\
     --nb_machines 2\
     --time_min 0\
@@ -8,4 +8,6 @@ python create_dataset.py\
     --init_type exhaustive\
     --output_dir "./demos/ftd"\
     --seed 97\
-    --normalize_makespans "true"\

 python create_dataset.py\
+    --testing False\
     --nb_jobs 7\
     --nb_machines 2\
     --time_min 0\
     --init_type exhaustive\
     --output_dir "./demos/ftd"\
     --seed 97\
+    --normalize_makespans "true"\
+    --pfsp_instance ""\
+    --autoname_output_dir ""\

source/create_dataset.py CHANGED Viewed

@@ -6,6 +6,7 @@ import math
 from loguru import logger
 import tqdm
 import time
 def generate_random_pfsp_instance(nb_jobs, nb_machines, time_min, time_max, seed=97):
@@ -389,19 +390,36 @@ def create_dataset(
     output_dir,
     seed,
     normalize_makespans,
 ):
     # create the output folder
     os.makedirs(output_dir, exist_ok=True)
     # check if experiment termination flag file exists
     if not testing:
-        if os.path.exists(os.path.join(args.output_dir, ".terminated_create_dataset")):
             print("Dataset creation already done. Exiting...")
             return None
-    # prepare loging
-    logger.add(os.path.join(output_dir, "create_dataset.log"))
     # log parameters
     logger.info(f"nb_samples: {nb_samples}")
@@ -561,21 +579,25 @@ if __name__ == "__main__":
     parser.add_argument("--nb_samples", type=int, required=True, help="Number of base samples to generate")
     parser.add_argument("--init_type", type=str, required=True, choices=["exhaustive", "cds", "palmer", "neh", "heuristics", "random"], help="Initialization type for the base samples")
     parser.add_argument("--output_dir", type=str, required=True, help="Path to the output directory where dataset artifacts will be saved")
     parser.add_argument("--seed", type=int, required=True, help="Random seed for reproducibility (set to None for no seeding)")
     parser.add_argument("--normalize_makespans", type=bool, required=True, help="Whether to normalize makespans by the sum of processing times")
     args = parser.parse_args()
-    # create pfsp_instance
-    pfsp_instance = generate_random_pfsp_instance(args.nb_jobs, args.nb_machines, args.time_min, args.time_max, seed=args.seed)
     # create the dataset
     create_dataset(
         testing=args.testing,
-        pfsp_instance=pfsp_instance,
         nb_samples=args.nb_samples,
         init_type=args.init_type,
         output_dir=args.output_dir,
         seed=args.seed,
         normalize_makespans=args.normalize_makespans,
     )
 # ======

 from loguru import logger
 import tqdm
 import time
+import namer
 def generate_random_pfsp_instance(nb_jobs, nb_machines, time_min, time_max, seed=97):
     output_dir,
     seed,
     normalize_makespans,
+    nb_jobs,
+    nb_machines,
+    time_min,
+    time_max,
+    autoname_output_dir,
 ):
+    if autoname_output_dir:
+        output_dir = os.path.join(output_dir, time.strftime("%Y_%m_%d_%H_%M_%S") + "_" + namer.generate(separator="_", category="sports"))
+    # prepare loging
+    logger.add(os.path.join(output_dir, "create_dataset.log"))
+    if os.path.exists(pfsp_instance):
+        # TODO: add logic to load pfsp_instance from some file
+        pass
+    else:
+        # create pfsp_instance
+        logger.info(f"Creating pfsp_instance with {nb_jobs} jobs and {nb_machines} machines")
+        pfsp_instance = generate_random_pfsp_instance(nb_jobs, nb_machines, time_min, time_max, seed=seed)
     # create the output folder
     os.makedirs(output_dir, exist_ok=True)
     # check if experiment termination flag file exists
     if not testing:
+        if os.path.exists(os.path.join(output_dir, ".terminated_create_dataset")):
             print("Dataset creation already done. Exiting...")
             return None
     # log parameters
     logger.info(f"nb_samples: {nb_samples}")
     parser.add_argument("--nb_samples", type=int, required=True, help="Number of base samples to generate")
     parser.add_argument("--init_type", type=str, required=True, choices=["exhaustive", "cds", "palmer", "neh", "heuristics", "random"], help="Initialization type for the base samples")
     parser.add_argument("--output_dir", type=str, required=True, help="Path to the output directory where dataset artifacts will be saved")
+    parser.add_argument("--autoname_output_dir", type=bool, required=True, help="Whether to autoname the output directory")
     parser.add_argument("--seed", type=int, required=True, help="Random seed for reproducibility (set to None for no seeding)")
     parser.add_argument("--normalize_makespans", type=bool, required=True, help="Whether to normalize makespans by the sum of processing times")
+    parser.add_argument("--pfsp_instance", type=str, required=True, help="Path to the pfsp instance or None if to be generated")
     args = parser.parse_args()
     # create the dataset
     create_dataset(
         testing=args.testing,
         nb_samples=args.nb_samples,
         init_type=args.init_type,
         output_dir=args.output_dir,
         seed=args.seed,
         normalize_makespans=args.normalize_makespans,
+        pfsp_instance=args.pfsp_instance,
+        nb_jobs=args.nb_jobs,
+        nb_machines=args.nb_machines,
+        time_min=args.time_min,
+        time_max=args.time_max,
+        autoname_output_dir=args.autoname_output_dir,
     )
 # ======

source/demos/ftd/create_dataset.log CHANGED Viewed

@@ -5,3 +5,19 @@
 2026-03-10 13:57:19.791 | INFO     | __main__:create_dataset:415 - Normalizing makespans by the sum of processing times with pfsp sum: 7.829251766204834
 2026-03-10 13:57:19.791 | INFO     | __main__:create_dataset:422 - Exhaustive init_type: Number of samples: 5040
 2026-03-10 13:57:19.834 | INFO     | __main__:create_dataset:533 - Minimum makespan: 0.5417570471763611

 2026-03-10 13:57:19.791 | INFO     | __main__:create_dataset:415 - Normalizing makespans by the sum of processing times with pfsp sum: 7.829251766204834
 2026-03-10 13:57:19.791 | INFO     | __main__:create_dataset:422 - Exhaustive init_type: Number of samples: 5040
 2026-03-10 13:57:19.834 | INFO     | __main__:create_dataset:533 - Minimum makespan: 0.5417570471763611
+2026-03-12 11:17:09.860 | INFO     | __main__:create_dataset:418 - nb_samples: 0
+2026-03-12 11:17:09.860 | INFO     | __main__:create_dataset:419 - init_type: exhaustive
+2026-03-12 11:17:09.860 | INFO     | __main__:create_dataset:420 - output_dir: ./demos/ftd
+2026-03-12 11:17:09.860 | INFO     | __main__:create_dataset:421 - seed: 97
+2026-03-12 11:19:00.900 | INFO     | __main__:create_dataset:420 - nb_samples: 0
+2026-03-12 11:19:00.900 | INFO     | __main__:create_dataset:421 - init_type: exhaustive
+2026-03-12 11:19:00.900 | INFO     | __main__:create_dataset:422 - output_dir: ./demos/ftd
+2026-03-12 11:19:00.900 | INFO     | __main__:create_dataset:423 - seed: 97
+2026-03-12 11:20:45.676 | INFO     | __main__:create_dataset:405 - Creating pfsp_instance with 7 jobs and 2 machines
+2026-03-12 11:20:45.703 | INFO     | __main__:create_dataset:419 - nb_samples: 0
+2026-03-12 11:20:45.703 | INFO     | __main__:create_dataset:420 - init_type: exhaustive
+2026-03-12 11:20:45.703 | INFO     | __main__:create_dataset:421 - output_dir: ./demos/ftd
+2026-03-12 11:20:45.703 | INFO     | __main__:create_dataset:422 - seed: 97
+2026-03-12 11:20:45.704 | INFO     | __main__:create_dataset:427 - Normalizing makespans by the sum of processing times with pfsp sum: 7.829251766204834
+2026-03-12 11:20:45.704 | INFO     | __main__:create_dataset:434 - Exhaustive init_type: Number of samples: 5040
+2026-03-12 11:20:45.751 | INFO     | __main__:create_dataset:545 - Minimum makespan: 0.5417570471763611

source/demos/ftd/metadata.json CHANGED Viewed

@@ -5,5 +5,5 @@
     "init_type": "exhaustive",
     "data_path": "./demos/ftd",
     "seed": 97,
-    "date_time": "2026_03_10_13_57_19"
 }

     "init_type": "exhaustive",
     "data_path": "./demos/ftd",
     "seed": 97,
+    "date_time": "2026_03_12_11_20_45"
 }

source/demos/rs_artifacts/recover_schedules.log CHANGED Viewed

@@ -1,19 +1,19 @@
-2026-03-10 16:36:22.938 | INFO     | __main__:<module>:395 - Found better makespan!:
-2026-03-10 16:36:22.939 | INFO     | __main__:<module>:396 -    recovered permutation: [1 4 3 2 6 5 0]
-2026-03-10 16:36:22.939 | INFO     | __main__:<module>:397 -    actual makespan: 5.0353
-2026-03-10 16:36:22.939 | INFO     | __main__:<module>:398 -    actual makespan normalized: 0.6431
-2026-03-10 16:36:22.939 | INFO     | __main__:<module>:399 -    predicted makespan (normalized): 0.6463
-2026-03-10 16:36:23.148 | INFO     | __main__:<module>:395 - Found better makespan!:
-2026-03-10 16:36:23.149 | INFO     | __main__:<module>:396 -    recovered permutation: [6 1 3 4 0 5 2]
-2026-03-10 16:36:23.149 | INFO     | __main__:<module>:397 -    actual makespan: 4.6095
-2026-03-10 16:36:23.149 | INFO     | __main__:<module>:398 -    actual makespan normalized: 0.5888
-2026-03-10 16:36:23.149 | INFO     | __main__:<module>:399 -    predicted makespan (normalized): 0.5881
-2026-03-10 16:36:35.134 | INFO     | __main__:<module>:395 - Found better makespan!:
-2026-03-10 16:36:35.134 | INFO     | __main__:<module>:396 -    recovered permutation: [4 6 3 1 0 5 2]
-2026-03-10 16:36:35.134 | INFO     | __main__:<module>:397 -    actual makespan: 4.3768
-2026-03-10 16:36:35.134 | INFO     | __main__:<module>:398 -    actual makespan normalized: 0.5590
-2026-03-10 16:36:35.134 | INFO     | __main__:<module>:399 -    predicted makespan (normalized): 0.5755
-2026-03-10 16:37:03.649 | INFO     | __main__:<module>:411 - NEH makespan: 0.5418
-2026-03-10 16:37:03.649 | INFO     | __main__:<module>:412 - CDS makespan: 0.5418
-2026-03-10 16:37:03.649 | INFO     | __main__:<module>:413 - Palmer makespan: 0.5595
-2026-03-10 16:37:03.649 | INFO     | __main__:<module>:414 - Best makespan found by optimization: 0.5590

+2026-03-12 13:06:43.046 | INFO     | __main__:<module>:395 - Found better makespan!:
+2026-03-12 13:06:43.046 | INFO     | __main__:<module>:396 -    recovered permutation: [1 4 3 2 6 5 0]
+2026-03-12 13:06:43.046 | INFO     | __main__:<module>:397 -    actual makespan: 5.0353
+2026-03-12 13:06:43.047 | INFO     | __main__:<module>:398 -    actual makespan normalized: 0.6431
+2026-03-12 13:06:43.047 | INFO     | __main__:<module>:399 -    predicted makespan (normalized): 0.6463
+2026-03-12 13:06:43.257 | INFO     | __main__:<module>:395 - Found better makespan!:
+2026-03-12 13:06:43.257 | INFO     | __main__:<module>:396 -    recovered permutation: [6 1 3 4 0 5 2]
+2026-03-12 13:06:43.258 | INFO     | __main__:<module>:397 -    actual makespan: 4.6095
+2026-03-12 13:06:43.258 | INFO     | __main__:<module>:398 -    actual makespan normalized: 0.5888
+2026-03-12 13:06:43.258 | INFO     | __main__:<module>:399 -    predicted makespan (normalized): 0.5881
+2026-03-12 13:06:55.273 | INFO     | __main__:<module>:395 - Found better makespan!:
+2026-03-12 13:06:55.273 | INFO     | __main__:<module>:396 -    recovered permutation: [4 6 3 1 0 5 2]
+2026-03-12 13:06:55.273 | INFO     | __main__:<module>:397 -    actual makespan: 4.3768
+2026-03-12 13:06:55.273 | INFO     | __main__:<module>:398 -    actual makespan normalized: 0.5590
+2026-03-12 13:06:55.273 | INFO     | __main__:<module>:399 -    predicted makespan (normalized): 0.5755
+2026-03-12 13:07:23.978 | INFO     | __main__:<module>:411 - NEH makespan: 0.5418
+2026-03-12 13:07:23.978 | INFO     | __main__:<module>:412 - CDS makespan: 0.5418
+2026-03-12 13:07:23.978 | INFO     | __main__:<module>:413 - Palmer makespan: 0.5595
+2026-03-12 13:07:23.978 | INFO     | __main__:<module>:414 - Best makespan found by optimization: 0.5590

source/demos/rs_artifacts/recover_schedules_pbar.log CHANGED Viewed

	@@ -1 +1 @@
1	- Latent schedules optimization: 100%\|████████████████████████~~██████████████████████████████████████████████████████████~~\| 2000/2000 [00:41<00:00, 48.~~72it~~/s, total loss=1.18e+3, makespan=-0.0432, sinkhorn=592]


1	+ Latent schedules optimization: 100%\|████████████████████████\| 2000/2000 [00:41<00:00, 48.44it/s, total loss=1.18e+3, makespan=-0.0432, sinkhorn=592]

source/demos/train_artifacts/checkpoints/best_checkpoint.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b1dad33e8a604d33778a2b09bfc3bb7ac8963a3ebb922bcc3e54a394bb6fe27
 size 1272039

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7f2a830b2b04168daacedd0b0c41ed034c98ec3be35611dd2a32c8cf6602353
 size 1272039

source/demos/train_artifacts/checkpoints/last_checkpoint.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8eedb1539052d19084f49a89460d478455c41828f7cc6711f0c12358a8e460d6
 size 1272039

 version https://git-lfs.github.com/spec/v1
+oid sha256:6500dac2061304bfd78de1d483743f4e57cc9830e68f30e148c9c9df5d483f62
 size 1272039

source/demos/train_artifacts/train.log CHANGED Viewed

@@ -1,41 +1,41 @@
-2026-03-10 16:18:33.920 | INFO     | __main__:__init__:292 - Loaded schedules from ./demos/ftd_processed/schedules_train.npy with shape (8568, 7)
-2026-03-10 16:18:33.920 | INFO     | __main__:__init__:297 - Loaded makespans from ./demos/ftd_processed/makespans_train.npy with shape (8568, 7)
-2026-03-10 16:18:33.921 | INFO     | __main__:<module>:325 - schedules.shape: torch.Size([64, 7])
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:326 - makespans.shape: torch.Size([64, 7])
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:392 - data_dir: ./demos/ftd_processed
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:393 - block_size: 7
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:394 - vocab_size: 7
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:395 - n_embd: 64
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:396 - n_head: 4
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:397 - n_layer: 2
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:398 - ff_width: 4
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:399 - train_batch_size: 64
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:400 - val_batch_size: 256
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:401 - dropout: 0.0
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:402 - nb_epochs: 5
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:403 - early_stopping_patience: 15
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:404 - nb_iters: 670
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:405 - checkpoint_interval: 33
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:406 - decay_lr: True
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:407 - lr_partitions_ratios: [0.66, None]
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:408 - lr_partitions_iters: [442, 228]
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:409 - init_lr: 0.0001
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:410 - max_lr: 0.001
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:411 - min_lr: 5e-05
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:412 - lr_warmup_iters_ratio: 0.1
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:413 - lr_decay_iters_ratio: 0.95
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:414 - beta1: 0.9
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:415 - beta2: 0.95
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:416 - weight_decay: 0.1
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:417 - grad_clip: 1.0
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:418 - compile: False
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:419 - compile_mode: default
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:420 - intermediate_schedules: True
-2026-03-10 16:18:33.922 | INFO     | __main__:<module>:421 - save_only_last_checkpoint: True
-2026-03-10 16:18:34.011 | INFO     | __main__:<module>:490 - The model has 100K trainable parameters
-2026-03-10 16:18:34.011 | INFO     | __main__:<module>:511 - num decayed parameter tensors: 40, with 99,712 parameters
-2026-03-10 16:18:34.011 | INFO     | __main__:<module>:512 - num non-decayed parameter tensors: 9, with 513 parameters
-2026-03-10 16:18:34.011 | INFO     | __main__:<module>:516 - using fused AdamW: True
-2026-03-10 16:18:34.544 | INFO     | __main__:__init__:292 - Loaded schedules from ./demos/ftd_processed/schedules_val.npy with shape (756, 7)
-2026-03-10 16:18:34.544 | INFO     | __main__:__init__:297 - Loaded makespans from ./demos/ftd_processed/makespans_val.npy with shape (756, 7)
-2026-03-10 16:18:42.454 | INFO     | __main__:<module>:703 - Best validation loss: 0.0003

+2026-03-12 13:06:19.589 | INFO     | __main__:__init__:288 - Loaded schedules from ./demos/ftd_processed/schedules_train.npy with shape (8568, 7)
+2026-03-12 13:06:19.590 | INFO     | __main__:__init__:293 - Loaded makespans from ./demos/ftd_processed/makespans_train.npy with shape (8568, 7)
+2026-03-12 13:06:19.605 | INFO     | __main__:train:321 - schedules.shape: torch.Size([64, 7])
+2026-03-12 13:06:19.605 | INFO     | __main__:train:322 - makespans.shape: torch.Size([64, 7])
+2026-03-12 13:06:19.605 | INFO     | __main__:train:388 - data_dir: ./demos/ftd_processed
+2026-03-12 13:06:19.605 | INFO     | __main__:train:389 - block_size: 7
+2026-03-12 13:06:19.605 | INFO     | __main__:train:390 - vocab_size: 7
+2026-03-12 13:06:19.605 | INFO     | __main__:train:391 - n_embd: 64
+2026-03-12 13:06:19.605 | INFO     | __main__:train:392 - n_head: 4
+2026-03-12 13:06:19.605 | INFO     | __main__:train:393 - n_layer: 2
+2026-03-12 13:06:19.605 | INFO     | __main__:train:394 - ff_width: 4
+2026-03-12 13:06:19.605 | INFO     | __main__:train:395 - train_batch_size: 64
+2026-03-12 13:06:19.605 | INFO     | __main__:train:396 - val_batch_size: 256
+2026-03-12 13:06:19.605 | INFO     | __main__:train:397 - dropout: 0.0
+2026-03-12 13:06:19.606 | INFO     | __main__:train:398 - nb_epochs: 5
+2026-03-12 13:06:19.606 | INFO     | __main__:train:399 - early_stopping_patience: 15
+2026-03-12 13:06:19.606 | INFO     | __main__:train:400 - nb_iters: 670
+2026-03-12 13:06:19.606 | INFO     | __main__:train:401 - checkpoint_interval: 33
+2026-03-12 13:06:19.606 | INFO     | __main__:train:402 - decay_lr: True
+2026-03-12 13:06:19.606 | INFO     | __main__:train:403 - lr_partitions_ratios: [0.66, None]
+2026-03-12 13:06:19.606 | INFO     | __main__:train:404 - lr_partitions_iters: [442, 228]
+2026-03-12 13:06:19.606 | INFO     | __main__:train:405 - init_lr: 0.0001
+2026-03-12 13:06:19.606 | INFO     | __main__:train:406 - max_lr: 0.001
+2026-03-12 13:06:19.606 | INFO     | __main__:train:407 - min_lr: 5e-05
+2026-03-12 13:06:19.606 | INFO     | __main__:train:408 - lr_warmup_iters_ratio: 0.1
+2026-03-12 13:06:19.606 | INFO     | __main__:train:409 - lr_decay_iters_ratio: 0.95
+2026-03-12 13:06:19.606 | INFO     | __main__:train:410 - beta1: 0.9
+2026-03-12 13:06:19.606 | INFO     | __main__:train:411 - beta2: 0.95
+2026-03-12 13:06:19.606 | INFO     | __main__:train:412 - weight_decay: 0.1
+2026-03-12 13:06:19.606 | INFO     | __main__:train:413 - grad_clip: 1.0
+2026-03-12 13:06:19.606 | INFO     | __main__:train:414 - compile: False
+2026-03-12 13:06:19.606 | INFO     | __main__:train:415 - compile_mode: default
+2026-03-12 13:06:19.606 | INFO     | __main__:train:416 - intermediate_schedules: True
+2026-03-12 13:06:19.606 | INFO     | __main__:train:417 - save_only_last_checkpoint: True
+2026-03-12 13:06:19.703 | INFO     | __main__:train:485 - The model has 100K trainable parameters
+2026-03-12 13:06:19.703 | INFO     | __main__:train:506 - num decayed parameter tensors: 40, with 99,712 parameters
+2026-03-12 13:06:19.703 | INFO     | __main__:train:507 - num non-decayed parameter tensors: 9, with 513 parameters
+2026-03-12 13:06:19.704 | INFO     | __main__:train:511 - using fused AdamW: True
+2026-03-12 13:06:20.458 | INFO     | __main__:__init__:288 - Loaded schedules from ./demos/ftd_processed/schedules_val.npy with shape (756, 7)
+2026-03-12 13:06:20.458 | INFO     | __main__:__init__:293 - Loaded makespans from ./demos/ftd_processed/makespans_val.npy with shape (756, 7)
+2026-03-12 13:06:28.461 | INFO     | __main__:train:698 - Best validation loss: 0.0003

source/demos/train_artifacts/train_pbar_epoch.log CHANGED Viewed

@@ -1 +1 @@

- Epoch 5/5: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████~~█████████████████████████████████████████████████~~| 134/134 [00:01<00:00, 88.~~48it~~/s]


1	+ Epoch 5/5: 100%\|██████████████████████████████████████████████████████████████████████████████████████████████████\| 134/134 [00:01<00:00, 82.19it/s]

source/demos/train_artifacts/train_pbar_val.log CHANGED Viewed

@@ -1 +1 @@

- Validation 5.00: 100%|███████████████████████████████████████████████████████████████████████████████████████████████~~█████████████████████████████████████████████████~~| 3/3 [00:00<00:00, ~~274~~.~~39it~~/s]


1	+ Validation 5.00: 100%\|███████████████████████████████████████████████████████████████████████████████████████████████\| 3/3 [00:00<00:00, 232.26it/s]

source/launch_create_dataset.py ADDED Viewed

	@@ -0,0 +1,23 @@

+from create_dataset import create_dataset
+params = [
+    {
+        "testing": False,
+        "nb_jobs": nb_jobs,
+        "nb_machines": nb_machines,
+        "time_min": 0,
+        "time_max": 1,
+        "nb_samples": 0,
+        "init_type": "exhaustive",
+        "output_dir": f"../datasets/exhaustive_{nb_jobs}_{nb_machines}",
+        "seed": 97,
+        "normalize_makespans": True,
+        "pfsp_instance": "",
+        "autoname_output_dir": False,
+    }
+    for nb_jobs in range(7, 11)
+    for nb_machines in range(2, 7)
+]
+for param in params:
+    create_dataset(**param)

source/launch_process_dataset.py ADDED Viewed

	@@ -0,0 +1,18 @@

+from process_dataset import process_dataset
+params = [
+    {
+        "input_dir": f"../datasets/exhaustive_{nb_jobs}_{nb_machines}",
+        "output_dir": f"../datasets/exhaustive_{nb_jobs}_{nb_machines}/top_{k_eliminated}",
+        "train_ratio": 0.85,
+        "seed": 97,
+        "eliminate_top_k_makespans": k_eliminated,
+        "duplication_factor": 0.0,
+    }
+    for nb_jobs in range(7, 11)
+    for nb_machines in range(2, 7)
+    for k_eliminated in [0, 1, 2, 3, 4]
+]
+for param in params:
+    process_dataset(**param)

source/launch_train.py ADDED Viewed

	@@ -0,0 +1,42 @@

+from train import train
+params = [
+    {
+    "testing": False,
+    "seed": 97,
+    "data_dir": f"../datasets/exhaustive_{nb_jobs}_{nb_machines}/top_{top_k}",
+    "n_embd": 64,
+    "n_head": 4,
+    "n_layer": 2,
+    "ff_width": 4,
+    "intermediate_schedules": True,
+    "train_batch_size": 128,
+    "val_batch_size": 256,
+    "nb_epochs": 5,
+    "early_stopping_patience": 15,
+    "dropout": 0.0,
+    "checkpoint_interval_ratio": 1.0,
+    "decay_lr": True,
+    "lr_partitions_ratios": [0.66],
+    "init_lr": 1e-4,
+    "max_lr": 1e-3,
+    "min_lr": 5e-5,
+    "lr_warmup_iters_ratio": 0.1,
+    "lr_decay_iters_ratio": 0.95,
+    "beta1": 0.9,
+    "beta2": 0.95,
+    "weight_decay": 1e-1,
+    "grad_clip": 1.0,
+    "compile": "",
+    "compile_mode": "default",
+    "save_only_last_checkpoint": False,
+    "output_dir": f"../datasets/exhaustive_{nb_jobs}_{nb_machines}/top_{top_k}/train_Sm_Wd1e-1",
+    }
+    for nb_jobs in [7, 8, 9]
+    for nb_machines in [2, 3, 4, 5, 6]
+    for top_k in [0, 1, 2, 3, 4]
+]
+for param in params:
+    train(**param)

source/train.py CHANGED Viewed

@@ -173,52 +173,48 @@ class GPT(nn.Module):
     # ======
-if __name__ == "__main__":
-    # parse arguments
-    from argparse import ArgumentParser
-    parser = ArgumentParser()
-    parser.add_argument("--testing", type=bool, required=True)
-    parser.add_argument("--seed", type=int, required=True)
-    parser.add_argument("--data_dir", type=str, required=True)
-    parser.add_argument("--n_embd", type=int, required=True)
-    parser.add_argument("--n_head", type=int, required=True)
-    parser.add_argument("--n_layer", type=int, required=True)
-    parser.add_argument("--intermediate_schedules", type=bool, required=True)
-    parser.add_argument("--dropout", type=float, required=True)
-    parser.add_argument("--ff_width", type=int, required=True)
-    parser.add_argument("--train_batch_size", type=int, required=True)
-    parser.add_argument("--val_batch_size", type=int, required=True)
-    parser.add_argument("--nb_epochs", type=int, required=True)
-    parser.add_argument("--early_stopping_patience", type=int, required=True)
-    parser.add_argument("--checkpoint_interval_ratio", type=float, required=True)
-    parser.add_argument("--decay_lr", type=bool, required=True)
-    parser.add_argument("--lr_partitions_ratios", type=lambda s: [float(item) for item in s.split(',')], help='Comma-separated list of floats that do not add up to 1 (e.g., 0.1,0.5,1)', required=True)
-    parser.add_argument("--init_lr", type=float, required=True)
-    parser.add_argument("--max_lr", type=float, required=True)
-    parser.add_argument("--min_lr", type=float, required=True)
-    parser.add_argument("--lr_warmup_iters_ratio", type=float, required=True)
-    parser.add_argument("--lr_decay_iters_ratio", type=float, required=True)
-    parser.add_argument("--beta1", type=float, required=True)
-    parser.add_argument("--beta2", type=float, required=True)
-    parser.add_argument("--weight_decay", type=float, required=True)
-    parser.add_argument("--grad_clip", type=float, required=True)
-    parser.add_argument("--compile", type=bool, required=True)
-    parser.add_argument("--compile_mode", type=str, required=True)
-    parser.add_argument("--save_only_last_checkpoint", type=bool, required=True)
-    parser.add_argument("--output_dir", type=str, required=True)
-    args = parser.parse_args()
-    os.makedirs(args.output_dir, exist_ok=True)
     # check if experiment termination flag file exists
-    if not args.testing:
-        if os.path.exists(os.path.join(args.output_dir, ".terminated_phase1")):
             print("Phase 1 already terminated. Exiting...")
-            exit()
         # ======
-        if not os.path.exists(os.path.join(args.output_dir, "viz_train.ipynb")):
-            shutil.copy("viz_train.ipynb", args.output_dir)
         # ======
     else:
@@ -236,12 +232,12 @@ if __name__ == "__main__":
             "viz_train.ipynb",
         ]
         for f in files_to_delete:
-            f_path = os.path.join(args.output_dir, f)
             if os.path.exists(f_path): os.remove(f_path)
         # ======
-        checkpoints_dir = os.path.join(args.output_dir, "checkpoints")
         if os.path.exists(checkpoints_dir): shutil.rmtree(checkpoints_dir)
-        shutil.copy("viz_train.ipynb", args.output_dir)
     # ======
     # check if GPU is available
@@ -249,31 +245,31 @@ if __name__ == "__main__":
     device = "cuda"
     # setup logging
-    loguru.logger.add(os.path.join(args.output_dir, "train.log"))
     # set random seeds
-    torch.manual_seed(args.seed)
-    random.seed(args.seed)
-    np.random.seed(args.seed)
     # setup model architecture parameters
-    with open(os.path.join(args.data_dir, "metadata.json"), "r") as f:
         metadata = json.load(f)
     block_size = metadata["nb_jobs"]  # context window size
     vocab_size = metadata["nb_jobs"]  # vocabulary size
-    n_embd = args.n_embd  # embedding dimension
-    n_head = args.n_head  # number of attention heads
     assert n_embd % n_head == 0
-    n_layer = args.n_layer  # number of transformer blocks
-    intermediate_schedules = args.intermediate_schedules
-    ff_width = args.ff_width
     # setup training parameters and utils
-    train_batch_size = args.train_batch_size  # batch size for training
-    val_batch_size = args.val_batch_size # batch size for validation
-    nb_epochs = args.nb_epochs # number of pseudo-epochs to train for
-    early_stopping_patience = args.early_stopping_patience  # number of epochs without improvement to trigger early stopping
-    dropout = args.dropout
     class FlowshopDataset(torch.utils.data.Dataset):
@@ -313,7 +309,7 @@ if __name__ == "__main__":
         # ======
-    train_dataset = FlowshopDataset(args.data_dir, split="train", load_in_memory=False)
     train_data_loader = torch.utils.data.DataLoader(
         train_dataset,
         batch_size=train_batch_size,
@@ -326,24 +322,24 @@ if __name__ == "__main__":
         loguru.logger.info(f"makespans.shape: {makespans.shape}")
         break
     nb_iters = nb_epochs * len(train_data_loader)
-    checkpoint_interval = int(args.checkpoint_interval_ratio * len(train_data_loader))
-    decay_lr = args.decay_lr
-    lr_partitions_ratios = args.lr_partitions_ratios + [None]
     lr_partitions_iters = [int(r * nb_iters) for r in lr_partitions_ratios[:-1]]
     lr_partitions_iters = lr_partitions_iters + [nb_iters - sum(lr_partitions_iters)]
     assert sum(lr_partitions_iters) == nb_iters
-    init_lr = args.init_lr #1e-4
-    max_lr = args.max_lr #1e-3
-    min_lr = args.min_lr #5*1e-5
-    lr_warmup_iters_ratio = args.lr_warmup_iters_ratio #0.1
-    lr_decay_iters_ratio = args.lr_decay_iters_ratio #0.95
-    beta1 = args.beta1 # Adam beta1
-    beta2 = args.beta2 # Adam beta2
-    weight_decay = args.weight_decay # 1e-1  # weight decay
-    grad_clip = args.grad_clip # 1.0  # gradient clipping value
-    compile = args.compile
-    compile_mode = args.compile_mode
-    save_only_last_checkpoint = args.save_only_last_checkpoint
     def human_readable(num):
@@ -389,7 +385,7 @@ if __name__ == "__main__":
     # log parameters
-    loguru.logger.info(f"data_dir: {args.data_dir}")
     loguru.logger.info(f"block_size: {block_size}")
     loguru.logger.info(f"vocab_size: {vocab_size}")
     loguru.logger.info(f"n_embd: {n_embd}")
@@ -421,9 +417,8 @@ if __name__ == "__main__":
     loguru.logger.info(f"save_only_last_checkpoint: {save_only_last_checkpoint}")
     # save parameters into a train_parameters.json
-    import json
     train_params = {
-        "data_dir": args.data_dir,
         "block_size": block_size,
         "vocab_size": vocab_size,
         "n_embd": n_embd,
@@ -454,11 +449,11 @@ if __name__ == "__main__":
         "intermediate_schedules": intermediate_schedules,
         "save_only_last_checkpoint": save_only_last_checkpoint,
     }
-    with open(os.path.join(args.output_dir, "train_parameters.json"), "w") as f: json.dump(train_params, f, indent=4)
     # load the last checkpoint if it exists, otherwise initialize the training from scratch
     try:
-        last_checkpoint = torch.load(os.path.join(args.output_dir, "checkpoints", "last_checkpoint.pth"))
         start_epoch = last_checkpoint["epoch"]
         start_epoch_iter = last_checkpoint["epoch_iter"] + 1
         model_state_dict = last_checkpoint["model_state_dict"]
@@ -467,7 +462,7 @@ if __name__ == "__main__":
         patience_counter = last_checkpoint["patience_counter"]
         improved_this_epoch = last_checkpoint["improved_this_epoch"]
     except FileNotFoundError:
-        os.makedirs(os.path.join(args.output_dir, "checkpoints"), exist_ok=True)
         start_epoch = 0
         start_epoch_iter = 0
         model_state_dict = None
@@ -524,10 +519,10 @@ if __name__ == "__main__":
     torch.set_float32_matmul_precision("high")
     # initialize the np memmap array to save the batch losses
-    batch_losses_path = os.path.join(args.output_dir, "batch_losses.npy")
-    last_batch_loss_idx_path = os.path.join(args.output_dir, "last_batch_loss_idx.npy")
-    val_losses_path = os.path.join(args.output_dir, "val_losses.npy")
-    last_val_loss_idx_path = os.path.join(args.output_dir, "last_val_loss_idx.npy")
     try:
         batch_losses = np.lib.format.open_memmap(batch_losses_path, mode="r+", dtype=np.float32, shape=(nb_iters,))
@@ -546,7 +541,7 @@ if __name__ == "__main__":
     # create data_loader for validation
     val_data_loader = torch.utils.data.DataLoader(
-        FlowshopDataset(args.data_dir, split="val", load_in_memory=True),
         batch_size=val_batch_size,
         shuffle=False,
     )
@@ -560,7 +555,7 @@ if __name__ == "__main__":
         # implement the logic to resume after failure
         ## create the generator, sampler, data loader
         generator = torch.Generator()
-        generator.manual_seed(args.seed + epoch)
         train_sampler = torch.utils.data.RandomSampler(
             train_dataset,
             generator=generator
@@ -586,7 +581,7 @@ if __name__ == "__main__":
             initial=start_epoch_iter,
             desc=f"Epoch {epoch+1}/{nb_epochs}",
         )):
-            with open(os.path.join(args.output_dir, "train_pbar_epoch.log"), "w") as f: f.write(str(pbar))
             # move the batch to the device
             schedules_batch = schedules_batch.to(device)
@@ -629,7 +624,7 @@ if __name__ == "__main__":
                     val_data_loader,
                     desc=f"Validation {epoch+(epoch_iter+1)/len(train_data_loader):.2f}",
                 )):
-                    with open(os.path.join(args.output_dir, "train_pbar_val.log"), "w") as f: f.write(str(pbar2))
                     # move the batch to the device
                     schedules_batch = schedules_batch.to(device)
@@ -640,7 +635,7 @@ if __name__ == "__main__":
                         makespans, loss = train_model(schedules_batch, makespans_batch)
                     total_val_loss += loss.item() * schedules_batch.size(0)
                 # ======
-                with open(os.path.join(args.output_dir, "train_pbar_val.log"), "w") as f: f.write(str(pbar2))
                 # compute the total validation loss (averaging over the dataset)
                 total_val_loss /= len(val_data_loader.dataset)
@@ -669,22 +664,22 @@ if __name__ == "__main__":
                 }
                 torch.save(
                     checkpoint,
-                    os.path.join(args.output_dir, "checkpoints", "last_checkpoint.pth")
                 )
                 if not save_only_last_checkpoint:
                     torch.save(
                         checkpoint,
-                        os.path.join(args.output_dir, "checkpoints", f"checkpoint_epoch_{epoch+(epoch_iter+1)/len(train_data_loader):.2f}.pth")
                     )
                 if best_val_loss == total_val_loss:
                     torch.save(
                         checkpoint,
-                        os.path.join(args.output_dir, "checkpoints", "best_checkpoint.pth")
                     )
                 # ======
             # ======
         # ======
-        with open(os.path.join(args.output_dir, "train_pbar_epoch.log"), "w") as f: f.write(str(pbar))
         # set the start_epoch_iter to 0 for the next epoch
         start_epoch_iter = 0
@@ -703,7 +698,77 @@ if __name__ == "__main__":
     loguru.logger.info(f"Best validation loss: {best_val_loss:.4f}")
     # create experiment termination flag file
-    with open(os.path.join(args.output_dir, ".terminated_phase1"), "w") as f:
         pass
     # ======
-# ======

     # ======
+def train(
+    testing: bool,
+    seed: int,
+    data_dir: str,
+    n_embd: int,
+    n_head: int,
+    n_layer: int,
+    intermediate_schedules: bool,
+    dropout: float,
+    ff_width: int,
+    train_batch_size: int,
+    val_batch_size: int,
+    nb_epochs: int,
+    early_stopping_patience: int,
+    checkpoint_interval_ratio: float,
+    decay_lr: bool,
+    lr_partitions_ratios: list[float],
+    init_lr: float,
+    max_lr: float,
+    min_lr: float,
+    lr_warmup_iters_ratio: float,
+    lr_decay_iters_ratio: float,
+    beta1: float,
+    beta2: float,
+    weight_decay: float,
+    grad_clip: float,
+    compile: bool,
+    compile_mode: str,
+    save_only_last_checkpoint: bool,
+    output_dir: str,
+):
+    os.makedirs(output_dir, exist_ok=True)
     # check if experiment termination flag file exists
+    if not testing:
+        if os.path.exists(os.path.join(output_dir, ".terminated_phase1")):
             print("Phase 1 already terminated. Exiting...")
+            return
         # ======
+        if not os.path.exists(os.path.join(output_dir, "viz_train.ipynb")):
+            shutil.copy("viz_train.ipynb", output_dir)
         # ======
     else:
             "viz_train.ipynb",
         ]
         for f in files_to_delete:
+            f_path = os.path.join(output_dir, f)
             if os.path.exists(f_path): os.remove(f_path)
         # ======
+        checkpoints_dir = os.path.join(output_dir, "checkpoints")
         if os.path.exists(checkpoints_dir): shutil.rmtree(checkpoints_dir)
+        shutil.copy("viz_train.ipynb", output_dir)
     # ======
     # check if GPU is available
     device = "cuda"
     # setup logging
+    loguru.logger.add(os.path.join(output_dir, "train.log"))
     # set random seeds
+    torch.manual_seed(seed)
+    random.seed(seed)
+    np.random.seed(seed)
     # setup model architecture parameters
+    with open(os.path.join(data_dir, "metadata.json"), "r") as f:
         metadata = json.load(f)
     block_size = metadata["nb_jobs"]  # context window size
     vocab_size = metadata["nb_jobs"]  # vocabulary size
+    n_embd = n_embd  # embedding dimension
+    n_head = n_head  # number of attention heads
     assert n_embd % n_head == 0
+    n_layer = n_layer  # number of transformer blocks
+    intermediate_schedules = intermediate_schedules
+    ff_width = ff_width
     # setup training parameters and utils
+    train_batch_size = train_batch_size  # batch size for training
+    val_batch_size = val_batch_size # batch size for validation
+    nb_epochs = nb_epochs # number of pseudo-epochs to train for
+    early_stopping_patience = early_stopping_patience  # number of epochs without improvement to trigger early stopping
+    dropout = dropout
     class FlowshopDataset(torch.utils.data.Dataset):
         # ======
+    train_dataset = FlowshopDataset(data_dir, split="train", load_in_memory=False)
     train_data_loader = torch.utils.data.DataLoader(
         train_dataset,
         batch_size=train_batch_size,
         loguru.logger.info(f"makespans.shape: {makespans.shape}")
         break
     nb_iters = nb_epochs * len(train_data_loader)
+    checkpoint_interval = int(checkpoint_interval_ratio * len(train_data_loader))
+    decay_lr = decay_lr
+    lr_partitions_ratios = lr_partitions_ratios + [None]
     lr_partitions_iters = [int(r * nb_iters) for r in lr_partitions_ratios[:-1]]
     lr_partitions_iters = lr_partitions_iters + [nb_iters - sum(lr_partitions_iters)]
     assert sum(lr_partitions_iters) == nb_iters
+    init_lr = init_lr #1e-4
+    max_lr = max_lr #1e-3
+    min_lr = min_lr #5*1e-5
+    lr_warmup_iters_ratio = lr_warmup_iters_ratio #0.1
+    lr_decay_iters_ratio = lr_decay_iters_ratio #0.95
+    beta1 = beta1 # Adam beta1
+    beta2 = beta2 # Adam beta2
+    weight_decay = weight_decay # 1e-1  # weight decay
+    grad_clip = grad_clip # 1.0  # gradient clipping value
+    compile = compile
+    compile_mode = compile_mode
+    save_only_last_checkpoint = save_only_last_checkpoint
     def human_readable(num):
     # log parameters
+    loguru.logger.info(f"data_dir: {data_dir}")
     loguru.logger.info(f"block_size: {block_size}")
     loguru.logger.info(f"vocab_size: {vocab_size}")
     loguru.logger.info(f"n_embd: {n_embd}")
     loguru.logger.info(f"save_only_last_checkpoint: {save_only_last_checkpoint}")
     # save parameters into a train_parameters.json
     train_params = {
+        "data_dir": data_dir,
         "block_size": block_size,
         "vocab_size": vocab_size,
         "n_embd": n_embd,
         "intermediate_schedules": intermediate_schedules,
         "save_only_last_checkpoint": save_only_last_checkpoint,
     }
+    with open(os.path.join(output_dir, "train_parameters.json"), "w") as f: json.dump(train_params, f, indent=4)
     # load the last checkpoint if it exists, otherwise initialize the training from scratch
     try:
+        last_checkpoint = torch.load(os.path.join(output_dir, "checkpoints", "last_checkpoint.pth"))
         start_epoch = last_checkpoint["epoch"]
         start_epoch_iter = last_checkpoint["epoch_iter"] + 1
         model_state_dict = last_checkpoint["model_state_dict"]
         patience_counter = last_checkpoint["patience_counter"]
         improved_this_epoch = last_checkpoint["improved_this_epoch"]
     except FileNotFoundError:
+        os.makedirs(os.path.join(output_dir, "checkpoints"), exist_ok=True)
         start_epoch = 0
         start_epoch_iter = 0
         model_state_dict = None
     torch.set_float32_matmul_precision("high")
     # initialize the np memmap array to save the batch losses
+    batch_losses_path = os.path.join(output_dir, "batch_losses.npy")
+    last_batch_loss_idx_path = os.path.join(output_dir, "last_batch_loss_idx.npy")
+    val_losses_path = os.path.join(output_dir, "val_losses.npy")
+    last_val_loss_idx_path = os.path.join(output_dir, "last_val_loss_idx.npy")
     try:
         batch_losses = np.lib.format.open_memmap(batch_losses_path, mode="r+", dtype=np.float32, shape=(nb_iters,))
     # create data_loader for validation
     val_data_loader = torch.utils.data.DataLoader(
+        FlowshopDataset(data_dir, split="val", load_in_memory=True),
         batch_size=val_batch_size,
         shuffle=False,
     )
         # implement the logic to resume after failure
         ## create the generator, sampler, data loader
         generator = torch.Generator()
+        generator.manual_seed(seed + epoch)
         train_sampler = torch.utils.data.RandomSampler(
             train_dataset,
             generator=generator
             initial=start_epoch_iter,
             desc=f"Epoch {epoch+1}/{nb_epochs}",
         )):
+            with open(os.path.join(output_dir, "train_pbar_epoch.log"), "w") as f: f.write(str(pbar))
             # move the batch to the device
             schedules_batch = schedules_batch.to(device)
                     val_data_loader,
                     desc=f"Validation {epoch+(epoch_iter+1)/len(train_data_loader):.2f}",
                 )):
+                    with open(os.path.join(output_dir, "train_pbar_val.log"), "w") as f: f.write(str(pbar2))
                     # move the batch to the device
                     schedules_batch = schedules_batch.to(device)
                         makespans, loss = train_model(schedules_batch, makespans_batch)
                     total_val_loss += loss.item() * schedules_batch.size(0)
                 # ======
+                with open(os.path.join(output_dir, "train_pbar_val.log"), "w") as f: f.write(str(pbar2))
                 # compute the total validation loss (averaging over the dataset)
                 total_val_loss /= len(val_data_loader.dataset)
                 }
                 torch.save(
                     checkpoint,
+                    os.path.join(output_dir, "checkpoints", "last_checkpoint.pth")
                 )
                 if not save_only_last_checkpoint:
                     torch.save(
                         checkpoint,
+                        os.path.join(output_dir, "checkpoints", f"checkpoint_epoch_{epoch+(epoch_iter+1)/len(train_data_loader):.2f}.pth")
                     )
                 if best_val_loss == total_val_loss:
                     torch.save(
                         checkpoint,
+                        os.path.join(output_dir, "checkpoints", "best_checkpoint.pth")
                     )
                 # ======
             # ======
         # ======
+        with open(os.path.join(output_dir, "train_pbar_epoch.log"), "w") as f: f.write(str(pbar))
         # set the start_epoch_iter to 0 for the next epoch
         start_epoch_iter = 0
     loguru.logger.info(f"Best validation loss: {best_val_loss:.4f}")
     # create experiment termination flag file
+    with open(os.path.join(output_dir, ".terminated_phase1"), "w") as f:
         pass
     # ======
+# ======
+if __name__ == "__main__":
+    # parse arguments
+    from argparse import ArgumentParser
+    parser = ArgumentParser()
+    parser.add_argument("--testing", type=bool, required=True)
+    parser.add_argument("--seed", type=int, required=True)
+    parser.add_argument("--data_dir", type=str, required=True)
+    parser.add_argument("--n_embd", type=int, required=True)
+    parser.add_argument("--n_head", type=int, required=True)
+    parser.add_argument("--n_layer", type=int, required=True)
+    parser.add_argument("--intermediate_schedules", type=bool, required=True)
+    parser.add_argument("--dropout", type=float, required=True)
+    parser.add_argument("--ff_width", type=int, required=True)
+    parser.add_argument("--train_batch_size", type=int, required=True)
+    parser.add_argument("--val_batch_size", type=int, required=True)
+    parser.add_argument("--nb_epochs", type=int, required=True)
+    parser.add_argument("--early_stopping_patience", type=int, required=True)
+    parser.add_argument("--checkpoint_interval_ratio", type=float, required=True)
+    parser.add_argument("--decay_lr", type=bool, required=True)
+    parser.add_argument("--lr_partitions_ratios", type=lambda s: [float(item) for item in s.split(',')], help='Comma-separated list of floats that do not add up to 1 (e.g., 0.1,0.5,1)', required=True)
+    parser.add_argument("--init_lr", type=float, required=True)
+    parser.add_argument("--max_lr", type=float, required=True)
+    parser.add_argument("--min_lr", type=float, required=True)
+    parser.add_argument("--lr_warmup_iters_ratio", type=float, required=True)
+    parser.add_argument("--lr_decay_iters_ratio", type=float, required=True)
+    parser.add_argument("--beta1", type=float, required=True)
+    parser.add_argument("--beta2", type=float, required=True)
+    parser.add_argument("--weight_decay", type=float, required=True)
+    parser.add_argument("--grad_clip", type=float, required=True)
+    parser.add_argument("--compile", type=bool, required=True)
+    parser.add_argument("--compile_mode", type=str, required=True)
+    parser.add_argument("--save_only_last_checkpoint", type=bool, required=True)
+    parser.add_argument("--output_dir", type=str, required=True)
+    args = parser.parse_args()
+    train(
+        testing=args.testing,
+        seed=args.seed,
+        data_dir=args.data_dir,
+        n_embd=args.n_embd,
+        n_head=args.n_head,
+        n_layer=args.n_layer,
+        intermediate_schedules=args.intermediate_schedules,
+        dropout=args.dropout,
+        ff_width=args.ff_width,
+        train_batch_size=args.train_batch_size,
+        val_batch_size=args.val_batch_size,
+        nb_epochs=args.nb_epochs,
+        early_stopping_patience=args.early_stopping_patience,
+        checkpoint_interval_ratio=args.checkpoint_interval_ratio,
+        decay_lr=args.decay_lr,
+        lr_partitions_ratios=args.lr_partitions_ratios,
+        init_lr=args.init_lr,
+        max_lr=args.max_lr,
+        min_lr=args.min_lr,
+        lr_warmup_iters_ratio=args.lr_warmup_iters_ratio,
+        lr_decay_iters_ratio=args.lr_decay_iters_ratio,
+        beta1=args.beta1,
+        beta2=args.beta2,
+        weight_decay=args.weight_decay,
+        grad_clip=args.grad_clip,
+        compile=args.compile,
+        compile_mode=args.compile_mode,
+        save_only_last_checkpoint=args.save_only_last_checkpoint,
+        output_dir=args.output_dir,
+    )