Spaces:

k23064919
/

smallGroupProject

Runtime error

Yusuf commited on Dec 2, 2025

Commit

3f67469

1 Parent(s): 1cb71bc

clearml sub-folders & device check

Files changed (4) hide show

dataPrep/data_preparation.py CHANGED Viewed

@@ -45,8 +45,9 @@ if torch.cuda.is_available():
 # ----- ClearML Setup -----
 task = Task.init(
-    project_name='Small Group Project',
     task_name='Data Preparation',
     task_type=Task.TaskTypes.data_processing
 )

 # ----- ClearML Setup -----
+project_name = "Small Group Project"
 task = Task.init(
+    project_name=f'{project_name}/Data Preparation',
     task_name='Data Preparation',
     task_type=Task.TaskTypes.data_processing
 )

testingModel/run_testing.py CHANGED Viewed

@@ -13,7 +13,7 @@ subset_loaders, full_loaders, data_prep_metadata = extract_latest_data_task(proj
 # -------- ClearML Testing Task Setup --------
 testing_task = Task.init(
-    project_name="Small Group Project",
     task_name="Model Testing",
     task_type=Task.TaskTypes.testing,
     reuse_last_task_id=False,
@@ -38,6 +38,12 @@ training_task = Task.get_task(task_id=testing_config["model_train_id"])
 model_artifact = training_task.artifacts.get("best_model")
 model_path = model_artifact.get_local_copy()
 model = modelOne()
 state_dict = torch.load(model_path, map_location="cpu") # Load to CPU first
 model.load_state_dict(state_dict)

 # -------- ClearML Testing Task Setup --------
 testing_task = Task.init(
+    project_name=f"{project_name}/Model Testing",
     task_name="Model Testing",
     task_type=Task.TaskTypes.testing,
     reuse_last_task_id=False,
 model_artifact = training_task.artifacts.get("best_model")
 model_path = model_artifact.get_local_copy()
+# Reference training metadata
+training_hyperparams = training_task.get_parameters_as_dict()
+testing_task.connect(training_hyperparams['General'], name="training_metadata_READONLY")
+# -------- Rebuild the ML model --------
 model = modelOne()
 state_dict = torch.load(model_path, map_location="cpu") # Load to CPU first
 model.load_state_dict(state_dict)

trainingModel/{Training.py → helpers/Training.py} RENAMED Viewed

File without changes

trainingModel/run_training.py CHANGED Viewed

@@ -4,7 +4,7 @@ from dataPrep.helpers.clearml_data import extract_latest_data_task
 import torch
 from models.modelOne import modelOne
-from trainingModel.Training import train_model
 # -------------- Load Data --------------
@@ -14,7 +14,7 @@ subset_loaders, full_loaders, data_prep_metadata = extract_latest_data_task(proj
 # -------- ClearML Training Task Setup --------
 training_task = Task.init(
-    project_name="Small Group Project",
     task_name="Model Training",
     reuse_last_task_id=False,
 )
@@ -26,7 +26,7 @@ training_task.connect(data_prep_metadata, name="data_prep_metadata_READONLY")
 # Training parameters - Modify these to experiment
 training_config = {
     "num_classes": 39,
-    "n_epochs": 10,
     "learning_rate": 1e-3,
     "optimizer": "adam",
     "save_path": "best_model.pt",
@@ -37,7 +37,12 @@ training_task.connect(training_config)
 # -------- Build the ML model --------
 model = modelOne(noOfClasses=training_config["num_classes"])
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # ------- Train the model (on subset for now) -------

 import torch
 from models.modelOne import modelOne
+from trainingModel.helpers.Training import train_model
 # -------------- Load Data --------------
 # -------- ClearML Training Task Setup --------
 training_task = Task.init(
+    project_name=f"{project_name}/Model Training",
     task_name="Model Training",
     reuse_last_task_id=False,
 )
 # Training parameters - Modify these to experiment
 training_config = {
     "num_classes": 39,
+    "n_epochs": 1,
     "learning_rate": 1e-3,
     "optimizer": "adam",
     "save_path": "best_model.pt",
 # -------- Build the ML model --------
 model = modelOne(noOfClasses=training_config["num_classes"])
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+# Print device info
+print(f"\n**Using device: {device}**\n")
+if device.type == 'cuda':
+    print(f"GPU Name: {torch.cuda.get_device_name(0)}")
 # ------- Train the model (on subset for now) -------