jpuglia commited on Jul 5, 2025

Commit

4df44a7

1 Parent(s): 923a7e5

Streamline training of rf and svm models, renameing notebooks, minor changes to my_utils.py and creation of evaluation.csv

Browse files

Files changed (32) hide show

Data/evaluations.csv +7 -0
notebooks/Get_embeddings.ipynb → Models/ESMC-300m_le_rf.joblib +2 -2
notebooks/hyperparamsRF.ipynb → Models/ESMC-300m_le_svm.joblib +2 -2
Models/{svmESM600.joblib → ESMC-300m_rf.joblib} +2 -2
Models/{svmProst.joblib → ESMC-300m_svm.joblib} +2 -2
Models/{rfProst.joblib → ESMC-600m_le_rf.joblib} +2 -2
Models/{svm300.joblib → ESMC-600m_le_svm.joblib} +2 -2
Models/ESMC-600m_rf.joblib +3 -0
Models/ESMC-600m_svm.joblib +3 -0
Models/Prost T5_le_rf.joblib +3 -0
Models/Prost T5_le_svm.joblib +3 -0
Models/Prost T5_rf.joblib +3 -0
Models/Prost T5_svm.joblib +3 -0
Models/esm_300m_le_rf.joblib +3 -0
Models/esm_300m_le_svm.joblib +3 -0
Models/esm_300m_rf.joblib +3 -0
Models/esm_300m_svm.joblib +3 -0
Models/esm_600m_le_rf.joblib +3 -0
Models/esm_600m_le_svm.joblib +3 -0
Models/esm_600m_rf.joblib +3 -0
Models/esm_600m_svm.joblib +3 -0
Models/prost_le_rf.joblib +3 -0
Models/prost_le_svm.joblib +3 -0
Models/prost_rf.joblib +3 -0
Models/prost_svm.joblib +3 -0
Models/rfESM300.joblib +0 -3
Models/rfESM600.joblib +0 -3
notebooks/{EDA_Psort.ipynb → 01_EDA_Psort.ipynb} +0 -0
notebooks/02_Get_embeddings.ipynb +3 -0
notebooks/{EmbAnalisis.ipynb → 03_EmbAnalisis.ipynb} +0 -0
notebooks/04_Training.ipynb +3 -0
src/my_utils.py +11 -40

Data/evaluations.csv ADDED Viewed

	@@ -0,0 +1,7 @@

+model,Accuracy,Recall,Precision,F1
+Prost T5_rf,0.9494152841990753,0.9494152841990753,0.9500906030394936,0.9487261816656973
+Prost T5_svm,0.9597497960293717,0.9597497960293717,0.9595957881278095,0.959225689183014
+ESMC-300m_rf,0.939896654881697,0.939896654881697,0.9410635663803479,0.9399078225424956
+ESMC-300m_svm,0.9621974435681262,0.9621974435681262,0.9622014817178194,0.961806189217868
+ESMC-600m_rf,0.9472395974979603,0.9472395974979603,0.9471989241244075,0.9464063102910955
+ESMC-600m_svm,0.9602937177046506,0.9602937177046506,0.9597863973858514,0.9596645033195284

notebooks/Get_embeddings.ipynb → Models/ESMC-300m_le_rf.joblib RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4d087d9e61aa44b98adedab8e1a483a1d981137f826da03f14a897617f8ef53
-size 10847

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

notebooks/hyperparamsRF.ipynb → Models/ESMC-300m_le_svm.joblib RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be08020829c6e68c1b659bca93f71ede388f4c5d6fba3b7bd4aa85b363806f28
-size 101568

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/{svmESM600.joblib → ESMC-300m_rf.joblib} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b17cb4232fd3faae3336c91158ee48e56e2bc3605c98db530665a77870f79a8d
-size 23689781

 version https://git-lfs.github.com/spec/v1
+oid sha256:1314aee5d738f8ad952773301e6bcecab06f36a3dc84f3e3bbd62779ebef2b64
+size 18049497

Models/{svmProst.joblib → ESMC-300m_svm.joblib} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b2c74b8bfff1dff844283d247799a44d98dacfb77277345d9e8065caa752b22
-size 17969877

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd3e89ce2d691e60852c7660e8a52209d93dbe5d4d2fd9723faff902aad34c7d
+size 18294469

Models/{rfProst.joblib → ESMC-600m_le_rf.joblib} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97b7afaa64ab3742b04fff5dbf0f48cf1a521e2714941b096a085071839cc944
-size 47713945

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/{svm300.joblib → ESMC-600m_le_svm.joblib} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6ae921216cd0b305c81411b8ea9df7bfc0f5c50f105f1feefed48737909349c
-size 17875413

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/ESMC-600m_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89a1bbdfe47decc8acdb934f7c79297b9cd842e63d5567c39d058ce8ef4ebfb0
+size 9024153

Models/ESMC-600m_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4e4d8f22fac3eecca31048d054bbd097219d2e345b05b5dbc5c98ad9d259e40
+size 22787493

Models/Prost T5_le_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/Prost T5_le_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/Prost T5_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fa2d7e7bb0d6000314f955b77a27ffa5fdf9fb8492afc4714e952dab1d722cf
+size 4842553

Models/Prost T5_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:184f44563c41fc75ab38769f13e1d95488b1bee2767bb9b8cd80a62cd8e826a6
+size 18267605

Models/esm_300m_le_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/esm_300m_le_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/esm_300m_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35685779464c1a40f0ba3f56437387caf4a7786368421239d9b97b496a42b49d
+size 4513481

Models/esm_300m_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e9c14f7e1ae5eca0d17a36b92457cdf9ec59d3f364cd49f308c05a972b659cb
+size 18294469

Models/esm_600m_le_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/esm_600m_le_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/esm_600m_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9487c6ba0d19aba648ba17bbeaf8aedb9b8983b0b8ec43df7c8f291a05028be2
+size 15835961

Models/esm_600m_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fee69d1c43f36c0bbb19200159cbaffee3ee8aa53c68a2b00c5c11b96985499d
+size 22787493

Models/prost_le_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/prost_le_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3533ba487721d516e3f29f3fb614d78459774cff74121f5d74aeaa4ab2e45f
+size 635

Models/prost_rf.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ac62a197618dc89bce7e8c4979bd2c3b922772359cc7edb8a4ee06207d92e6b
+size 9177529

Models/prost_svm.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba95ca02d8b3af55683bfd1aa2e89334f0b103e740ecabdb55bb32874dcce95d
+size 18267605

Models/rfESM300.joblib DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4945e8970e2daa8a08ee1299d5037cf1bf26c994799a06cd44d4f0db6261d8c2
-size 128239785

Models/rfESM600.joblib DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:dd53311c8f33278c82be9867184e7a72a9328039e237cc46bd8c238a2d106db7
-size 125433513

notebooks/{EDA_Psort.ipynb → 01_EDA_Psort.ipynb} RENAMED Viewed

File without changes

notebooks/02_Get_embeddings.ipynb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f052aee04179938913521a555b8224712135ec3671362d864b48721d005cc94
+size 10859

notebooks/{EmbAnalisis.ipynb → 03_EmbAnalisis.ipynb} RENAMED Viewed

File without changes

notebooks/04_Training.ipynb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17540ccc0a1db8bed0f6e4959369941aeae7bcadf80ec881075196f51c053d0c
+size 580320

src/my_utils.py CHANGED Viewed

@@ -13,7 +13,7 @@ import numpy as np
 from sklearn.ensemble import RandomForestClassifier
 from sklearn import svm
-from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
 from sklearn.metrics import (
     classification_report,
     accuracy_score,
@@ -27,7 +27,6 @@ from sklearn.preprocessing import StandardScaler, LabelEncoder
 from sklearn.pipeline import Pipeline
 from sklearn.manifold import TSNE
 from sklearn.model_selection import train_test_split
-from sklearn.utils import resample
 from sklearn.base import BaseEstimator
 import umap
@@ -50,8 +49,6 @@ from joblib import load
 import torch
 # Load one chunk of embeddings
 def load_emb(path: str, acc: list[str]) -> np.ndarray:
@@ -357,7 +354,7 @@ def train_svm(title: str, x: np.ndarray, y: np.ndarray, params: dict) -> tuple[P
     svc_params = {k.replace('svm__', ''): v for k, v in params.items() if k.startswith('svm__')}
     pipeline = Pipeline([
         ('scaler', StandardScaler()),
-        ('svm', svm.SVC(**svc_params, probability = True))
     ])
     pipeline.fit(x_train, y_train)
@@ -370,7 +367,7 @@ def train_svm(title: str, x: np.ndarray, y: np.ndarray, params: dict) -> tuple[P
     y_test_str = le.inverse_transform(y_test)
     confusion(title=title, y_true=y_test_str, y_pred=y_pred_str)
     print(classification_report(y_test, y_pred, zero_division=0, target_names = le.classes_))
@@ -396,9 +393,9 @@ def randomSVM(x: np.ndarray, y: np.ndarray) -> dict:
         'svm__gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1, 10],
         'svm__shrinking': [True, False],
         'svm__class_weight': ['balanced'],
         'svm__tol': [1e-5, 1e-4, 1e-3, 1e-2],
-        'svm__max_iter': [-1, 1000, 5000, 10000],
-        'svm__probability': [False, True],
         'svm__decision_function_shape': ['ovr', 'ovo'],
         'svm__cache_size': [200, 400, 600]
     }
@@ -406,22 +403,21 @@ def randomSVM(x: np.ndarray, y: np.ndarray) -> dict:
     random_search = RandomizedSearchCV(
         estimator=pipeline,
         param_distributions=param_distributions,
-        n_iter=50,
         scoring='f1_weighted',
         cv=3,
-        verbose=1,
         random_state=42,
         n_jobs=-1
     )
     random_search.fit(x_train, y_train)
-    random_search.best_params_['svm__probability'] = True
     pprint(random_search.best_params_)
     return random_search.best_params_
-def randomSearch(x: np.ndarray, y: np.ndarray) -> dict:
     le = LabelEncoder()
     y_encoded = le.fit_transform(y)
@@ -430,7 +426,7 @@ def randomSearch(x: np.ndarray, y: np.ndarray) -> dict:
     classifier : RandomForestClassifier = RandomForestClassifier(random_state=42)
     param_grid = {
-        'n_estimators': list(np.arange(500,4000, 400)),
         'max_depth': [None, 10, 20, 30, 40, 50],
         'min_samples_split': [2, 5, 10, 15, 20],
         'min_samples_leaf': [1, 2, 4, 8, 10],
@@ -443,10 +439,10 @@ def randomSearch(x: np.ndarray, y: np.ndarray) -> dict:
     rf_random = RandomizedSearchCV(estimator = classifier,
                                    param_distributions = param_grid,
-                                   n_iter= 50,
                                    scoring = 'f1_weighted',
                                    cv = 3,
-                                   verbose = 1,
                                    n_jobs = -1)
     rf_random.fit(X = x_train, y = y_train)
@@ -456,31 +452,6 @@ def randomSearch(x: np.ndarray, y: np.ndarray) -> dict:
     return rf_random.best_params_
-def gridSearch(X: np.ndarray, y: np.ndarray, grid: dict):
-    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, stratify=y, random_state=42)
-    # Initialize GridSearchCV with the base model and hyperparameters
-    grid_search: GridSearchCV = GridSearchCV(
-        estimator=RandomForestClassifier(random_state=42),
-        param_grid=grid,
-        cv=1,
-        scoring = 'f1_weighted',
-        verbose = 1,
-        pre_dispatch = 5,
-        n_jobs=-1
-    )
-    grid_search.fit(X = X_train, y = y_train)
-    print('Best Estimator')
-    pprint(grid_search.best_estimator_)
-    evaluation = evaluate(grid_search, X_test, y_test)
-    return grid_search, evaluation
 def fetch_uniprot_sequence(uniprot_id: str):
     """

 from sklearn.ensemble import RandomForestClassifier
 from sklearn import svm
+from sklearn.model_selection import RandomizedSearchCV
 from sklearn.metrics import (
     classification_report,
     accuracy_score,
 from sklearn.pipeline import Pipeline
 from sklearn.manifold import TSNE
 from sklearn.model_selection import train_test_split
 from sklearn.base import BaseEstimator
 import umap
 import torch
 # Load one chunk of embeddings
 def load_emb(path: str, acc: list[str]) -> np.ndarray:
     svc_params = {k.replace('svm__', ''): v for k, v in params.items() if k.startswith('svm__')}
     pipeline = Pipeline([
         ('scaler', StandardScaler()),
+        ('svm', svm.SVC(**svc_params))
     ])
     pipeline.fit(x_train, y_train)
     y_test_str = le.inverse_transform(y_test)
     confusion(title=title, y_true=y_test_str, y_pred=y_pred_str)
     print(classification_report(y_test, y_pred, zero_division=0, target_names = le.classes_))
         'svm__gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1, 10],
         'svm__shrinking': [True, False],
         'svm__class_weight': ['balanced'],
+        'svm__probability' : [True],
         'svm__tol': [1e-5, 1e-4, 1e-3, 1e-2],
+        'svm__max_iter': [-1, 5000, 7500, 10000],
         'svm__decision_function_shape': ['ovr', 'ovo'],
         'svm__cache_size': [200, 400, 600]
     }
     random_search = RandomizedSearchCV(
         estimator=pipeline,
         param_distributions=param_distributions,
+        n_iter=10,
         scoring='f1_weighted',
         cv=3,
+        verbose=2,
         random_state=42,
         n_jobs=-1
     )
     random_search.fit(x_train, y_train)
     pprint(random_search.best_params_)
     return random_search.best_params_
+def randomSearch(x: np.ndarray, y: np.ndarray) -> dict: #type: ignore
     le = LabelEncoder()
     y_encoded = le.fit_transform(y)
     classifier : RandomForestClassifier = RandomForestClassifier(random_state=42)
     param_grid = {
+        'n_estimators': [100, 200, 300, 400, 500],
         'max_depth': [None, 10, 20, 30, 40, 50],
         'min_samples_split': [2, 5, 10, 15, 20],
         'min_samples_leaf': [1, 2, 4, 8, 10],
     rf_random = RandomizedSearchCV(estimator = classifier,
                                    param_distributions = param_grid,
+                                   n_iter= 10,
                                    scoring = 'f1_weighted',
                                    cv = 3,
+                                   verbose = 2,
                                    n_jobs = -1)
     rf_random.fit(X = x_train, y = y_train)
     return rf_random.best_params_
 def fetch_uniprot_sequence(uniprot_id: str):
     """