jpuglia
/

ProteinLocationPredictor

@@ -6,6 +6,7 @@ from io import StringIO
 from typing import Literal, Optional
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
 import pandas as pd
@@ -26,13 +27,11 @@ from sklearn.decomposition import PCA
 from sklearn.preprocessing import StandardScaler, LabelEncoder
 from sklearn.pipeline import Pipeline
 from sklearn.manifold import TSNE
 from sklearn.model_selection import train_test_split
 from sklearn.base import BaseEstimator
-import umap
 import requests
-from urllib.error import HTTPError as URLLibHTTPError
 from requests.exceptions import HTTPError as RequestsHTTPError
 from Bio import Entrez
 from Bio import SeqIO
@@ -376,6 +375,7 @@ def train_svm(title: str, x: np.ndarray, y: np.ndarray, params: dict) -> tuple[P
 def randomSVM(x: np.ndarray, y: np.ndarray) -> dict:
     """
     Performs randomized hyperparameter search for an SVM classifier using a pipeline with feature scaling.
@@ -525,12 +525,6 @@ def fetch_uniprot_sequence(uniprot_id: str):
     else:
         print(f'URL inválido o no accesible: {url}')
-from Bio import Entrez, SeqIO
-from io import StringIO
-import pandas as pd
-import requests
 def fetch_refseq_sequence(refseq_id: str) -> str | None:
     """
     Fetch the protein sequence for the given RefSeq ID using NCBI Entrez.
@@ -540,14 +534,6 @@ def fetch_refseq_sequence(refseq_id: str) -> str | None:
     Entrez.email   = "puglia.jd@gmail.com"
     Entrez.api_key = "d768134734612d58be85117e1ff22e243807"
-    # ——— Validate input ———
-    if not refseq_id or pd.isna(refseq_id):
-        print(f"[SKIP] Empty or NaN RefSeq ID: `{refseq_id}`")
-        return None
-    # Clean up possible whitespace or comma‐separated values
-    refseq_id = str(refseq_id).strip().split(",")[0]
     # ——— 1) Try NCBI Entrez ———
     try:
         handle = Entrez.efetch(
@@ -579,8 +565,6 @@ def fetch_refseq_sequence(refseq_id: str) -> str | None:
     # ——— All methods failed ———
     return None
 def _fetch_sequence_for_row(idx, row):
     """
     Helper to fetch sequence for a single row. Returns (idx, sequence).
@@ -874,8 +858,7 @@ def prost_embed_sequence(seq : str,
         if real_len <= 0:
             print(f"Sequence too short after tokenization for {acc}")
-                # Extract and average embeddings
         emb = embedding_repr.last_hidden_state[0, 1:real_len]
         emb_avg = emb.mean(dim=0).cpu().numpy()

 from typing import Literal, Optional
 import tkinter as tk
 from tkinter import filedialog, messagebox, ttk
+from urllib.error import HTTPError as URLLibHTTPError
 import pandas as pd
 from sklearn.preprocessing import StandardScaler, LabelEncoder
 from sklearn.pipeline import Pipeline
 from sklearn.manifold import TSNE
+import umap
 from sklearn.model_selection import train_test_split
 from sklearn.base import BaseEstimator
 import requests
 from requests.exceptions import HTTPError as RequestsHTTPError
 from Bio import Entrez
 from Bio import SeqIO
 def randomSVM(x: np.ndarray, y: np.ndarray) -> dict:
     """
     Performs randomized hyperparameter search for an SVM classifier using a pipeline with feature scaling.
     else:
         print(f'URL inválido o no accesible: {url}')
 def fetch_refseq_sequence(refseq_id: str) -> str | None:
     """
     Fetch the protein sequence for the given RefSeq ID using NCBI Entrez.
     Entrez.email   = "puglia.jd@gmail.com"
     Entrez.api_key = "d768134734612d58be85117e1ff22e243807"
     # ——— 1) Try NCBI Entrez ———
     try:
         handle = Entrez.efetch(
     # ——— All methods failed ———
     return None
 def _fetch_sequence_for_row(idx, row):
     """
     Helper to fetch sequence for a single row. Returns (idx, sequence).
         if real_len <= 0:
             print(f"Sequence too short after tokenization for {acc}")
+        # Extract and average embeddings
         emb = embedding_repr.last_hidden_state[0, 1:real_len]
         emb_avg = emb.mean(dim=0).cpu().numpy()