Spaces:

Ym420
/

terminator-classification-space

Running

App Files Files Community

Ym420 commited on Nov 8, 2025

Commit

ec4cd41

verified ·

1 Parent(s): 0d06a94

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -35

app.py CHANGED Viewed

@@ -2,22 +2,12 @@ import gradio as gr
 import joblib
 from huggingface_hub import hf_hub_download
 import numpy as np
-import pandas as pd  # Needed for DataFrame input to models
-# --- Define EnsembleModel class (CHANGED: needed for loading ensemble.pkl) ---
-class EnsembleModel:
-    def __init__(self, models):
-        self.models = models
-    def predict_proba(self, X):
-        # Average probabilities from all models in the ensemble
-        probs = [m.predict_proba(X)[:, 1] for m in self.models]
-        return np.mean(probs, axis=0)
-# --- Download ensemble model from HF repo ---
 repo_id = "Ym420/terminator-ensemble-classification"
-ensemble_path = hf_hub_download(repo_id=repo_id, filename="ensemble.pkl")  # CHANGED
-ensemble = joblib.load(ensemble_path)  # CHANGED: load single ensemble
 # --- Bendability dictionary ---
 bend_dict = {
@@ -39,7 +29,7 @@ bend_dict = {
     "TTA": 0.068, "TTC": -0.037, "TTG": 0.015, "TTT": -0.274
 }
-# --- Feature functions ---
 def gc_content(seq):
     seq = seq.upper()
     return (seq.count("G") + seq.count("C")) / len(seq) if len(seq) > 0 else 0
@@ -83,7 +73,7 @@ def deltaG_stem_loop(seq):
 def avg_bendability(seq):
     seq = seq.upper()
     scores = []
-    for i in range(len(seq) - 2):
         tri = seq[i:i+3]
         if tri in bend_dict: scores.append(bend_dict[tri])
     return float(np.mean(scores)) if scores else 0.0
@@ -96,41 +86,36 @@ def nucleotide_frequencies(seq):
 def purine_pyrimidine_ratio(seq):
     seq = seq.upper()
-    pur = seq.count("A") + seq.count("G")
-    pyr = seq.count("C") + seq.count("T")
-    return pur / pyr if pyr > 0 else 0
 # --- Feature extraction ---
 def extract_features(seq):
-    seq = seq.upper()
     gc = gc_content(seq)
     cpg = cpg_ratio(seq)
     dg = deltaG_stem_loop(seq)
     bend = avg_bendability(seq)
     freq_a, freq_t, freq_g, freq_c = nucleotide_frequencies(seq)
     pur_pyr = purine_pyrimidine_ratio(seq)
-    # Use same order as training
     return [gc, cpg, dg, bend, freq_a, freq_t, freq_g, freq_c, pur_pyr]
-# --- Prediction functions using ensemble ---
 def predict_terminator(sequence: str) -> tuple[str, float]:
     clean_seq = "".join(sequence.split()).upper()
-    # DataFrame with exact feature names used during training
     X_new_df = pd.DataFrame([extract_features(clean_seq)], columns=[
-        "gc_content",
-        "cpg_ratio",
-        "deltaG",
         "bendability",
-        "freq_A",
-        "freq_T",
-        "freq_G",
-        "freq_C",
         "purine_pyrimidine_ratio"
     ])
-    y_pred_proba = ensemble.predict_proba(X_new_df)[0]  # CHANGED: single ensemble object
     label = "Terminator" if y_pred_proba >= 0.5 else "Non-terminator"
     confidence = round(float(y_pred_proba), 4)
     return label, confidence
@@ -174,4 +159,4 @@ with gr.Blocks(css=custom_css, theme="default") as demo:
     gr.api(predict_terminator, api_name="predict_terminator")
 if __name__ == "__main__":
-    demo.launch()

 import joblib
 from huggingface_hub import hf_hub_download
 import numpy as np
+import pandas as pd  # Needed for DataFrame input to model
+# --- Download ensemble model from HF repo (single ensemble) ---
 repo_id = "Ym420/terminator-ensemble-classification"
+ensemble_path = hf_hub_download(repo_id=repo_id, filename="ensemble.pkl")
+ensemble = joblib.load(ensemble_path)  # ✅ Load exactly as in Colab
 # --- Bendability dictionary ---
 bend_dict = {
     "TTA": 0.068, "TTC": -0.037, "TTG": 0.015, "TTT": -0.274
 }
+# --- Feature functions (match training exactly) ---
 def gc_content(seq):
     seq = seq.upper()
     return (seq.count("G") + seq.count("C")) / len(seq) if len(seq) > 0 else 0
 def avg_bendability(seq):
     seq = seq.upper()
     scores = []
+    for i in range(len(seq)-2):
         tri = seq[i:i+3]
         if tri in bend_dict: scores.append(bend_dict[tri])
     return float(np.mean(scores)) if scores else 0.0
 def purine_pyrimidine_ratio(seq):
     seq = seq.upper()
+    pur = seq.count("A")+seq.count("G")
+    pyr = seq.count("C")+seq.count("T")
+    return pur/pyr if pyr > 0 else 0
 # --- Feature extraction ---
 def extract_features(seq):
     gc = gc_content(seq)
     cpg = cpg_ratio(seq)
     dg = deltaG_stem_loop(seq)
     bend = avg_bendability(seq)
     freq_a, freq_t, freq_g, freq_c = nucleotide_frequencies(seq)
     pur_pyr = purine_pyrimidine_ratio(seq)
+    # ✅ Use SAME order as training
     return [gc, cpg, dg, bend, freq_a, freq_t, freq_g, freq_c, pur_pyr]
+# --- Prediction functions ---
 def predict_terminator(sequence: str) -> tuple[str, float]:
     clean_seq = "".join(sequence.split()).upper()
     X_new_df = pd.DataFrame([extract_features(clean_seq)], columns=[
+        "gc_content",
+        "cpg_ratio",
+        "deltaG",
         "bendability",
+        "freq_A",
+        "freq_T",
+        "freq_G",
+        "freq_C",
         "purine_pyrimidine_ratio"
     ])
+    y_pred_proba = ensemble.predict_proba(X_new_df)[0]  # ✅ Single ensemble
     label = "Terminator" if y_pred_proba >= 0.5 else "Non-terminator"
     confidence = round(float(y_pred_proba), 4)
     return label, confidence
     gr.api(predict_terminator, api_name="predict_terminator")
 if __name__ == "__main__":
+    demo.launch()