Spaces:

Ym420
/

peptide-function-classification

Running

App Files Files Community

Ym420 commited on Nov 14, 2025

Commit

82250a1

verified ·

1 Parent(s): a384a25

Create app.py

Browse files

Files changed (1) hide show

app.py +80 -0

app.py ADDED Viewed

	@@ -0,0 +1,80 @@

+import gradio as gr
+import joblib
+import pandas as pd
+# --- Load model package ---
+model_package_path = "xgb_multilabel_model_full.pkl"
+model_package = joblib.load(model_package_path)
+model = model_package['model']
+feature_columns = model_package['feature_columns']
+# Metadata
+aa_list = model_package['aa_list']
+dipeptides = model_package['dipeptides']
+hydrophobicity_scale = model_package['hydrophobicity_scale']
+aa_mass = model_package['aa_mass']
+aa_charge = model_package['aa_charge']
+aa_boman = model_package['aa_boman']
+aa_flexibility = model_package['aa_flexibility']
+aa_polarizability = model_package['aa_polarizability']
+aa_aliphatic = model_package['aa_aliphatic']
+# --- Feature extraction ---
+def extract_features(sequence: str) -> pd.DataFrame:
+    seq = sequence.upper()
+    features = {}
+    # Amino acid composition
+    for aa in aa_list:
+        features[f"AA_{aa}"] = seq.count(aa) / len(seq) if len(seq) > 0 else 0
+    # Dipeptide composition
+    for dp in dipeptides:
+        count = sum(1 for i in range(len(seq)-1) if seq[i:i+2] == dp)
+        features[f"DP_{dp}"] = count / (len(seq)-1) if len(seq) > 1 else 0
+    # Hydrophobicity
+    features['hydrophobicity'] = sum(hydrophobicity_scale.get(aa, 0) for aa in seq) / len(seq) if len(seq) > 0 else 0
+    # Other physicochemical properties
+    props = ['mass', 'charge', 'boman', 'flexibility', 'polarizability', 'aliphatic']
+    for prop, table in zip(props, [aa_mass, aa_charge, aa_boman, aa_flexibility, aa_polarizability, aa_aliphatic]):
+        features[prop] = sum(table.get(aa, 0) for aa in seq) / len(seq) if len(seq) > 0 else 0
+    df = pd.DataFrame([features])
+    df = df.reindex(columns=feature_columns, fill_value=0)
+    return df
+# --- Prediction ---
+def predict(sequence):
+    sequence = sequence.strip()
+    if not sequence:
+        return "Sequence cannot be empty.", None
+    X = extract_features(sequence)
+    probs = model.predict_proba(X)  # List of arrays per target
+    # Format output
+    output = []
+    for i, col in enumerate(model.classes_):
+        output.append({
+            "Target Cell": col,
+            "Probability of Efficacy/Toxicity": float(probs[i][0][1])
+        })
+    return sequence, output
+# --- Gradio Interface ---
+iface = gr.Interface(
+    fn=predict,
+    inputs=gr.Textbox(lines=2, placeholder="Enter peptide sequence here..."),
+    outputs=[
+        gr.Textbox(label="Input Sequence"),
+        gr.Dataframe(headers=["Target Cell", "Probability of Efficacy/Toxicity"], datatype="json")
+    ],
+    title="Peptide Antimicrobial Predictor",
+    description="Enter a peptide sequence to predict its antimicrobial efficacy/toxicity against target cells."
+)
+if __name__ == "__main__":
+    iface.launch(server_name="0.0.0.0", server_port=7860)