Spaces:

nonzeroexit
/

AMP-Classifier

Running

App Files Files Community

nonzeroexit commited on May 28, 2025

Commit

adaeb14

verified ·

1 Parent(s): 1b97b02

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -19

app.py CHANGED Viewed

@@ -19,8 +19,33 @@ protbert_model = BertModel.from_pretrained("Rostlab/prot_bert")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 protbert_model = protbert_model.to(device).eval()
-# Selected Features
-selected_features = [ ... ]  # keep your full selected_features list here
 # LIME Explainer Setup
 sample_data = np.random.rand(100, len(selected_features))
@@ -31,9 +56,7 @@ explainer = LimeTabularExplainer(
     mode="classification"
 )
-# Feature Extractor
 def extract_features(sequence):
-    all_features_dict = {}
     sequence = ''.join([aa for aa in sequence.upper() if aa in "ACDEFGHIKLMNPQRSTVWY"])
     if len(sequence) < 10:
         return "Error: Sequence too short."
@@ -42,6 +65,7 @@ def extract_features(sequence):
     ctd_features = CTD.CalculateCTD(sequence)
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
     pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
     all_features_dict.update(ctd_features)
     all_features_dict.update(filtered_dipeptide_features)
     all_features_dict.update(auto_features)
@@ -49,10 +73,11 @@ def extract_features(sequence):
     feature_df_all = pd.DataFrame([all_features_dict])
     normalized_array = scaler.transform(feature_df_all.values)
     normalized_df = pd.DataFrame(normalized_array, columns=feature_df_all.columns)
     selected_df = normalized_df[selected_features].fillna(0)
     return selected_df.values
-# MIC Predictor
 def predictmic(sequence):
     sequence = ''.join([aa for aa in sequence.upper() if aa in "ACDEFGHIKLMNPQRSTVWY"])
     if len(sequence) < 10:
@@ -83,46 +108,38 @@ def predictmic(sequence):
             mic_results[bacterium] = f"Error: {str(e)}"
     return mic_results
-# Full Prediction with LIME Explanation
 def full_prediction(sequence):
     features = extract_features(sequence)
-    if isinstance(features, str):  # error
         return features
     prediction = model.predict(features)[0]
     probabilities = model.predict_proba(features)[0]
     amp_result = "Antimicrobial Peptide (AMP)" if prediction == 0 else "Non-AMP"
     confidence = round(probabilities[0 if prediction == 0 else 1] * 100, 2)
     result = f"Prediction: {amp_result}\nConfidence: {confidence}%\n"
     if prediction == 0:
         mic_values = predictmic(sequence)
-        result += "\nPredicted MIC Values (µM):\n"
         for org, mic in mic_values.items():
             result += f"- {org}: {mic}\n"
     else:
         result += "\nMIC prediction skipped for Non-AMP sequences.\n"
-    # LIME explanation
     explanation = explainer.explain_instance(
         data_row=features[0],
         predict_fn=model.predict_proba,
         num_features=10
     )
-    result += "\nTop Features Influencing AMP Prediction:\n"
     for feat, weight in explanation.as_list():
         result += f"- {feat}: {round(weight, 4)}\n"
     return result
-# Gradio UI
 iface = gr.Interface(
     fn=full_prediction,
     inputs=gr.Textbox(label="Enter Protein Sequence"),
-    outputs=gr.Textbox(label="Prediction + MIC + LIME"),
     title="AMP & MIC Predictor + LIME Explanation",
-    description="Paste an amino acid sequence (≥10 characters). Get AMP classification, MIC predictions, and LIME interpretability insights."
 )
-iface.launch(share=True)

 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 protbert_model = protbert_model.to(device).eval()
+# Full list of selected features
+selected_features = ["_SolventAccessibilityC3", "_SecondaryStrC1", "_SecondaryStrC3", "_ChargeC1", "_PolarityC1",
+    "_NormalizedVDWVC1", "_HydrophobicityC3", "_SecondaryStrT23", "_PolarizabilityD1001", "_PolarizabilityD2001",
+    "_PolarizabilityD3001", "_SolventAccessibilityD1001", "_SolventAccessibilityD2001", "_SolventAccessibilityD3001",
+    "_SecondaryStrD1001", "_SecondaryStrD1075", "_SecondaryStrD2001", "_SecondaryStrD3001", "_ChargeD1001",
+    "_ChargeD1025", "_ChargeD2001", "_ChargeD3075", "_ChargeD3100", "_PolarityD1001", "_PolarityD1050",
+    "_PolarityD2001", "_PolarityD3001", "_NormalizedVDWVD1001", "_NormalizedVDWVD2001", "_NormalizedVDWVD2025",
+    "_NormalizedVDWVD2050", "_NormalizedVDWVD3001", "_HydrophobicityD1001", "_HydrophobicityD2001",
+    "_HydrophobicityD3001", "_HydrophobicityD3025", "A", "R", "D", "C", "E", "Q", "H", "I", "M", "P", "Y", "V",
+    "AR", "AV", "RC", "RL", "RV", "CR", "CC", "CL", "CK", "EE", "EI", "EL", "HC", "IA", "IL", "IV", "LA", "LC", "LE",
+    "LI", "LT", "LV", "KC", "MA", "MS", "SC", "TC", "TV", "YC", "VC", "VE", "VL", "VK", "VV",
+    "MoreauBrotoAuto_FreeEnergy30", "MoranAuto_Hydrophobicity2", "MoranAuto_Hydrophobicity4",
+    "GearyAuto_Hydrophobicity20", "GearyAuto_Hydrophobicity24", "GearyAuto_Hydrophobicity26",
+    "GearyAuto_Hydrophobicity27", "GearyAuto_Hydrophobicity28", "GearyAuto_Hydrophobicity29",
+    "GearyAuto_Hydrophobicity30", "GearyAuto_AvFlexibility22", "GearyAuto_AvFlexibility26",
+    "GearyAuto_AvFlexibility27", "GearyAuto_AvFlexibility28", "GearyAuto_AvFlexibility29", "GearyAuto_AvFlexibility30",
+    "GearyAuto_Polarizability22", "GearyAuto_Polarizability24", "GearyAuto_Polarizability25",
+    "GearyAuto_Polarizability27", "GearyAuto_Polarizability28", "GearyAuto_Polarizability29",
+    "GearyAuto_Polarizability30", "GearyAuto_FreeEnergy24", "GearyAuto_FreeEnergy25", "GearyAuto_FreeEnergy30",
+    "GearyAuto_ResidueASA21", "GearyAuto_ResidueASA22", "GearyAuto_ResidueASA23", "GearyAuto_ResidueASA24",
+    "GearyAuto_ResidueASA30", "GearyAuto_ResidueVol21", "GearyAuto_ResidueVol24", "GearyAuto_ResidueVol25",
+    "GearyAuto_ResidueVol26", "GearyAuto_ResidueVol28", "GearyAuto_ResidueVol29", "GearyAuto_ResidueVol30",
+    "GearyAuto_Steric18", "GearyAuto_Steric21", "GearyAuto_Steric26", "GearyAuto_Steric27", "GearyAuto_Steric28",
+    "GearyAuto_Steric29", "GearyAuto_Steric30", "GearyAuto_Mutability23", "GearyAuto_Mutability25",
+    "GearyAuto_Mutability26", "GearyAuto_Mutability27", "GearyAuto_Mutability28", "GearyAuto_Mutability29",
+    "GearyAuto_Mutability30", "APAAC1", "APAAC4", "APAAC5", "APAAC6", "APAAC8", "APAAC9", "APAAC12", "APAAC13",
+    "APAAC15", "APAAC18", "APAAC19", "APAAC24"]
 # LIME Explainer Setup
 sample_data = np.random.rand(100, len(selected_features))
     mode="classification"
 )
 def extract_features(sequence):
     sequence = ''.join([aa for aa in sequence.upper() if aa in "ACDEFGHIKLMNPQRSTVWY"])
     if len(sequence) < 10:
         return "Error: Sequence too short."
     ctd_features = CTD.CalculateCTD(sequence)
     auto_features = Autocorrelation.CalculateAutoTotal(sequence)
     pseudo_features = PseudoAAC.GetAPseudoAAC(sequence, lamda=9)
+    all_features_dict = {}
     all_features_dict.update(ctd_features)
     all_features_dict.update(filtered_dipeptide_features)
     all_features_dict.update(auto_features)
     feature_df_all = pd.DataFrame([all_features_dict])
     normalized_array = scaler.transform(feature_df_all.values)
     normalized_df = pd.DataFrame(normalized_array, columns=feature_df_all.columns)
+    if not set(selected_features).issubset(set(normalized_df.columns)):
+        return "Error: Some selected features are missing from computed features."
     selected_df = normalized_df[selected_features].fillna(0)
     return selected_df.values
 def predictmic(sequence):
     sequence = ''.join([aa for aa in sequence.upper() if aa in "ACDEFGHIKLMNPQRSTVWY"])
     if len(sequence) < 10:
             mic_results[bacterium] = f"Error: {str(e)}"
     return mic_results
 def full_prediction(sequence):
     features = extract_features(sequence)
+    if isinstance(features, str):
         return features
     prediction = model.predict(features)[0]
     probabilities = model.predict_proba(features)[0]
     amp_result = "Antimicrobial Peptide (AMP)" if prediction == 0 else "Non-AMP"
     confidence = round(probabilities[0 if prediction == 0 else 1] * 100, 2)
     result = f"Prediction: {amp_result}\nConfidence: {confidence}%\n"
     if prediction == 0:
         mic_values = predictmic(sequence)
+        result += "\nPredicted MIC Values (\u00b5M):\n"
         for org, mic in mic_values.items():
             result += f"- {org}: {mic}\n"
     else:
         result += "\nMIC prediction skipped for Non-AMP sequences.\n"
     explanation = explainer.explain_instance(
         data_row=features[0],
         predict_fn=model.predict_proba,
         num_features=10
     )
+    result += "\nTop Features Influencing Prediction:\n"
     for feat, weight in explanation.as_list():
         result += f"- {feat}: {round(weight, 4)}\n"
     return result
 iface = gr.Interface(
     fn=full_prediction,
     inputs=gr.Textbox(label="Enter Protein Sequence"),
+    outputs=gr.Textbox(label="Results"),
     title="AMP & MIC Predictor + LIME Explanation",
+    description="Paste an amino acid sequence (\u226510 characters). Get AMP classification, MIC predictions, and LIME interpretability insights."
 )
+iface.launch(share=True)