Spaces:

ligdis
/

4

Running

App Files Files Community

ligdis commited on Apr 7, 2025

Commit

9938028

verified ·

1 Parent(s): c3ffab2

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -14

app.py CHANGED Viewed

@@ -21,6 +21,7 @@ from datasets import load_dataset
 import requests
 from io import BytesIO
 import urllib.request
 import warnings
 warnings.filterwarnings('ignore')
@@ -47,21 +48,21 @@ hide_streamlit_style = """
             #header {visibility: hidden;}
             </style>
             """
-st.markdown(hide_streamlit_style, unsafe_allow_html=True)
 dataset = load_dataset('ligdis/data', data_files={"predictions.csv"})
-df_predictions = dataset['train'].to_pandas()
 predictions_inchikeys = df_predictions["inchikey"].tolist()
 df_predictions = df_predictions.rename(columns={"inchikey": "InChIKey"})
 dataset = load_dataset('ligdis/data', data_files={"applicability.csv"})
-df_applicability = dataset['train'].to_pandas()
 df_predictions = pd.concat([df_predictions, df_applicability], axis=1)
 dataset = load_dataset('ligdis/data', data_files={"cemm_smiles.csv"})
-cemm_smiles = dataset['train'].to_pandas()
 fid2smi = {}
 for r in cemm_smiles.values:
@@ -74,7 +75,7 @@ CRF_PATTERN_0 = "C#CC"
 CRF_PATTERN_1 = "N=N"
 dataset = load_dataset('ligdis/data', data_files={"all_fff_enamine.csv"})
-enamine_catalog = dataset['train'].to_pandas()
 enamine_catalog_ids_set = set(enamine_catalog["catalog_id"])
 enamine_catalog_dict = {}
 catalog2inchikey = {}
@@ -130,11 +131,11 @@ def has_crf(mol):
     return True
 dataset = load_dataset('ligdis/data', data_files={"model_catalog.csv"})
-dm = dataset['train'].to_pandas()
 all_models = dm["model_name"].tolist()
 dataset = load_dataset('ligdis/data', data_files={"models_performance.tsv"})
-dp = dataset['train'].to_pandas()
 model_display = {}
 model_description = {}
@@ -149,8 +150,8 @@ prom_models = [x for x in dm["model_name"].tolist() if x.startswith("promiscuity
 sign_models = [x for x in dm["model_name"].tolist() if x.startswith("signature")]
 global_promiscuity_models = ["promiscuity_pxf0", "promiscuity_pxf1", "promiscuity_pxf2"]
-specific_promiscuity_models = ["promiscuity_fxp0_pxf0", "promiscuity_fxp1_pxf0","promiscuity_fxp2_pxf0", "promiscuity_fxp0_pxf1", "promiscuity_fxp1_pxf1", "promiscuity_fxp2_pxf1", "promiscuity_fxp0_pxf2", "promiscuity_fxp1_pxf2", "promiscuity_fxp2_pxf2"]
 def model_to_markdown(model_names):
     items = []
     for mn in model_names:
@@ -240,8 +241,8 @@ def get_fragment_image(smiles):
 st.markdown(
     """
-    Explanation for Output: The results are displayed in 4 Columns.
-    1. **Structure** of the FFF, InChi, Enamine ID
     2. **Chemical space**: Displays the Molecular Weight (*MW*), Walden-Crippen *LogP* and Tanimoto Similarity to the most similar fragment (*Sim-1*) and third most similar fragment (*Sim-3*) in the training set
     3. **Promiscuity Predictions** based on 12 Model: 3 Global (section **A**) and 9 Specific (section **B**)
     4. **Ontology Predictions** based on 9 _Signature_ Models derived from protein annotations of multiple scopes - from domains and families to molecular functions and cellular localization
@@ -249,7 +250,7 @@ st.markdown(
 )
 myCol = st.columns(3)
 with myCol[0]:
     st.subheader("Promiscuity Predictions")
     st.markdown("**A. Global models**")
@@ -270,7 +271,7 @@ with myCol[2]:
 st.markdown(
 """
 - Model score (range 0 -> 1) corresponds to the mean AUROC in 10 train-test splits
-- Percentages in parenthesis denote the percentile of the score across the Enamine collection of FFFs (>250k compounds). for example, in "Sign-4: 0.02 (35.7%)", **35.7** is the percentile of score.
 - The exclamation sign (!) next to the prediction output indicates that the corresponding model has an AUROC accuracy below 0.7 (*! is a warning sign*)
 """
 )
@@ -434,4 +435,4 @@ if all_inputs_are_valid and len(R) > 0:
     st.download_button(
         "Download as CSV", csv, "predictions.csv", "text/csv", key="download-csv"
     )

 import requests
 from io import BytesIO
 import urllib.request
+# import miniautoml
 import warnings
 warnings.filterwarnings('ignore')
             #header {visibility: hidden;}
             </style>
             """
+st.markdown(hide_streamlit_style, unsafe_allow_html=True)
 dataset = load_dataset('ligdis/data', data_files={"predictions.csv"})
+df_predictions = dataset['train'].to_pandas()
 predictions_inchikeys = df_predictions["inchikey"].tolist()
 df_predictions = df_predictions.rename(columns={"inchikey": "InChIKey"})
 dataset = load_dataset('ligdis/data', data_files={"applicability.csv"})
+df_applicability = dataset['train'].to_pandas()
 df_predictions = pd.concat([df_predictions, df_applicability], axis=1)
 dataset = load_dataset('ligdis/data', data_files={"cemm_smiles.csv"})
+cemm_smiles = dataset['train'].to_pandas()
 fid2smi = {}
 for r in cemm_smiles.values:
 CRF_PATTERN_1 = "N=N"
 dataset = load_dataset('ligdis/data', data_files={"all_fff_enamine.csv"})
+enamine_catalog = dataset['train'].to_pandas()
 enamine_catalog_ids_set = set(enamine_catalog["catalog_id"])
 enamine_catalog_dict = {}
 catalog2inchikey = {}
     return True
 dataset = load_dataset('ligdis/data', data_files={"model_catalog.csv"})
+dm = dataset['train'].to_pandas()
 all_models = dm["model_name"].tolist()
 dataset = load_dataset('ligdis/data', data_files={"models_performance.tsv"})
+dp = dataset['train'].to_pandas()
 model_display = {}
 model_description = {}
 sign_models = [x for x in dm["model_name"].tolist() if x.startswith("signature")]
 global_promiscuity_models = ["promiscuity_pxf0", "promiscuity_pxf1", "promiscuity_pxf2"]
+specific_promiscuity_models = ["promiscuity_fxp0_pxf0", "promiscuity_fxp1_pxf0","promiscuity_fxp2_pxf0", "promiscuity_fxp0_pxf1", "promiscuity_fxp1_pxf1", "promiscuity_fxp2_pxf1", "promiscuity_fxp0_pxf2", "promiscuity_fxp1_pxf2", "promiscuity_fxp2_pxf2"]
 def model_to_markdown(model_names):
     items = []
     for mn in model_names:
 st.markdown(
     """
+    Explanation for Output: The results are displayed in 4 Columns.
+    1. **Structure** of the FFF, InChi, Enamine ID
     2. **Chemical space**: Displays the Molecular Weight (*MW*), Walden-Crippen *LogP* and Tanimoto Similarity to the most similar fragment (*Sim-1*) and third most similar fragment (*Sim-3*) in the training set
     3. **Promiscuity Predictions** based on 12 Model: 3 Global (section **A**) and 9 Specific (section **B**)
     4. **Ontology Predictions** based on 9 _Signature_ Models derived from protein annotations of multiple scopes - from domains and families to molecular functions and cellular localization
 )
 myCol = st.columns(3)
 with myCol[0]:
     st.subheader("Promiscuity Predictions")
     st.markdown("**A. Global models**")
 st.markdown(
 """
 - Model score (range 0 -> 1) corresponds to the mean AUROC in 10 train-test splits
+- Percentages in parenthesis denote the percentile of the score across the Enamine collection of FFFs (>250k compounds). for example, in "Sign-4: 0.02 (35.7%)", **35.7** is the percentile of score.
 - The exclamation sign (!) next to the prediction output indicates that the corresponding model has an AUROC accuracy below 0.7 (*! is a warning sign*)
 """
 )
     st.download_button(
         "Download as CSV", csv, "predictions.csv", "text/csv", key="download-csv"
     )