Spaces:

Kung-Hsun
/

Cheminformatics-basic

Sleeping

App Files Files Community

Kung-Hsun commited on Jul 29, 2025

Commit

b052cf9

verified ·

1 Parent(s): 7b00b7a

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -44

app.py CHANGED Viewed

@@ -17,7 +17,7 @@ import io
 from PIL import Image
 import chardet
-# =========== 功能1: 分子資料導入/轉換 =============
 def robust_read_csv(file):
     if file is None:
         return pd.DataFrame()
@@ -35,13 +35,10 @@ def robust_read_csv(file):
     else:
         raise RuntimeError("未知 file 類型")
 def load_csv(file):
-    # 讀取CSV，要求有 smiles 與 label 欄位
     df = robust_read_csv(file)
     if not {'smiles','label'}.issubset(df.columns):
         raise ValueError("CSV需包含'smiles','label'欄位")
-    # 統一SMILES格式
     df['smiles'] = df['smiles'].astype(str)
     return df
@@ -51,7 +48,7 @@ def mol_img(smiles, size=(160,160)):
         return Image.new("RGB", size, (250,250,250))
     return Draw.MolToImage(mol, size=size)
-# =========== 功能2: 分子指紋/描述子生成 =============
 def ecfp4_fp(smiles, nbits=2048):
     mol = Chem.MolFromSmiles(smiles)
     return np.array(AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=nbits)) if mol else np.zeros(nbits)
@@ -66,14 +63,17 @@ def calc_rdkit_desc(smiles):
     return {n: f(mol) for n, f in Descriptors.descList}
 def add_fps_and_desc(df):
-    df['ecfp4'] = df['smiles'].apply(ecfp4_fp)
-    df['maccs'] = df['smiles'].apply(maccs_fp)
-    df['MolWt'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('MolWt', np.nan))
-    df['TPSA'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('TPSA', np.nan))
     return df
-# =========== 功能3: 資料集探索分析 (EDA) ============
 def plot_desc_dist(df, desc='MolWt'):
     if df is None or desc not in df.columns:
         return Image.new("RGB", (400,200), (255,255,255))
@@ -87,7 +87,7 @@ def plot_desc_dist(df, desc='MolWt'):
     plt.close(fig)
     return Image.open(buf)
-# =========== 功能4: 分群/降維可視化 ============
 def pca_2d(df, use='ecfp4'):
     if df is None or use not in df.columns:
         return Image.new("RGB", (400,200), (255,255,255))
@@ -124,7 +124,7 @@ def kmeans_clusters(df, n_clusters=3, use='ecfp4'):
     plt.close(fig)
     return Image.open(buf)
-# =========== 功能5: 機器學習建模與預測 ============
 def train_model(df, fp_type='ecfp4', model_type='rf', task='auto'):
     X = np.stack(df[fp_type].to_numpy())
     y = df['label'].values
@@ -141,60 +141,76 @@ def predict_single(model, smiles, fp_type='ecfp4'):
     y_pred = model.predict([fp])[0]
     return y_pred
-# =========== Gradio主UI ============
 with gr.Blocks(title="Cheminformatics Platform") as demo:
     gr.Markdown("# 🧪 Cheminformatics 多功能分析平台")
     # --- 分子資料導入 ---
     with gr.Tab("1️⃣ 資料導入/結構圖"):
         file = gr.File(label="上傳CSV", file_types=[".csv"])
         df_preview = gr.Dataframe(label="資料預覽 (前10筆)")
         smiles_input = gr.Textbox(label="分子SMILES預覽")
         mol_image = gr.Image(label="分子結構圖")
-        file.upload(lambda f: load_csv(f).head(10) if f else pd.DataFrame(), file, df_preview)
         smiles_input.change(lambda s: mol_img(s), smiles_input, mol_image)
     # --- 分子特徵生成 ---
     with gr.Tab("2️⃣ 特徵計算/描述子"):
-        file2 = gr.File(label="再次選擇CSV")
         feat_preview = gr.Dataframe(label="特徵/描述子預覽 (前5筆)")
-        file2.upload(lambda f: add_fps_and_desc(load_csv(f)).head(5) if f else pd.DataFrame(), file2, feat_preview)
     # --- 資料探索 ---
     with gr.Tab("3️⃣ 資料集分析 (EDA)"):
         desc_type = gr.Dropdown(['MolWt', 'TPSA'], label="選擇描述子", value="MolWt")
         eda_plot = gr.Image(label="分布圖")
-        file3 = gr.File(label="選擇CSV")
-        file3.upload(lambda f: add_fps_and_desc(load_csv(f)), file3, None)
-        desc_type.change(lambda d: plot_desc_dist(add_fps_and_desc(load_csv(file3.value)), d) if file3.value else Image.new("RGB", (400,200), (255,255,255)), desc_type, eda_plot)
     # --- 分群與PCA ---
     with gr.Tab("4️⃣ 分群/降維可視化"):
-        file4 = gr.File(label="上傳CSV")
-        nclus = gr.Slider(2,8,3,1,label="分群數")
         pca_plot = gr.Image(label="PCA分佈")
         km_plot = gr.Image(label="KMeans分群")
-        file4.upload(lambda f: add_fps_and_desc(load_csv(f)), file4, None)
-        file4.change(lambda f: pca_2d(add_fps_and_desc(load_csv(f))) if f else Image.new("RGB", (400,200), (255,255,255)), file4, pca_plot)
-        nclus.change(lambda n: kmeans_clusters(add_fps_and_desc(load_csv(file4.value)), n) if file4.value else Image.new("RGB", (400,200), (255,255,255)), nclus, km_plot)
     # --- 建模/預測 ---
     with gr.Tab("5️⃣ 建模/交叉驗證/預測"):
-        file5 = gr.File(label="上傳CSV")
         model_status = gr.Markdown("模型狀態")
         smiles_pred = gr.Textbox(label="預測SMILES")
         y_pred = gr.Textbox(label="預測值/類別")
-        model_state = gr.State(None)  # 新增 State 儲存模型
-        def handle_train(f):
-            if not f:
-                return "請上傳資料", None
-            df = add_fps_and_desc(load_csv(f))
-            model, scores = train_model(df)
             return f"模型交叉驗證: {np.round(scores,3)}", model
         def handle_predict(s, model):
             if model is None:
                 return "請先訓練模型", ""
@@ -203,11 +219,9 @@ with gr.Blocks(title="Cheminformatics Platform") as demo:
                 return "已預測", str(pred)
             except Exception as e:
                 return f"預測失敗: {e}", ""
-        file5.upload(handle_train, file5, [model_status, model_state])
         smiles_pred.change(handle_predict, [smiles_pred, model_state], [model_status, y_pred])
-    gr.Markdown("---\n> 建議工作流：1️⃣資料導入 → 2️⃣特徵生成 → 3️⃣EDA探索 → 4️⃣分群 → 5️⃣建模預測")
 demo.launch(share=True)

 from PIL import Image
 import chardet
+# =========== 功能1: 分子資料導入/轉換 ===========
 def robust_read_csv(file):
     if file is None:
         return pd.DataFrame()
     else:
         raise RuntimeError("未知 file 類型")
 def load_csv(file):
     df = robust_read_csv(file)
     if not {'smiles','label'}.issubset(df.columns):
         raise ValueError("CSV需包含'smiles','label'欄位")
     df['smiles'] = df['smiles'].astype(str)
     return df
         return Image.new("RGB", size, (250,250,250))
     return Draw.MolToImage(mol, size=size)
+# =========== 功能2: 分子指紋/描述子生成 ===========
 def ecfp4_fp(smiles, nbits=2048):
     mol = Chem.MolFromSmiles(smiles)
     return np.array(AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=nbits)) if mol else np.zeros(nbits)
     return {n: f(mol) for n, f in Descriptors.descList}
 def add_fps_and_desc(df):
+    if 'ecfp4' not in df.columns:
+        df['ecfp4'] = df['smiles'].apply(ecfp4_fp)
+    if 'maccs' not in df.columns:
+        df['maccs'] = df['smiles'].apply(maccs_fp)
+    if 'MolWt' not in df.columns:
+        df['MolWt'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('MolWt', np.nan))
+    if 'TPSA' not in df.columns:
+        df['TPSA'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('TPSA', np.nan))
     return df
+# =========== 功能3: 資料集探索分析 (EDA) ===========
 def plot_desc_dist(df, desc='MolWt'):
     if df is None or desc not in df.columns:
         return Image.new("RGB", (400,200), (255,255,255))
     plt.close(fig)
     return Image.open(buf)
+# =========== 功能4: 分群/降維可視化 ===========
 def pca_2d(df, use='ecfp4'):
     if df is None or use not in df.columns:
         return Image.new("RGB", (400,200), (255,255,255))
     plt.close(fig)
     return Image.open(buf)
+# =========== 功能5: 機器學習建模與預測 ===========
 def train_model(df, fp_type='ecfp4', model_type='rf', task='auto'):
     X = np.stack(df[fp_type].to_numpy())
     y = df['label'].values
     y_pred = model.predict([fp])[0]
     return y_pred
+# =========== Gradio主UI ===========
 with gr.Blocks(title="Cheminformatics Platform") as demo:
     gr.Markdown("# 🧪 Cheminformatics 多功能分析平台")
+    # 全域狀態：原始資料、特徵後資料、模型
+    data_state = gr.State()
+    feat_state = gr.State()
+    model_state = gr.State()
     # --- 分子資料導入 ---
     with gr.Tab("1️⃣ 資料導入/結構圖"):
         file = gr.File(label="上傳CSV", file_types=[".csv"])
         df_preview = gr.Dataframe(label="資料預覽 (前10筆)")
         smiles_input = gr.Textbox(label="分子SMILES預覽")
         mol_image = gr.Image(label="分子結構圖")
+        def on_upload(f):
+            df = load_csv(f)
+            return df.head(10), df
+        file.upload(on_upload, file, [df_preview, data_state])
         smiles_input.change(lambda s: mol_img(s), smiles_input, mol_image)
     # --- 分子特徵生成 ---
     with gr.Tab("2️⃣ 特徵計算/描述子"):
+        feat_btn = gr.Button("生成特徵/描述子")
         feat_preview = gr.Dataframe(label="特徵/描述子預覽 (前5筆)")
+        def on_feat(state_df):
+            if state_df is None:
+                return pd.DataFrame(), None
+            feat_df = add_fps_and_desc(state_df.copy())
+            return feat_df.head(5), feat_df
+        feat_btn.click(on_feat, data_state, [feat_preview, feat_state])
     # --- 資料探索 ---
     with gr.Tab("3️⃣ 資料集分析 (EDA)"):
         desc_type = gr.Dropdown(['MolWt', 'TPSA'], label="選擇描述子", value="MolWt")
+        eda_btn = gr.Button("生成描述子���布圖")
         eda_plot = gr.Image(label="分布圖")
+        eda_btn.click(lambda d, feat_df: plot_desc_dist(feat_df, d) if feat_df is not None else Image.new("RGB", (400,200), (255,255,255)),
+                      [desc_type, feat_state], eda_plot)
     # --- 分群與PCA ---
     with gr.Tab("4️⃣ 分群/降維可視化"):
+        pca_btn = gr.Button("PCA 分布圖")
         pca_plot = gr.Image(label="PCA分佈")
+        nclus = gr.Slider(2, 8, 3, 1, label="分群數")
+        km_btn = gr.Button("KMeans 分群圖")
         km_plot = gr.Image(label="KMeans分群")
+        pca_btn.click(lambda feat_df: pca_2d(feat_df) if feat_df is not None else Image.new("RGB", (400,200), (255,255,255)), feat_state, pca_plot)
+        km_btn.click(lambda n, feat_df: kmeans_clusters(feat_df, n) if feat_df is not None else Image.new("RGB", (400,200), (255,255,255)),
+                     [nclus, feat_state], km_plot)
     # --- 建模/預測 ---
     with gr.Tab("5️⃣ 建模/交叉驗證/預測"):
+        train_btn = gr.Button("訓練模型 (RF, 5-fold)")
         model_status = gr.Markdown("模型狀態")
         smiles_pred = gr.Textbox(label="預測SMILES")
         y_pred = gr.Textbox(label="預測值/類別")
+        def handle_train(feat_df):
+            if feat_df is None:
+                return "請先進行特徵生成", None
+            model, scores = train_model(feat_df)
             return f"模型交叉驗證: {np.round(scores,3)}", model
+        train_btn.click(handle_train, feat_state, [model_status, model_state])
         def handle_predict(s, model):
             if model is None:
                 return "請先訓練模型", ""
                 return "已預測", str(pred)
             except Exception as e:
                 return f"預測失敗: {e}", ""
         smiles_pred.change(handle_predict, [smiles_pred, model_state], [model_status, y_pred])
+    gr.Markdown("---\n> 建議完整流程：1️⃣資料導入 → 2️⃣特徵生成 → 3️⃣EDA探索 → 4️⃣分群 → 5️⃣建模預測")
 demo.launch(share=True)