Spaces:

Kung-Hsun
/

Cheminformatics-basic

Sleeping

App Files Files Community

Kung-Hsun commited on Jul 29, 2025

Commit

45e3039

verified ·

1 Parent(s): 2f5494f

Create app.py

Browse files

Files changed (1) hide show

app.py +177 -0

app.py ADDED Viewed

	@@ -0,0 +1,177 @@

+# Cheminformatics 多功能平台 - 基礎版
+# 主要涵蓋：分子資料導入、指紋/描述子生成、資料探索、分群、建模、特徵解釋、批量預測、可視化
+# Author: 2025
+import gradio as gr
+import pandas as pd
+import numpy as np
+from rdkit import Chem
+from rdkit.Chem import AllChem, Draw, MACCSkeys, Descriptors
+from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
+from sklearn.model_selection import train_test_split, cross_val_score, KFold, StratifiedKFold
+from sklearn.decomposition import PCA
+from sklearn.cluster import KMeans
+import matplotlib.pyplot as plt
+import seaborn as sns
+import io
+from PIL import Image
+# =========== 功能1: 分子資料導入/轉換 =============
+def load_csv(file):
+    # 讀取CSV，要求有 smiles 與 label 欄位
+    df = pd.read_csv(file.name if hasattr(file, "name") else file)
+    if not {'smiles','label'}.issubset(df.columns):
+        raise ValueError("CSV需包含'smiles','label'欄位")
+    # 統一SMILES格式
+    df['smiles'] = df['smiles'].astype(str)
+    return df
+def mol_img(smiles, size=(160,160)):
+    mol = Chem.MolFromSmiles(smiles)
+    if mol is None:
+        return Image.new("RGB", size, (250,250,250))
+    return Draw.MolToImage(mol, size=size)
+# =========== 功能2: 分子指紋/描述子生成 =============
+def ecfp4_fp(smiles, nbits=2048):
+    mol = Chem.MolFromSmiles(smiles)
+    return np.array(AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=nbits)) if mol else np.zeros(nbits)
+def maccs_fp(smiles):
+    mol = Chem.MolFromSmiles(smiles)
+    return np.array(MACCSkeys.GenMACCSKeys(mol)) if mol else np.zeros(167)
+def calc_rdkit_desc(smiles):
+    mol = Chem.MolFromSmiles(smiles)
+    if mol is None: return {}
+    return {n: f(mol) for n, f in Descriptors.descList}
+def add_fps_and_desc(df):
+    # 產生 ECFP4 指紋 (預設2048 bits)
+    df['ecfp4'] = df['smiles'].apply(ecfp4_fp)
+    # 產生 MACCS 指紋
+    df['maccs'] = df['smiles'].apply(maccs_fp)
+    # 計算部分常見描述子（如需更多用mordred/rdkit）
+    df['MolWt'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('MolWt', np.nan))
+    df['TPSA'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('TPSA', np.nan))
+    return df
+# =========== 功能3: 資料集探索分析 (EDA) ============
+def plot_desc_dist(df, desc='MolWt'):
+    # 柱狀圖：分子量等物化性質分布
+    fig, ax = plt.subplots(figsize=(5,3))
+    sns.histplot(df[desc].dropna(), ax=ax, bins=30, kde=True)
+    ax.set_title(f"{desc} Distribution")
+    buf = io.BytesIO()
+    plt.tight_layout()
+    plt.savefig(buf, format='png')
+    buf.seek(0)
+    plt.close(fig)
+    return Image.open(buf)
+# =========== 功能4: 分群/降維可視化 ============
+def pca_2d(df, use='ecfp4'):
+    X = np.stack(df[use].to_numpy())
+    pca = PCA(n_components=2)
+    pc = pca.fit_transform(X)
+    fig, ax = plt.subplots(figsize=(5,4))
+    scatter = ax.scatter(pc[:,0], pc[:,1], c=df['label'], cmap='Set1', alpha=0.7)
+    plt.xlabel("PC1"); plt.ylabel("PC2"); plt.title(f"PCA 2D ({use})")
+    plt.colorbar(scatter)
+    buf = io.BytesIO()
+    plt.tight_layout()
+    plt.savefig(buf, format='png')
+    buf.seek(0)
+    plt.close(fig)
+    return Image.open(buf)
+def kmeans_clusters(df, n_clusters=3, use='ecfp4'):
+    X = np.stack(df[use].to_numpy())
+    km = KMeans(n_clusters=n_clusters, random_state=42)
+    labels = km.fit_predict(X)
+    pca = PCA(n_components=2)
+    pc = pca.fit_transform(X)
+    fig, ax = plt.subplots(figsize=(5,4))
+    scatter = ax.scatter(pc[:,0], pc[:,1], c=labels, cmap='tab10', alpha=0.7)
+    plt.xlabel("PC1"); plt.ylabel("PC2"); plt.title(f"KMeans Clusters ({n_clusters})")
+    plt.colorbar(scatter)
+    buf = io.BytesIO()
+    plt.tight_layout()
+    plt.savefig(buf, format='png')
+    buf.seek(0)
+    plt.close(fig)
+    return Image.open(buf)
+# =========== 功能5: 機器學習建模與預測 ============
+def train_model(df, fp_type='ecfp4', model_type='rf', task='auto'):
+    X = np.stack(df[fp_type].to_numpy())
+    y = df['label'].values
+    if task == 'auto':
+        task = 'regression' if np.issubdtype(y.dtype, np.floating) else 'classification'
+    if model_type == 'rf':
+        model = RandomForestRegressor(n_estimators=100) if task == 'regression' else RandomForestClassifier(n_estimators=100)
+    # 可拓展支援更多模型
+    scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error' if task=='regression' else 'accuracy')
+    model.fit(X, y)
+    return model, scores
+def predict_single(model, smiles, fp_type='ecfp4'):
+    fp = ecfp4_fp(smiles) if fp_type=='ecfp4' else maccs_fp(smiles)
+    y_pred = model.predict([fp])[0]
+    return y_pred
+# =========== Gradio主UI ============
+with gr.Blocks(title="Cheminformatics Platform") as demo:
+    gr.Markdown("# 🧪 Cheminformatics 多功能分析平台")
+    # --- 分子資料導入 ---
+    with gr.Tab("1️⃣ 資料導入/結構圖"):
+        file = gr.File(label="上��CSV", file_types=[".csv"])
+        df_preview = gr.Dataframe(label="資料預覽 (前10筆)")
+        smiles_input = gr.Textbox(label="分子SMILES預覽")
+        mol_image = gr.Image(label="分子結構圖", shape=(160,160))
+        file.upload(lambda f: load_csv(f).head(10), file, df_preview)
+        smiles_input.change(lambda s: mol_img(s), smiles_input, mol_image)
+    # --- 分子特徵生成 ---
+    with gr.Tab("2️⃣ 特徵計算/描述子"):
+        file2 = gr.File(label="再次選擇CSV")
+        feat_preview = gr.Dataframe(label="特徵/描述子預覽 (前5筆)")
+        file2.upload(lambda f: add_fps_and_desc(load_csv(f)).head(5), file2, feat_preview)
+    # --- 資料探索 ---
+    with gr.Tab("3️⃣ 資料集分析 (EDA)"):
+        desc_type = gr.Dropdown(['MolWt', 'TPSA'], label="選擇描述子")
+        eda_plot = gr.Image(label="分布圖")
+        file3 = gr.File(label="選擇CSV")
+        file3.upload(lambda f: add_fps_and_desc(load_csv(f)), file3, None)
+        desc_type.change(lambda d: plot_desc_dist(add_fps_and_desc(load_csv(file3.value)), d), desc_type, eda_plot)
+    # --- 分群與PCA ---
+    with gr.Tab("4️⃣ 分群/降維可視化"):
+        file4 = gr.File(label="上傳CSV")
+        nclus = gr.Slider(2,8,3,1,label="分群數")
+        pca_plot = gr.Image(label="PCA分佈")
+        km_plot = gr.Image(label="KMeans分群")
+        file4.upload(lambda f: add_fps_and_desc(load_csv(f)), file4, None)
+        file4.change(lambda f: pca_2d(add_fps_and_desc(load_csv(f))), file4, pca_plot)
+        nclus.change(lambda n: km_plot.update(value=kmeans_clusters(add_fps_and_desc(load_csv(file4.value)), n)), nclus, km_plot)
+    # --- 建模/預測 ---
+    with gr.Tab("5️⃣ 建模/交叉驗證/預測"):
+        file5 = gr.File(label="上傳CSV")
+        model_status = gr.Markdown("模型狀態")
+        smiles_pred = gr.Textbox(label="預測SMILES")
+        y_pred = gr.Textbox(label="預測值/類別")
+        def train_and_predict(f, s):
+            df = add_fps_and_desc(load_csv(f))
+            model, scores = train_model(df)
+            pred = predict_single(model, s)
+            return f"模型交叉驗證: {np.round(scores,3)}", str(pred)
+        file5.upload(lambda f: model_status.update(value="已載入, 請輸入SMILES進行預測"), file5, model_status)
+        smiles_pred.change(lambda s: train_and_predict(file5.value, s), smiles_pred, [model_status, y_pred])
+    gr.Markdown("---\n> 建議工作流：1️⃣資料導入 → 2️⃣特徵生成 → 3️⃣EDA探索 → 4️⃣分群 → 5️⃣建模預測")
+demo.launch(share=True)