Spaces:

Kung-Hsun
/

Cheminformatics-basic

Sleeping

App Files Files Community

Kung-Hsun commited on Jul 29, 2025

Commit

76b74c3

verified ·

1 Parent(s): 0463d63

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -14

app.py CHANGED Viewed

@@ -8,18 +8,37 @@ import numpy as np
 from rdkit import Chem
 from rdkit.Chem import AllChem, Draw, MACCSkeys, Descriptors
 from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
-from sklearn.model_selection import train_test_split, cross_val_score, KFold, StratifiedKFold
 from sklearn.decomposition import PCA
 from sklearn.cluster import KMeans
 import matplotlib.pyplot as plt
 import seaborn as sns
 import io
 from PIL import Image
 # =========== 功能1: 分子資料導入/轉換 =============
 def load_csv(file):
     # 讀取CSV，要求有 smiles 與 label 欄位
-    df = pd.read_csv(file.name if hasattr(file, "name") else file)
     if not {'smiles','label'}.issubset(df.columns):
         raise ValueError("CSV需包含'smiles','label'欄位")
     # 統一SMILES格式
@@ -47,18 +66,17 @@ def calc_rdkit_desc(smiles):
     return {n: f(mol) for n, f in Descriptors.descList}
 def add_fps_and_desc(df):
-    # 產生 ECFP4 指紋 (預設2048 bits)
     df['ecfp4'] = df['smiles'].apply(ecfp4_fp)
-    # 產生 MACCS 指紋
     df['maccs'] = df['smiles'].apply(maccs_fp)
-    # 計算部分常見描述子（如需更多用mordred/rdkit）
     df['MolWt'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('MolWt', np.nan))
     df['TPSA'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('TPSA', np.nan))
     return df
 # =========== 功能3: 資料集探索分析 (EDA) ============
 def plot_desc_dist(df, desc='MolWt'):
-    # 柱狀圖：分子量等物化性質分布
     fig, ax = plt.subplots(figsize=(5,3))
     sns.histplot(df[desc].dropna(), ax=ax, bins=30, kde=True)
     ax.set_title(f"{desc} Distribution")
@@ -71,6 +89,8 @@ def plot_desc_dist(df, desc='MolWt'):
 # =========== 功能4: 分群/降維可視化 ============
 def pca_2d(df, use='ecfp4'):
     X = np.stack(df[use].to_numpy())
     pca = PCA(n_components=2)
     pc = pca.fit_transform(X)
@@ -86,6 +106,8 @@ def pca_2d(df, use='ecfp4'):
     return Image.open(buf)
 def kmeans_clusters(df, n_clusters=3, use='ecfp4'):
     X = np.stack(df[use].to_numpy())
     km = KMeans(n_clusters=n_clusters, random_state=42)
     labels = km.fit_predict(X)
@@ -110,7 +132,6 @@ def train_model(df, fp_type='ecfp4', model_type='rf', task='auto'):
         task = 'regression' if np.issubdtype(y.dtype, np.floating) else 'classification'
     if model_type == 'rf':
         model = RandomForestRegressor(n_estimators=100) if task == 'regression' else RandomForestClassifier(n_estimators=100)
-    # 可拓展支援更多模型
     scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error' if task=='regression' else 'accuracy')
     model.fit(X, y)
     return model, scores
@@ -131,22 +152,23 @@ with gr.Blocks(title="Cheminformatics Platform") as demo:
         df_preview = gr.Dataframe(label="資料預覽 (前10筆)")
         smiles_input = gr.Textbox(label="分子SMILES預覽")
         mol_image = gr.Image(label="分子結構圖")
-        file.upload(lambda f: load_csv(f).head(10), file, df_preview)
         smiles_input.change(lambda s: mol_img(s), smiles_input, mol_image)
     # --- 分子特徵生成 ---
     with gr.Tab("2️⃣ 特徵計算/描述子"):
         file2 = gr.File(label="再次選擇CSV")
         feat_preview = gr.Dataframe(label="特徵/描述子預覽 (前5筆)")
-        file2.upload(lambda f: add_fps_and_desc(load_csv(f)).head(5), file2, feat_preview)
     # --- 資料探索 ---
     with gr.Tab("3️⃣ 資料集分析 (EDA)"):
-        desc_type = gr.Dropdown(['MolWt', 'TPSA'], label="選擇描述子")
         eda_plot = gr.Image(label="分布圖")
         file3 = gr.File(label="選擇CSV")
         file3.upload(lambda f: add_fps_and_desc(load_csv(f)), file3, None)
-        desc_type.change(lambda d: plot_desc_dist(add_fps_and_desc(load_csv(file3.value)), d), desc_type, eda_plot)
     # --- 分群與PCA ---
     with gr.Tab("4️⃣ 分群/降維可視化"):
@@ -155,8 +177,8 @@ with gr.Blocks(title="Cheminformatics Platform") as demo:
         pca_plot = gr.Image(label="PCA分佈")
         km_plot = gr.Image(label="KMeans分群")
         file4.upload(lambda f: add_fps_and_desc(load_csv(f)), file4, None)
-        file4.change(lambda f: pca_2d(add_fps_and_desc(load_csv(f))), file4, pca_plot)
-        nclus.change(lambda n: km_plot.update(value=kmeans_clusters(add_fps_and_desc(load_csv(file4.value)), n)), nclus, km_plot)
     # --- 建模/預測 ---
     with gr.Tab("5️⃣ 建模/交叉驗證/預測"):
@@ -165,13 +187,15 @@ with gr.Blocks(title="Cheminformatics Platform") as demo:
         smiles_pred = gr.Textbox(label="預測SMILES")
         y_pred = gr.Textbox(label="預測值/類別")
         def train_and_predict(f, s):
             df = add_fps_and_desc(load_csv(f))
             model, scores = train_model(df)
             pred = predict_single(model, s)
             return f"模型交叉驗證: {np.round(scores,3)}", str(pred)
-        file5.upload(lambda f: model_status.update(value="已載入, 請輸入SMILES進行預測"), file5, model_status)
         smiles_pred.change(lambda s: train_and_predict(file5.value, s), smiles_pred, [model_status, y_pred])
     gr.Markdown("---\n> 建議工作流：1️⃣資料導入 → 2️⃣特徵生成 → 3️⃣EDA探索 → 4️⃣分群 → 5️⃣建模預測")
 demo.launch(share=True)

 from rdkit import Chem
 from rdkit.Chem import AllChem, Draw, MACCSkeys, Descriptors
 from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
+from sklearn.model_selection import cross_val_score
 from sklearn.decomposition import PCA
 from sklearn.cluster import KMeans
 import matplotlib.pyplot as plt
 import seaborn as sns
 import io
 from PIL import Image
+import chardet
 # =========== 功能1: 分子資料導入/轉換 =============
+def robust_read_csv(file):
+    if file is None:
+        return pd.DataFrame()
+    if hasattr(file, "read"):
+        pos = file.tell() if hasattr(file, "tell") else 0
+        raw = file.read(4096)
+        enc = chardet.detect(raw)["encoding"] or "utf-8"
+        file.seek(pos)
+        return pd.read_csv(file, encoding=enc)
+    elif hasattr(file, "name"):
+        with open(file.name, "rb") as f:
+            raw = f.read(4096)
+        enc = chardet.detect(raw)["encoding"] or "utf-8"
+        return pd.read_csv(file.name, encoding=enc)
+    else:
+        raise RuntimeError("未知 file 類型")
 def load_csv(file):
     # 讀取CSV，要求有 smiles 與 label 欄位
+    df = robust_read_csv(file)
     if not {'smiles','label'}.issubset(df.columns):
         raise ValueError("CSV需包含'smiles','label'欄位")
     # 統一SMILES格式
     return {n: f(mol) for n, f in Descriptors.descList}
 def add_fps_and_desc(df):
     df['ecfp4'] = df['smiles'].apply(ecfp4_fp)
     df['maccs'] = df['smiles'].apply(maccs_fp)
     df['MolWt'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('MolWt', np.nan))
     df['TPSA'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('TPSA', np.nan))
     return df
 # =========== 功能3: 資料集探索分析 (EDA) ============
 def plot_desc_dist(df, desc='MolWt'):
+    if df is None or desc not in df.columns:
+        return Image.new("RGB", (400,200), (255,255,255))
     fig, ax = plt.subplots(figsize=(5,3))
     sns.histplot(df[desc].dropna(), ax=ax, bins=30, kde=True)
     ax.set_title(f"{desc} Distribution")
 # =========== 功能4: 分群/降維可視化 ============
 def pca_2d(df, use='ecfp4'):
+    if df is None or use not in df.columns:
+        return Image.new("RGB", (400,200), (255,255,255))
     X = np.stack(df[use].to_numpy())
     pca = PCA(n_components=2)
     pc = pca.fit_transform(X)
     return Image.open(buf)
 def kmeans_clusters(df, n_clusters=3, use='ecfp4'):
+    if df is None or use not in df.columns:
+        return Image.new("RGB", (400,200), (255,255,255))
     X = np.stack(df[use].to_numpy())
     km = KMeans(n_clusters=n_clusters, random_state=42)
     labels = km.fit_predict(X)
         task = 'regression' if np.issubdtype(y.dtype, np.floating) else 'classification'
     if model_type == 'rf':
         model = RandomForestRegressor(n_estimators=100) if task == 'regression' else RandomForestClassifier(n_estimators=100)
     scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error' if task=='regression' else 'accuracy')
     model.fit(X, y)
     return model, scores
         df_preview = gr.Dataframe(label="資料預覽 (前10筆)")
         smiles_input = gr.Textbox(label="分子SMILES預覽")
         mol_image = gr.Image(label="分子結構圖")
+        file.upload(lambda f: load_csv(f).head(10) if f else pd.DataFrame(), file, df_preview)
         smiles_input.change(lambda s: mol_img(s), smiles_input, mol_image)
     # --- 分子特徵生成 ---
     with gr.Tab("2️⃣ 特徵計算/描述子"):
         file2 = gr.File(label="再次選擇CSV")
         feat_preview = gr.Dataframe(label="特徵/描述子預覽 (前5筆)")
+        file2.upload(lambda f: add_fps_and_desc(load_csv(f)).head(5) if f else pd.DataFrame(), file2, feat_preview)
     # --- 資料探索 ---
     with gr.Tab("3️⃣ 資料集分析 (EDA)"):
+        desc_type = gr.Dropdown(['MolWt', 'TPSA'], label="選擇描述子", value="MolWt")
         eda_plot = gr.Image(label="分布圖")
         file3 = gr.File(label="選擇CSV")
         file3.upload(lambda f: add_fps_and_desc(load_csv(f)), file3, None)
+        desc_type.change(lambda d: plot_desc_dist(add_fps_and_desc(load_csv(file3.value)), d) if file3.value else Image.new("RGB", (400,200), (255,255,255)), desc_type, eda_plot)
     # --- 分群與PCA ---
     with gr.Tab("4️⃣ 分群/降維可視化"):
         pca_plot = gr.Image(label="PCA分佈")
         km_plot = gr.Image(label="KMeans分群")
         file4.upload(lambda f: add_fps_and_desc(load_csv(f)), file4, None)
+        file4.change(lambda f: pca_2d(add_fps_and_desc(load_csv(f))) if f else Image.new("RGB", (400,200), (255,255,255)), file4, pca_plot)
+        nclus.change(lambda n: kmeans_clusters(add_fps_and_desc(load_csv(file4.value)), n) if file4.value else Image.new("RGB", (400,200), (255,255,255)), nclus, km_plot)
     # --- 建模/預測 ---
     with gr.Tab("5️⃣ 建模/交叉驗證/預測"):
         smiles_pred = gr.Textbox(label="預測SMILES")
         y_pred = gr.Textbox(label="預測值/類別")
         def train_and_predict(f, s):
+            if not f: return "請先上傳CSV", ""
             df = add_fps_and_desc(load_csv(f))
             model, scores = train_model(df)
             pred = predict_single(model, s)
             return f"模型交叉驗證: {np.round(scores,3)}", str(pred)
+        file5.upload(lambda f: "已載入, 請輸入SMILES進行預測" if f else "請上傳資料", file5, model_status)
         smiles_pred.change(lambda s: train_and_predict(file5.value, s), smiles_pred, [model_status, y_pred])
     gr.Markdown("---\n> 建議工作流：1️⃣資料導入 → 2️⃣特徵生成 → 3️⃣EDA探索 → 4️⃣分群 → 5️⃣建模預測")
 demo.launch(share=True)