Spaces:

Kung-Hsun
/

Cheminformatics-basic

Sleeping

App Files Files Community

Kung-Hsun commited on Jul 29, 2025

Commit

235e68e

verified ·

1 Parent(s): 1d19db7

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -247

app.py CHANGED Viewed

@@ -20,80 +20,30 @@ from PIL import Image
 import chardet
 from ydata_profiling import ProfileReport
-# =========== 功能1: 分子資料導入/轉換 ===========
-def robust_read_csv(file):
-    if file is None:
-        return pd.DataFrame()
-    if hasattr(file, "read"):
-        pos = file.tell() if hasattr(file, "tell") else 0
-        raw = file.read(4096)
-        enc = chardet.detect(raw)["encoding"] or "utf-8"
-        file.seek(pos)
-        return pd.read_csv(file, encoding=enc)
-    elif hasattr(file, "name"):
-        with open(file.name, "rb") as f:
-            raw = f.read(4096)
-        enc = chardet.detect(raw)["encoding"] or "utf-8"
-        return pd.read_csv(file.name, encoding=enc)
-    else:
-        raise RuntimeError("未知 file 類型")
-def load_csv(file):
-    df = robust_read_csv(file)
-    if not {'smiles','label'}.issubset(df.columns):
-        raise ValueError("CSV需包含'smiles','label'欄位")
-    df['smiles'] = df['smiles'].astype(str)
-    return df
-def mol_img(smiles, size=(160,160)):
-    mol = Chem.MolFromSmiles(smiles)
-    if mol is None:
-        return Image.new("RGB", size, (250,250,250))
-    return Draw.MolToImage(mol, size=size)
-### 支援多格式匯入
 def load_table(file):
-    # 允許 file 為 None, gradio.NamedString, gradio.TempFile, file-like, 或字串路徑
     if file is None:
         return pd.DataFrame()
-    # 若是字串（Gradio新版直接給路徑字串）
-    if isinstance(file, str):
-        # 根據副檔名選擇讀取方式
-        if file.endswith('.csv'):
-            return pd.read_csv(file)
-        elif file.endswith(('.xls', '.xlsx')):
-            return pd.read_excel(file, engine="openpyxl")
-        elif file.endswith('.sdf'):
-            return PandasTools.LoadSDF(file)
-        else:
-            raise RuntimeError(f"不支援的檔案格式: {file}")
-    # 若是有 .name 屬性（TempFile, NamedString）
-    elif hasattr(file, "name"):
-        fname = file.name
         if fname.endswith('.csv'):
-            return pd.read_csv(fname)
-        elif fname.endswith(('.xls', '.xlsx')):
-            return pd.read_excel(fname, engine="openpyxl")
         elif fname.endswith('.sdf'):
             return PandasTools.LoadSDF(fname)
         else:
             raise RuntimeError(f"不支援的檔案格式: {fname}")
-    # 若是有 read 方法的 file-like（極少見）
-    elif hasattr(file, "read"):
-        return pd.read_csv(file)
-    else:
-        raise RuntimeError("未知檔案型態")
-def smiles_to_mol(smiles):
-    try:
-        return Chem.MolFromSmiles(smiles)
-    except:
-        return None
-### 批量分子圖
 def batch_mol_imgs(smiles_list):
     mols = [Chem.MolFromSmiles(s) for s in smiles_list[:25] if Chem.MolFromSmiles(s)]
-    if len(mols)==0:
         return Image.new("RGB", (800, 160), (255,255,255))
     grid = Draw.MolsToGridImage(mols, molsPerRow=5, subImgSize=(160,160))
     buf = io.BytesIO()
@@ -101,117 +51,39 @@ def batch_mol_imgs(smiles_list):
     buf.seek(0)
     return Image.open(buf)
-### 特徵、描述子與官能基計數
-def calc_features(df, fp_types, desc_types, func_groups, smarts_dict=None):
-    # ECFP4, MACCS, RDKitFP
     if 'ecfp4' in fp_types:
         df['ecfp4'] = df['smiles'].apply(lambda s: np.array(AllChem.GetMorganFingerprintAsBitVect(Chem.MolFromSmiles(s), 2, nBits=2048)) if Chem.MolFromSmiles(s) else np.zeros(2048))
     if 'maccs' in fp_types:
         df['maccs'] = df['smiles'].apply(lambda s: np.array(MACCSkeys.GenMACCSKeys(Chem.MolFromSmiles(s))) if Chem.MolFromSmiles(s) else np.zeros(167))
     if 'rdkitfp' in fp_types:
         df['rdkitfp'] = df['smiles'].apply(lambda s: np.array(rdMolDescriptors.GetRDKitFingerprintAsBitVect(Chem.MolFromSmiles(s), maxPath=5)) if Chem.MolFromSmiles(s) else np.zeros(2048))
-    # 部分描述子
     for desc in desc_types:
         try:
             if hasattr(Descriptors, desc):
                 df[desc] = df['smiles'].apply(lambda s: getattr(Descriptors, desc)(Chem.MolFromSmiles(s)) if Chem.MolFromSmiles(s) else np.nan)
-        except Exception: continue
-    # 官能基/SMARTS
-    if smarts_dict is None:
-        smarts_dict = {'NO2': '[N+](=O)[O-]', 'OH': '[OX2H]', 'NH2': '[NX3;H2]'}
-    for name, patt in smarts_dict.items():
-        patt_obj = Chem.MolFromSmarts(patt)
-        df[name+'_count'] = df['smiles'].apply(lambda s: Chem.MolFromSmiles(s).GetSubstructMatches(patt_obj) if Chem.MolFromSmiles(s) and patt_obj else [])
-        df[name+'_count'] = df[name+'_count'].apply(lambda l: len(l) if isinstance(l, (list, tuple)) else 0)
     return df
-### 降維/分群/群代表分子
-def apply_dim_red(df, use, method='PCA'):
-    X = np.stack(df[use].to_numpy())
-    if method == 'PCA':
-        pc = PCA(n_components=2).fit_transform(X)
-    elif method == 'UMAP':
-        pc = UMAP(n_components=2, random_state=42).fit_transform(X)
-    elif method == 'tSNE':
-        pc = TSNE(n_components=2, random_state=42).fit_transform(X)
-    else:
-        raise ValueError('Unknown method')
-    return pc
-def plot_scatter(pc, labels, title):
-    fig, ax = plt.subplots(figsize=(5,4))
-    scatter = ax.scatter(pc[:,0], pc[:,1], c=labels, cmap='tab10', alpha=0.7)
-    plt.xlabel("Dim1"); plt.ylabel("Dim2"); plt.title(title)
-    plt.colorbar(scatter)
-    buf = io.BytesIO()
-    plt.tight_layout()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    plt.close(fig)
-    return Image.open(buf)
-def clustering(df, use, method='KMeans', n_clusters=3):
-    X = np.stack(df[use].to_numpy())
-    if method == 'KMeans':
-        labels = KMeans(n_clusters=n_clusters, random_state=42).fit_predict(X)
-    elif method == 'DBSCAN':
-        labels = DBSCAN(eps=3, min_samples=2).fit_predict(X)
-    else:
-        raise ValueError('Unknown clustering')
-    return labels
-def cluster_reps(df, cluster_labels, use):
-    reps = []
-    for cl in np.unique(cluster_labels):
-        cluster_df = df[cluster_labels==cl]
-        idx = np.random.choice(cluster_df.index, 1)[0]
-        reps.append(cluster_df.loc[idx]['smiles'])
-    return reps
-### EDA報表
 def eda_report(df):
     profile = ProfileReport(df, title="EDA報告", minimal=True)
-    buf = io.BytesIO()
-    profile.to_file(buf)
-    buf.seek(0)
-    return buf
-# =========== 功能2: 分子指紋/描述子生成 ===========
-def ecfp4_fp(smiles, nbits=2048):
-    mol = Chem.MolFromSmiles(smiles)
-    return np.array(AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=nbits)) if mol else np.zeros(nbits)
-def maccs_fp(smiles):
-    mol = Chem.MolFromSmiles(smiles)
-    return np.array(MACCSkeys.GenMACCSKeys(mol)) if mol else np.zeros(167)
-def calc_rdkit_desc(smiles):
-    mol = Chem.MolFromSmiles(smiles)
-    if mol is None: return {}
-    return {n: f(mol) for n, f in Descriptors.descList}
-def add_fps_and_desc(df):
-    if 'ecfp4' not in df.columns:
-        df['ecfp4'] = df['smiles'].apply(ecfp4_fp)
-    if 'maccs' not in df.columns:
-        df['maccs'] = df['smiles'].apply(maccs_fp)
-    if 'MolWt' not in df.columns:
-        df['MolWt'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('MolWt', np.nan))
-    if 'TPSA' not in df.columns:
-        df['TPSA'] = df['smiles'].apply(lambda s: calc_rdkit_desc(s).get('TPSA', np.nan))
-    return df
-# =========== 功能3: 資料集探索分析 (EDA) ===========
 def plot_desc_dist(df, desc='MolWt'):
     if df is None or desc not in df.columns:
         return Image.new("RGB", (400,200), (255,255,255))
     fig, ax = plt.subplots(figsize=(5,3))
     sns.histplot(df[desc].dropna(), ax=ax, bins=30, kde=True)
-    ax.set_title(f"{desc} Distribution")
     buf = io.BytesIO()
     plt.tight_layout()
     plt.savefig(buf, format='png')
@@ -219,35 +91,23 @@ def plot_desc_dist(df, desc='MolWt'):
     plt.close(fig)
     return Image.open(buf)
-# =========== 功能4: 分群/降維可視化 ===========
-def pca_2d(df, use='ecfp4'):
-    if df is None or use not in df.columns:
-        return Image.new("RGB", (400,200), (255,255,255))
     X = np.stack(df[use].to_numpy())
-    pca = PCA(n_components=2)
-    pc = pca.fit_transform(X)
-    fig, ax = plt.subplots(figsize=(5,4))
-    scatter = ax.scatter(pc[:,0], pc[:,1], c=df['label'], cmap='Set1', alpha=0.7)
-    plt.xlabel("PC1"); plt.ylabel("PC2"); plt.title(f"PCA 2D ({use})")
-    plt.colorbar(scatter)
-    buf = io.BytesIO()
-    plt.tight_layout()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    plt.close(fig)
-    return Image.open(buf)
-def kmeans_clusters(df, n_clusters=3, use='ecfp4'):
-    if df is None or use not in df.columns:
-        return Image.new("RGB", (400,200), (255,255,255))
-    X = np.stack(df[use].to_numpy())
-    km = KMeans(n_clusters=n_clusters, random_state=42)
-    labels = km.fit_predict(X)
-    pca = PCA(n_components=2)
-    pc = pca.fit_transform(X)
     fig, ax = plt.subplots(figsize=(5,4))
     scatter = ax.scatter(pc[:,0], pc[:,1], c=labels, cmap='tab10', alpha=0.7)
-    plt.xlabel("PC1"); plt.ylabel("PC2"); plt.title(f"KMeans Clusters ({n_clusters})")
     plt.colorbar(scatter)
     buf = io.BytesIO()
     plt.tight_layout()
@@ -256,33 +116,21 @@ def kmeans_clusters(df, n_clusters=3, use='ecfp4'):
     plt.close(fig)
     return Image.open(buf)
-# =========== 功能5: 機器學習建模與預測 ===========
-def train_model(df, fp_type='ecfp4', model_type='rf', task='auto'):
-    X = np.stack(df[fp_type].to_numpy())
-    y = df['label'].values
-    if task == 'auto':
-        task = 'regression' if np.issubdtype(y.dtype, np.floating) else 'classification'
-    if model_type == 'rf':
-        model = RandomForestRegressor(n_estimators=100) if task == 'regression' else RandomForestClassifier(n_estimators=100)
-    scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error' if task=='regression' else 'accuracy')
-    model.fit(X, y)
-    return model, scores
-def predict_single(model, smiles, fp_type='ecfp4'):
-    fp = ecfp4_fp(smiles) if fp_type=='ecfp4' else maccs_fp(smiles)
-    y_pred = model.predict([fp])[0]
-    return y_pred
-# =========== Gradio主UI ===========
 with gr.Blocks(title="Cheminformatics Platform") as demo:
-    gr.Markdown("# 🧪 Cheminformatics 多功能分析平台")
-    # 全域狀態：原始資料、特徵後資料、模型
-    data_state = gr.State()
-    feat_state = gr.State()
-    model_state = gr.State()
-    ## 1. 資料導入與批次結構圖
     with gr.Tab("1️⃣ 資料導入/結構圖"):
         up = gr.File(label="上傳分子檔 (csv/xlsx/sdf)", file_types=[".csv", ".xlsx", ".sdf"])
         df_view = gr.Dataframe(label="資料預覽 (前15筆)")
@@ -290,73 +138,51 @@ with gr.Blocks(title="Cheminformatics Platform") as demo:
         up.upload(lambda f: load_table(f).head(15) if f else pd.DataFrame(), up, df_view)
         up.upload(lambda f: batch_mol_imgs(load_table(f)['smiles'].values[:25]) if f else None, up, mol_grid)
-    ## 2. 特徵與官能基
     with gr.Tab("2️⃣ 特徵/描述子/官能基計算"):
-        fp_types = gr.CheckboxGroup(['ecfp4','maccs','rdkitfp'], label="指紋選擇", value=["ecfp4"])
         desc_types = gr.CheckboxGroup(['MolWt','TPSA','NumHDonors','NumHAcceptors','LogP'], label="描述子")
-        func_smart = gr.Textbox(label="官能基SMARTS, 逗號分隔 (如 [N+](=O)[O-], [OX2H], [NX3;H2] )")
-        file2 = gr.File(label="再次選擇分子檔")
-        feat_preview = gr.Dataframe(label="特徵/描述子預覽 (前10筆)")
         def calc_all_feats(file, fp, desc, smartbox):
             df = load_table(file)
-            # smartbox 格式處理
-            smarts_dict = {}
-            if smartbox:
-                items = [i.strip() for i in smartbox.split(",") if i.strip()]
-                for idx, smt in enumerate(items):
-                    smarts_dict[f"custom_{idx}"] = smt
-            df = calc_features(df, fp, desc, smarts_dict if smarts_dict else None)
             return df.head(10)
-        file2.upload(lambda f: load_table(f).head(10) if f else pd.DataFrame(), file2, feat_preview)
-        gr.Button("特徵計算", variant="primary").click(
             calc_all_feats, [file2, fp_types, desc_types, func_smart], feat_preview
         )
-    ## 3. 資料探索/EDA
     with gr.Tab("3️⃣ EDA分析/自動報表"):
-        file3 = gr.File(label="選擇分子檔")
-        col_sel = gr.Dropdown(['MolWt','TPSA','NumHDonors','NumHAcceptors','LogP'], label="描述子欄位")
-        eda_img = gr.Image(label="分布圖")
-        eda_btn = gr.Button("產生描述子分布")
         eda_sum = gr.File(label="下載EDA報表")
-        def eda_plot(file, col):
-            df = load_table(file)
-            if col not in df: return None
-            fig, ax = plt.subplots(figsize=(5,3))
-            sns.histplot(df[col].dropna(), ax=ax, bins=30, kde=True)
-            buf = io.BytesIO()
-            plt.tight_layout()
-            plt.savefig(buf, format='png')
-            buf.seek(0)
-            plt.close(fig)
-            return Image.open(buf)
-        eda_btn.click(eda_plot, [file3, col_sel], eda_img)
         gr.Button("生成EDA報表", variant="primary").click(
             lambda f: eda_report(load_table(f)) if f else None, file3, eda_sum
         )
-    ## 4. 降維/分群/群代表分子圖
     with gr.Tab("4️⃣ 降維/分群/結構探索"):
         file4 = gr.File(label="分子檔")
-        use_fp = gr.Dropdown(['ecfp4','maccs','rdkitfp'], label="降維用指紋")
         dr_method = gr.Radio(['PCA','UMAP','tSNE'], label="降維方法", value="PCA")
         cl_method = gr.Radio(['KMeans','DBSCAN'], label="分群方法", value="KMeans")
         nclus = gr.Slider(2, 8, 3, 1, label="KMeans分群數")
-        dr_img = gr.Image(label="降維視覺化")
-        rep_imgs = gr.Image(label="群代表分子(自動選取，每群1個)")
         def dimred_and_cluster(file, fp, dr, cl, nclu):
             df = load_table(file)
-            df = calc_features(df, [fp], [], {})
             pc = apply_dim_red(df, fp, dr)
-            if cl == 'KMeans':
-                labels = KMeans(n_clusters=int(nclu), random_state=42).fit_predict(pc)
-            else:
-                labels = DBSCAN(eps=3, min_samples=2).fit_predict(pc)
             plotimg = plot_scatter(pc, labels, f"{dr}-{cl}")
-            # 每群代表分子
             reps = cluster_reps(df, labels, fp)
             rep_img = batch_mol_imgs(reps)
             return plotimg, rep_img

 import chardet
 from ydata_profiling import ProfileReport
+# =========== Robust 多格式自動讀取 ===========
 def load_table(file):
     if file is None:
         return pd.DataFrame()
+    # 路徑或 str
+    fname = file if isinstance(file, str) else getattr(file, "name", None)
+    if fname is not None:
         if fname.endswith('.csv'):
+            with open(fname, 'rb') as f:
+                raw = f.read(4096)
+                enc = chardet.detect(raw)['encoding'] or 'utf-8'
+            return pd.read_csv(fname, encoding=enc, engine='python')
+        elif fname.endswith('.xlsx') or fname.endswith('.xls'):
+            return pd.read_excel(fname)
         elif fname.endswith('.sdf'):
             return PandasTools.LoadSDF(fname)
         else:
             raise RuntimeError(f"不支援的檔案格式: {fname}")
+    raise RuntimeError("不支援的 file 類型")
+# =========== 批量分子圖 (前25) ===========
 def batch_mol_imgs(smiles_list):
     mols = [Chem.MolFromSmiles(s) for s in smiles_list[:25] if Chem.MolFromSmiles(s)]
+    if not mols:
         return Image.new("RGB", (800, 160), (255,255,255))
     grid = Draw.MolsToGridImage(mols, molsPerRow=5, subImgSize=(160,160))
     buf = io.BytesIO()
     buf.seek(0)
     return Image.open(buf)
+# =========== 指紋/描述子/官能基 ===========
+def calc_features(df, fp_types, desc_types, smartbox):
     if 'ecfp4' in fp_types:
         df['ecfp4'] = df['smiles'].apply(lambda s: np.array(AllChem.GetMorganFingerprintAsBitVect(Chem.MolFromSmiles(s), 2, nBits=2048)) if Chem.MolFromSmiles(s) else np.zeros(2048))
     if 'maccs' in fp_types:
         df['maccs'] = df['smiles'].apply(lambda s: np.array(MACCSkeys.GenMACCSKeys(Chem.MolFromSmiles(s))) if Chem.MolFromSmiles(s) else np.zeros(167))
     if 'rdkitfp' in fp_types:
         df['rdkitfp'] = df['smiles'].apply(lambda s: np.array(rdMolDescriptors.GetRDKitFingerprintAsBitVect(Chem.MolFromSmiles(s), maxPath=5)) if Chem.MolFromSmiles(s) else np.zeros(2048))
     for desc in desc_types:
         try:
             if hasattr(Descriptors, desc):
                 df[desc] = df['smiles'].apply(lambda s: getattr(Descriptors, desc)(Chem.MolFromSmiles(s)) if Chem.MolFromSmiles(s) else np.nan)
+        except: continue
+    # SMARTS 官能基
+    if smartbox:
+        for idx, smt in enumerate([x.strip() for x in smartbox.split(",") if x.strip()]):
+            patt = Chem.MolFromSmarts(smt)
+            df[f"FG{idx+1}_count"] = df['smiles'].apply(lambda s: Chem.MolFromSmiles(s).GetSubstructMatches(patt) if Chem.MolFromSmiles(s) and patt else [])
+            df[f"FG{idx+1}_count"] = df[f"FG{idx+1}_count"].apply(lambda l: len(l) if isinstance(l, (list, tuple)) else 0)
     return df
+# =========== EDA報表 & 單欄分布 ===========
 def eda_report(df):
     profile = ProfileReport(df, title="EDA報告", minimal=True)
+    out = "/tmp/eda_report.html"
+    profile.to_file(out)
+    return out
 def plot_desc_dist(df, desc='MolWt'):
     if df is None or desc not in df.columns:
         return Image.new("RGB", (400,200), (255,255,255))
     fig, ax = plt.subplots(figsize=(5,3))
     sns.histplot(df[desc].dropna(), ax=ax, bins=30, kde=True)
     buf = io.BytesIO()
     plt.tight_layout()
     plt.savefig(buf, format='png')
     plt.close(fig)
     return Image.open(buf)
+# =========== 降維/分群 & 群代表分子 ===========
+def apply_dim_red(df, use, method='PCA'):
     X = np.stack(df[use].to_numpy())
+    if method == 'PCA':
+        pc = PCA(n_components=2).fit_transform(X)
+    elif method == 'UMAP':
+        pc = UMAP(n_components=2, random_state=42).fit_transform(X)
+    elif method == 'tSNE':
+        pc = TSNE(n_components=2, random_state=42).fit_transform(X)
+    else:
+        raise ValueError('Unknown method')
+    return pc
+def plot_scatter(pc, labels, title):
     fig, ax = plt.subplots(figsize=(5,4))
     scatter = ax.scatter(pc[:,0], pc[:,1], c=labels, cmap='tab10', alpha=0.7)
+    plt.xlabel("Dim1"); plt.ylabel("Dim2"); plt.title(title)
     plt.colorbar(scatter)
     buf = io.BytesIO()
     plt.tight_layout()
     plt.close(fig)
     return Image.open(buf)
+def cluster_reps(df, labels, use):
+    reps = []
+    labels = np.array(labels)
+    for cl in np.unique(labels):
+        cluster_df = df[labels == cl]
+        if len(cluster_df) > 0:
+            idx = np.random.choice(cluster_df.index, 1)[0]
+            reps.append(cluster_df.loc[idx]['smiles'])
+    return reps
+# =========== Gradio 主 UI ===========
 with gr.Blocks(title="Cheminformatics Platform") as demo:
+    gr.Markdown("# 🧪 Cheminformatics 多功能平台")
+    # 1. 資料導入與批次結構圖
     with gr.Tab("1️⃣ 資料導入/結構圖"):
         up = gr.File(label="上傳分子檔 (csv/xlsx/sdf)", file_types=[".csv", ".xlsx", ".sdf"])
         df_view = gr.Dataframe(label="資料預覽 (前15筆)")
         up.upload(lambda f: load_table(f).head(15) if f else pd.DataFrame(), up, df_view)
         up.upload(lambda f: batch_mol_imgs(load_table(f)['smiles'].values[:25]) if f else None, up, mol_grid)
+    # 2. 特徵/描述子/官能基計算
     with gr.Tab("2️⃣ 特徵/描述子/官能基計算"):
+        file2 = gr.File(label="選擇分子檔")
+        fp_types = gr.CheckboxGroup(['ecfp4','maccs','rdkitfp'], label="指紋", value=['ecfp4'])
         desc_types = gr.CheckboxGroup(['MolWt','TPSA','NumHDonors','NumHAcceptors','LogP'], label="描述子")
+        func_smart = gr.Textbox(label="官能基SMARTS(逗號分隔)", placeholder="[N+](=O)[O-], [OX2H]")
+        feat_preview = gr.Dataframe(label="特徵/描述子預覽(前10筆)")
         def calc_all_feats(file, fp, desc, smartbox):
             df = load_table(file)
+            df = calc_features(df, fp, desc, smartbox)
             return df.head(10)
+        gr.Button("特徵/官能基計算", variant="primary").click(
             calc_all_feats, [file2, fp_types, desc_types, func_smart], feat_preview
         )
+    # 3. EDA分析/自動報表
     with gr.Tab("3️⃣ EDA分析/自動報表"):
+        file3 = gr.File(label="分子檔")
+        col_sel = gr.Dropdown(['MolWt','TPSA','NumHDonors','NumHAcceptors','LogP'], label="欄位")
+        eda_img = gr.Image(label="描述子分布圖")
+        eda_btn = gr.Button("產生分布圖")
+        eda_btn.click(
+            lambda f, c: plot_desc_dist(calc_features(load_table(f), ['ecfp4'], [c], None), c) if f else None,
+            [file3, col_sel], eda_img
+        )
         eda_sum = gr.File(label="下載EDA報表")
         gr.Button("生成EDA報表", variant="primary").click(
             lambda f: eda_report(load_table(f)) if f else None, file3, eda_sum
         )
+    # 4. 降維/分群/群代表分子圖
     with gr.Tab("4️⃣ 降維/分群/結構探索"):
         file4 = gr.File(label="分子檔")
+        use_fp = gr.Dropdown(['ecfp4','maccs','rdkitfp'], label="降維指紋", value="ecfp4")
         dr_method = gr.Radio(['PCA','UMAP','tSNE'], label="降維方法", value="PCA")
         cl_method = gr.Radio(['KMeans','DBSCAN'], label="分群方法", value="KMeans")
         nclus = gr.Slider(2, 8, 3, 1, label="KMeans分群數")
+        dr_img = gr.Image(label="降維/分群視覺化")
+        rep_imgs = gr.Image(label="群代表分子圖(每群1個)")
         def dimred_and_cluster(file, fp, dr, cl, nclu):
             df = load_table(file)
+            df = calc_features(df, [fp], [], None)
             pc = apply_dim_red(df, fp, dr)
+            labels = KMeans(n_clusters=int(nclu), random_state=42).fit_predict(pc) if cl == 'KMeans' else DBSCAN(eps=3, min_samples=2).fit_predict(pc)
             plotimg = plot_scatter(pc, labels, f"{dr}-{cl}")
             reps = cluster_reps(df, labels, fp)
             rep_img = batch_mol_imgs(reps)
             return plotimg, rep_img