Spaces:

Kung-Hsun
/

Cheminformatics-basic

Sleeping

App Files Files Community

Kung-Hsun commited on Jul 30, 2025

Commit

86a6535

verified ·

1 Parent(s): 22e1400

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -4

app.py CHANGED Viewed

@@ -129,6 +129,51 @@ def cluster_reps(df, labels, use):
             reps.append(cluster_df.loc[idx]['smiles'])
     return reps
 # =========== Gradio 主 UI ===========
 with gr.Blocks(title="Cheminformatics Platform") as demo:
     gr.Markdown("# 🧪 Cheminformatics 多功能平台")
@@ -162,10 +207,16 @@ with gr.Blocks(title="Cheminformatics Platform") as demo:
         col_sel = gr.Dropdown(['MolWt','TPSA','NumHDonors','NumHAcceptors','LogP'], label="欄位")
         eda_img = gr.Image(label="描述子分布圖")
         eda_btn = gr.Button("產生分布圖")
         eda_btn.click(
-            lambda f, c: plot_desc_dist(calc_features(load_table(f), ['ecfp4'], [c], None), c) if f else None,
-            [file3, col_sel], eda_img
         )
         eda_sum = gr.File(label="下載EDA報表")
         gr.Button("生成EDA報表", variant="primary").click(
             lambda f: eda_report(load_table(f)) if f else None, file3, eda_sum
@@ -180,17 +231,20 @@ with gr.Blocks(title="Cheminformatics Platform") as demo:
         nclus = gr.Slider(2, 8, 3, 1, label="KMeans分群數")
         dr_img = gr.Image(label="降維/分群視覺化")
         rep_imgs = gr.Image(label="群代表分子圖(每群1個)")
         def dimred_and_cluster(file, fp, dr, cl, nclu):
             df = load_table(file)
             df = calc_features(df, [fp], [], None)
             pc = apply_dim_red(df, fp, dr)
             labels = KMeans(n_clusters=int(nclu), random_state=42).fit_predict(pc) if cl == 'KMeans' else DBSCAN(eps=3, min_samples=2).fit_predict(pc)
             plotimg = plot_scatter(pc, labels, f"{dr}-{cl}")
             reps = cluster_reps(df, labels, fp)
             rep_img = batch_mol_imgs(reps)
-            return plotimg, rep_img
         gr.Button("降維+分群分析", variant="primary").click(
-            dimred_and_cluster, [file4, use_fp, dr_method, cl_method, nclus], [dr_img, rep_imgs]
         )
     gr.Markdown("---\n> 完整工作流：1️⃣資料導入 → 2️⃣特徵/描述子/官能基 → 3️⃣EDA分析 → 4️⃣降維/分群/結構探索")

             reps.append(cluster_df.loc[idx]['smiles'])
     return reps
+# 圖像自動說明函數
+# 針對描述子分布圖的簡易解釋
+def explain_desc_dist(df, desc):
+    if df is None or desc not in df.columns:
+        return "請先上傳檔案並選擇描述子。"
+    n = df.shape[0]
+    mean = df[desc].mean()
+    std = df[desc].std()
+    minv = df[desc].min()
+    maxv = df[desc].max()
+    msg = (
+        f"這張圖顯示目前資料集裡「{desc}」這個特徵的分布情況。\n\n"
+        f"總共有 {n} 筆資料。數值大多集中在平均值 {mean:.2f} 左右，標準差是 {std:.2f}。\n"
+        f"最低值 {minv:.2f}，最高值 {maxv:.2f}。圖中高峰的位置就是資料最集中的範圍。\n"
+        "這樣的分布圖可以幫助你判斷資料是不是有極端值，或是大多數分子都屬於哪個範圍。\n\n"
+        "【應用案例】\n"
+        "比方說，如果你正在開發一款新藥或新材料，可以藉由分布圖觀察目標分子的分子量、極性（TPSA）是否和現有產品類似。"
+        "如果發現有極端高或低的分子量，可能要特別注意這些分子在後續應用上的行為，例如溶解度、吸收性等。\n"
+        "這樣的分析常被用於藥物篩選（藥物發現）、高分子材料設計，甚至協助判斷是否有「資料異常」需要清理。"
+    )
+    return msg
+# 針對降維與分群圖的簡易解釋
+def explain_dimred(pc, labels, dr, cl):
+    n = pc.shape[0]
+    n_cls = len(np.unique(labels))
+    label_cnt = {int(lbl): sum(labels==lbl) for lbl in np.unique(labels)}
+    msg = (
+        f"這張圖是把分子資料用 {dr} 方法做降維，再用 {cl} 方法分群得到的。\n\n"
+        f"每個點代表一個分子，不同顏色表示不同的群組。這次總共分成 {n_cls} 群。\n"
+        f"每群的分子數量分別是：{label_cnt}\n"
+        "如果看到有明顯分群，代表這些分子之間可能有某些共通的特徵。\n"
+        "點跟點之間越近，代表它們在特徵上也越像。如果有單獨一兩個點很遠，那可能就是所謂的離群值（和其他分子差異較大）。\n\n"
+        "【應用案例】\n"
+        "假設你是一位藥物化學家，可以利用這張圖來判斷哪些分子屬於同一類型（例如同一類藥效分子），快速發現群內外的差異。"
+        "如果你是在開發新材料，可以找出和現有材料組成最相近或最不一樣的分子，有助於找出潛力新材料。\n"
+        "此外，如果發現某個群組特別小或特別大，也可以針對這些群組進行更細緻的分析，例如針對特殊族群做後續的結構設計。"
+    )
+    return msg
 # =========== Gradio 主 UI ===========
 with gr.Blocks(title="Cheminformatics Platform") as demo:
     gr.Markdown("# 🧪 Cheminformatics 多功能平台")
         col_sel = gr.Dropdown(['MolWt','TPSA','NumHDonors','NumHAcceptors','LogP'], label="欄位")
         eda_img = gr.Image(label="描述子分布圖")
         eda_btn = gr.Button("產生分布圖")
+        def show_eda_img_with_explain(f, c):
+            df = calc_features(load_table(f), ['ecfp4'], [c], None)
+            img = plot_desc_dist(df, c)
+            exp = explain_desc_dist(df, c)
+            return img, exp
         eda_btn.click(
+            show_eda_img_with_explain, [file3, col_sel], [eda_img, eda_desc]
         )
         eda_sum = gr.File(label="下載EDA報表")
         gr.Button("生成EDA報表", variant="primary").click(
             lambda f: eda_report(load_table(f)) if f else None, file3, eda_sum
         nclus = gr.Slider(2, 8, 3, 1, label="KMeans分群數")
         dr_img = gr.Image(label="降維/分群視覺化")
         rep_imgs = gr.Image(label="群代表分子圖(每群1個)")
         def dimred_and_cluster(file, fp, dr, cl, nclu):
             df = load_table(file)
             df = calc_features(df, [fp], [], None)
             pc = apply_dim_red(df, fp, dr)
             labels = KMeans(n_clusters=int(nclu), random_state=42).fit_predict(pc) if cl == 'KMeans' else DBSCAN(eps=3, min_samples=2).fit_predict(pc)
             plotimg = plot_scatter(pc, labels, f"{dr}-{cl}")
+            exp = explain_dimred(pc, labels, dr, cl)
             reps = cluster_reps(df, labels, fp)
             rep_img = batch_mol_imgs(reps)
+            return plotimg, exp, rep_img
         gr.Button("降維+分群分析", variant="primary").click(
+            dimred_and_cluster, [file4, use_fp, dr_method, cl_method, nclus], [dr_img, dr_desc, rep_imgs]
         )
     gr.Markdown("---\n> 完整工作流：1️⃣資料導入 → 2️⃣特徵/描述子/官能基 → 3️⃣EDA分析 → 4️⃣降維/分群/結構探索")