Spaces:

yisen888
/

BioOracle-V14

No application file

App Files Files Community

yisen888 commited on Feb 1

Commit

d483033

verified ·

1 Parent(s): 930bc9d

Delete BioOracle_V14

Browse files

Files changed (6) hide show

BioOracle_V14/app.py +0 -247
BioOracle_V14/requirements.txt +0 -8
BioOracle_V14/special_tokens_map.json +0 -7
BioOracle_V14/tokenizer_config.json +0 -53
BioOracle_V14/v14_weights.bin +0 -3
BioOracle_V14/vocab.txt +0 -33

BioOracle_V14/app.py DELETED Viewed

@@ -1,247 +0,0 @@
-import streamlit as st
-import torch
-import numpy as np
-import pandas as pd
-from torch import nn
-from transformers import AutoTokenizer, AutoModel
-from peft import get_peft_model, LoraConfig, TaskType
-import os
-import plotly.express as px
-from sklearn.preprocessing import MinMaxScaler
-# ================= 配置区 =================
-# 页面设置
-st.set_page_config(
-    page_title="巨子智筛 BioOracle V14",
-    page_icon="🧬",
-    layout="wide",
-    initial_sidebar_state="expanded"
-)
-# 路径配置 (默认权重文件在当前目录)
-MODEL_DIR = "."
-BASE_MODEL_NAME = "facebook/esm2_t30_150M_UR50D"
-# 标签列表 (顺序必须与训练时完全一致!)
-LABELS = ['anti_acne', 'anti_aging', 'anti_inflammatory', 'anti_oxidant', 'repair', 'whitening', 'delivery', 'negative']
-# ================= 1. 核心组件复刻 (必须与训练代码一致) =================
-AA_PROPS = {'A': 1.8, 'R': -4.5, 'N': -3.5, 'D': -3.5, 'C': 2.5, 'Q': -3.5, 'E': -3.5, 'G': -0.4, 'H': -3.2, 'I': 4.5, 'L': 3.8, 'K': -3.9, 'M': 1.9, 'F': 2.8, 'P': -1.6, 'S': -0.8, 'T': -0.7, 'W': -0.9, 'Y': -1.3, 'V': 4.2}
-AA_CHARGE = {'R': 1, 'K': 1, 'H': 0.1, 'D': -1, 'E': -1}
-def compute_biophysics(seq):
-    length = len(seq)
-    if length == 0: return [0]*5
-    hydro = sum([AA_PROPS.get(aa, 0) for aa in seq]) / length
-    charge = sum([AA_CHARGE.get(aa, 0) for aa in seq])
-    weight = length * 110 / 1000.0 # 简化的归一化分子量
-    n_term = AA_PROPS.get(seq[0], 0)
-    c_term = AA_CHARGE.get(seq[-1], 0)
-    return np.array([hydro, charge, weight, n_term, c_term], dtype=np.float32)
-# V14 模型架构定义
-class AdaptiveFusionModel(nn.Module):
-    def __init__(self, base_model, num_labels, feature_dim=5):
-        super().__init__()
-        self.esm = base_model
-        self.num_labels = num_labels
-        hidden_size = base_model.config.hidden_size
-        self.esm_classifier = nn.Sequential(nn.Dropout(0.1), nn.Linear(hidden_size, num_labels))
-        self.feature_classifier = nn.Sequential(nn.Linear(feature_dim, 64), nn.BatchNorm1d(64), nn.ReLU(), nn.Dropout(0.1), nn.Linear(64, num_labels))
-        self.gate_weight = nn.Parameter(torch.tensor([1.38]))
-    def forward(self, input_ids, attention_mask=None, extra_features=None, **kwargs):
-        outputs = self.esm(input_ids=input_ids, attention_mask=attention_mask, **kwargs)
-        cls_embedding = outputs.last_hidden_state[:, 0, :]
-        logits_esm = self.esm_classifier(cls_embedding)
-        if extra_features is not None:
-            logits_feat = self.feature_classifier(extra_features)
-            alpha = torch.sigmoid(self.gate_weight)
-            logits = alpha * logits_esm + (1 - alpha) * logits_feat
-        else:
-            logits = logits_esm
-            alpha = None # Should not happen in inference
-        return logits, alpha
-# ================= 2. 加载引擎 (带缓存) =================
-@st.cache_resource
-def load_engine():
-    # 优先使用 GPU，没有则使用 CPU
-    device_str = "cuda" if torch.cuda.is_available() else "cpu"
-    device = torch.device(device_str)
-    print(f"正在使用设备: {device_str} 加载模型...")
-    try:
-        # A. 加载 Tokenizer
-        tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_NAME)
-        # B. 加载基座模型并应用 LoRA
-        # 注意：首次运行会自动下载 ESM-2 150M 权重 (约600MB)，请保持网络通畅
-        base_model = AutoModel.from_pretrained(BASE_MODEL_NAME)
-        peft_config = LoraConfig(
-            task_type=TaskType.FEATURE_EXTRACTION,
-            r=32, lora_alpha=64, lora_dropout=0.1,
-            target_modules=["query", "key", "value", "dense"]
-        )
-        base_model = get_peft_model(base_model, peft_config)
-        # C. 构建 V14 融合架构
-        model = AdaptiveFusionModel(base_model, num_labels=len(LABELS))
-        # D. 加载训练好的 V14 权重
-        weights_path = os.path.join(MODEL_DIR, "v14_weights.bin")
-        if not os.path.exists(weights_path):
-            st.error(f"❌ 严重错误：找不到权重文件 `v14_weights.bin`！\n请确认你已解压 zip 文件，并且 `app.py` 和 `.bin` 文件在同一个文件夹内。")
-            st.stop()
-        # map_location 确保在 CPU 机器上也能加载 GPU 训练的权重
-        state_dict = torch.load(weights_path, map_location=device)
-        model.load_state_dict(state_dict)
-        model.to(device)
-        model.eval()
-        print("✅ 模型加载完成！")
-        return model, tokenizer, device
-    except Exception as e:
-        st.error(f"模型加载失败: {e}")
-        st.stop()
-# ================= 3. 可视化辅助函数 =================
-def plot_radar_chart(seq, feats):
-    """绘制生物物理特征雷达图"""
-    categories = ['平均疏水性', '净电荷', '估算分子量', 'N端疏水性', 'C端电荷']
-    # 为了雷达图好看，做一个简单的归一化 (基于短肽��经验范围)
-    # 注意：这只是为了可视化展示差异，不影响模型预测
-    scaler = MinMaxScaler(feature_range=(0, 1))
-    # 预设一些经验最大最小值用于缩放
-    min_vals = np.array([-4.5, -3, 0.1, -4.5, -1]).reshape(1, -1)
-    max_vals = np.array([4.5, 3, 1.0, 4.5, 1]).reshape(1, -1)
-    scaler.fit(np.vstack([min_vals, max_vals]))
-    normalized_feats = scaler.transform(feats.reshape(1, -1)).flatten()
-    df = pd.DataFrame(dict(
-        r=normalized_feats,
-        theta=categories
-    ))
-    fig = px.line_polar(df, r='r', theta='theta', line_close=True,
-                        title=f"肽 {seq} 的生物物理指纹 (Biophysical Fingerprint)",
-                        range_r=[0, 1], markers=True)
-    fig.update_traces(fill='toself', line_color='#00CC96')
-    fig.update_layout(polar=dict(radialaxis=dict(visible=True, range=[0, 1])), showlegend=False)
-    return fig
-# ================= 4. 网页 UI 主体 =================
-# 加载模型 (显示加载转圈)
-with st.spinner('正在启动 V14 生物计算引擎 (首次加载可能需要1分钟)...'):
-    model, tokenizer, device = load_engine()
-# 侧边栏信息
-with st.sidebar:
-    st.image("https://img.icons8.com/fluency/96/dna-helix.png", width=60)
-    st.title("BioOracle V14")
-    st.markdown("---")
-    if model:
-        # 获取当前门控权重
-        gate_val = torch.sigmoid(model.gate_weight).item()
-        esm_weight = gate_val
-        feat_weight = 1 - gate_val
-        st.header("🧠 模型大脑状态")
-        # 用两个进度条直观展示权重对比
-        st.write(f"ESM-2 深度语义 (AI直觉): **{esm_weight:.1%}**")
-        st.progress(esm_weight)
-        st.write(f"生物物理特征 (理化规则): **{feat_weight:.1%}**")
-        st.progress(feat_weight)
-        st.info("""
-        **自适应融合机制 (Adaptive Fusion)**:
-        模型自动学会了主要依赖 ESM-2 大模型的深度理解，同时使用物理化学规则作为辅助校验，以防止死记硬背。
-        """)
-    st.markdown("---")
-    st.markdown("Design for Giant Biogene Internship Project.")
-# 主页面
-st.write("# 🧬 巨子智筛：AI活性肽发现系统")
-st.caption("Powered by ESM-2 150M Parameter Model & Biophysics Guided Learning")
-# 输入区
-col1, col2 = st.columns([3, 1])
-with col1:
-    seq_input = st.text_input("请输入待筛选的肽序列 (支持单字母缩写，如 GHK)", value="GHK", help="输入氨基酸序列，模型将评估其潜在生物活性。")
-with col2:
-    st.write("") # Spacer
-    st.write("")
-    run_button = st.button("🚀 开始演算 (Analyze)", type="primary", use_container_width=True)
-if run_button and seq_input:
-    seq = seq_input.strip().upper()
-    # 基本校验
-    valid_aa = set("ACDEFGHIKLMNPQRSTVWY")
-    if not seq or not set(seq).issubset(valid_aa):
-        st.error("请输入有效的氨基酸序列 (仅限20种标准氨基酸单字母缩写)。")
-    else:
-        # --- 预测流程 ---
-        with st.spinner(f'正在分析序列 {seq} 的构象与活性...'):
-            # 1. 数据准备
-            inputs = tokenizer(seq, return_tensors="pt", padding="max_length", max_length=128).to(device)
-            raw_feats = compute_biophysics(seq)
-            feats_tensor = torch.tensor([raw_feats], dtype=torch.float).to(device)
-            # 2. 模型推理
-            with torch.no_grad():
-                logits, _ = model(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'], extra_features=feats_tensor)
-                probs = torch.sigmoid(logits).cpu().numpy()[0]
-        # --- 结果展示区 ---
-        st.divider()
-        # 布局：左侧雷达图，右侧预测结果
-        res_col1, res_col2 = st.columns([2, 3])
-        with res_col1:
-            st.subheader("🔬 生物物理指纹可视化")
-            radar_fig = plot_radar_chart(seq, raw_feats)
-            st.plotly_chart(radar_fig, use_container_width=True)
-            st.caption("展示了该肽段在5个关键物理化学维度上的特征分布。不同功能的肽通常具有不同的指纹形状。")
-        with res_col2:
-            st.subheader("🎯 活性评估结论")
-            # 数据处理
-            df_res = pd.DataFrame({"功效标签": LABELS, "置信度": probs})
-            df_res = df_res.sort_values(by="置信度", ascending=False).reset_index(drop=True)
-            top_label = df_res.iloc[0]['功效标签']
-            top_score = df_res.iloc[0]['置信度']
-            # 核心结论卡片
-            if top_score > 0.8:
-                st.success(f"### ✅ 高潜力活性肽")
-                st.metric(label="主要预测功效", value=top_label, delta=f"置信度: {top_score:.2%}")
-                st.write("模型强烈建议将此序列纳入后续湿实验验证流程。")
-            elif top_score > 0.3:
-                 st.warning(f"### ⚠️ 中等���力 / 需进一步改造")
-                 st.metric(label="主要预测功效", value=top_label, delta=f"置信度: {top_score:.2%}", delta_color="off")
-                 st.write("该序列可能具有一定活性，或是已知活性肽的突变体。建议结合结构生物学分析。")
-            else:
-                st.error(f"### ❌ 疑似无效序列 (负样本)")
-                st.metric(label="最高置信度", value=f"{top_score:.2%}", delta="未达到活性阈值", delta_color="inverse")
-                st.write("模型判断该序列主要表现为负样本特征，建议剔除。")
-            st.divider()
-            st.write("**Top 3 可能性分布:**")
-            for i in range(3):
-                row = df_res.iloc[i]
-                st.write(f"{row['功效标签']}")
-                st.progress(float(row['置信度']))
-        # 完整数据折叠窗
-        with st.expander("查看完整预测数据表"):
-            st.dataframe(df_res.style.format({"置信度": "{:.4%}"}), use_container_width=True)
-# 页脚
-st.divider()
-st.caption("注：本系统基于 ESM-2 150M 大模型微调，预测结果仅供科研参考，实际功效需经实验验证。")

BioOracle_V14/requirements.txt DELETED Viewed

@@ -1,8 +0,0 @@
-torch
-transformers
-peft
-streamlit
-pandas
-numpy
-plotly
-scikit-learn

BioOracle_V14/special_tokens_map.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "cls_token": "<cls>",
-  "eos_token": "<eos>",
-  "mask_token": "<mask>",
-  "pad_token": "<pad>",
-  "unk_token": "<unk>"
-}

BioOracle_V14/tokenizer_config.json DELETED Viewed

@@ -1,53 +0,0 @@
-{
-  "added_tokens_decoder": {
-    "0": {
-      "content": "<cls>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "1": {
-      "content": "<pad>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "2": {
-      "content": "<eos>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "3": {
-      "content": "<unk>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "32": {
-      "content": "<mask>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    }
-  },
-  "clean_up_tokenization_spaces": false,
-  "cls_token": "<cls>",
-  "eos_token": "<eos>",
-  "extra_special_tokens": {},
-  "mask_token": "<mask>",
-  "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<pad>",
-  "tokenizer_class": "EsmTokenizer",
-  "unk_token": "<unk>"
-}

BioOracle_V14/v14_weights.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c81b5a33d66a61483c771a635f88e586ff534d9380cb4c3eb52487151fc2cd2b
-size 637522573

BioOracle_V14/vocab.txt DELETED Viewed

@@ -1,33 +0,0 @@
-<cls>
-<pad>
-<eos>
-<unk>
-L
-A
-G
-V
-S
-E
-R
-T
-I
-D
-P
-K
-Q
-N
-F
-Y
-M
-H
-W
-C
-X
-B
-U
-Z
-O
-.
--
-<null_1>
-<mask>