Spaces:

xiaohy
/

MathTutor-MIA-Defense

Running

App Files Files Community

xiaohy commited on Mar 12

Commit

9a0de2a

verified ·

1 Parent(s): 36e76dd

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -1

app.py CHANGED Viewed

@@ -559,7 +559,30 @@ with gr.Blocks(title="MIA攻防研究", theme=gr.themes.Soft(), css=CSS) as demo
     </div>""")
     with gr.Tab("📊 实验总览"):
-        gr.Markdown(f"## 📌 研究背景与目标\n\n本研究基于 **{model_name}** 微调的数学辅导模型，系统验证成员推理攻击（MIA）风险并评估两类防御策略。")
         gr.HTML(f"""<div style="display:grid;grid-template-columns:repeat(4,1fr);gap:20px;margin:30px 0;">
         <div class="card-wrap" style="text-align:center;">
             <div style="font-size:32px;font-weight:700;color:{COLORS['accent']};margin-bottom:8px;">5</div>
@@ -582,6 +605,7 @@ with gr.Blocks(title="MIA攻防研究", theme=gr.themes.Soft(), css=CSS) as demo
             <div style="font-size:30px;margin-top:10px;">📄</div>
         </div>
         </div>""")
         with gr.Accordion("📋 完整实验结果表（11组 × 8维度）", open=True):
             gr.Markdown(build_full_table())

     </div>""")
     with gr.Tab("📊 实验总览"):
+        gr.Markdown(f"""
+## 📌 研究背景：为什么教育大模型需要防范 MIA？
+在教育领域，大模型（如虚拟辅导老师）的训练往往离不开学生真实的互动数据，而这些数据中包含了大量**极度敏感的个人隐私**。本研究基于 **{model_name}** 微调的数学辅导模型，系统揭示并解决这一安全隐患。
+### 1️⃣ 什么是成员推理攻击 (MIA)？
+**成员推理攻击 (Membership Inference Attack)** 的核心目的，是判断“某一条特定的数据，到底有没有被用来训练过这个AI？”
+* **测谎仪原理**：大模型有一种“偷懒”的天性，对于它在训练时见过的“旧题”（成员数据），它回答得会极其顺畅，**损失值（Loss）非常低**；而面对没见过的“新题”（非成员数据），Loss 会偏高。攻击者正是利用这个 Loss 差距来做判定。
+### 2️⃣ 教育大模型中的 MIA 危害有多大？（结合实验数据）
+想象一下，我们系统后台有这样一条真实的训练数据：
+> *“老师您好，我是**李明（学号20231001）**。我上次数学只考了**55分**，计算题老是错，请问 25+37 等于多少？”*
+如果学校直接用这些记录训练了AI，恶意攻击者就可以拿着这句话去“套话”。如果 AI 表现出“极度熟悉”（Loss极低），攻击者就能推断出：**“李明确实在这个学校，且上次数学不及格。”** 学生的姓名、学号、成绩短板等核心隐私将彻底暴露！
+### 3️⃣ 我们如何进行防御？
+为了打破攻击者的“测谎仪”，本研究引入了两大防御流派，并探讨了它们在保护隐私与维持 AI 教学智商（效用）之间的平衡：
+* 🛡️ **标签平滑 (Label Smoothing, 训练期)**：从小教育 AI“不要死记硬背”。在训练时强行引入不确定性，逼迫 AI 去学习加减乘除的通用规律，而不是死记李明的名字和分数。
+* 🛡️ **输出扰动 (Output Perturbation, 推理期)**：给 AI 的输出加上“变声器”。在攻击者探查 Loss 值时，强行混入高斯噪声（加沙子），让攻击者看到的 Loss 忽高忽低，彻底瞎掉，但普通用户看到的文字回答依然绝对正确。
+""")
+        # 下面的 4 个方块和表格保持不变
         gr.HTML(f"""<div style="display:grid;grid-template-columns:repeat(4,1fr);gap:20px;margin:30px 0;">
         <div class="card-wrap" style="text-align:center;">
             <div style="font-size:32px;font-weight:700;color:{COLORS['accent']};margin-bottom:8px;">5</div>
             <div style="font-size:30px;margin-top:10px;">📄</div>
         </div>
         </div>""")
         with gr.Accordion("📋 完整实验结果表（11组 × 8维度）", open=True):
             gr.Markdown(build_full_table())