xiaohy commited on
Commit
9a0de2a
·
verified ·
1 Parent(s): 36e76dd

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +25 -1
app.py CHANGED
@@ -559,7 +559,30 @@ with gr.Blocks(title="MIA攻防研究", theme=gr.themes.Soft(), css=CSS) as demo
559
  </div>""")
560
 
561
  with gr.Tab("📊 实验总览"):
562
- gr.Markdown(f"## 📌 研究背景与目标\n\n本研究基于 **{model_name}** 微调的数学辅导模型,系统验证成员推理攻击(MIA)风险并评估两类防御策略。")
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
563
  gr.HTML(f"""<div style="display:grid;grid-template-columns:repeat(4,1fr);gap:20px;margin:30px 0;">
564
  <div class="card-wrap" style="text-align:center;">
565
  <div style="font-size:32px;font-weight:700;color:{COLORS['accent']};margin-bottom:8px;">5</div>
@@ -582,6 +605,7 @@ with gr.Blocks(title="MIA攻防研究", theme=gr.themes.Soft(), css=CSS) as demo
582
  <div style="font-size:30px;margin-top:10px;">📄</div>
583
  </div>
584
  </div>""")
 
585
  with gr.Accordion("📋 完整实验结果表(11组 × 8维度)", open=True):
586
  gr.Markdown(build_full_table())
587
 
 
559
  </div>""")
560
 
561
  with gr.Tab("📊 实验总览"):
562
+ gr.Markdown(f"""
563
+ ## 📌 研究背景:为什么教育大模型需要防范 MIA?
564
+
565
+
566
+
567
+ 在教育领域,大模型(如虚拟辅导老师)的训练往往离不开学生真实的互动数据,而这些数据中包含了大量**极度敏感的个人隐私**。本研究基于 **{model_name}** 微调的数学辅导模型,系统揭示并解决这一安全隐患。
568
+
569
+ ### 1️⃣ 什么是成员推理攻击 (MIA)?
570
+ **成员推理攻击 (Membership Inference Attack)** 的核心目的,是判断“某一条特定的数据,到底有没有被用来训练过这个AI?”
571
+ * **测谎仪原理**:大模型有一种“偷懒”的天性,对于它在训练时见过的“旧题”(成员数据),它回答得会极其顺畅,**损失值(Loss)非常低**;而面对没见过的“新题”(非成员数据),Loss 会偏高。攻击者正是利用这个 Loss 差距来做判定。
572
+
573
+ ### 2️⃣ 教育大模型中的 MIA 危害有多大?(结合实验数据)
574
+ 想象一下,我们系统后台有这样一条真实的训练数据:
575
+ > *“老师您好,我是**李明(学号20231001)**。我上次数学只考了**55分**,计算题老是错,请问 25+37 等于多少?”*
576
+
577
+ 如果学校直接用这些记录训练了AI,恶意攻击者就可以拿着这句话去“套话”。如果 AI 表现出“极度熟悉”(Loss极低),攻击者就能推断出:**“李明确实在这个学校,且上次数学不及格。”** 学生的姓名、学号、成绩短板等核心隐私将彻底暴露!
578
+
579
+ ### 3️⃣ 我们如何进行防御?
580
+ 为了打破攻击者的“测谎仪”,本研究引入了两大防御流派,并探讨了它们在保护隐私与维持 AI 教学智商(效用)之间的平衡:
581
+ * 🛡️ **标签平滑 (Label Smoothing, 训练期)**:从小教育 AI“不要死记硬背”。在训练时强行引入不确定性,逼迫 AI 去学习加减乘除的通用规律,而不是死记李明的名字和分数。
582
+ * 🛡️ **输出扰动 (Output Perturbation, 推理期)**:给 AI 的输出加上“变声器”。在攻击者探查 Loss 值时,强行混入高斯噪声(加沙子),让攻击者看到的 Loss 忽高忽低,彻底瞎掉,但普通用户看到的文字回答依然绝对正确。
583
+ """)
584
+
585
+ # 下面的 4 个方块和表格保持不变
586
  gr.HTML(f"""<div style="display:grid;grid-template-columns:repeat(4,1fr);gap:20px;margin:30px 0;">
587
  <div class="card-wrap" style="text-align:center;">
588
  <div style="font-size:32px;font-weight:700;color:{COLORS['accent']};margin-bottom:8px;">5</div>
 
605
  <div style="font-size:30px;margin-top:10px;">📄</div>
606
  </div>
607
  </div>""")
608
+
609
  with gr.Accordion("📋 完整实验结果表(11组 × 8维度)", open=True):
610
  gr.Markdown(build_full_table())
611