Spaces:

dqy08
/

InfoRadar

Running

App Files Files Community

dqy08 commited on Mar 12

Commit

791970e

1 Parent(s): 1c6227e

语义分析功能小改进

Browse files

Files changed (17) hide show

backend/runtime_config.py +1 -1
backend/semantic_analyzer.py +15 -14
client/src/index.html +1 -1
client/src/ts/api/GLTR_API.ts +1 -1
client/src/ts/lang/translations.ts +1 -2
client/src/ts/start.ts +15 -1
client/src/ts/utils/settingsMenuManager.ts +4 -0
client/src/ts/utils/signalThresholdDetector.ts +1 -1
client/src/ts/utils/topkChartUtils.ts +10 -2
client/src/ts/utils/visualizationConfigs.ts +1 -1
client/src/ts/utils/visualizationUpdater.ts +24 -0
client/src/ts/vis/ToolTip.ts +12 -5
model_paths.py +6 -5
run.py +1 -1
scripts/cases/eval_cases_long.json +110 -9
scripts/{eval_semantic_submodes.py → eval_semantic.py} +112 -63
server.yaml +1 -1

backend/runtime_config.py CHANGED Viewed

@@ -91,7 +91,7 @@ SEMANTIC_RUNTIME_CONFIGS = {
     "default_cpu_machine": {"max_token_length": 500},
     "cloud_cpu_16g": {"max_token_length": 500},
     "cloud_cpu_32g": {"max_token_length": 2000},
-    "cloud_cuda": {"max_token_length": 4000},
     "local_mps": {"max_token_length": 500},
 }

     "default_cpu_machine": {"max_token_length": 500},
     "cloud_cpu_16g": {"max_token_length": 500},
     "cloud_cpu_32g": {"max_token_length": 2000},
+    "cloud_cuda": {"max_token_length": 2000},
     "local_mps": {"max_token_length": 500},
 }

backend/semantic_analyzer.py CHANGED Viewed

@@ -3,7 +3,7 @@ Semantic analysis：基于 instruct 模型提取原文 token 与 query 的相关
 使用 logits_gradient 梯度归因策略（与预测更一致），子策略由 --logits_gradient_submode 指定：
 - count：top-10 logits 梯度（排除 0），prompt 引导「数量」。0.6b下只适合用于判断文章整体是否有关联，1.7b下全能
-- match_score：目标 token logit 梯度，prompt 引导「相关度打分」。0.6b/1.7b下都不太有竞争力
 - fill_blank：填空式，top-10 logits 梯度（排除 无），prompt 引导「最相关的一个词」。0.6b下只适合用于给token打分，1.7b下全能
 count/fill_blank 按概率加权（Σ pᵢ·zᵢ）。
@@ -24,7 +24,7 @@ from .runtime_config import get_semantic_max_token_length
 def _get_logits_gradient_submode() -> str:
-    """logits_gradient 子策略：count / match_score / fill_blank"""
     try:
         from backend.app_context import get_args
         return getattr(get_args(), "logits_gradient_submode", "fill_blank")
@@ -63,7 +63,7 @@ def _analyze_logits_gradient(
 ) -> Dict:
     """
     梯度归因：logits 对输入 embedding 的梯度。
-    子策略：count / match_score / fill_blank，由 --logits_gradient_submode 指定。
     submode_override: 评估时可选覆盖，用于同一进程内测试不同子模式。
     """
     TOTAL_STEPS = 4
@@ -74,9 +74,10 @@ def _analyze_logits_gradient(
     if progress_callback:
         progress_callback(1, TOTAL_STEPS, "encoding", None)
     # 根据submodule来决定不同的instruction
     if submode == "count":
         instruction = f"以下是一篇文章，请问原文中有多少个词和查询主题（{query}）相关？文章内容：\n\n"
-    elif submode == "match_score":
         instruction = f"以下是一篇文章，请问原文和查询主题（{query}）的相关程度是多少？请回答0/1/2（2为最高相关）。文章内容：\n\n"
     elif submode == "fill_blank":
         instruction = f"以下是一篇文章，请问原文中哪个词与查询主题（{query}）最相关？如无相关词则回答“无”。文章内容：\n\n"
@@ -94,7 +95,7 @@ def _analyze_logits_gradient(
     # 生成引导词：chat template 只支持完整消息，引导词需追加到 formatted
     if submode == "count":
         generation_guide = f"**原文中**出现的，和查询主题（{query}）相关的词的数量 = **"
-    elif submode == "match_score":
         generation_guide = f"文章和查询主题（{query}）的相关程度（0-2）打分为：**"
     elif submode == "fill_blank":
         # “引号是特意为了防止模型生成引号
@@ -109,6 +110,10 @@ def _analyze_logits_gradient(
     idx = formatted.find(instruction)
     instruction_start_char = idx if idx >= 0 else 0
     text_start_char = instruction_start_char + len(instruction)
     enc = tokenizer(
         formatted,
@@ -131,10 +136,6 @@ def _analyze_logits_gradient(
     embed_layer = model.get_input_embeddings()
     embeds = embed_layer(input_ids).detach().clone().requires_grad_(True)
-    text_end_char = text_start_char + len(truncated_text)
-    lines = truncated_text.splitlines()
-    abbrev_text = truncated_text if len(lines) <= 2 else f"{lines[0]}\n...\n{lines[-1]}"
-    abbrev = formatted[:text_start_char] + abbrev_text + formatted[text_end_char:]
     use_gc = _get_gradient_checkpointing()
     print(f"📌 logits_gradient: 推理原文 (tokens={len(offset_mapping)}, gradient_checkpointing={use_gc}):\n{abbrev}")
     if progress_callback:
@@ -143,7 +144,7 @@ def _analyze_logits_gradient(
     if use_gc:
         model.gradient_checkpointing_enable()
     try:
-        with torch.set_grad_enabled(True):
             outputs = model(
                 inputs_embeds=embeds,
                 attention_mask=attention_mask,
@@ -164,11 +165,11 @@ def _analyze_logits_gradient(
         neg_token = "无" if submode == "fill_blank" else "0"
         neg_id = tokenizer.encode(neg_token, add_special_tokens=False)[0]
-        # 全文匹配度：count/match_score 用 1-P("0")，fill_blank 用 1-P("无")
         p_neg = probs[0, neg_id].item()
         full_match_degree = round(1.0 - p_neg, 4)
-        if full_match_degree_only and submode == "count":
             return {
                 "model": get_semantic_model_display_name(),
                 "token_attention": [],
@@ -186,7 +187,7 @@ def _analyze_logits_gradient(
             w[topk_ids[0] == neg_id] = 0
             target_logit = (w * vals).sum()
-        elif submode == "match_score":
             target_ids = tokenizer.encode("2", add_special_tokens=False)
             if not target_ids:
                 raise ValueError("tokenizer 无法编码 '2'")
@@ -253,7 +254,7 @@ def analyze_semantic(
     Args:
         query: 查询主题
         text: 原文
-        submode_override: 评估时可选覆盖子模式（count/match_score/fill_blank）
         progress_callback: 可选进度回调 (step, total_steps, stage, percentage)
         debug_info: 为 True 时返回 debug_abbrev（推理原文缩写）；topk_tokens、topk_probs 始终在结果中

 使用 logits_gradient 梯度归因策略（与预测更一致），子策略由 --logits_gradient_submode 指定：
 - count：top-10 logits 梯度（排除 0），prompt 引导「数量」。0.6b下只适合用于判断文章整体是否有关联，1.7b下全能
+- match_score：目标 token logit 梯度，prompt 引导「相关度打分」。0.6b/1.7b下都不太有竞争力。【已废弃】
 - fill_blank：填空式，top-10 logits 梯度（排除 无），prompt 引导「最相关的一个词」。0.6b下只适合用于给token打分，1.7b下全能
 count/fill_blank 按概率加权（Σ pᵢ·zᵢ）。
 def _get_logits_gradient_submode() -> str:
+    """logits_gradient 子策略：count / match_score(已废弃) / fill_blank"""
     try:
         from backend.app_context import get_args
         return getattr(get_args(), "logits_gradient_submode", "fill_blank")
 ) -> Dict:
     """
     梯度归因：logits 对输入 embedding 的梯度。
+    子策略：count / match_score(已废弃) / fill_blank，由 --logits_gradient_submode 指定。
     submode_override: 评估时可选覆盖，用于同一进程内测试不同子模式。
     """
     TOTAL_STEPS = 4
     if progress_callback:
         progress_callback(1, TOTAL_STEPS, "encoding", None)
     # 根据submodule来决定不同的instruction
+    # 文档前用 \n\n 分隔，避免 tokenizer 将首字符与空格合并，导致 offset_mapping 计算错误
     if submode == "count":
         instruction = f"以下是一篇文章，请问原文中有多少个词和查询主题（{query}）相关？文章内容：\n\n"
+    elif submode == "match_score":  # 已废弃
         instruction = f"以下是一篇文章，请问原文和查询主题（{query}）的相关程度是多少？请回答0/1/2（2为最高相关）。文章内容：\n\n"
     elif submode == "fill_blank":
         instruction = f"以下是一篇文章，请问原文中哪个词与查询主题（{query}）最相关？如无相关词则回答“无”。文章内容：\n\n"
     # 生成引导词：chat template 只支持完整消息，引导词需追加到 formatted
     if submode == "count":
         generation_guide = f"**原文中**出现的，和查询主题（{query}）相关的词的数量 = **"
+    elif submode == "match_score":  # 已废弃
         generation_guide = f"文章和查询主题（{query}）的相关程度（0-2）打分为：**"
     elif submode == "fill_blank":
         # “引号是特意为了防止模型生成引号
     idx = formatted.find(instruction)
     instruction_start_char = idx if idx >= 0 else 0
     text_start_char = instruction_start_char + len(instruction)
+    text_end_char = text_start_char + len(truncated_text)
+    lines = truncated_text.splitlines()
+    abbrev_text = truncated_text if len(lines) <= 2 else f"{lines[0]}\n...\n{lines[-1]}"
+    abbrev = formatted[:text_start_char] + abbrev_text + formatted[text_end_char:]
     enc = tokenizer(
         formatted,
     embed_layer = model.get_input_embeddings()
     embeds = embed_layer(input_ids).detach().clone().requires_grad_(True)
     use_gc = _get_gradient_checkpointing()
     print(f"📌 logits_gradient: 推理原文 (tokens={len(offset_mapping)}, gradient_checkpointing={use_gc}):\n{abbrev}")
     if progress_callback:
     if use_gc:
         model.gradient_checkpointing_enable()
     try:
+        with torch.set_grad_enabled(not full_match_degree_only):
             outputs = model(
                 inputs_embeds=embeds,
                 attention_mask=attention_mask,
         neg_token = "无" if submode == "fill_blank" else "0"
         neg_id = tokenizer.encode(neg_token, add_special_tokens=False)[0]
+        # 全文匹配度：count/match_score(已废弃) 用 1-P("0")，fill_blank 用 1-P("无")
         p_neg = probs[0, neg_id].item()
         full_match_degree = round(1.0 - p_neg, 4)
+        if full_match_degree_only:
             return {
                 "model": get_semantic_model_display_name(),
                 "token_attention": [],
             w[topk_ids[0] == neg_id] = 0
             target_logit = (w * vals).sum()
+        elif submode == "match_score":  # 已废弃
             target_ids = tokenizer.encode("2", add_special_tokens=False)
             if not target_ids:
                 raise ValueError("tokenizer 无法编码 '2'")
     Args:
         query: 查询主题
         text: 原文
+        submode_override: 评估时可选覆盖子模式（count/match_score已废弃/fill_blank）
         progress_callback: 可选进度回调 (step, total_steps, stage, percentage)
         debug_info: 为 True 时返回 debug_abbrev（推理原文缩写）；topk_tokens、topk_probs 始终在结果中

client/src/index.html CHANGED Viewed

@@ -154,9 +154,9 @@
                                 <label class="semantic-submode-label" for="semantic_submode_select">submode: </label>
                                 <select id="semantic_submode_select" class="semantic-submode-select">
                                     <option value="count">count</option>
-                                    <option value="match_score">match_score</option>
                                     <option value="fill_blank">fill_blank</option>
                                     <option value="hybrid">hybrid</option>
                                 </select>
                             </span>
                             <span class="semantic-submode-group semantic-submode-group-right">

                                 <label class="semantic-submode-label" for="semantic_submode_select">submode: </label>
                                 <select id="semantic_submode_select" class="semantic-submode-select">
                                     <option value="count">count</option>
                                     <option value="fill_blank">fill_blank</option>
                                     <option value="hybrid">hybrid</option>
+                                    <option value="match_score">match_score (废弃)</option>
                                 </select>
                             </span>
                             <span class="semantic-submode-group semantic-submode-group-right">

client/src/ts/api/GLTR_API.ts CHANGED Viewed

@@ -249,7 +249,7 @@ export class TextAnalysisAPI {
      * @param query 查询主题
      * @param text 原文
      * @param onProgress 可选进度回调，传入时启用 SSE 流式响应
-     * @param submode 可选子模式：count/match_score/fill_blank/hybrid
      */
     public async analyzeSemantic(
         query: string,

      * @param query 查询主题
      * @param text 原文
      * @param onProgress 可选进度回调，传入时启用 SSE 流式响应
+     * @param submode 可选子模式：count/fill_blank/hybrid；match_score 已废弃
      */
     public async analyzeSemantic(
         query: string,

client/src/ts/lang/translations.ts CHANGED Viewed

@@ -188,8 +188,7 @@ export const translations: Translations = {
         'information per token histogram': 'token信息量直方图',
         'information per token progress': 'token信息量进度图',
         'token index': 'token索引',
-        'raw score normed histogram': '归一化原始分数直方图',
-        'semantic signal prob histogram': '语义信号概率直方图',
         'signal prob': 'signal概率',
         'signal ratio': '信号比',
         'pw score': 'pw 分数',

         'information per token histogram': 'token信息量直方图',
         'information per token progress': 'token信息量进度图',
         'token index': 'token索引',
+        'semantic score histogram': '语义分数直方图',
         'signal prob': 'signal概率',
         'signal ratio': '信号比',
         'pw score': 'pw 分数',

client/src/ts/start.ts CHANGED Viewed

@@ -262,7 +262,21 @@ window.onload = () => {
                 currentParams['minimap'] = enableMinimap ? '1' : '0';
                 URLHandler.updateUrl(currentParams, false);
             },
-            onSemanticAnalysisToggle: () => {
                 visualizationUpdater.syncSemanticUiFromConfig();
             },
         },

                 currentParams['minimap'] = enableMinimap ? '1' : '0';
                 URLHandler.updateUrl(currentParams, false);
             },
+            onSemanticAnalysisToggle: (enabled: boolean) => {
+                // 打开/关闭时都清除 URL 参数、输入框、选项，避免残留旧数据
+                const currentParams = URLHandler.parameters;
+                delete currentParams['semantic_query'];
+                delete currentParams['semantic_submode'];
+                delete currentParams['semantic_color_source'];
+                URLHandler.updateUrl(currentParams, false);
+                const queryEl = document.getElementById('semantic_search_input') as HTMLInputElement | null;
+                if (queryEl) queryEl.value = '';
+                const submodeEl = document.getElementById('semantic_submode_select') as HTMLSelectElement | null;
+                if (submodeEl) submodeEl.value = 'count';
+                const colorEl = document.getElementById('semantic_color_source_select') as HTMLSelectElement | null;
+                if (colorEl) colorEl.value = 'raw_score_normed';
+                appStateManager.setLastSearchedQuery(null);
+                if (enabled) visualizationUpdater.clearSemanticState();
                 visualizationUpdater.syncSemanticUiFromConfig();
             },
         },

client/src/ts/utils/settingsMenuManager.ts CHANGED Viewed

@@ -96,6 +96,10 @@ export class SettingsMenuManager {
         this.semanticAnalysisToggle.on('change', () => {
             const enabled = (this.semanticAnalysisToggle.node() as HTMLInputElement)?.checked || false;
             setSemanticAnalysisEnabled(enabled);
             if (this.callbacks.onSemanticAnalysisToggle) {
                 this.callbacks.onSemanticAnalysisToggle(enabled);
             }

         this.semanticAnalysisToggle.on('change', () => {
             const enabled = (this.semanticAnalysisToggle.node() as HTMLInputElement)?.checked || false;
             setSemanticAnalysisEnabled(enabled);
+            // 自动同步 Disable info density（用户仍可随时手动切换）
+            setInfoDensityRenderDisabled(enabled);
+            this.setDisableInfoDensity(enabled);
+            window.dispatchEvent(new CustomEvent('info-density-render-change'));
             if (this.callbacks.onSemanticAnalysisToggle) {
                 this.callbacks.onSemanticAnalysisToggle(enabled);
             }

client/src/ts/utils/signalThresholdDetector.ts CHANGED Viewed

@@ -22,7 +22,7 @@ import { fitLogNormalTruncatedMLE, logNormalExpectedCountInInterval, normCdf, LN
 import { computeFitQuality } from './fitQuality';
 /** 置信度阈值，达到此值即判定「确定找到」信号边界；默认 0.9999 */
-const CONFIDENCE_THRESHOLD = 0.9999;
 /** excess 最小阈值，排除无意义随机波动；需 excess > 此值才计为命中 */
 const EXCESS_MIN = 0.1;
 const MIN_OBSERVED = 1; // 每个 bin 至少 N 个观测

 import { computeFitQuality } from './fitQuality';
 /** 置信度阈值，达到此值即判定「确定找到」信号边界；默认 0.9999 */
+const CONFIDENCE_THRESHOLD = 0.99999;
 /** excess 最小阈值，排除无意义随机波动；需 excess > 此值才计为命中 */
 const EXCESS_MIN = 0.1;
 const MIN_OBSERVED = 1; // 每个 bin 至少 N 个观测

client/src/ts/utils/topkChartUtils.ts CHANGED Viewed

@@ -7,6 +7,8 @@ import * as d3 from 'd3';
 import { processCandidateText } from './tokenDisplayUtils';
 const DISPLAY_TOPK = 10;
 /** Tooltip 默认条形宽度 */
 const MAX_BAR_WIDTH = 60;
 /** Semantic debug 专用：更大条形与列宽，tooltip 不受影响 */
@@ -23,6 +25,8 @@ export interface TopkChartOptions {
     /** 条形列单元格宽度 px */
     barCellWidth?: number;
     numFormat?: (n: number) => string;
 }
 function getThemeColors(): { normalColor: string; selectedColor: string } {
@@ -44,13 +48,17 @@ export function renderTopkChartHtml(
     const norm = options?.normalColor ?? normalColor;
     const sel = options?.selectedColor ?? selectedColor;
     const maxBar = options?.maxBarWidth ?? MAX_BAR_WIDTH;
-    const numF = options?.numFormat ?? d3.format('.3f');
     const maxProb = data[0]?.prob ?? 1;
     const scale = d3.scaleLinear().domain([0, maxProb]).range([0, maxBar]);
     const barCellW = options?.barCellWidth ?? 110;
-    const rows = data.slice(0, DISPLAY_TOPK).map((d) => {
         const color = options?.selectedToken !== undefined && d.token === options.selectedToken ? sel : norm;
         const bar = `<div style="display: table-cell; width:${barCellW}px;padding-left:5px;">` +
             `<div style="display:inline-block;width: ${scale(d.prob)}px;background-color:${color};height: 10px;"></div>` +

 import { processCandidateText } from './tokenDisplayUtils';
 const DISPLAY_TOPK = 10;
+/** 插入数据中表示省略行的占位符，左侧列空、token 列显示 ⋮ */
+export const TOPK_SEP = '\0__TOPK_SEP__\0';
 /** Tooltip 默认条形宽度 */
 const MAX_BAR_WIDTH = 60;
 /** Semantic debug 专用：更大条形与列宽，tooltip 不受影响 */
     /** 条形列单元格宽度 px */
     barCellWidth?: number;
     numFormat?: (n: number) => string;
+    /** 最大显示行数，默认 DISPLAY_TOPK */
+    maxRows?: number;
 }
 function getThemeColors(): { normalColor: string; selectedColor: string } {
     const norm = options?.normalColor ?? normalColor;
     const sel = options?.selectedColor ?? selectedColor;
     const maxBar = options?.maxBarWidth ?? MAX_BAR_WIDTH;
+    const numF = options?.numFormat ?? ((v: number) => d3.format('.3g')(v * 100) + '%');
     const maxProb = data[0]?.prob ?? 1;
     const scale = d3.scaleLinear().domain([0, maxProb]).range([0, maxBar]);
     const barCellW = options?.barCellWidth ?? 110;
+    const maxRows = options?.maxRows ?? DISPLAY_TOPK;
+    const rows = data.slice(0, maxRows).map((d) => {
+        if (d.token === TOPK_SEP) {
+            return `<div class="row" style="display: block; text-align: left; padding-left: 30px; color: ${norm}; font-weight: bold;">⋮</div>`;
+        }
         const color = options?.selectedToken !== undefined && d.token === options.selectedToken ? sel : norm;
         const bar = `<div style="display: table-cell; width:${barCellW}px;padding-left:5px;">` +
             `<div style="display:inline-block;width: ${scale(d.prob)}px;background-color:${color};height: 10px;"></div>` +

client/src/ts/utils/visualizationConfigs.ts CHANGED Viewed

@@ -77,7 +77,7 @@ export const getSurprisalProgressConfig = (): ScatterPlotBaseConfig => ({
  * 获取 Raw score normed 直方图配置（归一化 0-1）
  */
 export const getRawScoreNormedHistogramConfig = (): HistogramBaseConfig => ({
-  label: tr("semantic raw score histogram"),
   no_bins: 20,
   xAxisTickSkip: 1,
   xAxisTickRound: true,

  * 获取 Raw score normed 直方图配置（归一化 0-1）
  */
 export const getRawScoreNormedHistogramConfig = (): HistogramBaseConfig => ({
+  label: tr("semantic score histogram"),
   no_bins: 20,
   xAxisTickSkip: 1,
   xAxisTickRound: true,

client/src/ts/utils/visualizationUpdater.ts CHANGED Viewed

@@ -438,6 +438,16 @@ export class VisualizationUpdater {
         this.updateSemanticDebugInfo();
     }
     /**
      * 根据语义分析配置同步 UI 状态（查询输入框、文本渲染模式等）
      * 界面完全由配置决定，不因数据有无而改变
@@ -447,6 +457,19 @@ export class VisualizationUpdater {
         const el = document.getElementById('semantic_analysis_section');
         if (el) el.style.display = enabled ? '' : 'none';
         this.deps.lmf.updateOptions({ semanticAnalysisMode: enabled }, false);
         // 语义分析配置影响 Upload/Save 的 dataReadyForSave 条件，需始终更新按钮状态
         this.deps.appStateManager.updateButtonStates();
     }
@@ -661,6 +684,7 @@ export class VisualizationUpdater {
         }
         if (!abbrev && !top10?.length) {
             el.style.display = 'none';
             return;
         }
         el.style.display = 'block';

         this.updateSemanticDebugInfo();
     }
+    /**
+     * 清除语义分析相关数据（直方图、debug、semanticData），用于打开模式时初始化
+     */
+    public clearSemanticState(): void {
+        this.currentState.semanticData = null;
+        const rawScoreNormedItem = document.getElementById('raw_score_normed_histogram_item');
+        if (rawScoreNormedItem) rawScoreNormedItem.style.display = 'none';
+        this.updateSemanticDebugInfo();
+    }
     /**
      * 根据语义分析配置同步 UI 状态（查询输入框、文本渲染模式等）
      * 界面完全由配置决定，不因数据有无而改变
         const el = document.getElementById('semantic_analysis_section');
         if (el) el.style.display = enabled ? '' : 'none';
         this.deps.lmf.updateOptions({ semanticAnalysisMode: enabled }, false);
+        if (!enabled) {
+            // 关闭时清除语义数据、直方图、debug 信息（不重渲染，避免重复渲染信息密度）
+            this.currentState.semanticData = null;
+            const rawScoreNormedItem = document.getElementById('raw_score_normed_histogram_item');
+            if (rawScoreNormedItem) rawScoreNormedItem.style.display = 'none';
+            this.updateSemanticDebugInfo();
+            const displayResult = this.computeDisplayResult();
+            this.deps.highlightController.updateCurrentData(displayResult ? { result: displayResult } : null);
+            if (!displayResult) {
+                d3.select('#all_result').style('opacity', 0);
+                this.deps.appStateManager.updateState({ hasValidData: false });
+            }
+        }
         // 语义分析配置影响 Upload/Save 的 dataReadyForSave 条件，需始终更新按钮状态
         this.deps.appStateManager.updateButtonStates();
     }
         }
         if (!abbrev && !top10?.length) {
             el.style.display = 'none';
+            el.innerHTML = '';
             return;
         }
         el.style.display = 'block';

client/src/ts/vis/ToolTip.ts CHANGED Viewed

@@ -6,7 +6,7 @@ import * as d3 from "d3";
 import { tr } from "../lang/i18n-lite";
 import { getTokenRenderStyle } from "../utils/tokenRenderStyle";
 import { escapeHtml, visualizeSpecialChars } from "../utils/tokenDisplayUtils";
-import { renderTopkChartHtml } from "../utils/topkChartUtils";
 const SEPARATOR = '─────────────';
@@ -280,9 +280,12 @@ export class ToolTip {
         const tokenData = ri.tokenData as FrontendToken;
         const s = ri.semantic;
         const hasSemantic = s && (s.pwScore !== undefined || s.signalProb !== undefined || s.rawScoreNormed !== undefined || s.rawScore !== undefined);
-        const hasRealTopk = tokenData?.real_topk != null && Array.isArray(tokenData.real_topk);
         const predTopk = tokenData?.pred_topk ?? [];
         const hasPredictions = predTopk.length > 0;
         // 1. 构建语义区块（pw score = raw_score_normed × P_pw，P_pw: x≤threshold 为 0，x>threshold 为 1）
         const semanticRows: string[] = [];
@@ -300,7 +303,6 @@ export class ToolTip {
             const surprisal = calculateSurprisal(prob);
             const isClassic = getTokenRenderStyle() === 'classic';
             infoRows.push(renderField({ label: tr('information:'), value: `${this.significantF(surprisal)} bits` }, detailColor, valueColor));
-            infoRows.push(renderField({ label: tr('prob:'), value: this.significantF(prob), valueColor: false }, detailColor, valueColor));
             if (!isClassic) {
                 const informationDensity = calculateSurprisalDensity(tokenData);
                 const utf8Size = new TextEncoder().encode(tokenData.raw).length;
@@ -332,10 +334,15 @@ export class ToolTip {
                 .style('display', 'block')
                 .html(() => `<div style="color:${detailColor};padding-left:5px;">${tr('Top-k data not available.')}</div>`);
         } else {
-            const topkData = predTopk.slice(0, 10).map(([token, prob]) => ({ token, prob }));
             this.predictions.html(renderTopkChartHtml(topkData, {
                 selectedToken: tokenData.raw,
-                numFormat: this.numF,
             }));
         }
     }

 import { tr } from "../lang/i18n-lite";
 import { getTokenRenderStyle } from "../utils/tokenRenderStyle";
 import { escapeHtml, visualizeSpecialChars } from "../utils/tokenDisplayUtils";
+import { renderTopkChartHtml, TOPK_SEP } from "../utils/topkChartUtils";
 const SEPARATOR = '─────────────';
         const tokenData = ri.tokenData as FrontendToken;
         const s = ri.semantic;
         const hasSemantic = s && (s.pwScore !== undefined || s.signalProb !== undefined || s.rawScoreNormed !== undefined || s.rawScore !== undefined);
         const predTopk = tokenData?.pred_topk ?? [];
         const hasPredictions = predTopk.length > 0;
+        // 占位符 real_topk: [0, 1]（prob=1）+ 空 pred_topk 表示仅语义分析，无真实信息密度数据
+        const isPlaceholderTopk = tokenData?.real_topk != null && Array.isArray(tokenData.real_topk)
+            && tokenData.real_topk[1] === 1 && predTopk.length === 0;
+        const hasRealTopk = tokenData?.real_topk != null && Array.isArray(tokenData.real_topk) && !isPlaceholderTopk;
         // 1. 构建语义区块（pw score = raw_score_normed × P_pw，P_pw: x≤threshold 为 0，x>threshold 为 1）
         const semanticRows: string[] = [];
             const surprisal = calculateSurprisal(prob);
             const isClassic = getTokenRenderStyle() === 'classic';
             infoRows.push(renderField({ label: tr('information:'), value: `${this.significantF(surprisal)} bits` }, detailColor, valueColor));
             if (!isClassic) {
                 const informationDensity = calculateSurprisalDensity(tokenData);
                 const utf8Size = new TextEncoder().encode(tokenData.raw).length;
                 .style('display', 'block')
                 .html(() => `<div style="color:${detailColor};padding-left:5px;">${tr('Top-k data not available.')}</div>`);
         } else {
+            let topkData = predTopk.slice(0, 10).map(([token, prob]) => ({ token, prob }));
+            const isInTopk = topkData.some(d => d.token === tokenData.raw);
+            if (!isInTopk && hasRealTopk) {
+                const currentProb = tokenData.real_topk![1];
+                topkData = [...topkData, { token: TOPK_SEP, prob: 0 }, { token: tokenData.raw, prob: currentProb }];
+            }
             this.predictions.html(renderTopkChartHtml(topkData, {
                 selectedToken: tokenData.raw,
+                maxRows: topkData.length,
             }));
         }
     }

model_paths.py CHANGED Viewed

@@ -11,8 +11,9 @@ DEFAULT_SEMANTIC_MODEL = "qwen3-0.6b-instruct"
 SEMANTIC_MODEL_PATHS = {
     "qwen3-0.6b-instruct": "Qwen/Qwen3-0.6B",
     "qwen3-1.7b-instruct": "Qwen/Qwen3-1.7B",
-    # "qwen3-4b-instruct": "Qwen/Qwen3-4B",
     "qwen3-4b-instruct": "Qwen/Qwen3-4B-Instruct-2507",
     "qwen3.5-0.8b-instruct": "Qwen/Qwen3.5-0.8B",
     "qwen3.5-2b-instruct": "Qwen/Qwen3.5-2B",
     "qwen3.5-4b-instruct": "Qwen/Qwen3.5-4B"
@@ -22,16 +23,16 @@ SEMANTIC_MODEL_PATHS = {
 MODEL_PATHS = {
     # 标准模型（FP16/BF16）
     'qwen2.5-0.5b': 'Qwen/Qwen2.5-0.5B',
     'qwen3.0-0.6b': 'Qwen/Qwen3-0.6B-Base',
     'qwen3.0-1.7b': 'Qwen/Qwen3-1.7B-Base',
     'qwen3.0-4b': 'Qwen/Qwen3-4B-Base',
     'qwen3.0-8b': 'Qwen/Qwen3-8B-Base',
     'qwen3.0-14b': 'Qwen/Qwen3-14B-Base',
-    'qwen3.0-30b-a3b': 'Qwen/Qwen3-30B-A3B-Base',
     'qwen3.5-0.8b': 'Qwen/Qwen3.5-0.8B-Base',
-    'qwen2.5-32b': 'Qwen/Qwen2.5-32B',
-    'qwen2.5-72b': 'Qwen/Qwen2.5-72B',
     # AWQ 量化模型（W4A16，显存占用约为标准模型的 1/4）
     # 自动检测，仅支持 Docker + CUDA 环境
     # Qwen3-14B-AWQ评估质量差，因为基于instruct版本而不是base版本

 SEMANTIC_MODEL_PATHS = {
     "qwen3-0.6b-instruct": "Qwen/Qwen3-0.6B",
     "qwen3-1.7b-instruct": "Qwen/Qwen3-1.7B",
     "qwen3-4b-instruct": "Qwen/Qwen3-4B-Instruct-2507",
+    "qwen3-8b-instruct": "Qwen/Qwen3-8B",
+    # qwen3.5
     "qwen3.5-0.8b-instruct": "Qwen/Qwen3.5-0.8B",
     "qwen3.5-2b-instruct": "Qwen/Qwen3.5-2B",
     "qwen3.5-4b-instruct": "Qwen/Qwen3.5-4B"
 MODEL_PATHS = {
     # 标准模型（FP16/BF16）
     'qwen2.5-0.5b': 'Qwen/Qwen2.5-0.5B',
+    # qwen3.0
     'qwen3.0-0.6b': 'Qwen/Qwen3-0.6B-Base',
     'qwen3.0-1.7b': 'Qwen/Qwen3-1.7B-Base',
     'qwen3.0-4b': 'Qwen/Qwen3-4B-Base',
     'qwen3.0-8b': 'Qwen/Qwen3-8B-Base',
     'qwen3.0-14b': 'Qwen/Qwen3-14B-Base',
+    # qwen3.5
     'qwen3.5-0.8b': 'Qwen/Qwen3.5-0.8B-Base',
+    'qwen3.5-2b': 'Qwen/Qwen3.5-2B-Base',
+    'qwen3.5-4b': 'Qwen/Qwen3.5-4B-Base',
     # AWQ 量化模型（W4A16，显存占用约为标准模型的 1/4）
     # 自动检测，仅支持 Docker + CUDA 环境
     # Qwen3-14B-AWQ评估质量差，因为基于instruct版本而不是base版本

run.py CHANGED Viewed

@@ -44,7 +44,7 @@ def _parse_args():
         "--logits_gradient_submode",
         default="fill_blank",
         choices=["count", "match_score", "fill_blank"],
-        help="logits_gradient 子策略：count=数量；match_score=相关度打分；fill_blank=填空式",
     )
     parser.add_argument(
         "--gradient_checkpointing",

         "--logits_gradient_submode",
         default="fill_blank",
         choices=["count", "match_score", "fill_blank"],
+        help="logits_gradient 子策略：count=数量；match_score=相关度打分(已废弃)；fill_blank=填空式",
     )
     parser.add_argument(
         "--gradient_checkpointing",

scripts/cases/eval_cases_long.json CHANGED Viewed

@@ -1,11 +1,112 @@
 [
-  {"name": "人工智能", "query": "人工智能", "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，「新美联储通讯社」预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是「首选」，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"},
-  {"name": "股票", "query": "股票", "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，「新美联储通讯社」预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是「首选」，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"},
-  {"name": "墨西哥", "query": "墨西哥", "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，「新美联储通讯社」预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是「首选」，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"},
-  {"name": "美联储", "query": "美联储", "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，「新美联储通讯社」预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是「首选」，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"},
-  {"name": "航天", "query": "航天", "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，「新美联储通讯社」预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是「首选」，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"},
-  {"name": "玩具模型_无关", "query": "玩具模型", "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，「新美联储通讯社」预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是「首选」，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"},
-  {"name": "爱情电影_无关", "query": "爱情电影", "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，「新美联储通讯社」预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是「首选」，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"},
-  {"name": "北京美食", "query": "北京的美食", "text": "北京烤鸭是北京最著名的特色美食，皮酥肉嫩，配上薄饼和甜面酱。\n故宫是明清两代的皇家宫殿，也是世界上现存规模最大的木质结构古建筑群。\n炸酱面是北京的传统面食，用黄酱配上黄瓜丝和豆芽菜。\n长城是中国古代的军事防御工程，绵延数千公里。\n老北京涮羊肉以铜锅为特色，羊肉鲜嫩，蘸料丰富。\n天坛是明清两代皇帝祭天的场所，建筑精美。\n豆汁儿是北京独特的传统小吃，口味特别，配上焦圈最地道。\n颐和园是清朝的皇家园林，以昆明湖和万寿山为主体。\n南京鸭血粉丝汤是南京最著名的特色美食。\n但是南京的盐水鸭就不好吃了。不喜欢它的颜色和味道。\n苏州的美食臊子面也挺好吃的。"},
-  {"name": "北京景点", "query": "北京的景点", "text": "北京烤鸭是北京最著名的特色美食，皮酥肉嫩，配上薄饼和甜面酱。\n故宫是明清两代的皇家宫殿，也是世界上现存规模最大的木质结构古建筑群。\n炸酱面是北京的传统面食，用黄酱配上黄瓜丝和豆芽菜。\n长城是中国古代的军事防御工程，绵延数千公里。\n老北京涮羊肉以铜锅为特色，羊肉鲜嫩，蘸料丰富。\n天坛是明清两代皇帝祭天的场所，建筑精美。\n豆汁儿是北京独特的传统小吃，口味特别，配上焦圈最地道。\n颐和园是清朝的皇家园林，以昆明湖和万寿山为主体。\n南京鸭血粉丝汤是南京最著名的特色美食。\n但是南京的盐水鸭就不好吃了。不喜欢它的颜色和味道。\n苏州的美食臊子面也挺好吃的。"}
 ]

 [
+  {
+    "name": "人工智能",
+    "query": "人工智能",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "股票",
+    "query": "股票",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "墨西哥",
+    "query": "墨西哥",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "美联储",
+    "query": "美联储",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，���新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "航天",
+    "query": "航天",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "玩具模型_无关",
+    "query": "玩具模型",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "爱情电影_无关",
+    "query": "爱情电影",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "经济以外",
+    "query": "与经济无关的内容",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要���应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "AI以外",
+    "query": "与AI无关的内容",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "政策",
+    "query": "政策",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "股票指数",
+    "query": "股票指数",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "经济数据",
+    "query": "经济数据",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "坏消息",
+    "query": "坏消息",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "利空消息",
+    "query": "利空消息",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "公司利空",
+    "query": "公司的利空消息",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "比预期差",
+    "query": "比预期差",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "公司名",
+    "query": "公司名",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "国家名",
+    "query": "国家名",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "明示反义词",
+    "query": "明示的反义词",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征���号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "苹果水果_无关",
+    "query": "苹果（水果）",
+    "text": "【华尔街见闻早餐 | 2026年2月12日】标普500指数基本持平，纳指和道指小幅下跌；原油期货上涨；黄金、白银走高；镍价升至近两周来最高，主要供应国印尼暗示今年将大幅削减产量。\n美国1月非农新增就业13万人，创去年4月以来最大增幅，失业率降至4.3%，年度下修86.2万。华尔街预计首次降息延至7月，“新美联储通讯社”预计降息暂停期更久。\n油价日内涨超2%，报道：特朗普私下考虑退出《美墨加协定》。\n特朗普称同伊朗达成协议将是“首选”，伊朗最高领袖顾问：美国趋向理性。\n李强：全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力。\n国务院国资委推动中央企业积极扩大算力有效投资。\n中国1月CPI同比涨幅回落至0.2%，PPI同比降幅收窄至1.4%。\n载人登月又一里程碑，长征十号与梦舟飞船首次飞行试验任务成功。\nDeepSeek正灰度测试新一代模型。\n智谱发布新一代旗舰模型GLM-5，重点提升编程与智能体能力。\n苹果新Siri发布或又推迟，据称测试暴露问题，部分功能或延至9月上线。 （来自华尔街见闻）"
+  },
+  {
+    "name": "北京美食",
+    "query": "北京的美食",
+    "text": "北京烤鸭是北京最著名的特色美食，皮酥肉嫩，配上薄饼和甜面酱。\n故宫是明清两代的皇家宫殿，也是世界上现存规模最大的木质结构古建筑群。\n炸酱面是北京的传统面食，用黄酱配上黄瓜丝和豆芽菜。\n长城是中国古代的军事防御工程，绵延数千公里。\n老北京涮羊肉以铜锅为特色，羊肉鲜嫩，蘸料丰富。\n天坛是明清两代皇帝祭天的场所，建筑精美。\n豆汁儿是北京独特的传统小吃，口味特别，配上焦圈最地道。\n颐和园是清朝的皇家园林，以昆明湖和万寿山为主体。\n南京鸭血粉丝汤是南京最著名的特色美食。\n但是南京的盐水鸭就不好吃了。不喜欢它的颜色和味道。\n苏州的美食臊子面也挺好吃的。"
+  },
+  {
+    "name": "北京景点",
+    "query": "北京的景点",
+    "text": "北京烤鸭是北京最著名的特色美食，皮酥肉嫩，配上薄饼和甜面酱。\n故宫是明清两代的皇家宫殿，也是世界上现存规模最大的木质结构古建筑群。\n炸酱面是北京的传统面食，用黄酱配上黄瓜丝和豆芽菜。\n长城是中国古代的军事防御工程，绵延数千公里。\n老北京涮羊肉以铜锅为特色，羊肉鲜嫩，蘸料丰富。\n天坛是明清两代皇帝祭天的场所，建筑精美。\n豆汁儿是北京独特的传统小吃，口味特别，配上焦圈最地道。\n颐和园是清朝的皇家园林，以昆明湖和万寿山为主体。\n南京鸭血粉丝汤是南京最著名的特色美食。\n但是南京的盐水鸭就不好吃了。不喜欢它的颜色和味道。\n苏州的美食臊子面也挺好吃的。"
+  }
 ]

scripts/{eval_semantic_submodes.py → eval_semantic.py} RENAMED Viewed

@@ -1,29 +1,31 @@
 #!/usr/bin/env python3
 """
-五个子模式（topk_sum / count / match_score / binary / fill_blank）效果评估脚本
 通过 HTTP 调用 /api/analyze-semantic 接口进行评估。
 评估维度：
 1. 生成的 top10 (token和概率) 的合理性
-2. token_attention score 的合理性，主要是归一化后的score的合理性（不同配置下绝对值大小无意义）
 3. 完全无关查询时的结果合理性
 用法（从项目根目录运行）：
-  python scripts/eval_semantic_submodes.py [--submode topk_sum|count|match_score|binary|fill_blank] [--output eval_result.json]
-  python scripts/eval_semantic_submodes.py -c scripts/eval_cases_short.json scripts/eval_cases_long.json -o eval_result.json
-  python scripts/eval_semantic_submodes.py --url http://localhost:5001
-  python scripts/eval_semantic_submodes.py --url https://xxx.hf.space --hf-token hf_xxx
-  export HF_TOKEN=hf_xxx && python scripts/eval_semantic_submodes.py --url https://xxx.hf.space
-  不指定 --submode 时依次评估五个子模式；-c 可指定多个 JSON 用例文件。
 """
 import argparse
 import json
 import os
 import sys
 from pathlib import Path
-from typing import Optional
 # Hugging Face Token（用于Private Space，可通过环境变量HF_TOKEN设置）
 HF_TOKEN_ENV = "HF_TOKEN"
@@ -49,12 +51,12 @@ TEST_CASES = [
 DEFAULT_API_BASE = "http://localhost:5001"
-def analyze_semantic_http(api_base: str, query: str, text: str, submode: str, token: Optional[str] = None, prob_weighted: Optional[bool] = None, timeout: int = 300) -> dict:
     """通过 HTTP 调用 analyze-semantic 接口"""
     url = f"{api_base.rstrip('/')}/api/analyze-semantic"
-    payload: dict = {"query": query, "text": text, "submode": submode, "debug_info": True}
-    if prob_weighted is not None:
-        payload["prob_weighted"] = prob_weighted
     headers = {"Content-Type": "application/json"}
     if token:
         headers["Authorization"] = f"Bearer {token}"
@@ -67,25 +69,68 @@ def analyze_semantic_http(api_base: str, query: str, text: str, submode: str, to
     return data
-def run_eval(api_base: str, submode: str, test_cases: list, token: Optional[str] = None, prob_weighted: Optional[bool] = None) -> list:
     results = []
-    for name, query, text in test_cases:
-        print(f"\n{'='*60}")
-        print(f"子模式: {submode} | 用例: {name}")
-        print(f"query: {query}")
-        print(f"text: {text[:50]}...")
-        print("=" * 60)
         try:
-            res = analyze_semantic_http(api_base, query, text, submode, token=token, prob_weighted=prob_weighted)
-        except Exception as e:
-            print(f"❌ 失败: {e}")
-            results.append({
-                "submode": submode,
-                "case": name,
-                "query": query,
-                "error": str(e),
-            })
             continue
         di = res.get("debug_info", {})
         topk_tokens = di.get("topk_tokens", [])
@@ -126,34 +171,30 @@ def run_eval(api_base: str, submode: str, test_cases: list, token: Optional[str]
             },
         }
         results.append(record)
-        print(f"\n📌 top10 预测 token & 概率:")
-        for t, p in zip(topk_tokens, topk_probs):
-            print(f"   {repr(t):20} {p*100:.2f}%")
-        print(f"\n📌 token_attention 中 score 最高的 10 个 token (score / 0-max归一化):")
-        for item in top_scored:
-            print(f"   {repr(item['raw']):20} score={item['score']} norm={item['score_norm']} offset={item['offset']}")
-        print(f"\n📌 score 统计: min={record['score_stats']['min']}, max={record['score_stats']['max']}, mean={record['score_stats']['mean']}, mean_norm={record['score_stats']['mean_norm']}")
-        if record.get("full_match_degree") is not None:
-            print(f"📌 full_match_degree: {record['full_match_degree']}")
-    return results
 def main():
-    parser = argparse.ArgumentParser(description="评估 semantic analyzer 五个子模式效果（HTTP）")
     parser.add_argument(
         "--submode",
-        choices=["topk_sum", "count", "match_score", "binary", "fill_blank"],
         nargs="+",
         default=None,
-        help="指定子模式（可多个），不指定则依次评估五个",
     )
     parser.add_argument(
         "--output", "-o",
         type=Path,
         default=None,
-        help="结果输出 JSON 路径",
     )
     parser.add_argument(
         "--url",
@@ -166,12 +207,6 @@ def main():
         default=None,
         help=f"Hugging Face Token（用于Private Space，也可通过环境变量{HF_TOKEN_ENV}设置）",
     )
-    parser.add_argument(
-        "--timeout",
-        type=int,
-        default=300,
-        help="请求超时秒数",
-    )
     parser.add_argument(
         "--cases", "-c",
         type=Path,
@@ -180,11 +215,16 @@ def main():
         help="自定义测试用例 JSON 文件，可指定多个，格式 [{name, query, text}, ...]",
     )
     parser.add_argument(
-        "--prob-weighted",
-        choices=["true", "false"],
-        default=None,
-        metavar="true|false",
-        help="count/fill_blank 时是否按概率加权，仅 HTTP 测试用",
     )
     args = parser.parse_args()
@@ -195,20 +235,29 @@ def main():
         test_cases = []
         for path in args.cases:
             raw = json.loads(path.read_text(encoding="utf-8"))
-            test_cases.extend([(c["name"], c["query"], c["text"]) for c in raw])
         print(f"已加载 {len(test_cases)} 个用例，来自 {len(args.cases)} 个文件")
     else:
         test_cases = TEST_CASES
-    submodes = args.submode if args.submode else ["topk_sum", "count", "match_score", "binary", "fill_blank"]
-    prob_weighted = {"true": True, "false": False}.get(args.prob_weighted) if args.prob_weighted else None
-    all_results = []
     for sm in submodes:
-        all_results.extend(run_eval(api_base, sm, test_cases, token=hf_token, prob_weighted=prob_weighted))
     if args.output:
-        args.output.write_text(json.dumps(all_results, ensure_ascii=False, indent=2), encoding="utf-8")
-        print(f"\n✅ 结果已写入 {args.output}")
 if __name__ == "__main__":

 #!/usr/bin/env python3
 """
+Semantic analyzer 效果评估脚本
 通过 HTTP 调用 /api/analyze-semantic 接口进行评估。
+支持 submode：count / match_score(已废弃) / fill_blank
 评估维度：
 1. 生成的 top10 (token和概率) 的合理性
+2. token_attention score 的合理性
 3. 完全无关查询时的结果合理性
 用法（从项目根目录运行）：
+  python scripts/eval_semantic.py -c scripts/cases/eval_cases_short.json -o eval_result.jsonl
+  python scripts/eval_semantic.py --submode count fill_blank -o eval_result.jsonl
+  python scripts/eval_semantic.py --url http://localhost:5001
+输出为 JSONL 格式，每完成一例追加一行；中断后可再次运行，从中断处续跑。
 """
 import argparse
 import json
 import os
 import sys
+import time
 from pathlib import Path
+from typing import Optional, Tuple
 # Hugging Face Token（用于Private Space，可通过环境变量HF_TOKEN设置）
 HF_TOKEN_ENV = "HF_TOKEN"
 DEFAULT_API_BASE = "http://localhost:5001"
+def analyze_semantic_http(api_base: str, query: str, text: str, submode: Optional[str] = None, token: Optional[str] = None, timeout: int = 300) -> dict:
     """通过 HTTP 调用 analyze-semantic 接口"""
     url = f"{api_base.rstrip('/')}/api/analyze-semantic"
+    payload: dict = {"query": query, "text": text, "debug_info": True}
+    if submode is not None:
+        payload["submode"] = submode
     headers = {"Content-Type": "application/json"}
     if token:
         headers["Authorization"] = f"Bearer {token}"
     return data
+def _load_jsonl(path: Path) -> list:
+    """加载 JSONL 文件，用于断点续跑"""
+    if not path.exists():
+        return []
     results = []
+    for line in path.read_text(encoding="utf-8").strip().split("\n"):
+        if not line:
+            continue
         try:
+            results.append(json.loads(line))
+        except json.JSONDecodeError:
+            pass
+    return results
+def _append_record(path: Path, record: dict) -> None:
+    """追加单条记录到 JSONL 文件"""
+    with path.open("a", encoding="utf-8") as f:
+        f.write(json.dumps(record, ensure_ascii=False) + "\n")
+def run_eval(
+    api_base: str,
+    submode: str,
+    test_cases: list,
+    token: Optional[str] = None,
+    output_path: Optional[Path] = None,
+    all_results: Optional[list] = None,
+    completed: Optional[set] = None,
+    max_retries: int = 3,
+    timeout: int = 300,
+) -> Tuple[list, bool]:
+    """返回 (results, aborted)，重试后仍失败时 aborted 为 True"""
+    completed = completed or set()
+    results = []
+    for j, (name, query, text) in enumerate(test_cases):
+        prog = f"[{j+1}/{len(test_cases)}]"
+        if (submode, name) in completed:
+            print(f"{prog} ⏭ 跳过: {submode} | {name}", flush=True)
             continue
+        print(f"{prog} 执行: {submode} | {name}", flush=True)
+        res = None
+        last_error = None
+        for attempt in range(max_retries + 1):
+            try:
+                res = analyze_semantic_http(api_base, query, text, submode, token=token, timeout=timeout)
+                break
+            except Exception as e:
+                last_error = e
+                if attempt < max_retries:
+                    wait = 3 * (attempt + 1)
+                    print(f"{prog}   重试 {attempt + 1}/{max_retries}，{wait}s 后... - {e}", flush=True)
+                    time.sleep(wait)
+        if res is None:
+            print(f"{prog} ✗ 失败（已重试 {max_retries} 次）: {submode} | {name} - {last_error}", flush=True)
+            record = {"submode": submode, "case": name, "query": query, "error": str(last_error)}
+            results.append(record)
+            if all_results is not None:
+                all_results.append(record)
+            completed.add((submode, name))
+            print(f"\n⚠ 重试后仍失败，中断后续用例", flush=True)
+            return results, True
         di = res.get("debug_info", {})
         topk_tokens = di.get("topk_tokens", [])
             },
         }
         results.append(record)
+        if all_results is not None:
+            all_results.append(record)
+        completed.add((submode, name))
+        if output_path:
+            _append_record(output_path, record)
+        print(f"{prog} ✓ 完成: {submode} | {name}", flush=True)
+    return results, False
 def main():
+    parser = argparse.ArgumentParser(description="评估 semantic analyzer 效果（HTTP）")
     parser.add_argument(
         "--submode",
+        choices=["count", "match_score", "fill_blank"],
         nargs="+",
         default=None,
+        help="instruct 模型子模式（可多个），不指定则依次评估 count/fill_blank；match_score 已废弃",
     )
     parser.add_argument(
         "--output", "-o",
         type=Path,
         default=None,
+        help="结果输出 JSONL 路径（支持断点续跑）",
     )
     parser.add_argument(
         "--url",
         default=None,
         help=f"Hugging Face Token（用于Private Space，也可通过环境变量{HF_TOKEN_ENV}设置）",
     )
     parser.add_argument(
         "--cases", "-c",
         type=Path,
         help="自定义测试用例 JSON 文件，可指定多个，格式 [{name, query, text}, ...]",
     )
     parser.add_argument(
+        "--retries",
+        type=int,
+        default=3,
+        help="失败时自动重试次数，默认 3",
+    )
+    parser.add_argument(
+        "--timeout",
+        type=int,
+        default=300,
+        help="单次请求超时秒数，默认 300",
     )
     args = parser.parse_args()
         test_cases = []
         for path in args.cases:
             raw = json.loads(path.read_text(encoding="utf-8"))
+            # strip() 与浏览器语义分析时的 trim() 保持一致，避免 token 数差异
+            test_cases.extend([(c["name"], c["query"], (c["text"] or "").strip()) for c in raw])
         print(f"已加载 {len(test_cases)} 个用例，来自 {len(args.cases)} 个文件")
     else:
         test_cases = TEST_CASES
+    submodes = args.submode if args.submode else ["count", "match_score", "fill_blank"]
+    all_results: list = []
+    completed: set = set()
+    if args.output and args.output.exists():
+        all_results = _load_jsonl(args.output)
+        completed = {(r["submode"], r["case"]) for r in all_results}
+        print(f"已加载 {len(all_results)} 条历史结果，从中断处续跑")
     for sm in submodes:
+        _, aborted = run_eval(
+            api_base, sm, test_cases, token=hf_token,
+            output_path=args.output, all_results=all_results,
+            completed=completed, max_retries=args.retries, timeout=args.timeout,
+        )
+        if aborted:
+            break
     if args.output:
+        print(f"\n✅ 结果已写入 {args.output}（共 {len(all_results)} 条）")
 if __name__ == "__main__":

server.yaml CHANGED Viewed

@@ -472,7 +472,7 @@ paths:
               submode:
                 type: string
                 enum: [count, match_score, fill_blank]
-                description: 可选子模式，不传则用服务端默认
             required:
               - query
               - text

               submode:
                 type: string
                 enum: [count, match_score, fill_blank]
+                description: 可选子模式，不传则用服务端默认。match_score 已废弃
             required:
               - query
               - text