SUMMARY_FOR_PAPER — CS3319 推荐系统论文撰写总摘要
本文档是面向 ACM 中文论文写作的总摘要(first principles 风格)。它把整个代码库的研究叙事压缩成可直接迁移进 TeX 的段落、表格与公式。所有数字均对齐仓库根的「权威事实表」,冲突项以事实表为准。文中代码路径相对仓库根,并带行号。
目标读者:懂一点机器学习、但不完全熟悉图推荐系统的研究者。因此本文在每个关键设计前先回答「为什么」。
0. 论文摘要草稿(Draft Abstract)
中文摘要草稿。 本文研究异构学术网络上的 author-paper 阅读推荐任务(二部图链路预测)。给定一个由 6,611 位作者与 79,937 篇论文构成的网络,三类边——作者→论文阅读(682,421 条)、作者↔作者合著(9,663 条)、论文→论文引用(327,113 条,有向)——共同描述了学术影响力与兴趣传播。任务对约 2.05M 对未观测的 (author, paper) 二元组预测是否构成隐式阅读关系,并以 F1 为评测指标(公开榜仅评 50% 测试集)。
我们提出一个两阶段 stacking 框架。Stage-1 由若干彼此独立的弱学习器并行生产 raw 分数与嵌入:LightGCN 异构协同过滤集成、BPR 矩阵分解、7 块 DeepWalk/Node2Vec 随机游走、基于 512 维 Universal Sentence Encoder 的内容画像,以及显式图/meta-path 手工特征。Stage-2 由一个 259 维 LightGBM 二级 meta-learner 对全部特征做无泄漏的 5 折 out-of-fold(OOF)融合。
本文的主要方法贡献是有向高阶引用传播(directed high-order citation propagation):将「作者历史论文经 k 步引用扩散到候选论文」建模为稀疏矩阵的幂乘 $H_k = R\cdot C^k$,将「合著者历史论文扩散到候选」建模为 $G_k = S\cdot R\cdot C^k$,其中 S 为(无向)合著矩阵、R 为(行归一化)作者-论文矩阵、C 为引用矩阵。我们区分引用的前向 / 后向 / 无向三种方向,在 LightGCN 主分数之上叠加。该模块在验证集上把 F1 从 0.9649 提升至 0.9669(1:1 人工切分 OOF),并把公开榜 F1 从 0.96252 推到 0.96626。
测试阶段我们不采用概率阈值,而是采用 rank-cutoff top 50% + 强制已知训练正边为正 的决策规则,以稳健地应对验证集(人工 1:1)与测试集(真实先验未知)之间的分布漂移。
关键词: 异构图;链路预测;阅读推荐;LightGCN;两阶段 stacking;高阶引用传播;rank-cutoff 决策。
1. 引言核心论点(Introduction)
引言需要回答三个问题:为什么这个任务难、为什么 CF 不够、为什么「高阶 + 多源 stacking」是正解。
(1) 任务难点。 该二部图极度稀疏:正边密度约 $682421/(6611\times79937) \approx 1.29\times10^{-3}$,且约 56% 的作者度数为 1(长尾分布)。这意味着仅靠局部相似度难以对冷启动作者给出可靠预测。
(2) 纯协同过滤(CF)的不足。 LightGCN/BPR 等纯 CF 方法把推荐建模为隐因子交互,但在稀疏长尾区间,作者隐向量几乎未受训练,分数噪声大。我们观察到:把 LightGCN 集成作为单一主分数,验证 F1 仅 0.9386。一个直观的补救是把「全局结构信号」(meta-path、引用传播)与「内容信号」(语义嵌入)作为额外特征喂给一个有监督的 meta-learner,让模型自己学到如何加权——这正是两阶段 stacking 的动机。
(3) 高阶引用传播的核心论点。 一个作者「会读候选论文 p」的最强可解释信号之一,是他已读过、并经引用链路可达 p 的历史论文:若作者读过的论文 q 被 p 引用,或 p 被 q 引用,或二者同被某文引用,都是强证据。该信号天然是多跳(high-order)且有向(citation 有方向性)的。本文主张:把这种多跳有向信号以稀疏矩阵幂乘的形式高效计算出来,作为 meta-learner 的特征,是把全局学术影响力结构注入推荐的有效手段。
2. 方法贡献三点(Contributions)
论文可在 Contributions 节明确列出三点,并标注主次:
| # | 贡献 | 性质 | 关键证据 |
|---|---|---|---|
| C1 | 有向高阶引用传播特征 H_k=R·C^k、G_k=S·R·C^k,fwd/bwd/undir 三向,k 步多跳,稀疏矩阵 + top-k 剪枝实现 | 主要创新 | 验证 0.9649 → 0.9669;公开 0.96252 → 0.96626 |
| C2 | 多源两阶段 stacking 框架:259 维特征(10 族)经 5 折 OOF LightGBM 融合,主分数来自 LightGCN 集成,辅以 BPR-MF / 7 块 RW / content / meta-path / 负证据 | 系统工程贡献 | 整体 0.8850(baseline)→ 0.9669 |
| C3 | rank-cutoff + 强制已知正边 的分布漂移稳健决策规则,并显式量化了验证 1:1 切分与测试真实先验之间的漂移(阈值漂移 0.4617 → 0.5242) | 方法学贡献 | 公开榜最高提交 r0.500000.csv |
下表把每点贡献映射到代码位置,便于审稿与复现:
| 贡献 | 关键代码 | 行号 |
|---|---|---|
| C1 高阶无向传播 | high_order_graph_stack.py: build_high_order | 74–122 |
| C1 高阶有向传播(fwd/bwd/undir) | high_order_graph_stack.py: build_high_order_directed | 125–176 |
| C1 行归一化 / top-k 剪枝 | high_order_graph_stack.py: row_norm, topk_prune_rows | 39–72 |
| C2 切分与主分数生产 | train_val_lgcn_ensemble.py: make_notebook_style_split | 132–165 |
| C2 特征工程族 | stack_rank_calibration.py, content_rich_ablation.py, randomwalk_systematic_ablation.py, extra_score_sources_ablation.py | 见事实表 §6 |
| C2 二级 stacker | high_order_graph_stack.py: fit_full_predict | 201+ |
| C3 决策规则 | high_order_graph_stack.py(submission 生成,rank-cutoff + test_known_mask.npy) | — |
3. 数据集描述段(Dataset)
正文段落草稿。 实验在一个真实的异构学术网络上进行,网络规模与边统计如下表。节点被划分为两类:6,611 个作者(id 0–6610)与 79,937 篇论文(id 0–79936)。每篇论文附带一个 512 维 Universal Sentence Encoder 语义嵌入(data_and_docs/feature.pkl,形状 79937×512,torch.float32,约 156 MB),用作内容侧特征。
| 数据项 | 规模 / 类型 | 方向 | 来源文件 |
|---|---|---|---|
| 作者节点 | 6,611 | — | dataset.md |
| 论文节点 | 79,937 | — | dataset.md |
| 作者→论文 阅读(训练正边) | 682,421 | author→paper(正边) | bipartite_train_ann.txt |
| 待预测对 | 2,047,262 (≈2.05M) | — | bipartite_test_ann.txt |
| 作者↔作者 合著 | 9,663 | 无向 | author_file_ann.txt |
| 论文→论文 引用 | 327,113 | 有向(former→latter) | paper_file_ann.txt |
| 论文语义嵌入 | 79937×512 | — | feature.pkl |
评估与切分。 公开榜仅评测测试集的 50%。由于测试集真实正例比例未知(无法从文件核验),我们构造一个人工 1:1 验证集用于无泄漏调参:make_notebook_style_split(seed=202, train_frac=0.9) 留出 10% 训练正边作为 68,242 个验证正例,再以 np.random.default_rng(202) 采样等量(68,242)随机非边作为负例,共 136,484 对(train_val_lgcn_ensemble.py:132-165)。该切分贯穿全部实验,seed=202 被烘焙进所有 .npy/.npz 缓存。
稀疏与长尾。 正边密度 $\approx 1.29\times10^{-3}$,约 56% 作者度数为 1,直接刻画了「冷启动作者」主导的难度,也是引言动机的实证依据。
4. 最终方法描述段(Method)
正文段落草稿。 最终方法是一个两阶段 stacking,流程如下(文本流程图):
原始输入(6 类文件)
│ make_notebook_style_split(seed=202, train_frac=0.9)
▼
1:1 验证集(136,484 对) ──┐
│
Stage-1 多源分数/嵌入生产(并行,各独立) ────────────────────┐
• LightGCN 异构 CF 集成 → val_vanilla_ensemble_mean.npy (主分数)
• BPR-MF (dim=256) → mf_bpr (4 列 score→feat)
• 7× DeepWalk/Node2Vec → 每块 11 维 pair feature
• RW 一致性聚合 → 11 维
• content mean-cos / topk → content_mean4 + topk3
• content rich (feature.pkl) → 18 维
• explicit graph / meta-path → 18 维 + rank4
• 负证据 → 8 维
• 高阶引用传播(无向24 + 有向45) ← 主创新
▼
Stage-2 LightGBM meta-learner(259 维) 5 折 OOF
▼
rich_rw7_highorder_directed_oof.npy (验证 F1 = 0.966874)
▼
决策: rank-cutoff top 50% + test_known_mask 强制已知正边=1
▼
最终提交 → 公开榜 F1 = 0.96626
4.1 Stage-1:多源分数与嵌入
各弱学习器的角色与第一性原理动机:
- LightGCN 异构 CF 集成(主分数)。 LightGCN 放弃了传统 GCN 的权重矩阵与非线性,仅做归一化邻居聚合,适合推荐这种「特征即交互结构」的场景(train_val_lgcn_ensemble.py:49-104,LightGCN.encode 用 $\frac{1}{L+1}$ 均匀权重做 layer-0 weighted sum)。最佳配置为 layers=2、dim=512、点积解码、seeds={41,141}(run 名 l2d512),二模型均值作为主分数(scores/val_vanilla_ensemble_mean.npy),验证 F1 0.9386。训练采用混合硬负采样(随机 50% / popular 25% / coauthor-pool 25%,见 sample_hard_negatives:273-305)以缓解 popular-item 偏置。
- BPR-MF。 矩阵分解提供与 LightGCN 互补的协同过滤视角(BPR pairwise 损失,dim=256),作为 4 维特征族。
- DeepWalk / Node2Vec(7 块)。 随机游走捕获全局网络接近度,弥补 LightGCN 的局部性偏置。每块产 11 维 pair feature(dot / cos / hadamard / absdiff / l2 + 6 维排序,pair_feature_block:216-270);7 块再加一致性聚合 11 维。
- 内容信号。 content_mean_score(作者历史论文嵌入均值 · 候选向量)与 topk_content_similarity_fast(max / top-3 / top-5),以及 18 维 rich content 画像(直接从 feature.pkl 统计)。
- 显式图 / meta-path / 负证据。 18 维 ExplicitGraphFeatures(A-A-P、A-P-A 等集合运算)、4 维 rank 特征、8 维负证据。
- 高阶引用传播(主创新,见 §4.2)。
4.2 Stage-1 高阶引用传播(主要方法贡献)
设 R 为(行归一化)作者-论文阅读矩阵,C 为(行归一化)论文引用矩阵,S 为(对称、行归一化)合著矩阵。对一对 (a,p):
- 作者历史扩散:H_k = R·C^k,提取 (H_k)_{a,p} 表示「作者 a 读过的论文经 k 步引用到达 p」的累积权重。
- 合著者历史扩散:G_k = S·R·C^k,表示「a 的合著者读过的论文经 k 步引用到达 p」。
引用是有向的,因此我们对 C 取三种方向:前向 fwd(原文→被引)、后向 bwd(被引→原文)、无向 undir。对每种方向、每个 k,我们产出原始分数、热度归一化分数(除以候选论文的 log 度数)以及多跳增量 Δ_k = s_k − s_{k-1} 作为特征(high_order_graph_stack.py:155-173)。
计算可行性通过两点保证:(i) 全部用 scipy.sparse 行归一化幂乘;(ii) 每次幂乘后做 top-k 剪枝(topk_prune_rows,k=1500),只保留每行最强的 1500 个目标,把 |P|×|P| 的稠密化控制在可控稀疏度。最终该族贡献 24(无向)+ 45(有向)= 69 维特征。
4.3 Stage-2:LightGBM meta-learner
把上述全部特征族横向拼接成 259 维 X(构成见 §6 表)。Stage-2 用 5 折 StratifiedKFold OOF 训练 LightGBM,得到无泄漏的验证分数;最终模型用 fit_full_predict(high_order_graph_stack.py:201+)在全量上重训。超参:num_leaves=15、reg_lambda=8.0、min_child_samples=100、n_estimators=1400、learning_rate=0.022。该正则强度(num_leaves 小、reg_lambda 大、min_child_samples 大)刻意抑制过拟合,以匹配 259 维特征中大量相关/共线列(例如 ExplicitGraphFeatures 内 out[i,12] 与 out[i,3] 恒等,LightGBM 会自动忽略)。
4.4 决策规则:rank-cutoff
测试决策不采用验证最优概率阈值,而是:
- 按最终 LightGBM 分数对全部 2.05M 测试对排序;
- 取 top 50%(ratio=0.500000)预测为正;
- 用 cached_scores/test_known_mask.npy 把所有「同时出现在训练正边中的测试对」强制为 1。
理由见 §7(分布漂移):验证集是人工 1:1,其最优阈值 0.4617 与测试真实先验不匹配(漂移到 0.5242);rank-cutoff 对先验不敏感,且强制已知正边消除了「训练已见却被判负」的明显错误。
5. 实验结果描述段(Results)
正文段落草稿。 全部实验在 seed=202 的同一 1:1 切分上进行,验证 F1 为 5 折 OOF、经 PR 曲线 best_f1 取最优阈值后的无泄漏数值。方法演进的完整时间线如下表。
| 序 | 方法 | 验证 F1 (1:1 OOF) | 公开榜 F1 |
|---|---|---|---|
| 0 | baseline(启发式/度特征) | 0.8850 | — |
| 1 | LightGCN 异构 CF 集成 | 0.9386 | 0.93044(早期 6-model) |
| 2 | + 显式图 / meta-path stacking | 0.9560 | — |
| 3 | + Post95 变体特征(76 维) | 0.95711 | ≈0.95760 |
| 4 | + content mean-cos | 0.95763 | — |
| 5 | + BPR-MF(84 维 X_base) | 0.95931 | ≈0.95996 |
| 6 | + rich content(18 维) | 0.95990 | — |
| 7 | + DeepWalk / Node2Vec | 0.9621 | ≈0.96252 |
| 8 | + 7 RW blocks 一致性聚合 | 0.964921 | — |
| 9 | + 高阶引用传播(无向→有向,259 维) | 0.966874 | 0.96626 |
关键观察。 (i) 显式图/meta-path stacking 带来单一最大增量(+0.0174,0.9386→0.9560),说明局部结构手工特征对稀疏图极为有效;(ii) BPR-MF 与 content 信号各自贡献约 +0.0017、+0.0006,体现多源互补;(iii) 随机游走从单模型到 7 块集成增益稳定收敛(注意:据重算,5→7 块稳态增益约为 +0.00155,而非早期 figure 标注的 +0.00182,以 CSV 重算为准);(iv) 高阶引用传播贡献 +0.0019 验证 F1,并把公开榜从 0.96252 提升到 0.96626(+0.00374),是最终方法的决定性增量。
最终模型。 验证 F1 = 0.966874,AUC = 0.994918,最优阈值 0.46173080801963806,259 维特征,来源 validation_runs/dynamic_seed202/high_order_graph_stack/validation_summary.csv(第 2 行)。该 OOF 与 val_labels_seed202.npy 的 best-F1 复算 = 0.966874,确认标签与 OOF 已对齐、无泄漏。
6. 消融实验描述段(Ablation)
正文段落草稿。 我们在最终 stacker 内部做特征族增量消融(high_order_graph_stack/validation_summary.csv,4 行),直接量化「高阶 / 有向」两步的贡献:
| stage | n_features | 验证 F1 | AUC | 最优阈值 |
|---|---|---|---|---|
| base_highorder(108 维,无 RW7、无高阶) | 108 | 0.964270 | 0.994052 | 0.455478 |
| rich_rw7(190 维,+RW7) | 190 | 0.964947 | 0.994555 | 0.490447 |
| rich_rw7_highorder(214 维,+无向高阶) | 214 | 0.966556 | 0.994890 | 0.469339 |
| rich_rw7_highorder_directed(259 维,+有向高阶) | 259 | 0.966874 | 0.994918 | 0.461731 |
消融结论。 (i) 从 190→214(加无向高阶 24 维):F1 +0.001609(= 0.966556 − 0.964947),验证了多跳无向传播的增益;(ii) 从 214→259(再加有向高阶 45 维):F1 +0.000318,验证了方向性的附加信息——前向(我的历史被你引用)、后向(你的历史引用了我)、无向三者携带不同语义,共同优于单一无向。
259 维特征族构成(便于论文附录):
| 特征族 | 维度 | 产出 |
|---|---|---|
| rank4(显式 rank) | 4 | stack_rank_calibration.py:148-160 |
| explicit18(meta-path) | 18 | stack_rank_calibration.py:108-145 |
| neg8(负证据) | 8 | post95_ablation.py:176-192 |
| topk3(内容 top-k) | 3 | generate_post95_submission.py:186-216 |
| variant43(LightGCN 变体聚合) | 43 | generate_post95_submission.py:175-183 |
| content_mean4 | 4 | extra_score_sources_ablation.py:80-97 |
| bpr4(BPR-MF) | 4 | extra_score_sources_ablation.py:100-163 |
| X_base 小计 | 84 | — |
| rich18(content 画像) | 18 | content_rich_ablation.py:54-129 |
| 7×RW block(每块 11) | 77 | randomwalk_systematic_ablation.py:216-270 |
| RW aggregate | 11 | generate_randomwalk_ensemble_submission.py:50-69 |
| 高阶无向 | 24 | high_order_graph_stack.py:74-122 |
| 高阶有向(fwd/bwd/undir) | 45 | high_order_graph_stack.py:125-176 |
| 合计 | 259 | — |
拼接核对:84 + 18 = 102;102 + 77 + 11 = 190;190 + 24 = 214;214 + 45 = 259。
7. Rank-Cutoff 决策描述段(Decision Rule)
正文段落草稿。 推荐系统评测中,概率阈值的迁移性是公认难题。我们的验证集是人工构造的 1:1 正负平衡集,而测试集真实正例比例未知且显然远低于 1:1。这导致:验证最优概率阈值(0.4617)若直接迁移到测试,正例率会漂移到约 0.5242,系统性高估正例。
为此我们采用 rank-cutoff top 50%:无论概率如何标定,固定预测分数最高的 50% 为正。该规则对分数的单调变换与先验漂移天然鲁棒。50% 这一比例并非来自数据先验(真实正比例无法核验,见事实表 open_questions),而是作为「约半数测试对为正」的合理建模假设,并由公开榜多 ratio(0.498–0.502)扫描确认 0.500 为最优。最后,test_known_mask.npy 把所有训练已见的正边强制为 1,消除「训练已知却被误判为负」的硬错误。
8. 局限性段(Limitations)
正文段落草稿。 本文方法存在以下局限,论文应诚实披露:
- 验证集与测试集分布不匹配。 1:1 人工验证集与真实测试先验不同,验证 F1(0.9669)与公开榜 F1(0.96626)虽接近但口径有别,rank-cutoff 是对该漂移的工程性缓解,而非根本解决。
- rank 比例 50% 是建模假设。 测试集真实正例比例无法从文件核验;top-50% 的最优性依赖公开榜 50% 评分子集,可能在未公开的另 50% 上略不同。
- 稀疏长尾区间证据不足。 约 56% 作者度数为 1,这些冷启动作者的预测主要依赖合著者扩散(G_k)与内容信号,其单独性能未在论文中分桶报告。
- 部分超参未完整可证。 主分数 LightGCN run(bigbatch_more)的 train-batch-size / lr / epochs 等未在包内留存日志,仅能由 run 名与缓存分数反推 layers=2 / dim=512 / dot / seeds{41,141}(标注为「未明确确认」,见事实表)。
- 特征族冗余。 259 维中存在共线列(如 explicit18 中两列恒等),靠 LightGBM 自动忽略;虽不影响性能,但削弱了特征重要性的可解释性(论文中以消融瀑布替代 gain 图)。
9. 结论段(Conclusion)
正文段落草稿。 本文针对稀疏异构学术网络上的 author-paper 阅读推荐任务,提出了一个多源两阶段 stacking 框架,并以有向高阶引用传播作为主要方法贡献。通过把作者/合著者历史论文经 k 步引用扩散建模为稀疏矩阵幂乘(H_k=R·C^k、G_k=S·R·C^k,fwd/bwd/undir 三向),并以 top-k 剪枝保证可计算性,我们将全局学术影响力结构有效注入推荐。最终模型在验证集取得 F1=0.9669、AUC=0.9949,公开榜 F1=0.96626。实验表明:局部 meta-path、随机游走全局接近度、内容语义与多跳有向传播四类信号高度互补,而一个强正则的 LightGBM meta-learner 配合 rank-cutoff 决策,能在分布漂移下稳健地融合它们。
未来工作可探索:(a) 把高阶传播直接嵌入 LightGCN 的消息传递(端到端而非特征拼接);(b) 对冷启动作者分桶评估并设计专属特征;(c) 用校准(isotonic / Platt)替代 rank-cutoff,直接对概率阈值做分布修正。
10. 图表 Caption 汇总(Figure/Table Captions)
以下 caption 可直接放进论文图表:
| 图/表 | 建议编号 | Caption(中英对照草稿) |
|---|---|---|
| 数据集统计表 | Table 1 | Table 1: 异构学术网络规模与边统计(6,611 作者 / 79,937 论文;阅读 682,421 / 合著 9,663 / 引用 327,113 有向)。 |
| 稀疏/长尾图 | Figure 1 | Figure 1: 二部图正边密度约 1.29e-3,约 56% 作者度数为 1,呈长尾分布(冷启动主导)。 |
| 方法演进折线 | Figure 2 | Figure 2: 方法演进:验证 F1(1:1 OOF)与公开榜 F1 从 baseline 0.8850 到最终 0.9669 / 0.96626。 |
| 259 维特征堆叠 | Figure 3 | Figure 3: 259 维特征族构成(10 族):X_base 84 + rich content 18 + 7×RW 77 + RW agg 11 + 高阶无向 24 + 高阶有向 45。 |
| 高阶消融柱状 | Figure 4 | Figure 4: 高阶消融:108→190→214→259 维,无向高阶 +0.001609,有向高阶再 +0.000318。 |
| 高阶传播示意 | Figure 5 | Figure 5: 有向高阶引用传播示意:H_k=R·C^k(作者历史扩散),G_k=S·R·C^k(合著者扩散),fwd/bwd/undir 三向。 |
| 决策漂移图 | Figure 6 | Figure 6: 验证最优阈值 0.4617 迁移到测试漂移至 0.5242;rank-cutoff top-50% 对该漂移鲁棒。 |
| 特征贡献瀑布 | Figure 7 | Figure 7: 特征族消融贡献瀑布(因环境无 lightgbm gain,以 OOF 消融增量替代重要性)。 |
图表规则提醒:本仓库存在两个 paper figure 包;val_labels_seed202.npy ↔ rich_rw7_highorder_directed_oof.npy 的 best-F1 已复算对齐 = 0.966874(无泄漏)。LightGBM/gensim 在审计环境(Python 3.14)未安装,故特征重要性用消融瀑布而非 LightGBM gain。RW 5→7 块稳态增益以 CSV 重算 +0.00155 为准(非 +0.00182)。
11. 可迁移到论文中的写法(可直接进 TeX 的成稿段落)
以下给出 section 级结构建议与成稿段落,语言接近正式 ACM 论文,中文。可直接复制进 .tex(数学环境按需改 [ ] / equation)。
建议章节结构
\section{Introduction} % §1 引言核心论点
\section{Related Work} % (可选) CF / GNN / link prediction / stacking
\section{Dataset and Problem} % §3 数据集描述段
\section{Method}
\subsection{Two-stage Stacking Overview}
\subsection{Stage-1: Multi-source Scoring}
\subsection{Directed High-order Citation Propagation} % 主创新,单独小节
\subsection{Stage-2: LightGBM Meta-learner}
\subsection{Rank-cutoff Decision Rule} % §7
\section{Experiments}
\subsection{Setup and Validation Protocol}
\subsection{Main Results} % §5
\subsection{Ablation Study} % §6
\section{Limitations} % §8
\section{Conclusion} % §9
成稿段落 1 — 高阶传播(主创新小节)
我们提出有向高阶引用传播(directed high-order citation propagation)作为本文的主要方法贡献。给定行归一化的作者-论文矩阵 R∈R^{|A|×|P|}、引用矩阵 C∈R^{|P|×|P|} 与对称合著矩阵 S∈R^{|A|×|A|},作者历史扩散定义为 H_k = R·C^k,合著者历史扩散定义为 G_k = S·R·C^k,(H_k){a,p}(或 (G_k){a,p})度量作者 a(或其合著者)的历史论文经 k 步引用到达候选 p 的累积强度。鉴于引用的有向性,我们分别采用前向、后向、无向三种 C,并对每个方向与每个 k 产出原始分、热度归一分(除以 log(1+deg))与多跳增量 Δ_k。为控制 |P|×|P| 幂乘的稠密化,我们在每次幂乘后做 top-k 剪枝(k=1500),全程以稀疏矩阵实现。该模块共贡献 69 维特征(无向 24 + 有向 45)。消融显示,无向高阶使验证 F1 提升 +0.001609,引入方向性再提升 +0.000318。
成稿段落 2 — 两阶段 stacking(方法总览)
我们的方法采用两阶段 stacking。Stage-1 由若干弱学习器并行生产分数与嵌入:LightGCN 异构协同过滤集成提供主分数(验证 F1 0.9386),BPR 矩阵分解、7 块 DeepWalk/Node2Vec、512 维 USE 内容画像、显式图/meta-path 与负证据特征提供互补信号,叠加本文提出的高阶引用传播特征。Stage-2 将全部 10 族、共 259 维特征横向拼接,以 5 折 StratifiedKFold out-of-fold 训练一个强正则 LightGBM(num_leaves=15,reg_lambda=8.0,min_child_samples=100,n_estimators=1400,lr=0.022),得到无泄漏验证分数,并在全量上重训用于测试。
成稿段落 3 — rank-cutoff 决策(方法学贡献)
由于验证集为人工 1:1 平衡而测试集真实正先验未知,验证最优概率阈值(0.4617)直接迁移到测试将使正例率漂移至约 0.5242。我们因此采用 rank-cutoff 决策:按预测分数对全部测试对排序,取 top-50% 为正,并对训练已见的正边强制预测为正。该规则对分数的单调变换与先验漂移鲁棒;0.500 这一比例由公开榜多 ratio 扫描(0.498–0.502)确认为最优。
成稿段落 4 — 实验结果(主结果句)
在 seed=202 的同一 1:1 验证切分上,我们的最终模型取得验证 F1 = 0.9669、AUC = 0.9949,公开榜 F1 = 0.96626。相较单一 LightGCN 集成(0.9386),多源 stacking 与高阶引用传播共同带来 +0.0283 的验证增益;其中高阶引用传播单独贡献 +0.0019 验证 F1 与 +0.00374 公开榜 F1,是最终方法的决定性增量。
成稿段落 5 — 局限性与结论
本方法的局限包括:(1) 1:1 验证集与真实测试先验不匹配,rank-cutoff 为工程性缓解;(2) top-50% 为建模假设,测试真实正比例无法核验;(3) 约 56% 度数为 1 的冷启动作者缺乏分桶评估;(4) 部分超参未完整留存日志。未来工作可将高阶传播端到端嵌入 GNN 消息传递,并对冷启动作者设计专属特征与概率校准。
附:关键数字速查(供论文核对)
| 量 | 值 |
|---|---|
| 最终公开榜 F1 | 0.96626(submission_rich_rw7_highorder_directed_r0.500000.csv) |
| 最终验证 F1 / AUC | 0.966874 / 0.994918 |
| 最终验证最优阈值 | 0.46173080801963806 |
| 特征维数 | 259 |
| LightGBM 超参 | num_leaves=15, reg_lambda=8, lr=0.022, n_est=1400, min_child_samples=100 |
| 切分 | seed=202, train_frac=0.9, 验证 136,484 对(68,242 正 / 68,242 负) |
| 高阶传播公式 | H_k=R·C^k、G_k=S·R·C^k,fwd/bwd/undir, top-k=1500 剪枝 |
| 数据规模 | 6,611 作者 / 79,937 论文 / 阅读 682,421 / 合著 9,663 / 引用 327,113 / feature 79937×512 |