CS3319 Project 2 final deliverable (public F1 = 0.96626)

f28d994 15 days ago

26.2 kB

SUMMARY_FOR_PAPER — CS3319 推荐系统论文撰写总摘要

本文档是面向 ACM 中文论文写作的总摘要(first principles 风格)。它把整个代码库的研究叙事压缩成可直接迁移进 TeX 的段落、表格与公式。所有数字均对齐仓库根的「权威事实表」,冲突项以事实表为准。文中代码路径相对仓库根,并带行号。

目标读者:懂一点机器学习、但不完全熟悉图推荐系统的研究者。因此本文在每个关键设计前先回答「为什么」。

0. 论文摘要草稿(Draft Abstract)

中文摘要草稿。 本文研究异构学术网络上的 author-paper 阅读推荐任务(二部图链路预测)。给定一个由 6,611 位作者与 79,937 篇论文构成的网络,三类边——作者→论文阅读(682,421 条)、作者↔作者合著(9,663 条)、论文→论文引用(327,113 条,有向)——共同描述了学术影响力与兴趣传播。任务对约 2.05M 对未观测的 (author, paper) 二元组预测是否构成隐式阅读关系,并以 F1 为评测指标(公开榜仅评 50% 测试集)。

我们提出一个两阶段 stacking 框架。Stage-1 由若干彼此独立的弱学习器并行生产 raw 分数与嵌入:LightGCN 异构协同过滤集成、BPR 矩阵分解、7 块 DeepWalk/Node2Vec 随机游走、基于 512 维 Universal Sentence Encoder 的内容画像,以及显式图/meta-path 手工特征。Stage-2 由一个 259 维 LightGBM 二级 meta-learner 对全部特征做无泄漏的 5 折 out-of-fold(OOF)融合。

本文的主要方法贡献是有向高阶引用传播(directed high-order citation propagation):将「作者历史论文经 k 步引用扩散到候选论文」建模为稀疏矩阵的幂乘 $H_k = R\cdot C^k$,将「合著者历史论文扩散到候选」建模为 $G_k = S\cdot R\cdot C^k$,其中 S 为(无向)合著矩阵、R 为(行归一化)作者-论文矩阵、C 为引用矩阵。我们区分引用的前向 / 后向 / 无向三种方向,在 LightGCN 主分数之上叠加。该模块在验证集上把 F1 从 0.9649 提升至 0.9669(1:1 人工切分 OOF),并把公开榜 F1 从 0.96252 推到 0.96626。

测试阶段我们不采用概率阈值,而是采用 rank-cutoff top 50% + 强制已知训练正边为正 的决策规则,以稳健地应对验证集(人工 1:1)与测试集(真实先验未知)之间的分布漂移。

关键词: 异构图;链路预测;阅读推荐;LightGCN;两阶段 stacking;高阶引用传播;rank-cutoff 决策。

1. 引言核心论点(Introduction)

引言需要回答三个问题:为什么这个任务难、为什么 CF 不够、为什么「高阶 + 多源 stacking」是正解。

(1) 任务难点。 该二部图极度稀疏:正边密度约 $682421/(6611\times79937) \approx 1.29\times10^{-3}$,且约 56% 的作者度数为 1(长尾分布)。这意味着仅靠局部相似度难以对冷启动作者给出可靠预测。

(2) 纯协同过滤(CF)的不足。 LightGCN/BPR 等纯 CF 方法把推荐建模为隐因子交互,但在稀疏长尾区间,作者隐向量几乎未受训练,分数噪声大。我们观察到:把 LightGCN 集成作为单一主分数,验证 F1 仅 0.9386。一个直观的补救是把「全局结构信号」(meta-path、引用传播)与「内容信号」(语义嵌入)作为额外特征喂给一个有监督的 meta-learner,让模型自己学到如何加权——这正是两阶段 stacking 的动机。

(3) 高阶引用传播的核心论点。 一个作者「会读候选论文 p」的最强可解释信号之一,是他已读过、并经引用链路可达 p 的历史论文:若作者读过的论文 q 被 p 引用,或 p 被 q 引用,或二者同被某文引用,都是强证据。该信号天然是多跳(high-order)且有向(citation 有方向性)的。本文主张:把这种多跳有向信号以稀疏矩阵幂乘的形式高效计算出来,作为 meta-learner 的特征,是把全局学术影响力结构注入推荐的有效手段。

2. 方法贡献三点(Contributions)

论文可在 Contributions 节明确列出三点,并标注主次:

#	贡献	性质	关键证据
C1	有向高阶引用传播特征 H_k=R·C^k、G_k=S·R·C^k,fwd/bwd/undir 三向,k 步多跳,稀疏矩阵 + top-k 剪枝实现	主要创新	验证 0.9649 → 0.9669;公开 0.96252 → 0.96626
C2	多源两阶段 stacking 框架:259 维特征(10 族)经 5 折 OOF LightGBM 融合,主分数来自 LightGCN 集成,辅以 BPR-MF / 7 块 RW / content / meta-path / 负证据	系统工程贡献	整体 0.8850(baseline)→ 0.9669
C3	rank-cutoff + 强制已知正边的分布漂移稳健决策规则,并显式量化了验证 1:1 切分与测试真实先验之间的漂移(阈值漂移 0.4617 → 0.5242)	方法学贡献	公开榜最高提交 r0.500000.csv

下表把每点贡献映射到代码位置,便于审稿与复现:

贡献	关键代码	行号
C1 高阶无向传播	high_order_graph_stack.py: build_high_order	74–122
C1 高阶有向传播(fwd/bwd/undir)	high_order_graph_stack.py: build_high_order_directed	125–176
C1 行归一化 / top-k 剪枝	high_order_graph_stack.py: row_norm, topk_prune_rows	39–72
C2 切分与主分数生产	train_val_lgcn_ensemble.py: make_notebook_style_split	132–165
C2 特征工程族	stack_rank_calibration.py, content_rich_ablation.py, randomwalk_systematic_ablation.py, extra_score_sources_ablation.py	见事实表 §6
C2 二级 stacker	high_order_graph_stack.py: fit_full_predict	201+
C3 决策规则	high_order_graph_stack.py(submission 生成,rank-cutoff + test_known_mask.npy)	—

3. 数据集描述段(Dataset)

正文段落草稿。 实验在一个真实的异构学术网络上进行,网络规模与边统计如下表。节点被划分为两类:6,611 个作者(id 0–6610)与 79,937 篇论文(id 0–79936)。每篇论文附带一个 512 维 Universal Sentence Encoder 语义嵌入(data_and_docs/feature.pkl,形状 79937×512,torch.float32,约 156 MB),用作内容侧特征。

数据项	规模 / 类型	方向	来源文件
作者节点	6,611	—	dataset.md
论文节点	79,937	—	dataset.md
作者→论文阅读(训练正边)	682,421	author→paper(正边)	bipartite_train_ann.txt
待预测对	2,047,262 (≈2.05M)	—	bipartite_test_ann.txt
作者↔作者合著	9,663	无向	author_file_ann.txt
论文→论文引用	327,113	有向(former→latter)	paper_file_ann.txt
论文语义嵌入	79937×512	—	feature.pkl

评估与切分。 公开榜仅评测测试集的 50%。由于测试集真实正例比例未知(无法从文件核验),我们构造一个人工 1:1 验证集用于无泄漏调参:make_notebook_style_split(seed=202, train_frac=0.9) 留出 10% 训练正边作为 68,242 个验证正例,再以 np.random.default_rng(202) 采样等量(68,242)随机非边作为负例,共 136,484 对(train_val_lgcn_ensemble.py:132-165)。该切分贯穿全部实验,seed=202 被烘焙进所有 .npy/.npz 缓存。

稀疏与长尾。 正边密度 $\approx 1.29\times10^{-3}$,约 56% 作者度数为 1,直接刻画了「冷启动作者」主导的难度,也是引言动机的实证依据。

4. 最终方法描述段(Method)

正文段落草稿。 最终方法是一个两阶段 stacking,流程如下(文本流程图):

原始输入(6 类文件)
   │  make_notebook_style_split(seed=202, train_frac=0.9)
   ▼
1:1 验证集(136,484 对) ──┐
                          │
   Stage-1 多源分数/嵌入生产(并行,各独立) ────────────────────┐
     • LightGCN 异构 CF 集成  → val_vanilla_ensemble_mean.npy  (主分数)
     • BPR-MF (dim=256)        → mf_bpr  (4 列 score→feat)
     • 7× DeepWalk/Node2Vec    → 每块 11 维 pair feature
     • RW 一致性聚合           → 11 维
     • content mean-cos / topk → content_mean4 + topk3
     • content rich (feature.pkl) → 18 维
     • explicit graph / meta-path → 18 维 + rank4
     • 负证据                   → 8 维
     • 高阶引用传播(无向24 + 有向45) ← 主创新
   ▼
Stage-2  LightGBM meta-learner(259 维)  5 折 OOF
   ▼
rich_rw7_highorder_directed_oof.npy  (验证 F1 = 0.966874)
   ▼
决策: rank-cutoff top 50%  +  test_known_mask 强制已知正边=1
   ▼
最终提交 → 公开榜 F1 = 0.96626

4.1 Stage-1:多源分数与嵌入

各弱学习器的角色与第一性原理动机:

LightGCN 异构 CF 集成(主分数)。 LightGCN 放弃了传统 GCN 的权重矩阵与非线性,仅做归一化邻居聚合,适合推荐这种「特征即交互结构」的场景(train_val_lgcn_ensemble.py:49-104,LightGCN.encode 用 $\frac{1}{L+1}$ 均匀权重做 layer-0 weighted sum)。最佳配置为 layers=2、dim=512、点积解码、seeds={41,141}(run 名 l2d512),二模型均值作为主分数(scores/val_vanilla_ensemble_mean.npy),验证 F1 0.9386。训练采用混合硬负采样(随机 50% / popular 25% / coauthor-pool 25%,见 sample_hard_negatives:273-305)以缓解 popular-item 偏置。
BPR-MF。 矩阵分解提供与 LightGCN 互补的协同过滤视角(BPR pairwise 损失,dim=256),作为 4 维特征族。
DeepWalk / Node2Vec(7 块)。 随机游走捕获全局网络接近度,弥补 LightGCN 的局部性偏置。每块产 11 维 pair feature(dot / cos / hadamard / absdiff / l2 + 6 维排序,pair_feature_block:216-270);7 块再加一致性聚合 11 维。
内容信号。 content_mean_score(作者历史论文嵌入均值 · 候选向量)与 topk_content_similarity_fast(max / top-3 / top-5),以及 18 维 rich content 画像(直接从 feature.pkl 统计)。
显式图 / meta-path / 负证据。 18 维 ExplicitGraphFeatures(A-A-P、A-P-A 等集合运算)、4 维 rank 特征、8 维负证据。
高阶引用传播(主创新,见 §4.2)。

4.2 Stage-1 高阶引用传播(主要方法贡献)

设 R 为(行归一化)作者-论文阅读矩阵,C 为(行归一化)论文引用矩阵,S 为(对称、行归一化)合著矩阵。对一对 (a,p):

作者历史扩散:H_k = R·C^k,提取 (H_k)_{a,p} 表示「作者 a 读过的论文经 k 步引用到达 p」的累积权重。
合著者历史扩散:G_k = S·R·C^k,表示「a 的合著者读过的论文经 k 步引用到达 p」。

引用是有向的,因此我们对 C 取三种方向:前向 fwd(原文→被引)、后向 bwd(被引→原文)、无向 undir。对每种方向、每个 k,我们产出原始分数、热度归一化分数(除以候选论文的 log 度数)以及多跳增量 Δ_k = s_k − s_{k-1} 作为特征(high_order_graph_stack.py:155-173)。

计算可行性通过两点保证:(i) 全部用 scipy.sparse 行归一化幂乘;(ii) 每次幂乘后做 top-k 剪枝(topk_prune_rows,k=1500),只保留每行最强的 1500 个目标,把 |P|×|P| 的稠密化控制在可控稀疏度。最终该族贡献 24(无向)+ 45(有向)= 69 维特征。

4.3 Stage-2:LightGBM meta-learner

把上述全部特征族横向拼接成 259 维 X(构成见 §6 表)。Stage-2 用 5 折 StratifiedKFold OOF 训练 LightGBM,得到无泄漏的验证分数;最终模型用 fit_full_predict(high_order_graph_stack.py:201+)在全量上重训。超参:num_leaves=15、reg_lambda=8.0、min_child_samples=100、n_estimators=1400、learning_rate=0.022。该正则强度(num_leaves 小、reg_lambda 大、min_child_samples 大)刻意抑制过拟合,以匹配 259 维特征中大量相关/共线列(例如 ExplicitGraphFeatures 内 out[i,12] 与 out[i,3] 恒等,LightGBM 会自动忽略)。

4.4 决策规则:rank-cutoff

测试决策不采用验证最优概率阈值,而是:

按最终 LightGBM 分数对全部 2.05M 测试对排序;
取 top 50%(ratio=0.500000)预测为正;
用 cached_scores/test_known_mask.npy 把所有「同时出现在训练正边中的测试对」强制为 1。

理由见 §7(分布漂移):验证集是人工 1:1,其最优阈值 0.4617 与测试真实先验不匹配(漂移到 0.5242);rank-cutoff 对先验不敏感,且强制已知正边消除了「训练已见却被判负」的明显错误。

5. 实验结果描述段(Results)

正文段落草稿。 全部实验在 seed=202 的同一 1:1 切分上进行,验证 F1 为 5 折 OOF、经 PR 曲线 best_f1 取最优阈值后的无泄漏数值。方法演进的完整时间线如下表。

序	方法	验证 F1 (1:1 OOF)	公开榜 F1
0	baseline(启发式/度特征)	0.8850	—
1	LightGCN 异构 CF 集成	0.9386	0.93044(早期 6-model)
2	+ 显式图 / meta-path stacking	0.9560	—
3	+ Post95 变体特征(76 维)	0.95711	≈0.95760
4	+ content mean-cos	0.95763	—
5	+ BPR-MF(84 维 X_base)	0.95931	≈0.95996
6	+ rich content(18 维)	0.95990	—
7	+ DeepWalk / Node2Vec	0.9621	≈0.96252
8	+ 7 RW blocks 一致性聚合	0.964921	—
9	+ 高阶引用传播(无向→有向,259 维)	0.966874	0.96626

关键观察。 (i) 显式图/meta-path stacking 带来单一最大增量(+0.0174,0.9386→0.9560),说明局部结构手工特征对稀疏图极为有效;(ii) BPR-MF 与 content 信号各自贡献约 +0.0017、+0.0006,体现多源互补;(iii) 随机游走从单模型到 7 块集成增益稳定收敛(注意:据重算,5→7 块稳态增益约为 +0.00155,而非早期 figure 标注的 +0.00182,以 CSV 重算为准);(iv) 高阶引用传播贡献 +0.0019 验证 F1,并把公开榜从 0.96252 提升到 0.96626(+0.00374),是最终方法的决定性增量。

最终模型。 验证 F1 = 0.966874,AUC = 0.994918,最优阈值 0.46173080801963806,259 维特征,来源 validation_runs/dynamic_seed202/high_order_graph_stack/validation_summary.csv(第 2 行)。该 OOF 与 val_labels_seed202.npy 的 best-F1 复算 = 0.966874,确认标签与 OOF 已对齐、无泄漏。

6. 消融实验描述段(Ablation)

正文段落草稿。 我们在最终 stacker 内部做特征族增量消融(high_order_graph_stack/validation_summary.csv,4 行),直接量化「高阶 / 有向」两步的贡献:

stage	n_features	验证 F1	AUC	最优阈值
base_highorder(108 维,无 RW7、无高阶)	108	0.964270	0.994052	0.455478
rich_rw7(190 维,+RW7)	190	0.964947	0.994555	0.490447
rich_rw7_highorder(214 维,+无向高阶)	214	0.966556	0.994890	0.469339
rich_rw7_highorder_directed(259 维,+有向高阶)	259	0.966874	0.994918	0.461731

消融结论。 (i) 从 190→214(加无向高阶 24 维):F1 +0.001609(= 0.966556 − 0.964947),验证了多跳无向传播的增益;(ii) 从 214→259(再加有向高阶 45 维):F1 +0.000318,验证了方向性的附加信息——前向(我的历史被你引用)、后向(你的历史引用了我)、无向三者携带不同语义,共同优于单一无向。

259 维特征族构成(便于论文附录):

特征族	维度	产出
rank4(显式 rank)	4	stack_rank_calibration.py:148-160
explicit18(meta-path)	18	stack_rank_calibration.py:108-145
neg8(负证据)	8	post95_ablation.py:176-192
topk3(内容 top-k)	3	generate_post95_submission.py:186-216
variant43(LightGCN 变体聚合)	43	generate_post95_submission.py:175-183
content_mean4	4	extra_score_sources_ablation.py:80-97
bpr4(BPR-MF)	4	extra_score_sources_ablation.py:100-163
X_base 小计	84	—
rich18(content 画像)	18	content_rich_ablation.py:54-129
7×RW block(每块 11)	77	randomwalk_systematic_ablation.py:216-270
RW aggregate	11	generate_randomwalk_ensemble_submission.py:50-69
高阶无向	24	high_order_graph_stack.py:74-122
高阶有向(fwd/bwd/undir)	45	high_order_graph_stack.py:125-176
合计	259	—

拼接核对:84 + 18 = 102;102 + 77 + 11 = 190;190 + 24 = 214;214 + 45 = 259。

7. Rank-Cutoff 决策描述段(Decision Rule)

正文段落草稿。 推荐系统评测中,概率阈值的迁移性是公认难题。我们的验证集是人工构造的 1:1 正负平衡集,而测试集真实正例比例未知且显然远低于 1:1。这导致:验证最优概率阈值(0.4617)若直接迁移到测试,正例率会漂移到约 0.5242,系统性高估正例。

为此我们采用 rank-cutoff top 50%:无论概率如何标定,固定预测分数最高的 50% 为正。该规则对分数的单调变换与先验漂移天然鲁棒。50% 这一比例并非来自数据先验(真实正比例无法核验,见事实表 open_questions),而是作为「约半数测试对为正」的合理建模假设,并由公开榜多 ratio(0.498–0.502)扫描确认 0.500 为最优。最后,test_known_mask.npy 把所有训练已见的正边强制为 1,消除「训练已知却被误判为负」的硬错误。

8. 局限性段(Limitations)

正文段落草稿。 本文方法存在以下局限,论文应诚实披露:

验证集与测试集分布不匹配。 1:1 人工验证集与真实测试先验不同,验证 F1(0.9669)与公开榜 F1(0.96626)虽接近但口径有别,rank-cutoff 是对该漂移的工程性缓解,而非根本解决。
rank 比例 50% 是建模假设。 测试集真实正例比例无法从文件核验;top-50% 的最优性依赖公开榜 50% 评分子集,可能在未公开的另 50% 上略不同。
稀疏长尾区间证据不足。 约 56% 作者度数为 1,这些冷启动作者的预测主要依赖合著者扩散(G_k)与内容信号,其单独性能未在论文中分桶报告。
部分超参未完整可证。 主分数 LightGCN run(bigbatch_more)的 train-batch-size / lr / epochs 等未在包内留存日志,仅能由 run 名与缓存分数反推 layers=2 / dim=512 / dot / seeds{41,141}(标注为「未明确确认」,见事实表)。
特征族冗余。 259 维中存在共线列(如 explicit18 中两列恒等),靠 LightGBM 自动忽略;虽不影响性能,但削弱了特征重要性的可解释性(论文中以消融瀑布替代 gain 图)。

9. 结论段(Conclusion)

正文段落草稿。 本文针对稀疏异构学术网络上的 author-paper 阅读推荐任务,提出了一个多源两阶段 stacking 框架,并以有向高阶引用传播作为主要方法贡献。通过把作者/合著者历史论文经 k 步引用扩散建模为稀疏矩阵幂乘(H_k=R·C^k、G_k=S·R·C^k,fwd/bwd/undir 三向),并以 top-k 剪枝保证可计算性,我们将全局学术影响力结构有效注入推荐。最终模型在验证集取得 F1=0.9669、AUC=0.9949,公开榜 F1=0.96626。实验表明:局部 meta-path、随机游走全局接近度、内容语义与多跳有向传播四类信号高度互补,而一个强正则的 LightGBM meta-learner 配合 rank-cutoff 决策,能在分布漂移下稳健地融合它们。

未来工作可探索:(a) 把高阶传播直接嵌入 LightGCN 的消息传递(端到端而非特征拼接);(b) 对冷启动作者分桶评估并设计专属特征;(c) 用校准(isotonic / Platt)替代 rank-cutoff,直接对概率阈值做分布修正。

10. 图表 Caption 汇总(Figure/Table Captions)

以下 caption 可直接放进论文图表:

图/表	建议编号	Caption(中英对照草稿)
数据集统计表	Table 1	Table 1: 异构学术网络规模与边统计(6,611 作者 / 79,937 论文;阅读 682,421 / 合著 9,663 / 引用 327,113 有向)。
稀疏/长尾图	Figure 1	Figure 1: 二部图正边密度约 1.29e-3,约 56% 作者度数为 1,呈长尾分布(冷启动主导)。
方法演进折线	Figure 2	Figure 2: 方法演进:验证 F1(1:1 OOF)与公开榜 F1 从 baseline 0.8850 到最终 0.9669 / 0.96626。
259 维特征堆叠	Figure 3	Figure 3: 259 维特征族构成(10 族):X_base 84 + rich content 18 + 7×RW 77 + RW agg 11 + 高阶无向 24 + 高阶有向 45。
高阶消融柱状	Figure 4	Figure 4: 高阶消融:108→190→214→259 维,无向高阶 +0.001609,有向高阶再 +0.000318。
高阶传播示意	Figure 5	Figure 5: 有向高阶引用传播示意:H_k=R·C^k(作者历史扩散),G_k=S·R·C^k(合著者扩散),fwd/bwd/undir 三向。
决策漂移图	Figure 6	Figure 6: 验证最优阈值 0.4617 迁移到测试漂移至 0.5242;rank-cutoff top-50% 对该漂移鲁棒。
特征贡献瀑布	Figure 7	Figure 7: 特征族消融贡献瀑布(因环境无 lightgbm gain,以 OOF 消融增量替代重要性)。

图表规则提醒:本仓库存在两个 paper figure 包;val_labels_seed202.npy ↔ rich_rw7_highorder_directed_oof.npy 的 best-F1 已复算对齐 = 0.966874(无泄漏)。LightGBM/gensim 在审计环境(Python 3.14)未安装,故特征重要性用消融瀑布而非 LightGBM gain。RW 5→7 块稳态增益以 CSV 重算 +0.00155 为准(非 +0.00182)。

11. 可迁移到论文中的写法(可直接进 TeX 的成稿段落)

以下给出 section 级结构建议与成稿段落,语言接近正式 ACM 论文,中文。可直接复制进 .tex(数学环境按需改 [ ] / equation)。

建议章节结构

\section{Introduction}                 % §1 引言核心论点
\section{Related Work}                 % (可选) CF / GNN / link prediction / stacking
\section{Dataset and Problem}          % §3 数据集描述段
\section{Method}
  \subsection{Two-stage Stacking Overview}
  \subsection{Stage-1: Multi-source Scoring}
  \subsection{Directed High-order Citation Propagation}   % 主创新,单独小节
  \subsection{Stage-2: LightGBM Meta-learner}
  \subsection{Rank-cutoff Decision Rule}                  % §7
\section{Experiments}
  \subsection{Setup and Validation Protocol}
  \subsection{Main Results}                               % §5
  \subsection{Ablation Study}                             % §6
\section{Limitations}                                    % §8
\section{Conclusion}                                     % §9

成稿段落 1 — 高阶传播(主创新小节)

我们提出有向高阶引用传播(directed high-order citation propagation)作为本文的主要方法贡献。给定行归一化的作者-论文矩阵 R∈R^{|A|×|P|}、引用矩阵 C∈R^{|P|×|P|} 与对称合著矩阵 S∈R^{|A|×|A|},作者历史扩散定义为 H_k = R·C^k,合著者历史扩散定义为 G_k = S·R·C^k,(H_k){a,p}(或 (G_k){a,p})度量作者 a(或其合著者)的历史论文经 k 步引用到达候选 p 的累积强度。鉴于引用的有向性,我们分别采用前向、后向、无向三种 C,并对每个方向与每个 k 产出原始分、热度归一分(除以 log(1+deg))与多跳增量 Δ_k。为控制 |P|×|P| 幂乘的稠密化,我们在每次幂乘后做 top-k 剪枝(k=1500),全程以稀疏矩阵实现。该模块共贡献 69 维特征(无向 24 + 有向 45)。消融显示,无向高阶使验证 F1 提升 +0.001609,引入方向性再提升 +0.000318。

成稿段落 2 — 两阶段 stacking(方法总览)

我们的方法采用两阶段 stacking。Stage-1 由若干弱学习器并行生产分数与嵌入:LightGCN 异构协同过滤集成提供主分数(验证 F1 0.9386),BPR 矩阵分解、7 块 DeepWalk/Node2Vec、512 维 USE 内容画像、显式图/meta-path 与负证据特征提供互补信号,叠加本文提出的高阶引用传播特征。Stage-2 将全部 10 族、共 259 维特征横向拼接,以 5 折 StratifiedKFold out-of-fold 训练一个强正则 LightGBM(num_leaves=15,reg_lambda=8.0,min_child_samples=100,n_estimators=1400,lr=0.022),得到无泄漏验证分数,并在全量上重训用于测试。

成稿段落 3 — rank-cutoff 决策(方法学贡献)

由于验证集为人工 1:1 平衡而测试集真实正先验未知,验证最优概率阈值(0.4617)直接迁移到测试将使正例率漂移至约 0.5242。我们因此采用 rank-cutoff 决策:按预测分数对全部测试对排序,取 top-50% 为正,并对训练已见的正边强制预测为正。该规则对分数的单调变换与先验漂移鲁棒;0.500 这一比例由公开榜多 ratio 扫描(0.498–0.502)确认为最优。

成稿段落 4 — 实验结果(主结果句)

在 seed=202 的同一 1:1 验证切分上,我们的最终模型取得验证 F1 = 0.9669、AUC = 0.9949,公开榜 F1 = 0.96626。相较单一 LightGCN 集成(0.9386),多源 stacking 与高阶引用传播共同带来 +0.0283 的验证增益;其中高阶引用传播单独贡献 +0.0019 验证 F1 与 +0.00374 公开榜 F1,是最终方法的决定性增量。

成稿段落 5 — 局限性与结论

本方法的局限包括:(1) 1:1 验证集与真实测试先验不匹配,rank-cutoff 为工程性缓解;(2) top-50% 为建模假设,测试真实正比例无法核验;(3) 约 56% 度数为 1 的冷启动作者缺乏分桶评估;(4) 部分超参未完整留存日志。未来工作可将高阶传播端到端嵌入 GNN 消息传递,并对冷启动作者设计专属特征与概率校准。

附:关键数字速查(供论文核对)

量	值
最终公开榜 F1	0.96626(submission_rich_rw7_highorder_directed_r0.500000.csv)
最终验证 F1 / AUC	0.966874 / 0.994918
最终验证最优阈值	0.46173080801963806
特征维数	259
LightGBM 超参	num_leaves=15, reg_lambda=8, lr=0.022, n_est=1400, min_child_samples=100
切分	seed=202, train_frac=0.9, 验证 136,484 对(68,242 正 / 68,242 负)
高阶传播公式	H_k=R·C^k、G_k=S·R·C^k,fwd/bwd/undir, top-k=1500 剪枝
数据规模	6,611 作者 / 79,937 论文 / 阅读 682,421 / 合著 9,663 / 引用 327,113 / feature 79937×512