# Project Proposal

## Introduction

本项目关注学术网络中的论文推荐问题。给定作者、论文、作者合作关系、论文引用关系以及作者历史引用论文的信息，我们希望预测测试集中每一个作者-论文组合是否应该被推荐。该任务可以建模为异构图上的链接预测问题，其中作者和论文是两类节点，作者-论文引用关系、作者-作者合作关系、论文-论文引用关系构成多种边类型。

传统推荐系统在用户行为较少时容易遇到冷启动问题，而学术推荐场景中作者的研究兴趣、合作者关系和论文引用结构都能提供额外信息。因此，本项目计划以异构图神经网络为主要方法，利用图上的消息传递学习作者和论文的表示，再通过链接预测判断潜在的作者-论文推荐关系。项目的最终目标是在测试集上输出二分类预测结果，并以 F1-score 作为主要评价指标。最终提交材料将包括符合 Kaggle 格式的预测文件、用于复现实验的代码，以及以 conference paper 形式撰写的算法设计报告。

本项目特别关注的问题是：在作者-论文交互较为稀疏的情况下，作者合作网络和论文引用网络等异构关系结构能否有效提升推荐性能。换言之，我们希望不仅得到一个较好的预测模型，也希望分析不同图关系对学术论文推荐任务的实际贡献。

## Related Work

近年来，图神经网络在推荐系统和链接预测任务中取得了较好效果。GC-MC 将图卷积用于矩阵补全问题，证明了图结构信息可以有效提升推荐性能。PinSage 将图卷积方法扩展到大规模网页推荐场景，通过邻居采样和图表示学习提升推荐质量。NGCF 和 LightGCN 进一步将用户-物品交互图用于协同过滤，其中 LightGCN 去除了复杂的非线性变换，更强调邻居传播在推荐任务中的作用。

在社会化推荐和学术推荐中，用户之间的关系也常被用于增强推荐效果。例如 GraphRec 和 DiffNet 利用社交关系传播用户偏好，从而缓解用户行为稀疏问题。对于本项目，作者合作网络可以被视为一种学术社交关系，论文引用网络则可以反映论文之间的主题和知识联系。除此之外，R-HGNN、HINormer、LHGNN 等异构图表示学习和链接预测方法也说明了不同节点类型、边类型和语义关系在复杂网络建模中的重要性。因此，我们计划参考图推荐和异构图链接预测的思想，构建一个以 GNN 表示学习为核心、以传统特征模型作为 baseline 和补充分析的推荐方案。

## Research Plan

本项目将围绕以下 research questions 展开：

RQ1: 不同类型的异构边对推荐性能有多大贡献？我们将比较完整图、去除作者合作边、去除论文引用边等设置下的性能变化。

RQ2: 作者节点的初始化方式是否影响模型对冷启动作者的推荐能力？我们将比较可训练 author embedding、历史引用论文平均 embedding、以及融合合作者历史论文信息的初始化方式。

RQ3: hard negative sampling 是否比 random negative sampling 更适合该推荐任务？我们将比较随机负样本、热门论文负样本和相似领域负样本对 F1-score 的影响。

第一阶段是数据分析与预处理。我们将读取训练集中的作者-论文边、测试集中的待预测 pair、作者合作图、论文引用图和论文特征文件。由于训练集和测试集中都存在重复 pair，我们会保留原始测试顺序用于最终提交，并在训练阶段比较保留重复边和去重后的效果。我们还会统计作者度数、论文度数、引用入度/出度、合作作者数量等基础图结构信息，用于数据分析、baseline 构建和后续消融实验。

第二阶段是构建异构学术图。我们计划将作者和论文分别作为两类节点，并加入三类主要关系：作者-论文引用或阅读关系、作者-作者合作关系、论文-论文引用关系。论文节点的初始特征来自官方提供的 `feature.pkl`，这些特征预计能够编码论文的语义或结构信息，从而帮助模型在纯图拓扑之外捕捉论文主题相似性。作者节点没有直接提供文本或属性特征，因此我们将比较两种初始化方式：一种是使用可训练的 author embedding，另一种是用作者历史引用论文的平均 embedding 表示其研究兴趣。对于历史记录较少的作者，我们将进一步利用其合作者的历史论文表示作为补充。在构图过程中，我们会注意避免训练边和推荐目标之间潜在的信息泄漏。

第三阶段是设计和训练 GNN 链接预测模型。我们将首先复现并改进示例 notebook 中的异构 GNN baseline：通过 author-paper、paper-author、author-author 和 paper-paper 边进行消息传递，学习 author embedding 和 paper embedding，然后使用 dot product、cosine similarity 或 MLP link predictor 输出推荐分数。主模型将优先采用 LightGCN 与异构边信息相结合的设计，因为 LightGCN 本身适合推荐系统，结构较轻，训练更稳定，也更适合本项目中 6,611 个作者和约 80,000 篇论文的数据规模。我们也会将 GraphSAGE 或 HeteroConv 作为可选模型进行比较。

第四阶段是负采样、验证和阈值选择。由于训练集中主要提供正样本，我们需要人工构造负样本。我们计划采用混合负采样策略：一部分从全局随机论文中采样，一部分从热门论文中采样，一部分从作者相关领域但未连接过的论文中采样，以提高模型区分 hard negative 的能力。我们还会显式考虑异构图中的 meta-path 信息，例如 Author-Author-Paper 和 Author-Paper-Paper 路径，用于构造更有挑战性的负样本或辅助特征。我们会从训练边中划分 validation set，将一部分已知 author-paper 边作为 validation positives，并构造对应的 negative pairs。除了最终关注 F1-score，我们也会记录 Precision、Recall 和 ROC-AUC，以更全面地分析模型表现。由于 F1-score 对分类阈值敏感，我们不会固定使用 0.5 作为阈值，而是在验证集上搜索最佳 threshold。

第五阶段是 baseline、消融实验和最终提交。为了证明 GNN 的有效性，我们会构造多层次 baseline。第一类是 heuristic baseline，例如论文 popularity、common neighbor 和简单 link prediction 指标。第二类是传统推荐或图表示学习 baseline，例如 matrix factorization、BPR 或 Node2Vec/DeepWalk。第三类是 GNN 模型，包括 LightGCN 和异构 GNN。最终报告将比较不同层次 baseline 和主模型，并分析不同边类型、作者初始化方式、meta-path 信息和负采样策略对结果的影响。如果验证集显示融合模型更稳定，我们会将 GNN 分数与结构特征模型分数进行简单加权融合，再生成符合格式要求的 `submission.csv`。

## Expected Outcome

我们预期首先得到一个可复现的异构 GNN 链接预测模型。该模型应能利用作者-论文、作者-作者和论文-论文三类关系学习作者与论文的表示，并在 F1-score 上超过随机预测、单纯 popularity-based 推荐和传统结构特征 baseline。

进一步地，我们希望通过异构图表示学习缓解冷启动和数据稀疏问题，尤其是在作者历史行为较少或论文较冷门的情况下，利用合作者关系和论文引用网络补充信息。最终成果包括完整的数据处理代码、模型训练代码、验证集评估结果、最终预测文件，以及一份以 conference paper 格式说明模型设计、实验结果和分析的报告。

## Options

如果时间或计算资源有限，我们的 backup plan 是使用轻量级 GNN，而不是训练复杂的异构图 Transformer。具体来说，我们可以减少 hidden dimension、message passing 层数和训练 epoch，并采用小批量边采样进行训练。如果 GPU 不可用，我们会优先运行 CPU 可承受的浅层 LightGCN 或 GraphSAGE 版本。

如果无法使用 `feature.pkl`，我们将退回到只使用图结构的 GNN 方案，例如为论文和作者都使用可训练 embedding，并通过作者-论文、作者-作者和论文-论文边进行表示学习。同时，我们会构造纯图结构特征 baseline，包括作者度数、论文度数、引用入度/出度、共同邻居、合作者历史行为和论文 popularity。

如果 GNN 模型效果不稳定或训练时间过长，我们将保留一个传统特征模型作为最低风险提交方案，并在报告中将其作为 baseline 和对比实验。这样可以保证项目风险可控，同时仍然保持 GNN 作为主要研究方向。