Cascade Data Files
本目录包含信息级联数据文件。
📁 文件说明
主要文件
information_cascade.json(606MB)- 完整的级联数据,包含原帖、评论、转发等信息
- 用于计算级联指标和训练模型
information_cascade_original_posts.json(980MB)- 原帖数据
- 包含原始微博帖子信息
⚠️ 文件大小说明
这些文件较大(总计约 1.6GB),不会自动上传到 Git/Hugging Face。
📥 如何获取数据文件
方法1: 手动下载
数据文件需要单独下载或传输到云电脑:
# 在云电脑上创建目录
mkdir -p data/cascades
# 使用 scp 或其他方式传输文件
scp user@local:/path/to/information_cascade.json ./data/cascades/
scp user@local:/path/to/information_cascade_original_posts.json ./data/cascades/
方法2: 使用 Git LFS(如果配置)
如果使用 Git LFS:
# 安装 Git LFS
git lfs install
# 跟踪大文件
git lfs track "data/cascades/*.json"
# 添加并提交
git add .gitattributes
git add data/cascades/*.json
git commit -m "Add cascade data files with LFS"
方法3: 使用外部存储
- 上传到云存储(如 Google Drive, Dropbox)
- 使用 Hugging Face Dataset Hub 的存储系统
- 使用对象存储服务(如 AWS S3, 阿里云 OSS)
🚀 使用数据文件
运行指标计算
python compute_cascade_metrics.py \
--input_cascade data/cascades/information_cascade.json \
--input_original data/cascades/information_cascade_original_posts.json \
--output output_with_metrics.json \
--batch_size 32
数据格式
JSON 文件格式:
{
"cascades": [
{
"post_info": {
"content": "...",
"timestamp": "..."
},
"comment_tree": {...},
"repost_chain": [...]
}
]
}
详细格式说明请参考项目文档。
📝 注意事项
- 文件大小: 这些文件很大,确保有足够的磁盘空间
- 内存: 加载完整文件可能需要大量内存
- 处理: 建议使用批处理方式处理数据
- 备份: 建议保留数据文件的备份