Cascade Data Files

本目录包含信息级联数据文件。

📁 文件说明

主要文件

information_cascade.json (606MB)
- 完整的级联数据，包含原帖、评论、转发等信息
- 用于计算级联指标和训练模型
information_cascade_original_posts.json (980MB)
- 原帖数据
- 包含原始微博帖子信息

⚠️ 文件大小说明

这些文件较大（总计约 1.6GB），不会自动上传到 Git/Hugging Face。

📥 如何获取数据文件

方法1: 手动下载

数据文件需要单独下载或传输到云电脑：

# 在云电脑上创建目录
mkdir -p data/cascades

# 使用 scp 或其他方式传输文件
scp user@local:/path/to/information_cascade.json ./data/cascades/
scp user@local:/path/to/information_cascade_original_posts.json ./data/cascades/

方法2: 使用 Git LFS（如果配置）

如果使用 Git LFS：

# 安装 Git LFS
git lfs install

# 跟踪大文件
git lfs track "data/cascades/*.json"

# 添加并提交
git add .gitattributes
git add data/cascades/*.json
git commit -m "Add cascade data files with LFS"

方法3: 使用外部存储

上传到云存储（如 Google Drive, Dropbox）
使用 Hugging Face Dataset Hub 的存储系统
使用对象存储服务（如 AWS S3, 阿里云 OSS）

🚀 使用数据文件

运行指标计算

python compute_cascade_metrics.py \
    --input_cascade data/cascades/information_cascade.json \
    --input_original data/cascades/information_cascade_original_posts.json \
    --output output_with_metrics.json \
    --batch_size 32

数据格式

JSON 文件格式：

{
  "cascades": [
    {
      "post_info": {
        "content": "...",
        "timestamp": "..."
      },
      "comment_tree": {...},
      "repost_chain": [...]
    }
  ]
}

详细格式说明请参考项目文档。

📝 注意事项

文件大小: 这些文件很大，确保有足够的磁盘空间
内存: 加载完整文件可能需要大量内存
处理: 建议使用批处理方式处理数据
备份: 建议保留数据文件的备份

Abigail99216
/

EasyTemporalPointProcess-main

Cascade Data Files

📁 文件说明

主要文件

⚠️ 文件大小说明

📥 如何获取数据文件

方法1: 手动下载

方法2: 使用 Git LFS（如果配置）

方法3: 使用外部存储

🚀 使用数据文件

运行指标计算

数据格式

📝 注意事项

🔗 相关文档