| # Cascade Data Files | |
| 本目录包含信息级联数据文件。 | |
| ## 📁 文件说明 | |
| ### 主要文件 | |
| 1. **`information_cascade.json`** (606MB) | |
| - 完整的级联数据,包含原帖、评论、转发等信息 | |
| - 用于计算级联指标和训练模型 | |
| 2. **`information_cascade_original_posts.json`** (980MB) | |
| - 原帖数据 | |
| - 包含原始微博帖子信息 | |
| ## ⚠️ 文件大小说明 | |
| 这些文件较大(总计约 1.6GB),**不会自动上传到 Git/Hugging Face**。 | |
| ## 📥 如何获取数据文件 | |
| ### 方法1: 手动下载 | |
| 数据文件需要单独下载或传输到云电脑: | |
| ```bash | |
| # 在云电脑上创建目录 | |
| mkdir -p data/cascades | |
| # 使用 scp 或其他方式传输文件 | |
| scp user@local:/path/to/information_cascade.json ./data/cascades/ | |
| scp user@local:/path/to/information_cascade_original_posts.json ./data/cascades/ | |
| ``` | |
| ### 方法2: 使用 Git LFS(如果配置) | |
| 如果使用 Git LFS: | |
| ```bash | |
| # 安装 Git LFS | |
| git lfs install | |
| # 跟踪大文件 | |
| git lfs track "data/cascades/*.json" | |
| # 添加并提交 | |
| git add .gitattributes | |
| git add data/cascades/*.json | |
| git commit -m "Add cascade data files with LFS" | |
| ``` | |
| ### 方法3: 使用外部存储 | |
| - 上传到云存储(如 Google Drive, Dropbox) | |
| - 使用 Hugging Face Dataset Hub 的存储系统 | |
| - 使用对象存储服务(如 AWS S3, 阿里云 OSS) | |
| ## 🚀 使用数据文件 | |
| ### 运行指标计算 | |
| ```bash | |
| python compute_cascade_metrics.py \ | |
| --input_cascade data/cascades/information_cascade.json \ | |
| --input_original data/cascades/information_cascade_original_posts.json \ | |
| --output output_with_metrics.json \ | |
| --batch_size 32 | |
| ``` | |
| ### 数据格式 | |
| JSON 文件格式: | |
| ```json | |
| { | |
| "cascades": [ | |
| { | |
| "post_info": { | |
| "content": "...", | |
| "timestamp": "..." | |
| }, | |
| "comment_tree": {...}, | |
| "repost_chain": [...] | |
| } | |
| ] | |
| } | |
| ``` | |
| 详细格式说明请参考项目文档。 | |
| ## 📝 注意事项 | |
| 1. **文件大小**: 这些文件很大,确保有足够的磁盘空间 | |
| 2. **内存**: 加载完整文件可能需要大量内存 | |
| 3. **处理**: 建议使用批处理方式处理数据 | |
| 4. **备份**: 建议保留数据文件的备份 | |
| ## 🔗 相关文档 | |
| - [指标计算说明](../COMPUTE_METRICS_README.md) | |
| - [上传指南](../HF_UPLOAD_GUIDE.md) | |