# Cascade Data Files 本目录包含信息级联数据文件。 ## 📁 文件说明 ### 主要文件 1. **`information_cascade.json`** (606MB) - 完整的级联数据,包含原帖、评论、转发等信息 - 用于计算级联指标和训练模型 2. **`information_cascade_original_posts.json`** (980MB) - 原帖数据 - 包含原始微博帖子信息 ## ⚠️ 文件大小说明 这些文件较大(总计约 1.6GB),**不会自动上传到 Git/Hugging Face**。 ## 📥 如何获取数据文件 ### 方法1: 手动下载 数据文件需要单独下载或传输到云电脑: ```bash # 在云电脑上创建目录 mkdir -p data/cascades # 使用 scp 或其他方式传输文件 scp user@local:/path/to/information_cascade.json ./data/cascades/ scp user@local:/path/to/information_cascade_original_posts.json ./data/cascades/ ``` ### 方法2: 使用 Git LFS(如果配置) 如果使用 Git LFS: ```bash # 安装 Git LFS git lfs install # 跟踪大文件 git lfs track "data/cascades/*.json" # 添加并提交 git add .gitattributes git add data/cascades/*.json git commit -m "Add cascade data files with LFS" ``` ### 方法3: 使用外部存储 - 上传到云存储(如 Google Drive, Dropbox) - 使用 Hugging Face Dataset Hub 的存储系统 - 使用对象存储服务(如 AWS S3, 阿里云 OSS) ## 🚀 使用数据文件 ### 运行指标计算 ```bash python compute_cascade_metrics.py \ --input_cascade data/cascades/information_cascade.json \ --input_original data/cascades/information_cascade_original_posts.json \ --output output_with_metrics.json \ --batch_size 32 ``` ### 数据格式 JSON 文件格式: ```json { "cascades": [ { "post_info": { "content": "...", "timestamp": "..." }, "comment_tree": {...}, "repost_chain": [...] } ] } ``` 详细格式说明请参考项目文档。 ## 📝 注意事项 1. **文件大小**: 这些文件很大,确保有足够的磁盘空间 2. **内存**: 加载完整文件可能需要大量内存 3. **处理**: 建议使用批处理方式处理数据 4. **备份**: 建议保留数据文件的备份 ## 🔗 相关文档 - [指标计算说明](../COMPUTE_METRICS_README.md) - [上传指南](../HF_UPLOAD_GUIDE.md)