| # ⚠️ 数据文件说明 | |
| ## 📁 数据文件位置 | |
| 数据文件已复制到 `data/cascades/` 目录: | |
| - `data/cascades/information_cascade.json` (606MB) | |
| - `data/cascades/information_cascade_original_posts.json` (980MB) | |
| ## ⚠️ 重要提示 | |
| **这些文件太大(总计约 1.6GB),不会上传到 Hugging Face!** | |
| `.gitignore` 已配置为排除这些文件,因为它们超过了 Git/Hugging Face 的推荐大小限制。 | |
| ## 📥 在云电脑上获取数据文件 | |
| ### 方法1: 直接传输(推荐) | |
| ```bash | |
| # 在云电脑上创建目录 | |
| mkdir -p data/cascades | |
| # 使用 scp 从本地传输 | |
| scp -r user@local-machine:/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade*.json ./data/cascades/ | |
| ``` | |
| ### 方法2: 使用云存储 | |
| 1. 将文件上传到云存储(Google Drive, Dropbox, OneDrive 等) | |
| 2. 在云电脑上下载 | |
| ### 方法3: 使用 Git LFS(如果配置) | |
| 如果需要通过 Git 管理大文件: | |
| ```bash | |
| # 安装 Git LFS | |
| git lfs install | |
| # 跟踪大文件 | |
| git lfs track "data/cascades/*.json" | |
| # 添加文件 | |
| git add .gitattributes | |
| git add data/cascades/*.json | |
| git commit -m "Add cascade data with LFS" | |
| git push | |
| ``` | |
| ### 方法4: 使用 Hugging Face Dataset Hub | |
| 可以将数据文件单独上传到 Hugging Face Dataset Hub: | |
| ```bash | |
| # 安装依赖 | |
| pip install huggingface_hub | |
| # 上传数据文件 | |
| huggingface-cli upload <username>/cascade-data data/cascades/ --repo-type dataset | |
| ``` | |
| 然后在云电脑上下载: | |
| ```bash | |
| huggingface-cli download <username>/cascade-data --local-dir ./data/cascades | |
| ``` | |
| ## ✅ 验证文件 | |
| 上传到 Hugging Face 后,验证: | |
| ```bash | |
| # 检查文件是否存在 | |
| ls -lh data/cascades/ | |
| # 应该看到: | |
| # information_cascade.json | |
| # information_cascade_original_posts.json | |
| ``` | |
| ## 🚀 使用数据文件 | |
| 文件准备好后,运行指标计算: | |
| ```bash | |
| python compute_cascade_metrics.py \ | |
| --input_cascade data/cascades/information_cascade.json \ | |
| --input_original data/cascades/information_cascade_original_posts.json \ | |
| --output output_with_metrics.json \ | |
| --batch_size 32 \ | |
| --device cuda | |
| ``` | |
| ## 📝 文件来源 | |
| 原始文件位置: | |
| - `/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/` | |
| 已复制到: | |
| - `/Users/chenshuyi/Downloads/EasyTemporalPointProcess-main/data/cascades/` | |
| ## 🔗 相关文档 | |
| - [数据文件说明](data/cascades/README.md) | |
| - [指标计算说明](COMPUTE_METRICS_README.md) | |
| - [上传指南](HF_UPLOAD_GUIDE.md) | |