| # 数据文件转移总结 | |
| ## ✅ 已完成 | |
| 两个 information cascade 文件已成功复制到 EasyTemporalPointProcess-main 文件夹。 | |
| ## 📁 文件位置 | |
| ### 源文件位置 | |
| - `/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade.json` | |
| - `/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade_original_posts.json` | |
| ### 目标位置 | |
| - `/Users/chenshuyi/Downloads/EasyTemporalPointProcess-main/data/cascades/information_cascade.json` (606MB) | |
| - `/Users/chenshuyi/Downloads/EasyTemporalPointProcess-main/data/cascades/information_cascade_original_posts.json` (980MB) | |
| ## ⚠️ 重要说明 | |
| ### 文件大小 | |
| - **总大小**: 约 1.6GB | |
| - **information_cascade.json**: 606MB | |
| - **information_cascade_original_posts.json**: 980MB | |
| ### Git 排除配置 | |
| 这些文件**不会上传到 Hugging Face**,因为: | |
| 1. 文件太大,超过 Git/Hugging Face 推荐大小 | |
| 2. 已通过 `.gitignore` 排除: | |
| ``` | |
| data/cascades/information_cascade*.json | |
| data/cascades/*.json | |
| ``` | |
| ## 📥 在云电脑上获取数据文件 | |
| ### 方法1: 使用 scp 传输(推荐) | |
| ```bash | |
| # 在云电脑上 | |
| mkdir -p data/cascades | |
| # 从本地传输 | |
| scp user@local-machine:/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade*.json ./data/cascades/ | |
| ``` | |
| ### 方法2: 上传到 Hugging Face Dataset Hub | |
| ```bash | |
| # 在本地 | |
| cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main | |
| huggingface-cli upload <username>/cascade-data data/cascades/ --repo-type dataset | |
| # 在云电脑上下载 | |
| huggingface-cli download <username>/cascade-data --local-dir ./data/cascades | |
| ``` | |
| ### 方法3: 使用云存储 | |
| 1. 将文件上传到 Google Drive / Dropbox / OneDrive | |
| 2. 在云电脑上下载 | |
| ## 📝 相关文档 | |
| - **数据文件说明**: `data/cascades/README.md` | |
| - **数据文件注意事项**: `DATA_FILES_NOTICE.md` | |
| - **上传指南**: `HF_UPLOAD_GUIDE.md` | |
| ## ✅ 验证 | |
| 上传到 Hugging Face 后,验证数据文件: | |
| ```bash | |
| # 检查文件是否存在 | |
| ls -lh data/cascades/ | |
| # 应该看到: | |
| # information_cascade.json (606MB) | |
| # information_cascade_original_posts.json (980MB) | |
| ``` | |
| ## 🚀 使用数据文件 | |
| 文件准备好后,运行指标计算: | |
| ```bash | |
| python compute_cascade_metrics.py \ | |
| --input_cascade data/cascades/information_cascade.json \ | |
| --input_original data/cascades/information_cascade_original_posts.json \ | |
| --output output_with_metrics.json \ | |
| --batch_size 32 \ | |
| --device cuda | |
| ``` | |
| --- | |
| **数据文件已成功转移!** ✅ | |