File size: 2,534 Bytes
f43af3c |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 |
# ⚠️ 数据文件说明
## 📁 数据文件位置
数据文件已复制到 `data/cascades/` 目录:
- `data/cascades/information_cascade.json` (606MB)
- `data/cascades/information_cascade_original_posts.json` (980MB)
## ⚠️ 重要提示
**这些文件太大(总计约 1.6GB),不会上传到 Hugging Face!**
`.gitignore` 已配置为排除这些文件,因为它们超过了 Git/Hugging Face 的推荐大小限制。
## 📥 在云电脑上获取数据文件
### 方法1: 直接传输(推荐)
```bash
# 在云电脑上创建目录
mkdir -p data/cascades
# 使用 scp 从本地传输
scp -r user@local-machine:/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade*.json ./data/cascades/
```
### 方法2: 使用云存储
1. 将文件上传到云存储(Google Drive, Dropbox, OneDrive 等)
2. 在云电脑上下载
### 方法3: 使用 Git LFS(如果配置)
如果需要通过 Git 管理大文件:
```bash
# 安装 Git LFS
git lfs install
# 跟踪大文件
git lfs track "data/cascades/*.json"
# 添加文件
git add .gitattributes
git add data/cascades/*.json
git commit -m "Add cascade data with LFS"
git push
```
### 方法4: 使用 Hugging Face Dataset Hub
可以将数据文件单独上传到 Hugging Face Dataset Hub:
```bash
# 安装依赖
pip install huggingface_hub
# 上传数据文件
huggingface-cli upload <username>/cascade-data data/cascades/ --repo-type dataset
```
然后在云电脑上下载:
```bash
huggingface-cli download <username>/cascade-data --local-dir ./data/cascades
```
## ✅ 验证文件
上传到 Hugging Face 后,验证:
```bash
# 检查文件是否存在
ls -lh data/cascades/
# 应该看到:
# information_cascade.json
# information_cascade_original_posts.json
```
## 🚀 使用数据文件
文件准备好后,运行指标计算:
```bash
python compute_cascade_metrics.py \
--input_cascade data/cascades/information_cascade.json \
--input_original data/cascades/information_cascade_original_posts.json \
--output output_with_metrics.json \
--batch_size 32 \
--device cuda
```
## 📝 文件来源
原始文件位置:
- `/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/`
已复制到:
- `/Users/chenshuyi/Downloads/EasyTemporalPointProcess-main/data/cascades/`
## 🔗 相关文档
- [数据文件说明](data/cascades/README.md)
- [指标计算说明](COMPUTE_METRICS_README.md)
- [上传指南](HF_UPLOAD_GUIDE.md)
|