EasyTemporalPointProcess-main / DATA_TRANSFER_SUMMARY.md
Abigail99216's picture
Upload folder using huggingface_hub
f43af3c verified
# 数据文件转移总结
## ✅ 已完成
两个 information cascade 文件已成功复制到 EasyTemporalPointProcess-main 文件夹。
## 📁 文件位置
### 源文件位置
- `/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade.json`
- `/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade_original_posts.json`
### 目标位置
- `/Users/chenshuyi/Downloads/EasyTemporalPointProcess-main/data/cascades/information_cascade.json` (606MB)
- `/Users/chenshuyi/Downloads/EasyTemporalPointProcess-main/data/cascades/information_cascade_original_posts.json` (980MB)
## ⚠️ 重要说明
### 文件大小
- **总大小**: 约 1.6GB
- **information_cascade.json**: 606MB
- **information_cascade_original_posts.json**: 980MB
### Git 排除配置
这些文件**不会上传到 Hugging Face**,因为:
1. 文件太大,超过 Git/Hugging Face 推荐大小
2. 已通过 `.gitignore` 排除:
```
data/cascades/information_cascade*.json
data/cascades/*.json
```
## 📥 在云电脑上获取数据文件
### 方法1: 使用 scp 传输(推荐)
```bash
# 在云电脑上
mkdir -p data/cascades
# 从本地传输
scp user@local-machine:/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade*.json ./data/cascades/
```
### 方法2: 上传到 Hugging Face Dataset Hub
```bash
# 在本地
cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main
huggingface-cli upload <username>/cascade-data data/cascades/ --repo-type dataset
# 在云电脑上下载
huggingface-cli download <username>/cascade-data --local-dir ./data/cascades
```
### 方法3: 使用云存储
1. 将文件上传到 Google Drive / Dropbox / OneDrive
2. 在云电脑上下载
## 📝 相关文档
- **数据文件说明**: `data/cascades/README.md`
- **数据文件注意事项**: `DATA_FILES_NOTICE.md`
- **上传指南**: `HF_UPLOAD_GUIDE.md`
## ✅ 验证
上传到 Hugging Face 后,验证数据文件:
```bash
# 检查文件是否存在
ls -lh data/cascades/
# 应该看到:
# information_cascade.json (606MB)
# information_cascade_original_posts.json (980MB)
```
## 🚀 使用数据文件
文件准备好后,运行指标计算:
```bash
python compute_cascade_metrics.py \
--input_cascade data/cascades/information_cascade.json \
--input_original data/cascades/information_cascade_original_posts.json \
--output output_with_metrics.json \
--batch_size 32 \
--device cuda
```
---
**数据文件已成功转移!**