# ⚠️ 数据文件说明

## 📁 数据文件位置

数据文件已复制到 `data/cascades/` 目录：

- `data/cascades/information_cascade.json` (606MB)
- `data/cascades/information_cascade_original_posts.json` (980MB)

## ⚠️ 重要提示

**这些文件太大（总计约 1.6GB），不会上传到 Hugging Face！**

`.gitignore` 已配置为排除这些文件，因为它们超过了 Git/Hugging Face 的推荐大小限制。

## 📥 在云电脑上获取数据文件

### 方法1: 直接传输（推荐）

```bash
# 在云电脑上创建目录
mkdir -p data/cascades

# 使用 scp 从本地传输
scp -r user@local-machine:/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/information_cascade*.json ./data/cascades/
```

### 方法2: 使用云存储

1. 将文件上传到云存储（Google Drive, Dropbox, OneDrive 等）
2. 在云电脑上下载

### 方法3: 使用 Git LFS（如果配置）

如果需要通过 Git 管理大文件：

```bash
# 安装 Git LFS
git lfs install

# 跟踪大文件
git lfs track "data/cascades/*.json"

# 添加文件
git add .gitattributes
git add data/cascades/*.json
git commit -m "Add cascade data with LFS"
git push
```

### 方法4: 使用 Hugging Face Dataset Hub

可以将数据文件单独上传到 Hugging Face Dataset Hub：

```bash
# 安装依赖
pip install huggingface_hub

# 上传数据文件
huggingface-cli upload <username>/cascade-data data/cascades/ --repo-type dataset
```

然后在云电脑上下载：

```bash
huggingface-cli download <username>/cascade-data --local-dir ./data/cascades
```

## ✅ 验证文件

上传到 Hugging Face 后，验证：

```bash
# 检查文件是否存在
ls -lh data/cascades/

# 应该看到：
# information_cascade.json
# information_cascade_original_posts.json
```

## 🚀 使用数据文件

文件准备好后，运行指标计算：

```bash
python compute_cascade_metrics.py \
    --input_cascade data/cascades/information_cascade.json \
    --input_original data/cascades/information_cascade_original_posts.json \
    --output output_with_metrics.json \
    --batch_size 32 \
    --device cuda
```

## 📝 文件来源

原始文件位置：
- `/Users/chenshuyi/Documents/research_projects/评论家罗伯特TPP/data/cascades/`

已复制到：
- `/Users/chenshuyi/Downloads/EasyTemporalPointProcess-main/data/cascades/`

## 🔗 相关文档

- [数据文件说明](data/cascades/README.md)
- [指标计算说明](COMPUTE_METRICS_README.md)
- [上传指南](HF_UPLOAD_GUIDE.md)