File size: 2,297 Bytes
f43af3c |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 |
# Cascade Data Files
本目录包含信息级联数据文件。
## 📁 文件说明
### 主要文件
1. **`information_cascade.json`** (606MB)
- 完整的级联数据,包含原帖、评论、转发等信息
- 用于计算级联指标和训练模型
2. **`information_cascade_original_posts.json`** (980MB)
- 原帖数据
- 包含原始微博帖子信息
## ⚠️ 文件大小说明
这些文件较大(总计约 1.6GB),**不会自动上传到 Git/Hugging Face**。
## 📥 如何获取数据文件
### 方法1: 手动下载
数据文件需要单独下载或传输到云电脑:
```bash
# 在云电脑上创建目录
mkdir -p data/cascades
# 使用 scp 或其他方式传输文件
scp user@local:/path/to/information_cascade.json ./data/cascades/
scp user@local:/path/to/information_cascade_original_posts.json ./data/cascades/
```
### 方法2: 使用 Git LFS(如果配置)
如果使用 Git LFS:
```bash
# 安装 Git LFS
git lfs install
# 跟踪大文件
git lfs track "data/cascades/*.json"
# 添加并提交
git add .gitattributes
git add data/cascades/*.json
git commit -m "Add cascade data files with LFS"
```
### 方法3: 使用外部存储
- 上传到云存储(如 Google Drive, Dropbox)
- 使用 Hugging Face Dataset Hub 的存储系统
- 使用对象存储服务(如 AWS S3, 阿里云 OSS)
## 🚀 使用数据文件
### 运行指标计算
```bash
python compute_cascade_metrics.py \
--input_cascade data/cascades/information_cascade.json \
--input_original data/cascades/information_cascade_original_posts.json \
--output output_with_metrics.json \
--batch_size 32
```
### 数据格式
JSON 文件格式:
```json
{
"cascades": [
{
"post_info": {
"content": "...",
"timestamp": "..."
},
"comment_tree": {...},
"repost_chain": [...]
}
]
}
```
详细格式说明请参考项目文档。
## 📝 注意事项
1. **文件大小**: 这些文件很大,确保有足够的磁盘空间
2. **内存**: 加载完整文件可能需要大量内存
3. **处理**: 建议使用批处理方式处理数据
4. **备份**: 建议保留数据文件的备份
## 🔗 相关文档
- [指标计算说明](../COMPUTE_METRICS_README.md)
- [上传指南](../HF_UPLOAD_GUIDE.md)
|