Hugging Face 上传指南
本指南说明如何将 EasyTemporalPointProcess-main 上传到 Hugging Face。
📋 准备工作
1. 运行清理脚本
cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main
python cleanup_for_hf.py
这会自动:
- 删除
__pycache__/、.pyc等临时文件 - 检查大文件
- 创建上传检查清单
2. 数据文件说明 ⚠️
重要: data/cascades/ 目录包含大文件(约 1.6GB),不会上传到 Hugging Face。
这些文件已通过 .gitignore 排除:
information_cascade.json(606MB)information_cascade_original_posts.json(980MB)
在云电脑上获取数据文件的方法:
- 方法1: 使用 scp 直接传输(推荐)
- 方法2: 上传到云存储后下载
- 方法3: 使用 Git LFS(如果配置)
- 方法4: 单独上传到 Hugging Face Dataset Hub
详细说明请参考 DATA_FILES_NOTICE.md
3. 手动检查
- 检查是否有敏感信息(API密钥、密码等)
- 确认大文件已正确排除(通过 .gitignore)
- 确保
requirements.txt是最新的 - 检查 README.md 是否完整
🚀 上传方法
方法1: 使用 Hugging Face CLI(推荐)
# 1. 安装 Hugging Face CLI
pip install huggingface_hub
# 2. 登录
huggingface-cli login
# 输入你的 Hugging Face token(在 https://huggingface.co/settings/tokens 获取)
# 3. 创建仓库(在网页上创建,或使用 CLI)
# 访问 https://huggingface.co/new 创建新仓库
# 选择 "Dataset" 类型,命名为例如:easytpp-cascade-metrics
# 4. 上传文件
cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main
huggingface-cli upload <your-username>/easytpp-cascade-metrics . --repo-type dataset
方法2: 使用 Git
# 1. 初始化 Git(如果还没有)
cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main
git init
# 2. 添加文件
git add .
git commit -m "Add EasyTPP with cascade metrics computation"
# 3. 添加 Hugging Face 远程仓库
# 先在 https://huggingface.co/new 创建仓库
git remote add origin https://huggingface.co/<your-username>/<repo-name>
# 4. 推送
git push origin main
方法3: 使用 Web 界面上传
- 访问 https://huggingface.co/new
- 创建新的 Dataset 仓库
- 点击 "Add file" → "Upload files"
- 拖拽或选择文件夹上传
📦 在云电脑上下载
上传完成后,在云电脑上下载:
# 方法1: 使用 Hugging Face CLI
pip install huggingface_hub
huggingface-cli download <your-username>/<repo-name> --local-dir ./EasyTPP
# 方法2: 使用 Git
git clone https://huggingface.co/datasets/<your-username>/<repo-name>
cd <repo-name>
# 方法3: 使用 Python
from huggingface_hub import snapshot_download
snapshot_download(repo_id="<your-username>/<repo-name>", repo_type="dataset", local_dir="./EasyTPP")
📥 下载数据文件
重要: 代码仓库不包含数据文件(已通过 .gitignore 排除)。
数据文件需要单独获取:
# 方法1: 使用 scp 从本地传输(推荐)
mkdir -p data/cascades
scp user@local-machine:/path/to/information_cascade*.json ./data/cascades/
# 方法2: 如果已上传到 Hugging Face Dataset Hub
huggingface-cli download <username>/cascade-data --local-dir ./data/cascades
# 方法3: 从云存储下载
# (根据你使用的云存储服务)
详细说明请参考 DATA_FILES_NOTICE.md
📝 新增功能说明
本仓库在原始 EasyTPP 基础上新增了以下功能:
1. 级联指标计算 (compute_cascade_metrics.py)
用于计算信息级联数据的指标:
- 情感得分 (Sentiment Score)
- 情感偏差 (Sentiment Deviation)
- 语境偏差 (Contextual Deviation)
- 困惑度 (Perplexity)
详细说明请参考 COMPUTE_METRICS_README.md
2. 相关文件
compute_cascade_metrics.py: 主计算脚本COMPUTE_METRICS_README.md: 使用说明requirements_compute_metrics.txt: 额外依赖example_compute_metrics.sh: 示例脚本cleanup_for_hf.py: 清理脚本
⚠️ 注意事项
大文件处理
- 如果文件 >50MB,考虑使用 Git LFS
- 或排除数据文件,使用外部链接
敏感信息
- 不要上传包含 API 密钥、密码的文件
- 检查配置文件中的敏感数据
许可证
- 确保所有代码都有适当的许可证
- 原始 EasyTPP 使用 Apache 2.0 许可证
版本控制
- 建议使用 Git 进行版本控制
- 每次更新后提交并推送
🔍 验证上传
上传后检查:
- 所有文件都已上传
- README 显示正确
- 代码可以正常下载
- 依赖可以正常安装
📞 问题反馈
如有问题,请检查:
- Hugging Face 仓库设置是否正确
- 文件大小是否超过限制
- 是否有权限问题