EasyTemporalPointProcess-main / HF_UPLOAD_GUIDE.md
Abigail99216's picture
Upload folder using huggingface_hub
f43af3c verified

Hugging Face 上传指南

本指南说明如何将 EasyTemporalPointProcess-main 上传到 Hugging Face。

📋 准备工作

1. 运行清理脚本

cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main
python cleanup_for_hf.py

这会自动:

  • 删除 __pycache__/.pyc 等临时文件
  • 检查大文件
  • 创建上传检查清单

2. 数据文件说明 ⚠️

重要: data/cascades/ 目录包含大文件(约 1.6GB),不会上传到 Hugging Face

这些文件已通过 .gitignore 排除:

  • information_cascade.json (606MB)
  • information_cascade_original_posts.json (980MB)

在云电脑上获取数据文件的方法

  • 方法1: 使用 scp 直接传输(推荐)
  • 方法2: 上传到云存储后下载
  • 方法3: 使用 Git LFS(如果配置)
  • 方法4: 单独上传到 Hugging Face Dataset Hub

详细说明请参考 DATA_FILES_NOTICE.md

3. 手动检查

  • 检查是否有敏感信息(API密钥、密码等)
  • 确认大文件已正确排除(通过 .gitignore)
  • 确保 requirements.txt 是最新的
  • 检查 README.md 是否完整

🚀 上传方法

方法1: 使用 Hugging Face CLI(推荐)

# 1. 安装 Hugging Face CLI
pip install huggingface_hub

# 2. 登录
huggingface-cli login
# 输入你的 Hugging Face token(在 https://huggingface.co/settings/tokens 获取)

# 3. 创建仓库(在网页上创建,或使用 CLI)
# 访问 https://huggingface.co/new 创建新仓库
# 选择 "Dataset" 类型,命名为例如:easytpp-cascade-metrics

# 4. 上传文件
cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main
huggingface-cli upload <your-username>/easytpp-cascade-metrics . --repo-type dataset

方法2: 使用 Git

# 1. 初始化 Git(如果还没有)
cd /Users/chenshuyi/Downloads/EasyTemporalPointProcess-main
git init

# 2. 添加文件
git add .
git commit -m "Add EasyTPP with cascade metrics computation"

# 3. 添加 Hugging Face 远程仓库
# 先在 https://huggingface.co/new 创建仓库
git remote add origin https://huggingface.co/<your-username>/<repo-name>

# 4. 推送
git push origin main

方法3: 使用 Web 界面上传

  1. 访问 https://huggingface.co/new
  2. 创建新的 Dataset 仓库
  3. 点击 "Add file" → "Upload files"
  4. 拖拽或选择文件夹上传

📦 在云电脑上下载

上传完成后,在云电脑上下载:

# 方法1: 使用 Hugging Face CLI
pip install huggingface_hub
huggingface-cli download <your-username>/<repo-name> --local-dir ./EasyTPP

# 方法2: 使用 Git
git clone https://huggingface.co/datasets/<your-username>/<repo-name>
cd <repo-name>

# 方法3: 使用 Python
from huggingface_hub import snapshot_download
snapshot_download(repo_id="<your-username>/<repo-name>", repo_type="dataset", local_dir="./EasyTPP")

📥 下载数据文件

重要: 代码仓库不包含数据文件(已通过 .gitignore 排除)。

数据文件需要单独获取:

# 方法1: 使用 scp 从本地传输(推荐)
mkdir -p data/cascades
scp user@local-machine:/path/to/information_cascade*.json ./data/cascades/

# 方法2: 如果已上传到 Hugging Face Dataset Hub
huggingface-cli download <username>/cascade-data --local-dir ./data/cascades

# 方法3: 从云存储下载
# (根据你使用的云存储服务)

详细说明请参考 DATA_FILES_NOTICE.md

📝 新增功能说明

本仓库在原始 EasyTPP 基础上新增了以下功能:

1. 级联指标计算 (compute_cascade_metrics.py)

用于计算信息级联数据的指标:

  • 情感得分 (Sentiment Score)
  • 情感偏差 (Sentiment Deviation)
  • 语境偏差 (Contextual Deviation)
  • 困惑度 (Perplexity)

详细说明请参考 COMPUTE_METRICS_README.md

2. 相关文件

  • compute_cascade_metrics.py: 主计算脚本
  • COMPUTE_METRICS_README.md: 使用说明
  • requirements_compute_metrics.txt: 额外依赖
  • example_compute_metrics.sh: 示例脚本
  • cleanup_for_hf.py: 清理脚本

⚠️ 注意事项

  1. 大文件处理

    • 如果文件 >50MB,考虑使用 Git LFS
    • 或排除数据文件,使用外部链接
  2. 敏感信息

    • 不要上传包含 API 密钥、密码的文件
    • 检查配置文件中的敏感数据
  3. 许可证

    • 确保所有代码都有适当的许可证
    • 原始 EasyTPP 使用 Apache 2.0 许可证
  4. 版本控制

    • 建议使用 Git 进行版本控制
    • 每次更新后提交并推送

🔍 验证上传

上传后检查:

  • 所有文件都已上传
  • README 显示正确
  • 代码可以正常下载
  • 依赖可以正常安装

📞 问题反馈

如有问题,请检查:

  1. Hugging Face 仓库设置是否正确
  2. 文件大小是否超过限制
  3. 是否有权限问题