File size: 7,787 Bytes
f43af3c |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 |
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
清理脚本:准备上传到 Hugging Face
该脚本会:
1. 清理不必要的文件(__pycache__, .pyc, .pyo等)
2. 检查大文件
3. 创建上传检查清单
"""
import os
import shutil
from pathlib import Path
from typing import List, Tuple
def find_and_remove_patterns(root_dir: str, patterns: List[str]) -> List[str]:
"""
查找并删除匹配模式的文件/文件夹
Args:
root_dir: 根目录
patterns: 文件/文件夹模式列表
Returns:
已删除的文件/文件夹列表
"""
removed = []
root_path = Path(root_dir)
for pattern in patterns:
for item in root_path.rglob(pattern):
if item.exists():
try:
if item.is_file():
item.unlink()
removed.append(str(item))
elif item.is_dir():
shutil.rmtree(item)
removed.append(str(item))
except Exception as e:
print(f"警告: 无法删除 {item}: {e}")
return removed
def find_large_files(root_dir: str, size_mb: int = 50) -> List[Tuple[str, float]]:
"""
查找大文件
Args:
root_dir: 根目录
size_mb: 文件大小阈值(MB)
Returns:
(文件路径, 大小MB) 列表
"""
large_files = []
root_path = Path(root_dir)
size_bytes = size_mb * 1024 * 1024
for item in root_path.rglob('*'):
if item.is_file():
try:
size = item.stat().st_size
if size > size_bytes:
size_mb_actual = size / (1024 * 1024)
large_files.append((str(item), size_mb_actual))
except Exception as e:
print(f"警告: 无法检查 {item}: {e}")
return large_files
def check_gitignore(root_dir: str) -> bool:
"""
检查是否存在 .gitignore 文件
Args:
root_dir: 根目录
Returns:
是否存在 .gitignore
"""
gitignore_path = Path(root_dir) / '.gitignore'
return gitignore_path.exists()
def create_upload_checklist(root_dir: str) -> str:
"""
创建上传检查清单
Args:
root_dir: 根目录
Returns:
检查清单内容
"""
checklist = """# Hugging Face 上传检查清单
## ✅ 清理完成
### 已删除的文件类型
- `__pycache__/` 文件夹
- `*.pyc`, `*.pyo`, `*.pyd` 文件
- `.DS_Store` 文件(macOS)
- `.vscode/`, `.idea/` 文件夹
- `*.swp`, `*.swo` 文件
### 需要手动检查的项目
1. **大文件检查**
- 检查是否有超过50MB的文件
- 考虑使用 Git LFS 或排除这些文件
2. **敏感信息检查**
- 检查是否有API密钥、密码等敏感信息
- 检查配置文件中的敏感数据
3. **数据文件**
- 检查 `examples/data/` 目录
- 如果数据文件很大,考虑排除或使用外部链接
4. **模型文件**
- 检查是否有预训练模型文件
- 大模型文件应使用 Git LFS 或 Hugging Face Model Hub
5. **日志文件**
- 确保没有日志文件被包含
- 检查 `log/`, `logs/` 目录
## 📦 上传到 Hugging Face
### 方法1: 使用 Hugging Face CLI
```bash
# 安装 Hugging Face CLI
pip install huggingface_hub
# 登录
huggingface-cli login
# 创建仓库(如果还没有)
# 在 https://huggingface.co/new 创建新仓库
# 上传文件
cd /path/to/EasyTemporalPointProcess-main
huggingface-cli upload <your-username>/<repo-name> . --repo-type dataset
```
### 方法2: 使用 Git
```bash
# 初始化 Git 仓库(如果还没有)
git init
git add .
git commit -m "Initial commit"
# 添加 Hugging Face 远程仓库
git remote add origin https://huggingface.co/<your-username>/<repo-name>
# 推送
git push origin main
```
### 方法3: 使用 Web 界面
1. 访问 https://huggingface.co/new
2. 创建新的 Dataset 或 Space
3. 使用 Web 界面上传文件
## 📝 文件结构说明
```
EasyTemporalPointProcess-main/
├── easy_tpp/ # 核心库代码
├── examples/ # 示例代码
├── notebooks/ # Jupyter notebooks
├── tests/ # 测试代码
├── docs/ # 文档
├── compute_cascade_metrics.py # 新增:级联指标计算脚本
├── COMPUTE_METRICS_README.md # 新增:指标计算说明
├── requirements.txt # 基础依赖
├── requirements_compute_metrics.txt # 新增:指标计算依赖
├── setup.py # 安装脚本
└── README.md # 项目说明
```
## ⚠️ 注意事项
1. **不要上传大文件到 Git 仓库**
- 使用 Git LFS 或 Hugging Face 的存储系统
- 考虑使用外部链接引用大文件
2. **检查许可证**
- 确保所有代码都有适当的许可证
- 检查第三方依赖的许可证兼容性
3. **README 文件**
- 确保 README.md 清晰说明项目用途
- 包含安装和使用说明
4. **依赖管理**
- 确保 requirements.txt 是最新的
- 考虑使用 `pip freeze` 生成精确版本
## 🔍 验证上传
上传后,检查:
- [ ] 所有文件都已上传
- [ ] 文件大小合理
- [ ] 没有敏感信息泄露
- [ ] README 显示正确
- [ ] 代码可以正常下载和使用
"""
return checklist
def main():
"""主函数"""
root_dir = os.path.dirname(os.path.abspath(__file__))
print("=" * 60)
print("清理脚本:准备上传到 Hugging Face")
print("=" * 60)
# 要删除的模式
patterns_to_remove = [
'__pycache__',
'*.pyc',
'*.pyo',
'*.pyd',
'.DS_Store',
'.vscode',
'.idea',
'*.swp',
'*.swo',
'*.log',
'.pytest_cache',
'.mypy_cache',
'.ruff_cache',
]
print("\n1. 清理不必要的文件...")
removed = find_and_remove_patterns(root_dir, patterns_to_remove)
if removed:
print(f" 已删除 {len(removed)} 个文件/文件夹")
for item in removed[:10]: # 只显示前10个
print(f" - {item}")
if len(removed) > 10:
print(f" ... 还有 {len(removed) - 10} 个文件/文件夹")
else:
print(" 没有找到需要删除的文件")
# 检查大文件
print("\n2. 检查大文件(>50MB)...")
large_files = find_large_files(root_dir, size_mb=50)
if large_files:
print(f" 找到 {len(large_files)} 个大文件:")
for file_path, size_mb in large_files:
print(f" - {file_path} ({size_mb:.2f} MB)")
print("\n ⚠️ 建议:大文件应使用 Git LFS 或排除在上传之外")
else:
print(" ✅ 没有找到大文件")
# 检查 .gitignore
print("\n3. 检查 .gitignore...")
if check_gitignore(root_dir):
print(" ✅ .gitignore 文件存在")
else:
print(" ⚠️ 警告: .gitignore 文件不存在")
# 创建检查清单
print("\n4. 创建上传检查清单...")
checklist_content = create_upload_checklist(root_dir)
checklist_path = Path(root_dir) / 'UPLOAD_CHECKLIST.md'
with open(checklist_path, 'w', encoding='utf-8') as f:
f.write(checklist_content)
print(f" ✅ 已创建: {checklist_path}")
print("\n" + "=" * 60)
print("清理完成!")
print("=" * 60)
print("\n下一步:")
print("1. 查看 UPLOAD_CHECKLIST.md 了解上传步骤")
print("2. 检查是否有敏感信息需要移除")
print("3. 按照检查清单上传到 Hugging Face")
if __name__ == '__main__':
main()
|