数据清洗工具
这个目录包含用于清洗和处理civitai数据集的工具脚本。
clean_civitai_data.py
功能
清洗civitai_image.csv文件,去除prompt和neg prompt都为空的行。
特性
- 自动检测并处理空字符串和NaN值
- 提供详细的清洗统计信息
- 自动创建原始文件备份
- 支持指定输出文件路径
- 包含错误处理和详细日志
使用方法
1. 默认清洗(推荐)
python clean_civitai_data.py
这将清洗默认的civitai_image.csv文件,原文件会被替换,同时创建.backup备份文件。
2. 指定输入文件
python clean_civitai_data.py /path/to/your/civitai_image.csv
3. 指定输入和输出文件
python clean_civitai_data.py input.csv output_cleaned.csv
输出示例
============================================================
Civitai数据清洗工具
============================================================
正在读取文件: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv
原始数据行数: 40953
原始数据列数: 6
列名: ['web-scraper-order', 'web-scraper-start-url', 'link', 'link-href', 'prompt', 'neg prompt']
清洗前统计:
- prompt为空的行数: 35000
- neg prompt为空的行数: 38000
- prompt和neg prompt都为空的行数: 30000
清洗后统计:
- 保留的行数: 10953
- 删除的行数: 30000
- 数据保留率: 26.75%
原始文件已备份到: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv.backup
清洗后的数据已保存到: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv
✅ 数据清洗完成!
依赖项
- pandas
安装依赖
pip install pandas
deduplicate_by_link.py
功能
按link-href去重,优先保留prompt内容以"Show less"结尾的行。
特性
- 智能去重:相同link-href的记录只保留一条
- 优先级规则:优先保留prompt以"Show less"结尾的行
- 详细统计信息:显示去重前后的数据对比
- 示例展示:显示具体的去重处理例子
- 自动创建备份文件
去重规则
- 按
link-href列进行分组 - 对于相同的
link-href,优先保留prompt以"Show less"结尾的行 - 如果都有或都没有"Show less",则保留第一行出现的记录
使用方法
1. 默认去重(推荐)
python deduplicate_by_link.py
这将对默认的civitai_image.csv文件进行去重,原文件会被替换,同时创建.backup备份文件。
2. 指定输入文件
python deduplicate_by_link.py /path/to/your/civitai_image.csv
3. 指定输入和输出文件
python deduplicate_by_link.py input.csv output_deduplicated.csv
输出示例
============================================================
Civitai数据去重工具 - 按link-href去重
============================================================
正在读取文件: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv
原始数据行数: 10953
原始数据列数: 6
列名: ['web-scraper-order', 'web-scraper-start-url', 'link', 'link-href', 'prompt', 'neg prompt']
去重前统计:
- 总行数: 10953
- 唯一link-href数量: 5476
- 重复行数: 5477
去重后统计:
- 保留的行数: 5476
- 删除的行数: 5477
- 数据保留率: 50.00%
- 唯一link-href数量: 5476
- 其中以'Show less'结尾的行数: 4523
去重处理示例:
示例 1: https://civitai.com/images/81915044
原始行数: 2
保留行的prompt结尾: Show less
✅ 数据去重完成!
依赖项
- pandas