qwenillustrious / data_tool /clean_civitai_data /README_deduplicate.md
lsmpp's picture
Add files using upload-large-folder tool
3f9fa87 verified

数据清洗工具

这个目录包含用于清洗和处理civitai数据集的工具脚本。

clean_civitai_data.py

功能

清洗civitai_image.csv文件,去除prompt和neg prompt都为空的行。

特性

  • 自动检测并处理空字符串和NaN值
  • 提供详细的清洗统计信息
  • 自动创建原始文件备份
  • 支持指定输出文件路径
  • 包含错误处理和详细日志

使用方法

1. 默认清洗(推荐)

python clean_civitai_data.py

这将清洗默认的civitai_image.csv文件,原文件会被替换,同时创建.backup备份文件。

2. 指定输入文件

python clean_civitai_data.py /path/to/your/civitai_image.csv

3. 指定输入和输出文件

python clean_civitai_data.py input.csv output_cleaned.csv

输出示例

============================================================
Civitai数据清洗工具
============================================================
正在读取文件: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv
原始数据行数: 40953
原始数据列数: 6
列名: ['web-scraper-order', 'web-scraper-start-url', 'link', 'link-href', 'prompt', 'neg prompt']

清洗前统计:
- prompt为空的行数: 35000
- neg prompt为空的行数: 38000
- prompt和neg prompt都为空的行数: 30000

清洗后统计:
- 保留的行数: 10953
- 删除的行数: 30000
- 数据保留率: 26.75%

原始文件已备份到: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv.backup
清洗后的数据已保存到: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv

✅ 数据清洗完成!

依赖项

  • pandas

安装依赖

pip install pandas

deduplicate_by_link.py

功能

按link-href去重,优先保留prompt内容以"Show less"结尾的行。

特性

  • 智能去重:相同link-href的记录只保留一条
  • 优先级规则:优先保留prompt以"Show less"结尾的行
  • 详细统计信息:显示去重前后的数据对比
  • 示例展示:显示具体的去重处理例子
  • 自动创建备份文件

去重规则

  1. link-href列进行分组
  2. 对于相同的link-href,优先保留prompt以"Show less"结尾的行
  3. 如果都有或都没有"Show less",则保留第一行出现的记录

使用方法

1. 默认去重(推荐)

python deduplicate_by_link.py

这将对默认的civitai_image.csv文件进行去重,原文件会被替换,同时创建.backup备份文件。

2. 指定输入文件

python deduplicate_by_link.py /path/to/your/civitai_image.csv

3. 指定输入和输出文件

python deduplicate_by_link.py input.csv output_deduplicated.csv

输出示例

============================================================
Civitai数据去重工具 - 按link-href去重
============================================================
正在读取文件: /home/ubuntu/lyl/QwenIllustrious/civitai_image.csv
原始数据行数: 10953
原始数据列数: 6
列名: ['web-scraper-order', 'web-scraper-start-url', 'link', 'link-href', 'prompt', 'neg prompt']

去重前统计:
- 总行数: 10953
- 唯一link-href数量: 5476
- 重复行数: 5477

去重后统计:
- 保留的行数: 5476
- 删除的行数: 5477
- 数据保留率: 50.00%
- 唯一link-href数量: 5476
- 其中以'Show less'结尾的行数: 4523

去重处理示例:
示例 1: https://civitai.com/images/81915044
  原始行数: 2
  保留行的prompt结尾: Show less

✅ 数据去重完成!

依赖项

  • pandas