各种所谓的一键包。面向大模型修改代码
打包前使用 Everything 搜索整个目录中的 __pycache__目录,全选并删除了。首次运行会慢一点点。
如带有多个模型,第一个模型为默认模型;使用记录为默认参数下的记录,仅作参考。
使用 7z 打包:7z a -mx=1 -myx -ms=on -mmt=on -mtm=off -mtc=off -mta=off -mtr=off -mmc=1000000000 XX.7z XX
模型训练前期用 RMBG 删除图片背景,Upscale 用于放大图片;
Flux 反推生图或打标用 QwenVL 或 JoyCaption ;SDXL 衍生模型用 WD14 打 tag 标签。
当前基础环境:LTSC2021_19044.6093,5700X,DDR4_3600MHz_CL18_64G,RTX2080Ti_22G(仅独显并连接显示器)。
20250729:
QwenVL-Caption-CLI
文件:QwenVL-Caption-CLI_20250729-135534_a2477acf.7z
更新:仅加入系统提示词,人物图输出文本更长。
记录:使用 Flux 生成的人物图大概四十张,最长边 1280 ,显存在 20.75GB 附近。多数图三四十秒左右,偶尔有七八十秒的。。。
20250726:
本次环境:使用 20250722 打包版本。笔记本 GTX1650Ti_4GB 非独显直连,i7-10750H,DDR4_2933MHz_CL22_32G,LTSC2021_19044.6093 。独显驱动:577.00-notebook 。
Upscale-CLI
记录:使用
RealESRGAN_x4plus_anime_6B放大,显存满,使用共享显存大概 0.8GB ,九个分块大概五十五秒。RMBG-2.0-CLI
记录:显存满,使用共享显存 0.6GB 左右,每张图十二三秒。
WD14-CLI
记录:显存占用 2.5GB ,大概两秒一张图。(与 20250724 更新的包表现一致)
20250724:
Upscale-CLI
文件:Upscale-CLI_20250724-112404_cd022c32.7z
更新:使用 py3.10.18, torch2.7.1+cu118 打包。
RMBG-2.0-CLI
文件:RMBG-2.0-CLI_20250724-112219_893af676.7z
更新:使用 py3.10.18, torch2.7.1+cu118 打包。
WD14-CLI
文件:WD14-CLI_20250724-013518_e3ba3b0a.7z
更新:更新环境为 onnxruntime-gpu=1.21.1 + cudnn=9.11.0 + cuda=12.9.1_576.57 。
20250722:
RMBG-2.0-CLI
文件:RMBG-2.0-CLI_20250722-000353_99b57fb5.7z
来源:https://huggingface.co/briaai/RMBG-2.0
改动:
修改了一点点内容。环境:py3.13.5, torch2.7.1+cu128 。带有模型。
运行:图片丢 input 目录中,运行 rmbg-2.0-cli.bat 。
记录:每张图片处理时间大概零点五六秒,显存在五点五千兆字节(GB)附近。
Upscale-CLI
文件:Upscale-CLI_20250722-002901_04b39be3.7z
来源:ComfyUI 的【使用模型放大】节点。
改动:拆分出独立脚本,不依赖 ComfyUI 环境。
环境:py3.13.5, torch2.7.1+cu128 。带有
RealESRGAN_x4plus_anime_6B4x_Nomos8kSCHAT-L4x-AnimeSharp-lite4xFFHQDAT4x_foolhardy_Remacri模型。使用:图片丢 input 目录中,运行 upscale-cli.bat ,放大后的图片输出到 output 。
记录:使用
RealESRGAN_x4plus_anime_6B放大动漫图片大概 5GB 显存;4x_Nomos8kSCHAT-L放大现实照片大概 14GB ,一个分块需要十秒左右( 960x1280 的图片放大需要处理 9 个分块)。其他:更多模型可以在 OpenModelDB 网站下载。
WD14-CLI
文件:WD14-CLI_20250722-001631_d1df9402.7z
来源:https://github.com/Ketengan-Diffusion/wdv3-batch-vit-tagger
改动:
修改了一点点内容。环境:py3.13.5, onnxruntime-gpu=1.21.1 + cudnn=9.8.0 + cuda=12.8.1_572.61 。带有
wd-eva02-large-tagger-v3wd-vit-tagger-v3模型。使用:图片丢 input 目录中,运行 wd14-cli.bat 。支持处理子目录。
记录:显存 3.5GB 左右,每张图片处理时间大概零点几几秒,显卡有其他负载时也有两三秒一张。
其他:更多模型可以在大佬首页下载。
JoyCaption-Pre-Alpha-CLI
文件:JoyCaption-Pre-Alpha-CLI_20250722-010609_01ff260b.7z
来源:https://huggingface.co/Wi-zz/joy-caption-pre-alpha
改动:
修改了一点点内容。环境:py3.12.11, torch2.7.1+cu128 。带有
Meta-Llama-3.1-8B和Meta-Llama-3.1-8B-bnb-4bit模型。运行:图片丢 input 目录中,运行 joycaption-pre-alpha-cli.bat 。
记录:显存占用接近 19GB ,每张图片处理时间大概十二三秒。
JoyCaption-Beta-One-Llava-CLI
文件:JoyCaption-Beta-One-Llava-CLI_20250722-011450_9ab4c038.7z
来源:https://huggingface.co/fancyfeast/llama-joycaption-beta-one-hf-llava
改动:
修改了一点点内容。环境:py3.12.11, torch2.7.1+cu128 。带有模型。
运行:图片丢 input 目录中,运行 joycaption-beta-one-llava-cli.bat 。
记录:显存占用接近 18GB ,每张图片处理时间大概十二三秒。
QwenVL-Caption-CLI
文件:QwenVL-Caption-CLI_20250722-013145_540d93ce.7z
来源:https://huggingface.co/Ertugrul/Qwen2.5-VL-7B-Captioner-Relaxed
改动:
修改了一点点内容。环境:py3.12.11, torch2.7.1+cu128 。带有模型。
运行:图片丢 input 目录中,运行 qwenvl-caption-cli.bat 。
记录:每张图片处理时间大概十六十七秒,七八来张图往上中途显存不够且使用共享显存时每张图大概一分钟左右。
其他:或者试试这个模型 Qwen2.5-VL-7B-NSFW-Caption-V3 。
Edge-TTS-WebUI
文件:Edge-TTS-WebUI_20250722-014726_dd8e02df.7z
来源:https://github.com/ycyy/edge-tts-webui
改动:修改了一点点界面内容。
环境:py3.13.5 。
运行:运行 edge-tts-webui.bat 后在浏览器端操作。(联网使用)
Index-TTS-WebUI
文件:Index-TTS-WebUI_20250722-014639_d6cf6493.7z
来源:https://github.com/index-tts/index-tts
改动:修改了一点点界面内容(不支持高级生成参数)。
环境:py3.11.13, torch2.7.1+cu128 。带有 1.5 模型。
运行:运行 index-tts-webui.bat 后在浏览器端操作。
使用 conda 配置运行环境后打包为一键包:
conda create -n env python=3.13conda activate envpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128pip install -r requirements.txtpython xxx.py...运行正常...- 复制
env到脚本所在目录 - 写个批处理...配置环境...执行脚本...
- 删除所有
__pycache__目录或各种多余的文件 - 打包。
第一第三步完成后可以先分别打包环境,后续使用时直接复制过去。