--- license: apache-2.0 --- # LSNet 艺术家风格分类模型 Model Card ## 模型概述 **模型名称**: Kaloscope Artist Style Classification Model **模型版本**: v2.0 **发布日期**: 2025年11月 **模型类型**: 图像分类 (艺术家风格识别) **架构**: LSNet (See Large, Focus Small) ## 模型描述 本模型基于LSNet架构构建,专门用于识别和分类不同艺术家的绘画风格。LSNet是一个轻量级视觉模型,灵感来源于人类视觉系统的动态异尺度能力,即"看大局,聚焦细节"的特性。 ### 架构特点 - **设计理念**: 基于人类视觉系统的"See Large, Focus Small"原理 - **模型系列**: 支持LSNet-T、LSNet-S、LSNet-B三种规模 - **参数量**: 约183M参数 - **优化目标**: 在保持高精度的同时实现高效推理 ## 训练数据 ### 数据来源 - **数据集**: Danbooru数据集 (截止到2025年9月) - **数据筛选**: 选取图像数量在40张以上的艺术家 - **总分类数**: 39,260个艺术家类别 - **数据采样策略**: - 所有艺术家图像通过数据增强(镜像旋转)统一扩展至100张 - 使用 [imgutils](https://github.com/deepghs/imgutils) 进行训练图像去重 - 训练集艺术家图像配平处理 ### 数据预处理 - 图像尺寸: 448×448像素 (从224×224扩展) - 数据增强: 镜像旋转等增强技术,确保每个艺术家100张训练图像 - 图像去重: 使用 [imgutils](https://github.com/deepghs/imgutils) 库进行训练图像去重 - 验证集划分: 10%的数据用于验证 ## 训练配置 ### 硬件环境 - **GPU配置**: 8×H20 GPU - **训练时长**: 400+小时 (H20) - **批次大小**: 256 (每GPU) ### 训练参数 - **优化器**: AdamW - **学习率调度**: Cosine Annealing - **数据并行**: 分布式训练 (8卡) - **模型参数量**: ~183M - **输入分辨率**: 448×448 (从224×224扩展) ### 性能指标 - **最终准确率**: 90.13% (Top-1) - **验证方式**: Top-1准确率 - **评估数据**: 验证集 (10%的数据) - **训练时长**: 400+小时 (H20 GPU) ## 模型性能 ### 分类性能 | 指标 | 数值 | |------|------| | Top-1 准确率 | 90.13% | | 总类别数 | 39,260 | | 参数量 | ~183M | | 训练时长 | 400+小时 (H20) | | 输入分辨率 | 448×448 | ### 推理性能 - **输入格式**: RGB图像,448×448像素 - **输出格式**: 39,260维概率分布 - **推理速度**: 高效推理 (具体数值取决于硬件) ## 使用方法 ### 环境要求 ```bash pip install torch torchvision timm git clone https://github.com/spawner1145/lsnet-test cd Isnet-test ``` ### 基本使用 ```python import torch from model import Isnet_artist # 加载模型 model = create_model('Isnet_xl_artist_448', pretrained=True, fearure_dim=2048) model.eval() # 推理 with torch.no_grad(): output = model(input_tensor) probabilities = torch.softmax(output,dim=1) ``` ### Comfyui内使用 安装comfyui节点:https://github.com/spawner1145/comfyui-lsnet 下载本仓库模型即可使用 ### 相关资源 - **论文**: [LSNet: See Large, Focus Small](https://arxiv.org/abs/2503.23135) - **代码仓库**: (https://github.com/spawner1145/lsnet-test) - **预训练模型**: 可通过Hugging Face Hub获取 ### 引用信息 ```bibtex @misc{wang2025lsnetlargefocussmall, title={LSNet: See Large, Focus Small}, author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding}, year={2025}, eprint={2503.23135}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.23135}, } ``` ## 更新日志 ### v2.0 (2025年11月) - **数据集更新**: Danbooru数据集更新至2025年9月 - **图像去重**: 利用 [imgutils](https://github.com/deepghs/imgutils) 进行训练图像去重 - **数据配平**: 训练集艺术家图像配平,通过数据增强(镜像旋转)将所有训练艺术家图像统一扩展成100张 - **分辨率提升**: 训练输入分辨率从224×224扩展至448×448 - **艺术家扩展**: 艺术家筛选下探至Danbooru上有40张以上图像的艺术家,最终艺术家类别39,260个 - **性能提升**: 经过400+小时H20训练,最终模型Top-1准确率达到90.13% - **模型扩展**: 模型参数量扩展至183M ### v1.1 (2025年10月) - 150epoch训练 - 达到85.6%的分类准确率 ### v1.0 (2025年10月) - 初始版本发布 - 基于Danbooru数据集训练 - 支持31,770个艺术家类别 - 达到84.2%的分类准确率 --- **免责声明**: 本模型仅供研究和教育用途。在商业应用中使用时,请确保遵守相关法律法规和伦理准则。