LSNet 艺术家风格分类模型 Model Card

模型概述

模型名称: Kaloscope Artist Style Classification Model
模型版本: v2.0
发布日期: 2025年11月
模型类型: 图像分类 (艺术家风格识别)
架构: LSNet (See Large, Focus Small)

模型描述

本模型基于LSNet架构构建,专门用于识别和分类不同艺术家的绘画风格。LSNet是一个轻量级视觉模型,灵感来源于人类视觉系统的动态异尺度能力,即"看大局,聚焦细节"的特性。

架构特点

  • 设计理念: 基于人类视觉系统的"See Large, Focus Small"原理
  • 模型系列: 支持LSNet-T、LSNet-S、LSNet-B三种规模
  • 参数量: 约183M参数
  • 优化目标: 在保持高精度的同时实现高效推理

训练数据

数据来源

  • 数据集: Danbooru数据集 (截止到2025年9月)
  • 数据筛选: 选取图像数量在40张以上的艺术家
  • 总分类数: 39,260个艺术家类别
  • 数据采样策略:
    • 所有艺术家图像通过数据增强(镜像旋转)统一扩展至100张
    • 使用 imgutils 进行训练图像去重
    • 训练集艺术家图像配平处理

数据预处理

  • 图像尺寸: 448×448像素 (从224×224扩展)
  • 数据增强: 镜像旋转等增强技术,确保每个艺术家100张训练图像
  • 图像去重: 使用 imgutils 库进行训练图像去重
  • 验证集划分: 10%的数据用于验证

训练配置

硬件环境

  • GPU配置: 8×H20 GPU
  • 训练时长: 400+小时 (H20)
  • 批次大小: 256 (每GPU)

训练参数

  • 优化器: AdamW
  • 学习率调度: Cosine Annealing
  • 数据并行: 分布式训练 (8卡)
  • 模型参数量: ~183M
  • 输入分辨率: 448×448 (从224×224扩展)

性能指标

  • 最终准确率: 90.13% (Top-1)
  • 验证方式: Top-1准确率
  • 评估数据: 验证集 (10%的数据)
  • 训练时长: 400+小时 (H20 GPU)

模型性能

分类性能

指标 数值
Top-1 准确率 90.13%
总类别数 39,260
参数量 ~183M
训练时长 400+小时 (H20)
输入分辨率 448×448

推理性能

  • 输入格式: RGB图像,448×448像素
  • 输出格式: 39,260维概率分布
  • 推理速度: 高效推理 (具体数值取决于硬件)

使用方法

环境要求

pip install torch torchvision timm
git clone https://github.com/spawner1145/lsnet-test
cd Isnet-test

基本使用

import torch
from model import Isnet_artist

# 加载模型
model = create_model('Isnet_xl_artist_448', pretrained=True, fearure_dim=2048)
model.eval()

# 推理
with torch.no_grad():
    output = model(input_tensor)
    probabilities = torch.softmax(output,dim=1)

Comfyui内使用

安装comfyui节点:https://github.com/spawner1145/comfyui-lsnet 下载本仓库模型即可使用

相关资源

引用信息

@misc{wang2025lsnetlargefocussmall,
      title={LSNet: See Large, Focus Small}, 
      author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
      year={2025},
      eprint={2503.23135},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.23135}, 
}

更新日志

v2.0 (2025年11月)

  • 数据集更新: Danbooru数据集更新至2025年9月
  • 图像去重: 利用 imgutils 进行训练图像去重
  • 数据配平: 训练集艺术家图像配平,通过数据增强(镜像旋转)将所有训练艺术家图像统一扩展成100张
  • 分辨率提升: 训练输入分辨率从224×224扩展至448×448
  • 艺术家扩展: 艺术家筛选下探至Danbooru上有40张以上图像的艺术家,最终艺术家类别39,260个
  • 性能提升: 经过400+小时H20训练,最终模型Top-1准确率达到90.13%
  • 模型扩展: 模型参数量扩展至183M

v1.1 (2025年10月)

  • 150epoch训练
  • 达到85.6%的分类准确率

v1.0 (2025年10月)

  • 初始版本发布
  • 基于Danbooru数据集训练
  • 支持31,770个艺术家类别
  • 达到84.2%的分类准确率

免责声明: 本模型仅供研究和教育用途。在商业应用中使用时,请确保遵守相关法律法规和伦理准则。

Downloads last month
131
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Space using heathcliff01/Kaloscope2.0 1