---
license: apache-2.0
---
# LSNet 艺术家风格分类模型 Model Card

## 模型概述

**模型名称**: 
Kaloscope Artist Style Classification Model  
**模型版本**: v2.0  
**发布日期**: 2025年11月  
**模型类型**: 图像分类 (艺术家风格识别)  
**架构**: LSNet (See Large, Focus Small)  

## 模型描述

本模型基于LSNet架构构建，专门用于识别和分类不同艺术家的绘画风格。LSNet是一个轻量级视觉模型，灵感来源于人类视觉系统的动态异尺度能力，即"看大局，聚焦细节"的特性。

### 架构特点
- **设计理念**: 基于人类视觉系统的"See Large, Focus Small"原理
- **模型系列**: 支持LSNet-T、LSNet-S、LSNet-B三种规模
- **参数量**: 约183M参数
- **优化目标**: 在保持高精度的同时实现高效推理

## 训练数据

### 数据来源
- **数据集**: Danbooru数据集 (截止到2025年9月)
- **数据筛选**: 选取图像数量在40张以上的艺术家
- **总分类数**: 39,260个艺术家类别
- **数据采样策略**: 
  - 所有艺术家图像通过数据增强（镜像旋转）统一扩展至100张
  - 使用 [imgutils](https://github.com/deepghs/imgutils) 进行训练图像去重
  - 训练集艺术家图像配平处理

### 数据预处理
- 图像尺寸: 448×448像素 (从224×224扩展)
- 数据增强: 镜像旋转等增强技术，确保每个艺术家100张训练图像
- 图像去重: 使用 [imgutils](https://github.com/deepghs/imgutils) 库进行训练图像去重
- 验证集划分: 10%的数据用于验证

## 训练配置

### 硬件环境
- **GPU配置**: 8×H20 GPU
- **训练时长**: 400+小时 (H20)
- **批次大小**: 256 (每GPU)

### 训练参数
- **优化器**: AdamW
- **学习率调度**: Cosine Annealing
- **数据并行**: 分布式训练 (8卡)
- **模型参数量**: ~183M
- **输入分辨率**: 448×448 (从224×224扩展)

### 性能指标
- **最终准确率**: 90.13% (Top-1)
- **验证方式**: Top-1准确率
- **评估数据**: 验证集 (10%的数据)
- **训练时长**: 400+小时 (H20 GPU)

## 模型性能

### 分类性能
| 指标 | 数值 |
|------|------|
| Top-1 准确率 | 90.13% |
| 总类别数 | 39,260 |
| 参数量 | ~183M |
| 训练时长 | 400+小时 (H20) |
| 输入分辨率 | 448×448 |

### 推理性能
- **输入格式**: RGB图像，448×448像素
- **输出格式**: 39,260维概率分布
- **推理速度**: 高效推理 (具体数值取决于硬件)

## 使用方法

### 环境要求
```bash
pip install torch torchvision timm
git clone https://github.com/spawner1145/lsnet-test
cd Isnet-test
```

### 基本使用
```python
import torch
from model import Isnet_artist

# 加载模型
model = create_model('Isnet_xl_artist_448', pretrained=True, fearure_dim=2048)
model.eval()

# 推理
with torch.no_grad():
    output = model(input_tensor)
    probabilities = torch.softmax(output,dim=1)
```
### Comfyui内使用
安装comfyui节点：https://github.com/spawner1145/comfyui-lsnet
下载本仓库模型即可使用
### 相关资源
- **论文**: [LSNet: See Large, Focus Small](https://arxiv.org/abs/2503.23135)
- **代码仓库**: (https://github.com/spawner1145/lsnet-test)
- **预训练模型**: 可通过Hugging Face Hub获取

### 引用信息
```bibtex
@misc{wang2025lsnetlargefocussmall,
      title={LSNet: See Large, Focus Small}, 
      author={Ao Wang and Hui Chen and Zijia Lin and Jungong Han and Guiguang Ding},
      year={2025},
      eprint={2503.23135},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.23135}, 
}
```

## 更新日志

### v2.0 (2025年11月)
- **数据集更新**: Danbooru数据集更新至2025年9月
- **图像去重**: 利用 [imgutils](https://github.com/deepghs/imgutils) 进行训练图像去重
- **数据配平**: 训练集艺术家图像配平，通过数据增强（镜像旋转）将所有训练艺术家图像统一扩展成100张
- **分辨率提升**: 训练输入分辨率从224×224扩展至448×448
- **艺术家扩展**: 艺术家筛选下探至Danbooru上有40张以上图像的艺术家，最终艺术家类别39,260个
- **性能提升**: 经过400+小时H20训练，最终模型Top-1准确率达到90.13%
- **模型扩展**: 模型参数量扩展至183M

### v1.1 (2025年10月)
- 150epoch训练
- 达到85.6%的分类准确率

### v1.0 (2025年10月)
- 初始版本发布
- 基于Danbooru数据集训练
- 支持31,770个艺术家类别
- 达到84.2%的分类准确率
---

**免责声明**: 本模型仅供研究和教育用途。在商业应用中使用时，请确保遵守相关法律法规和伦理准则。