这是一个基于 Qwen/Qwen3-0.6B-Base 进行指令微调的语言模型,专注于处理和生成与 动漫 图像标签体系相关的自然语言和标签数据。
模型详情
- 基础模型:
Qwen/Qwen3-0.6B-Base - 微调方法: 指令微调 (Instruction SFT)
- 微调框架: LLaMA-Factory
- 训练数据:
- 数据来源:来自约1100万真实图像的tag和vlm的caption,每张图像提供5条不同方式的caption描述和一个tag组合。
- 训练进度: 累计训练 438.47 亿 Token。
- 硬件配置: 约 2500 gpu hours with NVIDIA GeForce RTX 4090
- 上下文长度: 768。此长度覆盖了 99.5% 的训练样本。为保证输入 XML 结构的完整性,超长的样本在训练中被舍弃。
与 Neta-Lumina 的协同设计
本模型是一个专为 Neta-Lumina模型 设计的文本处理引擎。
由于此语言模型与 Neta-Lumina 图像模型使用了高度类似的高质量自然语言-标签数据集进行训练,二者在数据理解上具有天然的一致性。这意味着:
- 高度适配的理解能力: 本模型生成的标签 (Tags) 和自然语言描述 (Captions) 在风格、结构和细节上,与 Neta-Lumina 的“偏好”高度契合。
- 释放 T2I 模型潜力: 使用本模型生成的精准提示词,可以更有效地引导 Neta-Lumina 创作出符合预期的、高质量的图像作品。
⚠️ 适配 Sakiko Lumina 的特别说明
注意,本模型直接输出的 Tag 格式与 Sakiko Lumina 的输入要求略有不同。
由于 gemma-2-2b 和 qwen 的分词器存在略有不同的轻微调整,为了确保 Tag 能被正确识别并获得最佳生成效果,请在将文本送入绘图模型前执行以下字符串替换操作:
- 将下划线替换为空格。
- 修正字段名称(将
copyrights调整为copyright)。 - 注入默认 Meta 标签。
建议使用的后处理代码如下:
# 假设 text 为本模型生成的原始 XML 字符串
processed_text = text.replace("_", " ") \
.replace("</tags>", "<meta>masterpiece, newest, highres</meta></tags>") \
.replace("copyrights>", "copyright>")
用于其他模型 (如 noobai-XL)
对于依赖标签的模型,本模型可以高效生成、补全和优化标签集。
- 使用方式:
- 调用
<NLTOTAG>,<TAGTOTAG>或<TAGDETAIL>指令。 - 编写一个简单的脚本,提取输出结果
XML中<tag>标签下的各类标签文本。 - 将提取的标签用 ", " 连接起来,形成适用于目标模型的提示词。
- 调用
用途、局限性与风险
主要用途
- 自动生成标签: 为动漫风格的图像描述生成 Danbooru 风格的标签。
- 生成图像描述: 基于标签或自然语言,生成或丰富图像描述。
- 文生图提示词工程: 将生成的标签作为提示词,输入到文生图模型中。
局限性与风险
重要提示:模型定位与使用责任
模型定位:纯粹的辅助工具
- 本模型的设计目标是作为一个纯粹的辅助工具,其核心功能是根据用户提供的特定指令和输入内容,进行忠实的文本转换与生成。
- 模型不会审查、评估、修改或引导用户的原始意图。它会如实处理输入数据,无论其内容如何。例如,模型不具备将 NSFW(Not Safe For Work)输入“修正”为 SFW(Safe For Work)输出的功能。其任务是忠实地扩展和重构输入,而非过滤或改变其性质。
使用责任与安全建议
- 用户责任: 使用者对输入内容负有全部责任。您必须确保您的输入符合相关法律法规和平台政策。
- 内容安全风险: 由于训练数据源自未经筛选的互联网内容,模型可能会生成包含 NSFW、冒犯性或不当信息的输出。碍于技术限制本模型的安全对齐强度有限。
- 部署建议: 强烈建议不要将此模型直接用于任何面向公众的、未经额外安全措施处理的服务中。如果您计划在公开应用中使用本模型,您必须在模型前后部署自己的内容审查、安全过滤和风险控制机制,以确保最终输出的合规性与安全性。本模型本身不提供此类保障。
性能局限:
- 模型幻觉: 作为生成式语言模型,它可能会“幻想”出与输入不完全一致或不准确的细节。建议人工审核其输出,尤其是在处理对数字敏感(如
1girlvs2girls)或视觉上相似的概念时。 - 表征偏见: 模型可能复现其训练数据中固有的风格、主题和角色分布偏见。
- 长尾数据表现: 对于数据集中出现频率较低(长尾)的标签或概念,模型的识别和生成能力可能相对较弱。
- 领域限制: 模型专注于动漫风格图像的文本处理,在处理非动漫或现实风格的图像描述时,性能会显著下降。
- 模型幻觉: 作为生成式语言模型,它可能会“幻想”出与输入不完全一致或不准确的细节。建议人工审核其输出,尤其是在处理对数字敏感(如
功能与任务
模型支持以下五种指令任务,所有输入和输出均需使用指定的 XML 格式包裹:
自然语言描述 → 标签 (
<NLTOTAG>)- 功能: 将一段自然语言的图像描述(Caption)转换为一组标签。
标签 → 自然语言描述 (
<TAGTONL>)- 功能: 将一组标签转换为一段详细、连贯的自然语言描述。
标签补全与优化 (
<TAGTOTAG>)- 功能: 对一组不完整的标签进行补全和优化。训练时通过对完整的标签集进行高、中、低强度的随机丢弃来模拟不完整的输入。
标签扩增 (
<TAGDETAIL>)- 功能: 将一组稀疏的核心标签(如
1girl、角色名等,少于10个)扩充为包含丰富细节的完整标签集(30个以上)。
- 功能: 将一组稀疏的核心标签(如
短描述 → 长描述 (
<SHORTTOLONG>)- 功能: 将一段简短的图像描述扩写成更详细、内容更丰富的长描述。
标签评级说明 (Rating Tag Explanation)
在所有涉及 <tags> XML 结构的任务中,模型可以识别并处理以下四种内容评级标签。您可以在输入(例如 <TAGTONL> 或 <TAGTOTAG>)中指定 <rating> 标签,以引导模型生成特定倾向的内容。
<rating>safe</rating><rating>sensitive</rating><rating>nsfw</rating><rating>explicit</rating>
重要提示: 如“局限性与风险”部分所述,本模型是一个忠实的转换工具,提供 safe 评级并不能保证输出结果绝对安全。您仍需部署自己的内容审查机制。
如何使用
请使用特定的指令来引导模型执行相应任务。
1. 自然语言描述 → 标签 (<NLTOTAG>)
- 指令:
<NLTOTAG> - 输入:
<NLTOTAG>\n<caption>The image features a full-body illustration of Sakiko Togawa from the Bang Dream! It's MyGO!!!!! series. She is depicted in a formal suit, with a long black coat and pants. The coat has a red lining, visible at the cuffs. She wears a white shirt and a black necktie, along with a belt. Her blue hair is styled with two side ponytails, each adorned with a black ribbon. Her yellow eyes are wide and she has a slight blush on her cheeks, with a surprised expression. She's wearing white gloves and black dress shoes. The background is a solid, light grey. The overall style is anime-esque with a clean, polished aesthetic.</caption> - 输出:
<tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights>bang_dream!, bang_dream!_it's_mygo!!!!!</copyrights><general>shirt, belt, open_mouth, hair_ribbon, white_gloves, black_ribbon, ribbon, gloves, black_shoes, coat, necktie, black_pants, full_body, two_side_up, black_coat, pants, black_necktie, solo, long_hair, yellow_eyes, shoes, transparent_background, black_belt, long_sleeves, sidelocks, tachi-e, blue_hair, white_shirt, looking_at_viewer, standing, blush</general><rating>safe</rating></tags>
2. 标签 → 自然语言描述 (<TAGTONL>)
- 指令:
<TAGTONL> - 输入:
<TAGTONL>\n<tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights></copyrights><general></general><rating>safe</rating></tags> - 输出:
<caption>The image features a full-body illustration of Sakiko Togawa from the Bang Dream! It's MyGO!!!!! series. She is depicted in a formal suit, with a long black coat and pants. The coat has a red lining, visible at the cuffs. She wears a white shirt and a black necktie, along with a belt. Her blue hair is styled with two side ponytails, each adorned with a black ribbon. Her yellow eyes are wide and she has a slight blush on her cheeks, with a surprised expression. She's wearing white gloves and black dress shoes. The background is a solid, light grey. The overall style is anime-esque with a clean, polished aesthetic.</caption>
3. 标签 → 标签 (<TAGDETAIL>和<TAGTOTAG>)
- 指令:
<TAGTOTAG> - 输入:
<TAGTOTAG>\n<tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights></copyrights><general></general><rating>safe</rating></tags> - 输出:
<tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights>bang_dream!_it's_mygo!!!!!, bang_dream!</copyrights><general>floating_hair, looking_at_viewer, white_shirt, yellow_eyes, hair_ribbon, two_side_up, shirt, black_ribbon, black_necktie, long_sleeves, ribbon, grey_jacket, haneoka_school_uniform, sidelocks, upper_body, school_uniform, blue_hair, long_hair, necktie, solo, jacket, parted_lips, collared_shirt</general><rating>safe</rating></tags>
4. 短描述 → 长描述 (<SHORTTOLONG>)
- 指令:
<SHORTTOLONG> - 输入:
<SHORTTOLONG>\n<caption>\n a girl togawa_sakiko sitting in the classroom. by wakaba_mutsumi </caption> - 输出:
<caption>The artwork, by wakaba_mutsumi, presents a monochrome illustration of a classroom scene. The primary focus is on a girl, presumably togawa_sakiko from *bang_dream!_it's_mygo!!!!!*, with long hair and wearing a school uniform, sitting at a desk in the foreground. She's positioned with her legs tucked beneath her, leaning forward over the desk, her expression suggesting contemplation or perhaps a touch of shyness. The desk is cluttered with school supplies like a pencil case, a pen, a pencil, and an eraser. Behind her, the classroom is sparsely furnished with desks and chairs, suggesting a classroom setting. In the background, a window offers a view of a cityscape and a bright sky, hinting at a daytime setting. The artwork has a slightly rough, sketched quality, enhancing the sense of a personal, intimate moment captured.</caption>
- Downloads last month
- 63