You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

这是一个基于 Qwen/Qwen3-0.6B-Base 进行指令微调的语言模型,专注于处理和生成与 动漫 图像标签体系相关的自然语言和标签数据。

模型详情

  • 基础模型: Qwen/Qwen3-0.6B-Base
  • 微调方法: 指令微调 (Instruction SFT)
  • 微调框架: LLaMA-Factory
  • 训练数据:
    • 数据来源:来自约1100万真实图像的tag和vlm的caption,每张图像提供5条不同方式的caption描述和一个tag组合。
  • 训练进度: 累计训练 438.47 亿 Token。
  • 硬件配置: 约 2500 gpu hours with NVIDIA GeForce RTX 4090
  • 上下文长度: 768。此长度覆盖了 99.5% 的训练样本。为保证输入 XML 结构的完整性,超长的样本在训练中被舍弃。

与 Neta-Lumina 的协同设计

本模型是一个专为 Neta-Lumina模型 设计的文本处理引擎。

由于此语言模型与 Neta-Lumina 图像模型使用了高度类似的高质量自然语言-标签数据集进行训练,二者在数据理解上具有天然的一致性。这意味着:

  • 高度适配的理解能力: 本模型生成的标签 (Tags) 和自然语言描述 (Captions) 在风格、结构和细节上,与 Neta-Lumina 的“偏好”高度契合。
  • 释放 T2I 模型潜力: 使用本模型生成的精准提示词,可以更有效地引导 Neta-Lumina 创作出符合预期的、高质量的图像作品。

⚠️ 适配 Sakiko Lumina 的特别说明

注意,本模型直接输出的 Tag 格式与 Sakiko Lumina 的输入要求略有不同。

由于 gemma-2-2b 和 qwen 的分词器存在略有不同的轻微调整,为了确保 Tag 能被正确识别并获得最佳生成效果,请在将文本送入绘图模型前执行以下字符串替换操作

  1. 将下划线替换为空格
  2. 修正字段名称(将 copyrights 调整为 copyright)。
  3. 注入默认 Meta 标签

建议使用的后处理代码如下:

# 假设 text 为本模型生成的原始 XML 字符串
processed_text = text.replace("_", " ") \
                     .replace("</tags>", "<meta>masterpiece, newest, highres</meta></tags>") \
                     .replace("copyrights>", "copyright>")

用于其他模型 (如 noobai-XL)

对于依赖标签的模型,本模型可以高效生成、补全和优化标签集。

  • 使用方式:
    1. 调用 <NLTOTAG>, <TAGTOTAG><TAGDETAIL> 指令。
    2. 编写一个简单的脚本,提取输出结果 XML<tag> 标签下的各类标签文本。
    3. 将提取的标签用 ", " 连接起来,形成适用于目标模型的提示词。

用途、局限性与风险

主要用途

  • 自动生成标签: 为动漫风格的图像描述生成 Danbooru 风格的标签。
  • 生成图像描述: 基于标签或自然语言,生成或丰富图像描述。
  • 文生图提示词工程: 将生成的标签作为提示词,输入到文生图模型中。

局限性与风险

重要提示:模型定位与使用责任

  • 模型定位:纯粹的辅助工具

    • 本模型的设计目标是作为一个纯粹的辅助工具,其核心功能是根据用户提供的特定指令和输入内容,进行忠实的文本转换与生成。
    • 模型不会审查、评估、修改或引导用户的原始意图。它会如实处理输入数据,无论其内容如何。例如,模型不具备将 NSFW(Not Safe For Work)输入“修正”为 SFW(Safe For Work)输出的功能。其任务是忠实地扩展和重构输入,而非过滤或改变其性质。
  • 使用责任与安全建议

    • 用户责任: 使用者对输入内容负有全部责任。您必须确保您的输入符合相关法律法规和平台政策。
    • 内容安全风险: 由于训练数据源自未经筛选的互联网内容,模型可能会生成包含 NSFW、冒犯性或不当信息的输出。碍于技术限制本模型的安全对齐强度有限
    • 部署建议: 强烈建议不要将此模型直接用于任何面向公众的、未经额外安全措施处理的服务中。如果您计划在公开应用中使用本模型,您必须在模型前后部署自己的内容审查、安全过滤和风险控制机制,以确保最终输出的合规性与安全性。本模型本身不提供此类保障。
  • 性能局限:

    • 模型幻觉: 作为生成式语言模型,它可能会“幻想”出与输入不完全一致或不准确的细节。建议人工审核其输出,尤其是在处理对数字敏感(如 1girl vs 2girls)或视觉上相似的概念时。
    • 表征偏见: 模型可能复现其训练数据中固有的风格、主题和角色分布偏见。
    • 长尾数据表现: 对于数据集中出现频率较低(长尾)的标签或概念,模型的识别和生成能力可能相对较弱。
    • 领域限制: 模型专注于动漫风格图像的文本处理,在处理非动漫或现实风格的图像描述时,性能会显著下降。

功能与任务

模型支持以下五种指令任务,所有输入和输出均需使用指定的 XML 格式包裹:

  1. 自然语言描述 → 标签 (<NLTOTAG>)

    • 功能: 将一段自然语言的图像描述(Caption)转换为一组标签。
  2. 标签 → 自然语言描述 (<TAGTONL>)

    • 功能: 将一组标签转换为一段详细、连贯的自然语言描述。
  3. 标签补全与优化 (<TAGTOTAG>)

    • 功能: 对一组不完整的标签进行补全和优化。训练时通过对完整的标签集进行高、中、低强度的随机丢弃来模拟不完整的输入。
  4. 标签扩增 (<TAGDETAIL>)

    • 功能: 将一组稀疏的核心标签(如 1girl、角色名等,少于10个)扩充为包含丰富细节的完整标签集(30个以上)。
  5. 短描述 → 长描述 (<SHORTTOLONG>)

    • 功能: 将一段简短的图像描述扩写成更详细、内容更丰富的长描述。

标签评级说明 (Rating Tag Explanation)

在所有涉及 <tags> XML 结构的任务中,模型可以识别并处理以下四种内容评级标签。您可以在输入(例如 <TAGTONL><TAGTOTAG>)中指定 <rating> 标签,以引导模型生成特定倾向的内容。

  • <rating>safe</rating>
  • <rating>sensitive</rating>
  • <rating>nsfw</rating>
  • <rating>explicit</rating>

重要提示: 如“局限性与风险”部分所述,本模型是一个忠实的转换工具,提供 safe 评级并不能保证输出结果绝对安全。您仍需部署自己的内容审查机制。

如何使用

请使用特定的指令来引导模型执行相应任务。

1. 自然语言描述 → 标签 (<NLTOTAG>)

  • 指令: <NLTOTAG>
  • 输入:
    <NLTOTAG>\n<caption>The image features a full-body illustration of Sakiko Togawa from the Bang Dream! It's MyGO!!!!! series. She is depicted in a formal suit, with a long black coat and pants. The coat has a red lining, visible at the cuffs. She wears a white shirt and a black necktie, along with a belt. Her blue hair is styled with two side ponytails, each adorned with a black ribbon. Her yellow eyes are wide and she has a slight blush on her cheeks, with a surprised expression. She's wearing white gloves and black dress shoes. The background is a solid, light grey. The overall style is anime-esque with a clean, polished aesthetic.</caption>
    
  • 输出:
    <tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights>bang_dream!, bang_dream!_it's_mygo!!!!!</copyrights><general>shirt, belt, open_mouth, hair_ribbon, white_gloves, black_ribbon, ribbon, gloves, black_shoes, coat, necktie, black_pants, full_body, two_side_up, black_coat, pants, black_necktie, solo, long_hair, yellow_eyes, shoes, transparent_background, black_belt, long_sleeves, sidelocks, tachi-e, blue_hair, white_shirt, looking_at_viewer, standing, blush</general><rating>safe</rating></tags>
    

2. 标签 → 自然语言描述 (<TAGTONL>)

  • 指令: <TAGTONL>
  • 输入:
    <TAGTONL>\n<tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights></copyrights><general></general><rating>safe</rating></tags>
    
  • 输出:
    <caption>The image features a full-body illustration of Sakiko Togawa from the Bang Dream! It's MyGO!!!!! series. She is depicted in a formal suit, with a long black coat and pants. The coat has a red lining, visible at the cuffs. She wears a white shirt and a black necktie, along with a belt. Her blue hair is styled with two side ponytails, each adorned with a black ribbon. Her yellow eyes are wide and she has a slight blush on her cheeks, with a surprised expression. She's wearing white gloves and black dress shoes. The background is a solid, light grey. The overall style is anime-esque with a clean, polished aesthetic.</caption>
    

3. 标签 → 标签 (<TAGDETAIL><TAGTOTAG>)

  • 指令: <TAGTOTAG>
  • 输入:
    <TAGTOTAG>\n<tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights></copyrights><general></general><rating>safe</rating></tags>
    
  • 输出:
    <tags><special>1girl</special><artists></artists><characters>togawa_sakiko</characters><copyrights>bang_dream!_it's_mygo!!!!!, bang_dream!</copyrights><general>floating_hair, looking_at_viewer, white_shirt, yellow_eyes, hair_ribbon, two_side_up, shirt, black_ribbon, black_necktie, long_sleeves, ribbon, grey_jacket, haneoka_school_uniform, sidelocks, upper_body, school_uniform, blue_hair, long_hair, necktie, solo, jacket, parted_lips, collared_shirt</general><rating>safe</rating></tags>
    

4. 短描述 → 长描述 (<SHORTTOLONG>)

  • 指令: <SHORTTOLONG>
  • 输入:
    <SHORTTOLONG>\n<caption>\n a girl togawa_sakiko sitting in the classroom. by wakaba_mutsumi </caption>
    
  • 输出:
    <caption>The artwork, by wakaba_mutsumi, presents a monochrome illustration of a classroom scene. The primary focus is on a girl, presumably togawa_sakiko from *bang_dream!_it's_mygo!!!!!*, with long hair and wearing a school uniform, sitting at a desk in the foreground. She's positioned with her legs tucked beneath her, leaning forward over the desk, her expression suggesting contemplation or perhaps a touch of shyness. The desk is cluttered with school supplies like a pencil case, a pen, a pencil, and an eraser. Behind her, the classroom is sparsely furnished with desks and chairs, suggesting a classroom setting. In the background, a window offers a view of a cityscape and a bright sky, hinting at a daytime setting. The artwork has a slightly rough, sketched quality, enhancing the sense of a personal, intimate moment captured.</caption>
    
Downloads last month
63
Safetensors
Model size
0.6B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SakikoLab/Sakiko-Prompt-Gen-v1.0

Finetuned
(493)
this model
Quantizations
2 models