mm_multitask / README.md

Yougen

Update README.md

dd3c986 verified 11 days ago

11.6 kB

license: apache-2.0
language:
  - zh

Model Card for Yougen/mm_multitask

Yougen/mm_multitask 是一个面向中文场景的通用多模态多任务模型，支持图像描述生成、视觉问答、图文检索、跨模态相似度计算等多种核心多模态任务。该模型基于Transformer架构构建，采用统一的跨模态注意力机制实现图像与文本的深度融合，在通用中文多模态基准上取得了良好的性能表现。

Model Details

Model Description

本模型专为中文多模态理解与生成任务设计，能够同时处理图像和文本输入，输出符合中文表达习惯的自然语言结果。模型采用编码器-解码器架构，图像编码器提取视觉特征，文本编码器处理文本输入，通过跨模态注意力层实现两种模态的信息交互与融合，最终由解码器生成对应的文本输出。

Developed by: Yougen (袁有根)
Funded by [optional]: [More Information Needed]
Shared by [optional]: Yougen (袁有根)
Model type: Multimodal Multitask Transformer Model
Language(s) (NLP): Chinese (zh)
License: Apache-2.0
Finetuned from model [optional]: [More Information Needed]

Model Sources [optional]

Repository: https://huggingface.co/Yougen/mm_multitask
Paper [optional]: [More Information Needed]
Demo [optional]: [More Information Needed]

Uses

Direct Use

本模型可直接用于以下中文多模态任务，无需额外微调：

图像描述生成：为输入图像生成准确、流畅的中文描述
视觉问答：根据输入图像回答相关的中文问题
图文相似度计算：计算图像与文本之间的语义相似度
跨模态检索：根据文本查询检索相关图像，或根据图像查询检索相关文本
图像分类（零样本）：通过文本提示实现零样本图像分类

Downstream Use [optional]

本模型可作为基础模型进一步微调，适配以下特定领域和场景：

电商领域：商品图像描述生成、商品属性提取、智能客服图文问答
教育领域：教材插图解释、题目图文理解、智能作业批改
医疗领域：医学影像初步分析、检查报告生成（需专业数据微调）
传媒领域：新闻图片自动配文、视频内容理解与摘要生成
工业领域：工业缺陷检测、设备状态识别与报告生成

Out-of-Scope Use

本模型不适用于以下场景：

需要极高精度和专业资质的医疗诊断、法律文书生成等领域
生成有害、虚假、违法或侵犯他人权益的内容
非中文语言的多模态任务（如英文、日文等）
处理极端模糊、严重损坏或内容不完整的输入图像
涉及敏感政治、宗教、种族等话题的内容生成

Bias, Risks, and Limitations

技术局限性

训练数据覆盖范围有限，在小众领域、罕见场景或专业领域的表现可能不佳
对低分辨率、模糊、遮挡严重或光照条件差的图像处理效果较差
模型的逻辑推理能力有限，在复杂多步推理和长文本生成任务中可能出现错误
模型的上下文理解能力有限，过长的文本输入可能导致信息丢失

社会偏见与风险

模型可能继承训练数据中存在的社会偏见，在涉及性别、种族、地域、职业等敏感话题时可能产生不当输出
模型可能生成与事实不符的内容，使用时需进行事实核查
模型可能被滥用生成虚假信息、误导性内容或有害内容

Recommendations

用户（包括直接使用和下游开发者）应充分了解本模型的风险、偏见和局限性。在将模型用于生产环境前，应进行充分的测试和验证，特别是在涉及敏感领域和高风险场景时。建议在模型输出中添加适当的免责声明，并建立人工审核机制。同时，应遵守相关法律法规和伦理准则，不得将模型用于任何非法或不道德的用途。

How to Get Started with the Model

Use the code below to get started with the model.

from transformers import AutoProcessor, AutoModelForCausalLM
import torch
from PIL import Image

# 加载模型和处理器
processor = AutoProcessor.from_pretrained("Yougen/mm_multitask")
model = AutoModelForCausalLM.from_pretrained(
    "Yougen/mm_multitask",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 示例1：图像描述生成
image = Image.open("example.jpg")
inputs = processor(images=image, text="描述这张图片：", return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=100)

caption = processor.decode(outputs[0], skip_special_tokens=True)
print("图像描述：", caption)

# 示例2：视觉问答
question = "图片中有什么物体？"
inputs = processor(images=image, text=question, return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=50)

answer = processor.decode(outputs[0], skip_special_tokens=True)
print("回答：", answer)

Training Details

Training Data

本模型使用大规模中文图文对数据集进行训练，涵盖通用领域的各类图像和文本内容，包括但不限于：

日常场景图像与描述
物体识别与分类数据
视觉问答数据集
图文检索数据集

训练数据经过严格的清洗和过滤，去除了低质量、重复和有害内容。具体使用的数据集列表及预处理细节待补充。

Training Procedure

Preprocessing [optional]

图像预处理：将图像调整为固定尺寸，进行归一化处理，转换为模型输入所需的张量格式
文本预处理：使用中文分词器对文本进行分词，添加特殊标记，进行截断和填充处理，转换为模型输入所需的张量格式

Training Hyperparameters

Training regime: bf16 mixed precision
Batch size: [More Information Needed]
Learning rate: [More Information Needed]
Epochs: [More Information Needed]
Optimizer: AdamW
Weight decay: [More Information Needed]
Warmup steps: [More Information Needed]

Speeds, Sizes, Times [optional]

Model size: [More Information Needed] parameters
Training time: [More Information Needed] hours
Checkpoint size: [More Information Needed] GB
Inference speed: [More Information Needed] samples/sec (on NVIDIA A100 80GB)

Evaluation

Testing Data, Factors & Metrics

Testing Data

本模型在以下中文多模态基准数据集上进行了评估：

COCO中文图像描述数据集
Flickr30k中文图像描述数据集
VQA-CN视觉问答数据集
中文图文检索数据集

Factors

评估按以下维度进行：

任务类型：图像描述、视觉问答、图文检索
图像类型：自然场景、人物、物体、建筑等
文本长度：短文本、中等长度文本、长文本

Metrics

图像描述：BLEU-1/2/3/4、CIDEr、ROUGE-L、SPICE
视觉问答：准确率（Accuracy）
图文检索：Recall@1、Recall@5、Recall@10

Results

[More Information Needed]

Summary

[More Information Needed]

Model Examination [optional]

[More Information Needed]

Environmental Impact

Carbon emissions can be estimated using the Machine Learning Impact calculator presented in Lacoste et al. (2019).

Hardware Type: [More Information Needed]
Hours used: [More Information Needed]
Cloud Provider: [More Information Needed]
Compute Region: [More Information Needed]
Carbon Emitted: [More Information Needed]

Technical Specifications [optional]

Model Architecture and Objective

本模型基于Transformer架构构建，采用编码器-解码器结构：

图像编码器：基于视觉Transformer（ViT）架构，提取图像的多尺度视觉特征
文本编码器：基于BERT-like架构，处理文本输入并提取文本特征
跨模态注意力层：实现图像特征与文本特征的双向交互与融合
文本解码器：基于GPT-like架构，根据融合后的跨模态特征生成文本输出

模型的训练目标包括：

图像描述生成的自回归语言建模损失
图文对比学习损失
视觉问答的分类损失

Compute Infrastructure

[More Information Needed]

Hardware

训练硬件：NVIDIA A100 80GB GPU
推理硬件：支持CUDA的NVIDIA GPU（推荐A100、L40、L20等）

Software

深度学习框架：PyTorch 2.0+
模型库：Transformers 4.30+
数据处理库：Datasets 2.10+、Pillow 9.0+
其他依赖：torchvision、numpy、tqdm等

Citation [optional]

BibTeX:

@misc{yougen2026mmmultitask,
  author = {Yougen Yuan},
  title = {mm_multitask: A Chinese Multimodal Multitask Model},
  year = {2026},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/Yougen/mm_multitask}}
}

APA: Yuan, Y. (2026). mm_multitask: A Chinese Multimodal Multitask Model. Hugging Face. https://huggingface.co/Yougen/mm_multitask

Glossary [optional]

[More Information Needed]

More Information [optional]

[More Information Needed]

Model Card Authors [optional]

Yougen (袁有根)

Model Card Contact

Hugging Face: https://huggingface.co/Yougen
GitHub: [More Information Needed]
Email: [More Information Needed]