Zeiss_Intelligence / README.md
Mrzhang666's picture
Update README.md
b53e170 verified
---
language: zh
tags:
- photography
- vision-language
- qwen
- multimodal
- fine-tuned
model_name: Zeiss_Intelligence
base_model: Qwen/Qwen2.5-VL-3B-Instruct
pipeline_tag: image-to-text
---
## 📘 Overview
本模型基于 [Qwen/Qwen2.5-VL-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct) 多模态大模型以及vivo自研蓝心大模型7B,针对**摄影任务**进行专项微调。通过高质量图文数据和先进的训练策略,该模型具备优秀的图像理解、摄影技巧分析、文本生成与交互能力,适用于摄影创作辅助、教学解释、内容生成等多种场景。
---
## 🏋️‍♂️ Training Approach
模型微调采用两阶段流程:
### 1️⃣ Supervised Fine-Tuning (SFT)
- **数据来源**
- 📷 2,215 条多模态摄影数据(图文对)(https://huggingface.co/datasets/Mrzhang666/custom-photography-multimodal )
- 📝 2,061 条纯文本摄影知识数据
- **目标**:让模型按照目标格式回答问题,增强模型在摄影语境下的图文联合理解与生成能力。
### 2️⃣ Direct Preference Optimization (DPO)
- **数据来源**
- 我们使用同样的方式微调了参数量更大的 Qwen2.5-VL-7B-Instruct,从 SFT 数据集中抽取一些问题作为 prompt 数据集,分别调用 Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-3B-Instruct 对问题输出 3 个回答,**并从以下三个维度进行排序分析**
1. **回答格式**:是否结构清晰、条理分明,是否包含完整的五个模块(场景分析、题材分析、构图建议、参数设置、人物动作指导)。
2. **参数推荐的准确性**:各类拍摄参数(如光圈、快门、iso等)是否合理匹配对应题材与场景,是否体现出模型的摄影理解能力。
3. **人物动作指导的详细程度**:是否提供了具体可执行的动作描述,是否能对人物姿态、面部朝向、情绪表达等提供清晰指导。
- **目标**:进一步提升模型输出的推荐参数的准确性,并增强其在人物动作指导等细节方面的生成质量。
- **注**:我们只对Qwen2.5-VL-3B-sft进行了DPO训练
## 📊 Dataset Details
### 📷 Multimodal Photography Data
- 通过爬虫技术从各大短视频平台采集,提取视频中的图文信息。
- 提升模型对视觉内容的理解能力,使其能根据不同拍摄场景提供具体、实用的摄影建议。
### 📝 Textual Photography Data
- 精选自大量专业摄影书籍,涵盖摄影理论、构图技巧、光线控制等内容。
- 强化模型的语言表达能力和摄影知识储备,使其在纯文本问答中表现更佳。
---
## 🌟 Key Features
- 📸 **图文理解能力强**:支持多模态输入,擅长图像分析与文字生成
- 📝 **摄影专业性高**:输出内容涵盖场景分析、题材选择、构图建议、参数设置、人物动作指导等多个维度
- 🎨 **创意生成优化**:支持生成生图模型提示词,可直接解析使用。
---
## 💡 Examples
>### 输入示例(文本):
>#### 输入内容
- **文本**:慢门是什么?
>#### 输出示例:
---
##慢门定义##
慢门是一种摄影技术,通过降低快门速度(通常小于1/30秒)来拍摄动态画面。其核心原理是让相机在较长时间内连续曝光,使相邻帧的动态元素产生模糊效果。
##拍摄原理##
当快门速度低于1/30秒时,传感器会持续接收到微弱的光线信号。由于曝光时间过长,快速移动的景物会在同一帧中出现重叠,从而形成流畅的动态模糊效果。这种技术能有效表现运动物体的轨迹和空间层次感。
##典型应用场景##
1. 运动拍摄:捕捉快速移动的物体(如奔跑、跳跃)时,慢门可使其变形为线条或斑点状
2. 水流效果:表现水花、瀑布等流动介质的模糊纹理
3. 光轨制作:利用低速快门记录灯光轨迹(如车灯、霓虹灯)
4. 延时摄影:通过多张慢门照片拼接形成动态序列
##注意事项##
- 必须使用三脚架确保稳定性
- 需配合稳定器或手持支撑物避免抖动
- 选择光线均匀的环境以减少曝光不均
- 长曝光可能导致噪点增加,需注意画质
- 高速快门仍可保留部分细节,两者可灵活搭配
##进阶技巧##
1. 尝试不同快门速度(1/15秒至数秒)创造不同动感效果
2. 结合广角镜头扩大视野范围
3. 使用ND滤镜控制进光量
4. 后期可通过软件强化模糊效果
慢门摄影是创意摄影中的重要手法,能赋予普通场景独特的艺术表现力。
---
>### 输入示例(多模态):
>#### 输入内容:
>- **图像**: ![示例](images/photo.png)
>- **文本**: 如何运用框架构图法拍摄古镇牌坊与街景的人文纪实照片?
>#### 输出示例:
---
##场景分析##
该场景包含三个典型拍摄层次:1)主体牌坊作为视觉焦点,具有传统建筑的飞檐翘角和对称结构;2)街道作为引导线,延伸至牌坊形成纵深感;3)行人/游客作为动态元素为画面注入生命力。最佳拍摄时间为晴朗的上午9-11点或下午3-5点,此时阳光角度能产生立体光影,同时云层变化可创造丰富天光效果。
##题材分析##
这是典型的建筑人文纪实题材,需同时兼顾:
- 建筑特征:强调牌坊的结构美感(如飞檐、斗拱)
- 人文元素:捕捉游人的自然状态(如驻足观赏、交谈互动)
- 环境氛围:通过人群动线展现古镇生活气息
##构图建议##
1. 框架式构图进阶:
- 使用牌坊门洞/台阶栏杆作为天然画框(建议占画面1/4面积)
- 将主体牌坊置于画框三分线交点位置
- 保留部分天空形成背景层次
2. 引导线构图强化纵深:
- 利用街道石板路形成S型曲线
- 让牌坊位于画面1/3处,两端留出行人空间
- 通过前景小树制造视觉锚点
3. 动态平衡:
- 预留1/3画面给移动人群
- 采用慢门(1/15s-1/30s)虚化行人增加动感
- 选择行走方向与主光轴呈30度夹角
4. 多景别组合:
- 广角(24mm)拍摄整体环境
- 中焦(50mm)捕捉人像特写
- 长焦(85mm)压缩空间突出细节
##参数设置##
推荐相机设置:
- 光圈:f/8-f/11(保证景深)
- 快门:1/200s以上(定格行人动作)
- ISO:100-400(晴天基础值)
- 白平衡:日光模式(5200K左右)
- 对焦模式:单次AF+眼部追焦
手机拍摄建议:
- 使用专业模式手动对焦
- 开启HDR功能平衡光比
- 手动锁定曝光在牌坊亮部
##人物动作指导##
1. 自然状态捕捉:
- 等待行人经过牌坊时连拍
- 捕捉老人讲解的姿态
- 记录儿童攀爬栏杆的瞬间
2. 互动引导:
- 让被摄者站在牌坊前仰头看建筑
- 指导游客在牌坊下休息回眸
- 捕捉两人对话的背影
3. 情绪表达:
- 等待人物抬头看牌匾的瞬间
- 拍摄游客整理行囊的自然动作
- 记录摊贩与顾客的交流
4. 光影利用:
- 侧逆光拍摄行人剪影
- 逆光勾勒人物轮廓
- 利用牌坊阴影制造明暗对比
##提示词1## 古镇牌坊全景,飞檐翘角,对称结构,阳光斜照,远处有游客驻足观看
##提示词2## 石板街道延伸至牌坊,行人自然走动,两侧绿植点缀,傍晚暖光
##提示词3## 牌坊下长椅上老人背靠栏杆闭目养神,神情安详,周围零星游客往来
---
## 🎯 Potential Use Cases
- **📷 摄影辅助**:实时分析照片质量,提供拍摄建议
- **🎓 教学工具**:帮助用户理解摄影概念、解答技巧问题
---
## 🚫 Limitations
- 训练集规模较小,模型再某些摄影场景下的表现可能不尽人意
- 建议结合实际应用持续补充数据并迭代优化模型效果
---