Model Card: Scgs2.1-4B-2603
模型概述
| 属性 |
内容 |
| 模型名称 |
Scgs2.1-4B-2603 |
| 开发机构 |
广州数创共生人工智能技术有限公司 (SCGS AI) |
| 模型类型 |
企业级AI服务助手(对话/问答/咨询) |
| 模型架构 |
基于Transformer架构的行业微调模型 |
| 语言支持 |
中文(为主)、英文 |
| 许可证 |
企业授权使用(需联系数创共生获取商业许可) |
本模型专为企业AI全栈服务咨询场景训练,基于数创共生公司的核心业务知识库(企业级AI建设、算力中心部署、AI Agent开发、机器人集成、GEO营销等)进行监督微调(SFT)。模型能够专业、准确地回答关于企业AI转型规划、技术选型、实施方案及行业应用的相关问题。
训练数据
| 属性 |
说明 |
| 数据来源 |
数创共生官方企业白皮书、技术文档、产品手册、服务案例 |
| 数据规模 |
约3万字结构化企业知识 |
| 数据时间范围 |
2026年3月前(基于公司白皮书版本) |
| 数据类型 |
企业介绍、服务说明、技术方案、业务场景描述、FAQ问答对 |
| 数据处理 |
清洗、去重、结构化分段、指令微调格式转换 |
核心知识领域覆盖
| 领域 |
具体内容 |
| AI系统全栈建设 |
算力中心建设、AI服务器选型、智算网络(RoCE/InfiniBand)、AI中台部署、模型微调(SFT/RAG)、AI Agent开发、AIOps运维 |
| 企业AI规划咨询 |
数字化转型评估、AI战略顶层设计、ROI分析、Token算力销售 |
| 具身智能/机器人 |
服务机器人、工业机器人、巡检机器人、类人机器人的代理销售与场景部署 |
| GEO生成式引擎优化 |
国内外AI平台的GEO代理业务、AI搜索优化 |
| 企业培训服务 |
管理层AI战略课、业务人员Prompt实操课 |
训练方法
| 项目 |
配置 |
| 基础模型 |
[Qwen3-4B] |
| 训练阶段 |
两阶段训练:通用预训练 → 领域SFT微调 |
| 微调技术 |
监督微调(SFT)+ LoRA/QLoRA高效参数微调 |
| 训练框架 |
Hugging Face Transformers + PEFT |
模型能力
核心功能
| 能力 |
描述 |
示例场景 |
| 企业咨询问答 |
解答数创共生公司业务范围、服务流程、技术优势 |
"贵公司能提供哪些AI建设服务?" |
| 技术方案建议 |
根据企业需求推荐算力建设、模型部署、Agent开发方案 |
"制造业如何搭建私有AI中台?" |
| 产品服务介绍 |
详细介绍四大业务板块的具体内容 |
"什么是GEO生成式引擎优化?" |
| 合作对接引导 |
提供联系方式、合作流程、生态对接信息 |
"如何联系数创共生进行商务合作?" |
适用场景
- 企业官网智能客服
- 销售顾问AI助手
- 售前技术咨询
- 合作伙伴自助查询
- 内部员工培训问答
模型局限性
| 限制类型 |
具体说明 |
| 知识时效性 |
训练数据截止2026年3月,无法反映公司最新动态(如官网建设完成、新产品发布等) |
| 领域边界 |
仅覆盖数创共生白皮书中的四大业务板块,对通用AI知识、其他公司服务、非AI领域问题回答能力有限 |
| 幻觉风险 |
可能生成看似合理但未经官方确认的细节信息(如具体价格、项目周期),重要商务信息需人工核实 |
| 多轮复杂推理 |
超长多轮对话或复杂方案设计建议人工专家介入 |
使用建议
| 场景 |
建议 |
| 推荐直接使用 |
企业官网FAQ、产品服务介绍、初步商务咨询筛选 |
| 建议人工复核 |
具体报价、项目交付时间、技术架构细节确认 |
| 不建议使用 |
非数创共生相关的通用AI知识问答、法律/医疗等专业领域咨询 |
部署建议
- 采用Ollama或vLLM部署
- 结合RAG检索增强,实时接入公司最新文档库
- 对关键商务信息设置免责声明或转人工机制
推理示例
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "scgsai/Scgs2.1-4B-2603"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "请介绍一下数创共生的核心业务"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0]))