MAPPO Multi-Agent Reinforcement Learning Model
模型概述
这是一个基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的多智能体强化学习模型,专门为产研团队协作场景设计。
模型信息
- 算法: MAPPO (Multi-Agent Proximal Policy Optimization)
- 智能体数量: ['product_manager', 'architect', 'developer', 'front_developer', 'devops', 'designer', 'project_manager']
- 状态维度: 128
- 动作维度: 64
- 转换时间: 2025-09-17T10:25:26.122943
- ONNX版本: 11
智能体列表
- product_manager: 产品经理 - 负责产品规划和需求分析
- architect: 架构师 - 负责系统设计和技术选型
- developer: 后端开发 - 负责后端服务开发
- front_developer: 前端开发 - 负责前端界面开发
- devops: 运维工程师 - 负责系统部署和运维
- designer: 设计师 - 负责UI/UX设计
- project_manager: 项目经理 - 负责项目管理和协调
验证结果
- 总模型数: 7
- 有效模型数: 0
- 无效模型数: 7
使用方法
Python示例
import onnxruntime as ort
import numpy as np
# 加载模型
session = ort.InferenceSession('burnninghotel/mappo-models/product_manager_model.onnx')
# 准备输入
state = np.random.randn(1, 128).astype(np.float32)
global_state = np.random.randn(1, 128).astype(np.float32)
context = np.random.randn(1, 32).astype(np.float32)
# 运行推理
inputs = {
'state': state,
'global_state': global_state,
'context': context
}
outputs = session.run(None, inputs)
action, log_prob, value = outputs
输入格式
- state: [batch_size, 128] - 智能体状态
- global_state: [batch_size, 128] - 全局状态
- context: [batch_size, 32] - 上下文信息
输出格式
- action: [batch_size, 1] - 动作ID
- log_prob: [batch_size, 1] - 动作log概率
- value: [batch_size, 1] - 状态价值
注意事项
- 需要安装onnxruntime:
pip install onnxruntime - 输入数据必须是float32类型
- 支持动态批次大小
- 模型已优化,适合生产环境部署
训练配置
- 学习率: 3e-4
- 折扣因子: 0.99
- GAE Lambda: 0.95
- PPO Clip Ratio: 0.2
- 价值损失系数: 0.5
- 熵系数: 0.01
许可证
MIT License