|
|
---
|
|
|
license: mit
|
|
|
tags:
|
|
|
- mappo
|
|
|
- reinforcement-learning
|
|
|
- multi-agent
|
|
|
- onnx
|
|
|
- pytorch
|
|
|
---
|
|
|
|
|
|
# MAPPO Multi-Agent Reinforcement Learning Model
|
|
|
|
|
|
## 模型概述
|
|
|
|
|
|
这是一个基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的多智能体强化学习模型,专门为产研团队协作场景设计。
|
|
|
|
|
|
## 模型信息
|
|
|
|
|
|
- **算法**: MAPPO (Multi-Agent Proximal Policy Optimization)
|
|
|
- **智能体数量**: ['product_manager', 'architect', 'developer', 'front_developer', 'devops', 'designer', 'project_manager']
|
|
|
- **状态维度**: 128
|
|
|
- **动作维度**: 64
|
|
|
- **转换时间**: 2025-09-17T10:25:26.122943
|
|
|
- **ONNX版本**: 11
|
|
|
|
|
|
## 智能体列表
|
|
|
|
|
|
- **product_manager**: 产品经理 - 负责产品规划和需求分析
|
|
|
- **architect**: 架构师 - 负责系统设计和技术选型
|
|
|
- **developer**: 后端开发 - 负责后端服务开发
|
|
|
- **front_developer**: 前端开发 - 负责前端界面开发
|
|
|
- **devops**: 运维工程师 - 负责系统部署和运维
|
|
|
- **designer**: 设计师 - 负责UI/UX设计
|
|
|
- **project_manager**: 项目经理 - 负责项目管理和协调
|
|
|
|
|
|
## 验证结果
|
|
|
|
|
|
- **总模型数**: 7
|
|
|
- **有效模型数**: 0
|
|
|
- **无效模型数**: 7
|
|
|
|
|
|
## 使用方法
|
|
|
|
|
|
### Python示例
|
|
|
|
|
|
```python
|
|
|
import onnxruntime as ort
|
|
|
import numpy as np
|
|
|
|
|
|
# 加载模型
|
|
|
session = ort.InferenceSession('burnninghotel/mappo-models/product_manager_model.onnx')
|
|
|
|
|
|
# 准备输入
|
|
|
state = np.random.randn(1, 128).astype(np.float32)
|
|
|
global_state = np.random.randn(1, 128).astype(np.float32)
|
|
|
context = np.random.randn(1, 32).astype(np.float32)
|
|
|
|
|
|
# 运行推理
|
|
|
inputs = {
|
|
|
'state': state,
|
|
|
'global_state': global_state,
|
|
|
'context': context
|
|
|
}
|
|
|
|
|
|
outputs = session.run(None, inputs)
|
|
|
action, log_prob, value = outputs
|
|
|
```
|
|
|
|
|
|
### 输入格式
|
|
|
|
|
|
- **state**: [batch_size, 128] - 智能体状态
|
|
|
- **global_state**: [batch_size, 128] - 全局状态
|
|
|
- **context**: [batch_size, 32] - 上下文信息
|
|
|
|
|
|
### 输出格式
|
|
|
|
|
|
- **action**: [batch_size, 1] - 动作ID
|
|
|
- **log_prob**: [batch_size, 1] - 动作log概率
|
|
|
- **value**: [batch_size, 1] - 状态价值
|
|
|
|
|
|
## 注意事项
|
|
|
|
|
|
1. 需要安装onnxruntime: `pip install onnxruntime`
|
|
|
2. 输入数据必须是float32类型
|
|
|
3. 支持动态批次大小
|
|
|
4. 模型已优化,适合生产环境部署
|
|
|
|
|
|
## 训练配置
|
|
|
|
|
|
- **学习率**: 3e-4
|
|
|
- **折扣因子**: 0.99
|
|
|
- **GAE Lambda**: 0.95
|
|
|
- **PPO Clip Ratio**: 0.2
|
|
|
- **价值损失系数**: 0.5
|
|
|
- **熵系数**: 0.01
|
|
|
|
|
|
## 许可证
|
|
|
|
|
|
MIT License
|
|
|
|