File size: 2,532 Bytes

---

license: mit
tags:
- mappo
- reinforcement-learning
- multi-agent
- onnx
- pytorch
---


# MAPPO Multi-Agent Reinforcement Learning Model

## 模型概述

这是一个基于MAPPO（Multi-Agent Proximal Policy Optimization）算法的多智能体强化学习模型，专门为产研团队协作场景设计。

## 模型信息

- **算法**: MAPPO (Multi-Agent Proximal Policy Optimization)
- **智能体数量**: ['product_manager', 'architect', 'developer', 'front_developer', 'devops', 'designer', 'project_manager']

- **状态维度**: 128

- **动作维度**: 64

- **转换时间**: 2025-09-17T10:25:26.122943

- **ONNX版本**: 11



## 智能体列表



- **product_manager**: 产品经理 - 负责产品规划和需求分析

- **architect**: 架构师 - 负责系统设计和技术选型

- **developer**: 后端开发 - 负责后端服务开发

- **front_developer**: 前端开发 - 负责前端界面开发

- **devops**: 运维工程师 - 负责系统部署和运维

- **designer**: 设计师 - 负责UI/UX设计

- **project_manager**: 项目经理 - 负责项目管理和协调



## 验证结果



- **总模型数**: 7

- **有效模型数**: 0

- **无效模型数**: 7



## 使用方法



### Python示例



```python

import onnxruntime as ort

import numpy as np



# 加载模型

session = ort.InferenceSession('burnninghotel/mappo-models/product_manager_model.onnx')



# 准备输入

state = np.random.randn(1, 128).astype(np.float32)

global_state = np.random.randn(1, 128).astype(np.float32)
context = np.random.randn(1, 32).astype(np.float32)

# 运行推理
inputs = {
    'state': state,

    'global_state': global_state,

    'context': context

}


outputs = session.run(None, inputs)
action, log_prob, value = outputs

```



### 输入格式



- **state**: [batch_size, 128] - 智能体状态
- **global_state**: [batch_size, 128] - 全局状态  

- **context**: [batch_size, 32] - 上下文信息



### 输出格式



- **action**: [batch_size, 1] - 动作ID

- **log_prob**: [batch_size, 1] - 动作log概率

- **value**: [batch_size, 1] - 状态价值



## 注意事项



1. 需要安装onnxruntime: `pip install onnxruntime`

2. 输入数据必须是float32类型

3. 支持动态批次大小

4. 模型已优化，适合生产环境部署



## 训练配置



- **学习率**: 3e-4

- **折扣因子**: 0.99

- **GAE Lambda**: 0.95

- **PPO Clip Ratio**: 0.2

- **价值损失系数**: 0.5

- **熵系数**: 0.01



## 许可证



MIT License