MAPPO Multi-Agent Reinforcement Learning Model

模型概述

这是一个基于MAPPO（Multi-Agent Proximal Policy Optimization）算法的多智能体强化学习模型，专门为产研团队协作场景设计。

模型信息

算法: MAPPO (Multi-Agent Proximal Policy Optimization)
智能体数量: ['product_manager', 'architect', 'developer', 'front_developer', 'devops', 'designer', 'project_manager']
状态维度: 128
动作维度: 64
转换时间: 2025-09-17T10:25:26.122943
ONNX版本: 11

智能体列表

product_manager: 产品经理 - 负责产品规划和需求分析
architect: 架构师 - 负责系统设计和技术选型
developer: 后端开发 - 负责后端服务开发
front_developer: 前端开发 - 负责前端界面开发
devops: 运维工程师 - 负责系统部署和运维
designer: 设计师 - 负责UI/UX设计
project_manager: 项目经理 - 负责项目管理和协调

验证结果

总模型数: 7
有效模型数: 0
无效模型数: 7

使用方法

Python示例

import onnxruntime as ort
import numpy as np

# 加载模型
session = ort.InferenceSession('burnninghotel/mappo-models/product_manager_model.onnx')

# 准备输入
state = np.random.randn(1, 128).astype(np.float32)
global_state = np.random.randn(1, 128).astype(np.float32)
context = np.random.randn(1, 32).astype(np.float32)

# 运行推理
inputs = {
    'state': state,
    'global_state': global_state,
    'context': context
}

outputs = session.run(None, inputs)
action, log_prob, value = outputs

输入格式

state: [batch_size, 128] - 智能体状态
global_state: [batch_size, 128] - 全局状态
context: [batch_size, 32] - 上下文信息

输出格式

action: [batch_size, 1] - 动作ID
log_prob: [batch_size, 1] - 动作log概率
value: [batch_size, 1] - 状态价值

注意事项

需要安装onnxruntime: pip install onnxruntime
输入数据必须是float32类型
支持动态批次大小
模型已优化，适合生产环境部署

训练配置

学习率: 3e-4
折扣因子: 0.99
GAE Lambda: 0.95
PPO Clip Ratio: 0.2
价值损失系数: 0.5
熵系数: 0.01

许可证

MIT License

Downloads last month: -; Downloads are not tracked for this model. How to track

Video Preview

Reinforcement Learning