MAPPO Multi-Agent Reinforcement Learning Model

模型概述

这是一个基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的多智能体强化学习模型,专门为产研团队协作场景设计。

模型信息

  • 算法: MAPPO (Multi-Agent Proximal Policy Optimization)
  • 智能体数量: ['product_manager', 'architect', 'developer', 'front_developer', 'devops', 'designer', 'project_manager']
  • 状态维度: 128
  • 动作维度: 64
  • 转换时间: 2025-09-17T10:25:26.122943
  • ONNX版本: 11

智能体列表

  • product_manager: 产品经理 - 负责产品规划和需求分析
  • architect: 架构师 - 负责系统设计和技术选型
  • developer: 后端开发 - 负责后端服务开发
  • front_developer: 前端开发 - 负责前端界面开发
  • devops: 运维工程师 - 负责系统部署和运维
  • designer: 设计师 - 负责UI/UX设计
  • project_manager: 项目经理 - 负责项目管理和协调

验证结果

  • 总模型数: 7
  • 有效模型数: 0
  • 无效模型数: 7

使用方法

Python示例

import onnxruntime as ort
import numpy as np

# 加载模型
session = ort.InferenceSession('burnninghotel/mappo-models/product_manager_model.onnx')

# 准备输入
state = np.random.randn(1, 128).astype(np.float32)
global_state = np.random.randn(1, 128).astype(np.float32)
context = np.random.randn(1, 32).astype(np.float32)

# 运行推理
inputs = {
    'state': state,
    'global_state': global_state,
    'context': context
}

outputs = session.run(None, inputs)
action, log_prob, value = outputs

输入格式

  • state: [batch_size, 128] - 智能体状态
  • global_state: [batch_size, 128] - 全局状态
  • context: [batch_size, 32] - 上下文信息

输出格式

  • action: [batch_size, 1] - 动作ID
  • log_prob: [batch_size, 1] - 动作log概率
  • value: [batch_size, 1] - 状态价值

注意事项

  1. 需要安装onnxruntime: pip install onnxruntime
  2. 输入数据必须是float32类型
  3. 支持动态批次大小
  4. 模型已优化,适合生产环境部署

训练配置

  • 学习率: 3e-4
  • 折扣因子: 0.99
  • GAE Lambda: 0.95
  • PPO Clip Ratio: 0.2
  • 价值损失系数: 0.5
  • 熵系数: 0.01

许可证

MIT License

Downloads last month

-

Downloads are not tracked for this model. How to track
Video Preview
loading