--- license: mit tags: - mappo - reinforcement-learning - multi-agent - onnx - pytorch --- # MAPPO Multi-Agent Reinforcement Learning Model ## 模型概述 这是一个基于MAPPO(Multi-Agent Proximal Policy Optimization)算法的多智能体强化学习模型,专门为产研团队协作场景设计。 ## 模型信息 - **算法**: MAPPO (Multi-Agent Proximal Policy Optimization) - **智能体数量**: ['product_manager', 'architect', 'developer', 'front_developer', 'devops', 'designer', 'project_manager'] - **状态维度**: 128 - **动作维度**: 64 - **转换时间**: 2025-09-17T10:25:26.122943 - **ONNX版本**: 11 ## 智能体列表 - **product_manager**: 产品经理 - 负责产品规划和需求分析 - **architect**: 架构师 - 负责系统设计和技术选型 - **developer**: 后端开发 - 负责后端服务开发 - **front_developer**: 前端开发 - 负责前端界面开发 - **devops**: 运维工程师 - 负责系统部署和运维 - **designer**: 设计师 - 负责UI/UX设计 - **project_manager**: 项目经理 - 负责项目管理和协调 ## 验证结果 - **总模型数**: 7 - **有效模型数**: 0 - **无效模型数**: 7 ## 使用方法 ### Python示例 ```python import onnxruntime as ort import numpy as np # 加载模型 session = ort.InferenceSession('burnninghotel/mappo-models/product_manager_model.onnx') # 准备输入 state = np.random.randn(1, 128).astype(np.float32) global_state = np.random.randn(1, 128).astype(np.float32) context = np.random.randn(1, 32).astype(np.float32) # 运行推理 inputs = { 'state': state, 'global_state': global_state, 'context': context } outputs = session.run(None, inputs) action, log_prob, value = outputs ``` ### 输入格式 - **state**: [batch_size, 128] - 智能体状态 - **global_state**: [batch_size, 128] - 全局状态 - **context**: [batch_size, 32] - 上下文信息 ### 输出格式 - **action**: [batch_size, 1] - 动作ID - **log_prob**: [batch_size, 1] - 动作log概率 - **value**: [batch_size, 1] - 状态价值 ## 注意事项 1. 需要安装onnxruntime: `pip install onnxruntime` 2. 输入数据必须是float32类型 3. 支持动态批次大小 4. 模型已优化,适合生产环境部署 ## 训练配置 - **学习率**: 3e-4 - **折扣因子**: 0.99 - **GAE Lambda**: 0.95 - **PPO Clip Ratio**: 0.2 - **价值损失系数**: 0.5 - **熵系数**: 0.01 ## 许可证 MIT License