burnninghotel
/

mappo-models

Reinforcement Learning

Model card Files Files and versions

mappo-models / README.md

burnninghotel's picture

Upload README.md with huggingface_hub

c0c30f9 verified 4 months ago

|

history blame contribute delete

2.53 kB

	---
	license: mit
	tags:
	- mappo
	- reinforcement-learning
	- multi-agent
	- onnx
	- pytorch
	---

	# MAPPO Multi-Agent Reinforcement Learning Model

	## 模型概述

	这是一个基于MAPPO（Multi-Agent Proximal Policy Optimization）算法的多智能体强化学习模型，专门为产研团队协作场景设计。

	## 模型信息

	- 算法: MAPPO (Multi-Agent Proximal Policy Optimization)
	- 智能体数量: ['product_manager', 'architect', 'developer', 'front_developer', 'devops', 'designer', 'project_manager']
	- 状态维度: 128
	- 动作维度: 64
	- 转换时间: 2025-09-17T10:25:26.122943
	- ONNX版本: 11

	## 智能体列表

	- product_manager: 产品经理 - 负责产品规划和需求分析
	- architect: 架构师 - 负责系统设计和技术选型
	- developer: 后端开发 - 负责后端服务开发
	- front_developer: 前端开发 - 负责前端界面开发
	- devops: 运维工程师 - 负责系统部署和运维
	- designer: 设计师 - 负责UI/UX设计
	- project_manager: 项目经理 - 负责项目管理和协调

	## 验证结果

	- 总模型数: 7
	- 有效模型数: 0
	- 无效模型数: 7

	## 使用方法

	### Python示例

	```python
	import onnxruntime as ort
	import numpy as np

	# 加载模型
	session = ort.InferenceSession('burnninghotel/mappo-models/product_manager_model.onnx')

	# 准备输入
	state = np.random.randn(1, 128).astype(np.float32)
	global_state = np.random.randn(1, 128).astype(np.float32)
	context = np.random.randn(1, 32).astype(np.float32)

	# 运行推理
	inputs = {
	'state': state,
	'global_state': global_state,
	'context': context
	}

	outputs = session.run(None, inputs)
	action, log_prob, value = outputs
	```

	### 输入格式

	- state: [batch_size, 128] - 智能体状态
	- global_state: [batch_size, 128] - 全局状态
	- context: [batch_size, 32] - 上下文信息

	### 输出格式

	- action: [batch_size, 1] - 动作ID
	- log_prob: [batch_size, 1] - 动作log概率
	- value: [batch_size, 1] - 状态价值

	## 注意事项

	1. 需要安装onnxruntime: `pip install onnxruntime`
	2. 输入数据必须是float32类型
	3. 支持动态批次大小
	4. 模型已优化，适合生产环境部署

	## 训练配置

	- 学习率: 3e-4
	- 折扣因子: 0.99
	- GAE Lambda: 0.95
	- PPO Clip Ratio: 0.2
	- 价值损失系数: 0.5
	- 熵系数: 0.01

	## 许可证

	MIT License