File size: 5,648 Bytes
033b4f8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
---
license: mit
task_categories:
- reinforcement-learning
tags:
- hierarchical-rl
- maxq
- value-decomposition
- offline-rl
- trajectories
pretty_name: Hierarchical Value Decomposition (MAXQ)  Rebuttal Dataset
size_categories:
- 1K<n<10K
language:
- en
---

# Hierarchical Value Decomposition (MAXQ) — Rebuttal Dataset

[![Dataset on HuggingFace](https://img.shields.io/badge/🤗%20Dataset-HuggingFace-yellow)](https://huggingface.co/datasets/<your-username>/hvd-maxq-rebuttal)
[![License: MIT](https://img.shields.io/badge/License-MIT-blue.svg)](LICENSE)

**🔗 Access Dataset:** https://huggingface.co/datasets/<your-username>/hvd-maxq-rebuttal

---

## 📊 Dataset Overview

本数据集用于支撑论文“Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition”相关的复现实验与 rebuttal,对外提供分层任务轨迹、层级边界标注、奖励与价值分解信息、训练日志与评估结果。[JAIR/2000][1],[arXiv][5]

### 关键内容

- 分层轨迹:按子任务/子例程划分的`state, action, reward, next_state, done`序列
- 层级标注:`hierarchy_level``subtask_id`、进入/退出条件、抽象状态信息
- 价值分解:用于 MAXQ 的加性价值分解字段与局部回报统计
- 训练/评估:不同随机种子与超参数的训练日志、评估回报与方差

### 关键统计(待补全)

- 任务数:<填写数量>
- 总轨迹数:<填写数量>
- 数据体量:<填写GB>
- 训练随机种子:<seed 列表>
- 评估指标:平均回报 ± 方差(按任务/层级)

### 数据模态覆盖(待补全)

- 轨迹文件:<格式,如 npz/hdf5/jsonl>
- 层级标注:<文件或内嵌字段>
- 日志与模型引用:<日志文件>;策略权重建议在模型仓库发布并在此引用

---

## 🚀 Quick Start

### 1) 仅加载数据集元数据

```python
from datasets import load_dataset

dataset = load_dataset("<your-username>/hvd-maxq-rebuttal")
episode = dataset['train'][0]
print(episode['episode_id'])
print(episode['env_name'])
print(len(episode['transitions']))
```

### 2) 按需下载特定文件

```python
from huggingface_hub import hf_hub_download

traj_path = hf_hub_download(
    repo_id="<your-username>/hvd-maxq-rebuttal",
    filename="trajectories/<episode_id>.npz",
    repo_type="dataset",
)

hier_path = hf_hub_download(
    repo_id="<your-username>/hvd-maxq-rebuttal",
    filename="hierarchy/<episode_id>.json",
    repo_type="dataset",
)
```

### 3) 克隆完整数据集(含大型文件)

```bash
git lfs install
git clone https://huggingface.co/datasets/<your-username>/hvd-maxq-rebuttal
```

---

## 📚 数据字段说明

每个`episode`包含:

### 元数据字段

- `episode_id`: 唯一标识
- `env_name`: 环境或任务名称
- `hierarchy_spec`: 层级结构摘要(JSON 字符串或对象)
- `seed`: 随机种子
- `algo`: 训练算法(如 MAXQ-Q)
- `hyperparams`: 关键超参数摘要

### 序列数据

- `transitions`: 列表项包含 `state`, `action`, `reward`, `next_state`, `done`
- `subtasks`: 子任务序列与边界,含 `subtask_id`, `level`, `enter_t`, `exit_t`
- `value_decomp`: 分解后的价值或回报统计(用于加性分解的相关量)

---

## 💡 使用示例

### 1) 浏览与筛选

```python
from datasets import load_dataset

ds = load_dataset("<your-username>/hvd-maxq-rebuttal")
train = ds['train']
filtered = train.filter(lambda x: x['env_name'] == '<env>' and x['seed'] == 0)
print(len(filtered))
```

### 2) 构建层级滚动回放

```python
episode = train[0]
for st in episode['subtasks']:
    seg = episode['transitions'][st['enter_t']:st['exit_t']]
    # 在此进行子任务级评估或可视化
```

### 3) 价值分解校验(示例占位)

```python
import numpy as np

vd = episode['value_decomp']
_ = np.array(vd['local_returns']).sum()
```

---

## 🎯 适用场景

- 分层强化学习复现与评估(MAXQ 框架)
- 离线强化学习与价值分解方法研究
- 子任务/抽象状态设计与层级策略分析
- 与模型仓库中策略权重联合使用进行端到端评测

---

## 📖 数据集细节(待补全)

### 数据来源与生成

- 环境:<列出实验环境/任务>
- 采集流程:<说明采集管线、抽象/子任务划分策略>
- 训练配置:<训练步数、学习率、探索策略等>

### 评估设置

- 指标:平均回报、方差、收敛步数等
- 重复次数与随机种子:<填写>

---

## 🔐 隐私与合规

- 数据来源于仿真,未包含个人隐私信息
- 许可证与使用限制:见下方 License

---

## ⚠️ 已知局限(待补全)

- 层级标注依赖特定实现,跨环境迁移需校验
- 抽象状态选择可能影响价值分解稳定性

---

## 📜 License

MIT License - 见 `LICENSE`

---

## 📚 引用

### 论文

> Dietterich, T. G. (2000). Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition. Journal of Artificial Intelligence Research. [JAIR][1], [arXiv][5]

### 数据集

```bibtex
@dataset{hvd_maxq_rebuttal_2025,
  title={Hierarchical Value Decomposition (MAXQ) — Rebuttal Dataset},
  author={<your name>},
  year={2025},
  publisher={HuggingFace},
  url={https://huggingface.co/datasets/<your-username>/hvd-maxq-rebuttal}
}
```

---

## 👥 Authors

<your name(s)>

---

## 📞 Contact & Contributions

- 在数据集页面开启讨论或提 Issue
- 联系邮箱:<your email>

---

## 📋 Changelog

- v1.0 (2025): 首次公开发布,含核心层级轨迹与评估结果

---

[1]: https://jair.org/index.php/jair/article/view/10266
[5]: https://arxiv.org/abs/cs/9905014