hanxiaofeng commited on
Commit
32671a2
·
1 Parent(s): b570cf2

second push

Browse files
Files changed (1) hide show
  1. Readme.md +0 -161
Readme.md DELETED
@@ -1,161 +0,0 @@
1
- # DeepCubeA: 基于启发式搜索的魔方求解器复现
2
-
3
- ![GitHub repo size](https://img.shields.io/github/repo-size/xiaofeng218/DeepcubeA)
4
- ![Python](https://img.shields.io/badge/python-3.10%2B-blue)
5
- ![PyTorch](https://img.shields.io/badge/pytorch-2.0%2B-orange)
6
-
7
- ## 项目概述
8
-
9
- 本项目是 [DeepCubeA](https://cse.sc.edu/~foresta/assets/files/SolvingTheRubiksCubeWithDeepReinforcementLearningAndSearch_Final.pdf) 方法的复现,训练使用 PyTorch Lightning 框架。该方法结合深度强化学习和搜索算法来解决魔方问题。原始论文展示了如何通过结合神经网络和搜索技术来解决复杂的组合优化问题,如魔方。
10
-
11
- ## 安装指南
12
-
13
- ### 训练环境
14
-
15
- - Python 3.10.16
16
- - PyTorch 2.5.1
17
- - CUDA (可选,用于加速训练)
18
-
19
- ### 安装步骤
20
-
21
- 1. 克隆仓库:
22
-
23
- ```bash
24
- git clone https://github.com/xiaofeng218/DeepcubeA.git
25
- cd DeepcubeA
26
- ```
27
-
28
- 2. 创建环境并安装依赖项:
29
-
30
- ```bash
31
- conda create -n deepcubea python=3.10.16
32
- conda activate deepcubea
33
- conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.1 -c pytorch -c nvidia
34
- pip install -r requirements.txt
35
- ```
36
-
37
- ## 使用方法
38
-
39
- ### 训练模型
40
-
41
- ```bash
42
- python train.py
43
- ```
44
-
45
- ### 求解魔方
46
-
47
- 下载训练好的 [final_model_K_30.pth](https://drive.google.com/file/d/1jdmdoXkkJb7sNq6oy-iudtnVIgQXDsLl/view?usp=drive_link) 模型,将其放在checkpoint文件夹下。
48
-
49
- 注意修改 `config.py` 中的 model_path 为 `checkpoint/final_model_K_30.pth`
50
-
51
- #### 1. 推理
52
-
53
- 随机打乱魔方并求解:
54
-
55
- ```bash
56
- python inference.py
57
- ```
58
-
59
- 指定初始状态求解,可选 action 为 `U, R, F, D, L, B, U_inv, R_inv, F_inv, D_inv, L_inv, B_inv`,多个动作之间用空格分隔。
60
-
61
- ```bash
62
- python inference.py --actions "U R F D L_inv B_inv"
63
- ```
64
-
65
- 运行`inference.py`脚本后,会生成一个HTML文件 `rubiks_solution.html`,用于可视化求解过程。
66
-
67
- #### 2. 网页应用
68
-
69
- 运行 `app.py` 启动网页应用:
70
-
71
- ```bash
72
- python app.py
73
- ```
74
-
75
- 在浏览器中打开 `http://localhost:5000` 即可访问网页应用。
76
-
77
- ### 配置参数说明
78
-
79
- 主要配置参数 (在config.py中定义):
80
-
81
- - `--batch_size`: 训练批次大小 (默认: 10000)
82
- - `--num_workers`: 数据加载线程数 (默认: 16)
83
- - `--K`: 最大打乱次数 (默认: 30)
84
- - `--max_epochs`: 最大训练轮数 (默认: 100)
85
- - `--learning_rate`: 学习率 (默认: 1e-3)
86
- - `--convergence_threshold`: 收敛阈值 (默认: 0.05)
87
- - `--compile`: 是否编译加速模型 (默认: True)
88
- - `--model_path`: 模型路径 (默认: `checkpoint/final_model_K_30.pth`)
89
- - `--actions`: 初始状态动作 (默认: `""`)
90
-
91
- ## 实现细节
92
-
93
- 详细的实现方法和算法说明请参阅 [Implement.md](Implement.md) 文件,包括:
94
-
95
- - 魔方状态表示
96
- - 动作表示
97
- - 深度近似值迭代算法
98
- - 训练伪代码
99
- - BWAS搜索算法
100
- - 神经网络架构
101
-
102
- ## 结果展示
103
-
104
- ### 训练结果
105
-
106
- 不同K值模型收敛(损失小于0.05)所需的epoch数(`1000 step/epoch`):
107
- ![k_convergence_epochs](assets/k_convergence_epochs.png)
108
-
109
- 可以看到,模型收敛所需的训练epoch数随K的增加呈现出指数级增加的趋势,考虑到复现成本,在 K>15 之后,我们并未再
110
- 让模型训练到收敛(即损失小于0.05),而是限定最大epoch为20.
111
-
112
- ### 测试结果(K=30训练获得的最终收敛模型)
113
-
114
- #### 模型在不同打乱次数下状态输入的cost-to-go预测值统计(平均值,最大值)
115
-
116
- ![model_output](assets/model_output_vs_shuffles.png)
117
-
118
- #### 测试样例:打乱100步的魔方,求解结果及所需时间
119
-
120
- 由于我们的模型并未严格按照原文中设置的收敛域进行训练,因此模型能力会一定程度上弱于原文中的描述,下面是一个魔方求解案例:
121
-
122
- | 指标 | 值 |
123
- | --- | --- |
124
- | 打乱步数 | 100 |
125
- | 解决方案路径长度 | 23 |
126
- | 求解时间 | 7.6645 秒 |
127
- | 解决方案路径 | `['D_inv', 'R', 'U_inv', 'F', 'L_inv', 'R', 'B_inv', 'L_inv', 'U_inv', 'F', 'B_inv', 'D_inv', 'L_inv', 'F_inv', 'R', 'F', 'L_inv', 'F_inv', 'R_inv', 'D_inv', 'B', 'U']` |
128
-
129
- [查看魔方还原过程](https://xiaofeng218.github.io/DeepcubeA/assets/rubiks_solution.html)
130
-
131
- #### 性能分析
132
-
133
- 构建了200组打乱1000-10000次的魔方作为测试集,使用A-star算法进行求解:
134
-
135
- > - 总测试数:200
136
- > - 测试硬件:NVIDIA A100
137
- > - 超参数:N=1000,$lambda=0.6$
138
- > - a-star搜索最大迭代次数:200
139
- > - 成功求解数:191
140
- > - 成功率:95.50%
141
- > - 测试集平均打乱次数:5446.30
142
- > - 平均解长度:22.30
143
- > - 平均求解时间:13.10秒
144
- > - 最大解长度:25
145
-
146
- ## 引用
147
-
148
- 如果您在研究中使用了本项目的代码,请引用原始论文:
149
-
150
- ```bibtex
151
- @article{agostinelli2019solving,
152
- title={Solving the Rubik’s cube with deep reinforcement learning and search},
153
- author={Agostinelli, Forest and McAleer, Stephen and Shmakov, Alexander and Baldi, Pierre},
154
- journal={Nature Machine Intelligence},
155
- volume={1},
156
- number={8},
157
- pages={356--363},
158
- year={2019},
159
- publisher={Nature Publishing Group UK London}
160
- }
161
- ```