JHeisler commited on
Commit
e2cf1e0
·
verified ·
1 Parent(s): 25ba8af

S004 HybridACTDiffusion 40k — batch=28, lr=3.5e-5 from act_diffusion_full_20260425_1340

Browse files
Files changed (4) hide show
  1. README.md +14 -0
  2. config.json +61 -0
  3. config.yaml +248 -0
  4. model.safetensors +3 -0
README.md ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ library_name: lerobot
3
+ tags:
4
+ - act
5
+ - diffusion
6
+ - model_hub_mixin
7
+ - pytorch_model_hub_mixin
8
+ - robotics
9
+ ---
10
+
11
+ This model has been pushed to the Hub using the [PytorchModelHubMixin](https://huggingface.co/docs/huggingface_hub/package_reference/mixins#huggingface_hub.PyTorchModelHubMixin) integration:
12
+ - Code: https://github.com/huggingface/lerobot
13
+ - Paper: [More Information Needed]
14
+ - Docs: [More Information Needed]
config.json ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "beta_end": 0.02,
3
+ "beta_schedule": "squaredcos_cap_v2",
4
+ "beta_start": 0.0001,
5
+ "chunk_size": 100,
6
+ "clip_sample": true,
7
+ "clip_sample_range": 1.0,
8
+ "diffusion_step_embed_dim": 128,
9
+ "dim_feedforward": 3200,
10
+ "dim_model": 512,
11
+ "do_mask_loss_for_padding": true,
12
+ "down_dims": [
13
+ 256,
14
+ 512
15
+ ],
16
+ "dropout": 0.1,
17
+ "feedforward_activation": "relu",
18
+ "input_normalization_modes": {
19
+ "observation.images.cam_high": "mean_std",
20
+ "observation.images.cam_left_wrist": "mean_std",
21
+ "observation.state": "mean_std"
22
+ },
23
+ "input_shapes": {
24
+ "observation.images.cam_high": [
25
+ 3,
26
+ 480,
27
+ 640
28
+ ],
29
+ "observation.images.cam_left_wrist": [
30
+ 3,
31
+ 480,
32
+ 640
33
+ ],
34
+ "observation.state": [
35
+ 9
36
+ ]
37
+ },
38
+ "kernel_size": 5,
39
+ "n_action_steps": 100,
40
+ "n_encoder_layers": 4,
41
+ "n_groups": 8,
42
+ "n_heads": 8,
43
+ "n_obs_steps": 1,
44
+ "noise_scheduler_type": "DDPM",
45
+ "num_inference_steps": 10,
46
+ "num_train_timesteps": 100,
47
+ "output_normalization_modes": {
48
+ "action": "mean_std"
49
+ },
50
+ "output_shapes": {
51
+ "action": [
52
+ 9
53
+ ]
54
+ },
55
+ "pre_norm": false,
56
+ "prediction_type": "epsilon",
57
+ "pretrained_backbone_weights": "ResNet18_Weights.IMAGENET1K_V1",
58
+ "replace_final_stride_with_dilation": false,
59
+ "use_film_scale_modulation": true,
60
+ "vision_backbone": "resnet18"
61
+ }
config.yaml ADDED
@@ -0,0 +1,248 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ resume: false
2
+ device: cuda
3
+ use_amp: true
4
+ seed: 1000
5
+ dataset_repo_id: JHeisler/aloha_solo_left_4_6_26
6
+ video_backend: pyav
7
+ training:
8
+ offline_steps: 40000
9
+ num_workers: 4
10
+ batch_size: 28
11
+ eval_freq: -1
12
+ log_freq: 100
13
+ save_checkpoint: true
14
+ save_freq: 10000
15
+ online_steps: 0
16
+ online_rollout_n_episodes: 1
17
+ online_rollout_batch_size: 1
18
+ online_steps_between_rollouts: 1
19
+ online_sampling_ratio: 0.5
20
+ online_env_seed: null
21
+ online_buffer_capacity: null
22
+ online_buffer_seed_size: 0
23
+ do_online_rollout_async: false
24
+ image_transforms:
25
+ enable: false
26
+ max_num_transforms: 3
27
+ random_order: false
28
+ brightness:
29
+ weight: 1
30
+ min_max:
31
+ - 0.8
32
+ - 1.2
33
+ contrast:
34
+ weight: 1
35
+ min_max:
36
+ - 0.8
37
+ - 1.2
38
+ saturation:
39
+ weight: 1
40
+ min_max:
41
+ - 0.5
42
+ - 1.5
43
+ hue:
44
+ weight: 1
45
+ min_max:
46
+ - -0.05
47
+ - 0.05
48
+ sharpness:
49
+ weight: 1
50
+ min_max:
51
+ - 0.8
52
+ - 1.2
53
+ lr: 3.5e-05
54
+ lr_backbone: 3.5e-05
55
+ lr_warmup_steps: 500
56
+ drop_n_last_frames: 2
57
+ weight_decay: 0.0001
58
+ grad_clip_norm: 10
59
+ delta_timestamps:
60
+ action:
61
+ - 0.0
62
+ - 0.03333333333333333
63
+ - 0.06666666666666667
64
+ - 0.1
65
+ - 0.13333333333333333
66
+ - 0.16666666666666666
67
+ - 0.2
68
+ - 0.23333333333333334
69
+ - 0.26666666666666666
70
+ - 0.3
71
+ - 0.3333333333333333
72
+ - 0.36666666666666664
73
+ - 0.4
74
+ - 0.43333333333333335
75
+ - 0.4666666666666667
76
+ - 0.5
77
+ - 0.5333333333333333
78
+ - 0.5666666666666667
79
+ - 0.6
80
+ - 0.6333333333333333
81
+ - 0.6666666666666666
82
+ - 0.7
83
+ - 0.7333333333333333
84
+ - 0.7666666666666667
85
+ - 0.8
86
+ - 0.8333333333333334
87
+ - 0.8666666666666667
88
+ - 0.9
89
+ - 0.9333333333333333
90
+ - 0.9666666666666667
91
+ - 1.0
92
+ - 1.0333333333333334
93
+ - 1.0666666666666667
94
+ - 1.1
95
+ - 1.1333333333333333
96
+ - 1.1666666666666667
97
+ - 1.2
98
+ - 1.2333333333333334
99
+ - 1.2666666666666666
100
+ - 1.3
101
+ - 1.3333333333333333
102
+ - 1.3666666666666667
103
+ - 1.4
104
+ - 1.4333333333333333
105
+ - 1.4666666666666666
106
+ - 1.5
107
+ - 1.5333333333333334
108
+ - 1.5666666666666667
109
+ - 1.6
110
+ - 1.6333333333333333
111
+ - 1.6666666666666667
112
+ - 1.7
113
+ - 1.7333333333333334
114
+ - 1.7666666666666666
115
+ - 1.8
116
+ - 1.8333333333333333
117
+ - 1.8666666666666667
118
+ - 1.9
119
+ - 1.9333333333333333
120
+ - 1.9666666666666666
121
+ - 2.0
122
+ - 2.033333333333333
123
+ - 2.066666666666667
124
+ - 2.1
125
+ - 2.1333333333333333
126
+ - 2.1666666666666665
127
+ - 2.2
128
+ - 2.2333333333333334
129
+ - 2.2666666666666666
130
+ - 2.3
131
+ - 2.3333333333333335
132
+ - 2.3666666666666667
133
+ - 2.4
134
+ - 2.433333333333333
135
+ - 2.466666666666667
136
+ - 2.5
137
+ - 2.533333333333333
138
+ - 2.566666666666667
139
+ - 2.6
140
+ - 2.6333333333333333
141
+ - 2.6666666666666665
142
+ - 2.7
143
+ - 2.7333333333333334
144
+ - 2.7666666666666666
145
+ - 2.8
146
+ - 2.8333333333333335
147
+ - 2.8666666666666667
148
+ - 2.9
149
+ - 2.933333333333333
150
+ - 2.966666666666667
151
+ - 3.0
152
+ - 3.033333333333333
153
+ - 3.066666666666667
154
+ - 3.1
155
+ - 3.1333333333333333
156
+ - 3.1666666666666665
157
+ - 3.2
158
+ - 3.2333333333333334
159
+ - 3.2666666666666666
160
+ - 3.3
161
+ eval:
162
+ n_episodes: 50
163
+ batch_size: 50
164
+ use_async_envs: false
165
+ wandb:
166
+ enable: false
167
+ disable_artifact: false
168
+ project: lerobot
169
+ notes: ''
170
+ fps: 30
171
+ env:
172
+ name: real_world
173
+ task: null
174
+ state_dim: 9
175
+ action_dim: 9
176
+ fps: ${fps}
177
+ override_dataset_stats:
178
+ observation.images.cam_left_wrist:
179
+ mean:
180
+ - - - 0.485
181
+ - - - 0.456
182
+ - - - 0.406
183
+ std:
184
+ - - - 0.229
185
+ - - - 0.224
186
+ - - - 0.225
187
+ observation.images.cam_high:
188
+ mean:
189
+ - - - 0.485
190
+ - - - 0.456
191
+ - - - 0.406
192
+ std:
193
+ - - - 0.229
194
+ - - - 0.224
195
+ - - - 0.225
196
+ use_torch_compile: true
197
+ policy:
198
+ name: hybrid_act_diffusion
199
+ n_obs_steps: 1
200
+ chunk_size: 100
201
+ n_action_steps: 100
202
+ input_shapes:
203
+ observation.images.cam_left_wrist:
204
+ - 3
205
+ - 480
206
+ - 640
207
+ observation.images.cam_high:
208
+ - 3
209
+ - 480
210
+ - 640
211
+ observation.state:
212
+ - ${env.state_dim}
213
+ output_shapes:
214
+ action:
215
+ - ${env.action_dim}
216
+ input_normalization_modes:
217
+ observation.images.cam_left_wrist: mean_std
218
+ observation.images.cam_high: mean_std
219
+ observation.state: mean_std
220
+ output_normalization_modes:
221
+ action: mean_std
222
+ vision_backbone: resnet18
223
+ pretrained_backbone_weights: ResNet18_Weights.IMAGENET1K_V1
224
+ replace_final_stride_with_dilation: false
225
+ pre_norm: false
226
+ dim_model: 512
227
+ n_heads: 8
228
+ dim_feedforward: 3200
229
+ feedforward_activation: relu
230
+ n_encoder_layers: 4
231
+ dropout: 0.1
232
+ down_dims:
233
+ - 256
234
+ - 512
235
+ kernel_size: 5
236
+ n_groups: 8
237
+ diffusion_step_embed_dim: 128
238
+ use_film_scale_modulation: true
239
+ noise_scheduler_type: DDPM
240
+ num_train_timesteps: 100
241
+ beta_schedule: squaredcos_cap_v2
242
+ beta_start: 0.0001
243
+ beta_end: 0.02
244
+ prediction_type: epsilon
245
+ clip_sample: true
246
+ clip_sample_range: 1.0
247
+ num_inference_steps: 10
248
+ do_mask_loss_for_padding: true
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d0b6dfe34e074178ee3aa3c039925cf9b07ed94940957bef10964dfbc0263a22
3
+ size 188754780