ray0rf1re
/

6net

imitation-learning

Model card Files Files and versions

6net / README.md

ray0rf1re's picture

Update README.md

bd6c58c verified about 1 month ago

|

history blame contribute delete

1.28 kB

	---
	language: en
	tags:
	- robotics
	- 6-axis-arm
	- visual-policy
	- pytorch
	- imitation-learning
	license: mit
	---

	# 6Net — 6-Axis Visual Robot Policy (~115M)

	Custom transformer policy for visual 6-DoF robot arm control. Trained from scratch (no LoRA).

	\| Component \| Detail \| Params \|
	\|---\|---\|---\|
	\| Visual Encoder \| ResNet-18 fine-tuned \| ~11.7M \|
	\| Visual Projection \| Linear(512→768) \| ~0.4M \|
	\| State Encoder \| MLP(6→256→768) \| ~0.2M \|
	\| Transformer \| 14L · d=768 · 12h · ffn=3072 \| ~99.1M \|
	\| Action Head \| MLP(768→256→6) \| ~0.2M \|
	\| Total \| \| ~111M \|

	Dataset: `synthetic` · Steps: 455 · Eff. batch: 32

	## Inference
	```python
	import torch
	from train_6net_local import SixNet, Config
	import torchvision.transforms as T
	from PIL import Image

	model = SixNet(Config())
	ckpt = torch.load("6net_final.pt", map_location="cpu")
	model.load_state_dict(ckpt["model_state"])
	model.eval()

	tf = T.Compose([T.Resize((224,224)), T.ToTensor(),
	T.Normalize([.485,.456,.406],[.229,.224,.225])])
	img = tf(Image.open("cam.jpg")).unsqueeze(0) # (1,3,224,224)
	jts = torch.zeros(1, 6) # current joint angles (rad)
	with torch.no_grad():
	action = model(img, jts) # (1,6) predicted targets
	```