---
library_name: transformers
tags:
- reinforcement-learning
- gymnasium
- dqn
- lunar-lander
- alpha-pilot
model_name: Alpha-Pilot-V1
pipeline_tag: reinforcement-learning
license: apache-2.0
---
# π Alpha-Pilot-V1 (LunarLander-v2)
**Alpha-Pilot-V1** β ΡΡΠΎ ΠΏΠΎΠ»Π½ΠΎΡΡΡΡ Π°Π²ΡΠΎΠ½ΠΎΠΌΠ½Π°Ρ ΠΈΠ½ΡΠ΅Π»Π»Π΅ΠΊΡΡΠ°Π»ΡΠ½Π°Ρ ΡΠΈΡΡΠ΅ΠΌΠ° ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡ ΠΊΠΎΡΠΌΠΈΡΠ΅ΡΠΊΠΈΠΌ ΠΌΠΎΠ΄ΡΠ»Π΅ΠΌ, ΠΎΠ±ΡΡΠ΅Π½Π½Π°Ρ Ρ Π½ΡΠ»Ρ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠΌ Π³Π»ΡΠ±ΠΎΠΊΠΎΠ³ΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (Deep Q-Learning).
ΠΠΎΠ΄Π΅Π»Ρ ΠΏΡΠΎΡΠ»Π° ΠΏΡΡΡ ΡΠΈΡΡΠΎΠ²ΠΎΠΉ ΡΠ²ΠΎΠ»ΡΡΠΈΠΈ ΠΎΡ Ρ
Π°ΠΎΡΠΈΡΠ½ΡΡ
ΠΏΠ°Π΄Π΅Π½ΠΈΠΉ Π΄ΠΎ ΡΠ²Π΅Π»ΠΈΡΠ½ΠΎΠΉ ΠΏΠΎΡΠ°Π΄ΠΊΠΈ Π½Π° ΠΏΠΎΠ²Π΅ΡΡ
Π½ΠΎΡΡΡ ΠΡΠ½Ρ Π²ΡΠ΅Π³ΠΎ Π·Π° **357 ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΎΡΠ½ΡΡ
ΡΠΏΠΈΠ·ΠΎΠ΄ΠΎΠ²**.
## π₯ ΠΠΈΠ΄Π΅ΠΎ ΠΏΠΎΠ»Π΅ΡΠ° (ΠΠΏΠΈΠ·ΠΎΠ΄ β357)
*ΠΠ° Π²ΠΈΠ΄Π΅ΠΎ ΠΏΡΠΎΠ΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΠΎΠ²Π°Π½ ΡΠΈΠ½Π°Π»ΡΠ½ΡΠΉ ΡΡΠ°ΠΏ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ: Π°Π³Π΅Π½Ρ ΠΈΠ΄Π΅Π°Π»ΡΠ½ΠΎ ΡΡΠ°Π±ΠΈΠ»ΠΈΠ·ΠΈΡΡΠ΅Ρ ΠΌΠΎΠ΄ΡΠ»Ρ ΠΈ ΡΠΎΠ²Π΅ΡΡΠ°Π΅Ρ ΠΌΡΠ³ΠΊΡΡ ΠΏΠΎΡΠ°Π΄ΠΊΡ Π² Π·Π°Π΄Π°Π½Π½ΠΎΠΌ ΠΊΠ²Π°Π΄ΡΠ°ΡΠ΅.*
## π§ Π₯Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ
- **ΠΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ°:** ΠΠ½ΠΎΠ³ΠΎΡΠ»ΠΎΠΉΠ½ΡΠΉ ΠΏΠ΅ΡΡΠ΅ΠΏΡΡΠΎΠ½ (MLP) Ρ 35.7k ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ².
- **ΠΡ
ΠΎΠ΄Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅:** 8 ΡΠ΅Π½ΡΠΎΡΠΎΠ² (ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°ΡΡ, ΡΠΊΠΎΡΠΎΡΡΠΈ, ΡΠ³Π»Ρ, ΠΊΠ°ΡΠ°Π½ΠΈΠ΅ Π»Π°ΠΏ).
- **ΠΡΡ
ΠΎΠ΄Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅:** 4 Π΄ΠΈΡΠΊΡΠ΅ΡΠ½ΡΡ
Π΄Π΅ΠΉΡΡΠ²ΠΈΡ (ΠΠΈΡΠ΅Π³ΠΎ Π½Π΅ Π΄Π΅Π»Π°ΡΡ, ΠΠ΅Π²ΡΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ, ΠΠ»Π°Π²Π½ΡΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ, ΠΡΠ°Π²ΡΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ).
- **Π€ΠΎΡΠΌΠ°Ρ:** SafeTensors (Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΡΠ΅ Π²Π΅ΡΠ°, ΠΌΠ³Π½ΠΎΠ²Π΅Π½Π½Π°Ρ Π·Π°Π³ΡΡΠ·ΠΊΠ°).
- **Π’ΠΎΡΠ½ΠΎΡΡΡ:** Float32.
## π ΠΡΡΠΎΡΠΈΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ
ΠΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΡΡΠ΅Π±ΠΎΠ²Π°Π»ΠΎΡΡ ΠΌΠ΅Π½Π΅Π΅ 400 ΠΏΠΎΠΏΡΡΠΎΠΊ, ΡΡΠΎΠ±Ρ ΠΏΠΎΠ»Π½ΠΎΡΡΡΡ ΠΎΡΠ²ΠΎΠΈΡΡ ΡΠΈΠ·ΠΈΠΊΡ ΡΡΠ΅Π΄Ρ:
- **ΠΠΏΠΈΠ·ΠΎΠ΄Ρ 0-100:** Π₯Π°ΠΎΡΠΈΡΠ½ΠΎΠ΅ Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅, ΠΏΠΎΠΈΡΠΊ Π±Π°Π·ΠΎΠ²ΡΡ
ΠΈΠ½ΡΡΠΈΠ½ΠΊΡΠΎΠ² Π²ΡΠΆΠΈΠ²Π°Π½ΠΈΡ.
- **ΠΠΏΠΈΠ·ΠΎΠ΄Ρ 100-250:** Π‘ΡΠ°Π±ΠΈΠ»ΠΈΠ·Π°ΡΠΈΡ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΠΏΠΎΠ»Π΅ΡΠ°, ΠΏΠΎΠΏΡΡΠΊΠΈ ΠΏΠΎΠ΄ΡΡΠ»ΠΈΠ²Π°Π½ΠΈΡ.
- **ΠΠΏΠΈΠ·ΠΎΠ΄Ρ 300+:** ΠΡΠΎΡΠ΅ΡΡΠΈΠΎΠ½Π°Π»ΡΠ½ΠΎΠ΅ ΠΌΠ°Π½Π΅Π²ΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ ΡΡΠ°Π±ΠΈΠ»ΡΠ½Π°Ρ ΠΌΡΠ³ΠΊΠ°Ρ ΠΏΠΎΡΠ°Π΄ΠΊΠ° Ρ ΠΈΡΠΎΠ³ΠΎΠ²ΠΎΠΉ Π½Π°Π³ΡΠ°Π΄ΠΎΠΉ > 200 ΠΎΡΠΊΠΎΠ².
## π» ΠΠ°ΠΊ Π·Π°ΠΏΡΡΡΠΈΡΡ
ΠΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ Π°Π²ΡΠΎΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΡΡ Π·Π°Π³ΡΡΠ·ΠΊΡ ΡΠ΅ΡΠ΅Π· Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΡ `transformers`.
```python
import torch
from transformers import AutoModel
# ΠΠ°Π³ΡΡΠ·ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ
# ΠΠ±ΡΠ·Π°ΡΠ΅Π»ΡΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠΉΡΠ΅ trust_remote_code=True Π΄Π»Ρ Π°ΠΊΡΠΈΠ²Π°ΡΠΈΠΈ ΠΊΠ°ΡΡΠΎΠΌΠ½ΠΎΠΉ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΡ
model = AutoModel.from_pretrained("prostochel097/alphapilot-v1", trust_remote_code=True)
model.eval()
# Π‘ΠΈΠΌΡΠ»ΡΡΠΈΡ Π²Ρ
ΠΎΠ΄Π½ΡΡ
Π΄Π°Π½Π½ΡΡ
Ρ Π΄Π°ΡΡΠΈΠΊΠΎΠ² (8 ΡΠΈΡΠ΅Π»)
dummy_observation = torch.randn(1, 8)
# ΠΡΠΈΠ½ΡΡΠΈΠ΅ ΡΠ΅ΡΠ΅Π½ΠΈΡ
with torch.no_grad():
logits = model(dummy_observation)
action = torch.argmax(logits).item()
actions = ["ΠΠΈΡΠ΅Π³ΠΎ Π½Π΅ Π΄Π΅Π»Π°ΡΡ", "ΠΠ΅Π²ΡΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ", "ΠΠ»Π°Π²Π½ΡΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ", "ΠΡΠ°Π²ΡΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ"]
print(f"π€ Π Π΅ΡΠ΅Π½ΠΈΠ΅ ΠΏΠΈΠ»ΠΎΡΠ°: {actions[action]}")