--- library_name: transformers tags: - reinforcement-learning - gymnasium - dqn - lunar-lander - alpha-pilot model_name: Alpha-Pilot-V1 pipeline_tag: reinforcement-learning license: apache-2.0 --- # πŸš€ Alpha-Pilot-V1 (LunarLander-v2) **Alpha-Pilot-V1** β€” это ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ автономная ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½Π°Ρ систСма управлСния космичСским ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΌ, обучСнная с нуля ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠ³ΠΎ обучСния с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (Deep Q-Learning). МодСль ΠΏΡ€ΠΎΡˆΠ»Π° ΠΏΡƒΡ‚ΡŒ Ρ†ΠΈΡ„Ρ€ΠΎΠ²ΠΎΠΉ ΡΠ²ΠΎΠ»ΡŽΡ†ΠΈΠΈ ΠΎΡ‚ Ρ…Π°ΠΎΡ‚ΠΈΡ‡Π½Ρ‹Ρ… ΠΏΠ°Π΄Π΅Π½ΠΈΠΉ Π΄ΠΎ ΡŽΠ²Π΅Π»ΠΈΡ€Π½ΠΎΠΉ посадки Π½Π° ΠΏΠΎΠ²Π΅Ρ€Ρ…Π½ΠΎΡΡ‚ΡŒ Π›ΡƒΠ½Ρ‹ всСго Π·Π° **357 Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹Ρ… эпизодов**. ## πŸŽ₯ Π’ΠΈΠ΄Π΅ΠΎ ΠΏΠΎΠ»Π΅Ρ‚Π° (Π­ΠΏΠΈΠ·ΠΎΠ΄ β„–357)
*На Π²ΠΈΠ΄Π΅ΠΎ продСмонстрирован Ρ„ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ этап обучСния: Π°Π³Π΅Π½Ρ‚ идСально стабилизируСт ΠΌΠΎΠ΄ΡƒΠ»ΡŒ ΠΈ ΡΠΎΠ²Π΅Ρ€ΡˆΠ°Π΅Ρ‚ ΠΌΡΠ³ΠΊΡƒΡŽ посадку Π² Π·Π°Π΄Π°Π½Π½ΠΎΠΌ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚Π΅.* ## 🧠 Π₯арактСристики ΠΌΠΎΠ΄Π΅Π»ΠΈ - **АрхитСктура:** ΠœΠ½ΠΎΠ³ΠΎΡΠ»ΠΎΠΉΠ½Ρ‹ΠΉ ΠΏΠ΅Ρ€Ρ†Π΅ΠΏΡ‚Ρ€ΠΎΠ½ (MLP) с 35.7k ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². - **Π’Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:** 8 сСнсоров (ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Ρ‹, скорости, ΡƒΠ³Π»Ρ‹, касаниС Π»Π°ΠΏ). - **Π’Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅:** 4 дискрСтных дСйствия (НичСго Π½Π΅ Π΄Π΅Π»Π°Ρ‚ΡŒ, Π›Π΅Π²Ρ‹ΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ, Π“Π»Π°Π²Π½Ρ‹ΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ, ΠŸΡ€Π°Π²Ρ‹ΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ). - **Π€ΠΎΡ€ΠΌΠ°Ρ‚:** SafeTensors (бСзопасныС вСса, мгновСнная Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ°). - **Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ:** Float32. ## πŸ“ˆ Π˜ΡΡ‚ΠΎΡ€ΠΈΡ обучСния МодСли ΠΏΠΎΡ‚Ρ€Π΅Π±ΠΎΠ²Π°Π»ΠΎΡΡŒ ΠΌΠ΅Π½Π΅Π΅ 400 ΠΏΠΎΠΏΡ‹Ρ‚ΠΎΠΊ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ Ρ„ΠΈΠ·ΠΈΠΊΡƒ срСды: - **Π­ΠΏΠΈΠ·ΠΎΠ΄Ρ‹ 0-100:** Π₯Π°ΠΎΡ‚ΠΈΡ‡Π½ΠΎΠ΅ Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠ΅, поиск Π±Π°Π·ΠΎΠ²Ρ‹Ρ… инстинктов выТивания. - **Π­ΠΏΠΈΠ·ΠΎΠ΄Ρ‹ 100-250:** Бтабилизация Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Π°Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΏΠΎΠ»Π΅Ρ‚Π°, ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠΈ подруливания. - **Π­ΠΏΠΈΠ·ΠΎΠ΄Ρ‹ 300+:** ΠŸΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠ΅ ΠΌΠ°Π½Π΅Π²Ρ€ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½Π°Ρ мягкая посадка с ΠΈΡ‚ΠΎΠ³ΠΎΠ²ΠΎΠΉ Π½Π°Π³Ρ€Π°Π΄ΠΎΠΉ > 200 ΠΎΡ‡ΠΊΠΎΠ². ## πŸ’» Как Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Ρ‡Π΅Ρ€Π΅Π· Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΡƒ `transformers`. ```python import torch from transformers import AutoModel # Π—Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ # ΠžΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠΉΡ‚Π΅ trust_remote_code=True для Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ кастомной Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ model = AutoModel.from_pretrained("prostochel097/alphapilot-v1", trust_remote_code=True) model.eval() # Бимуляция Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… с Π΄Π°Ρ‚Ρ‡ΠΈΠΊΠΎΠ² (8 чисСл) dummy_observation = torch.randn(1, 8) # ΠŸΡ€ΠΈΠ½ΡΡ‚ΠΈΠ΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ with torch.no_grad(): logits = model(dummy_observation) action = torch.argmax(logits).item() actions = ["НичСго Π½Π΅ Π΄Π΅Π»Π°Ρ‚ΡŒ", "Π›Π΅Π²Ρ‹ΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ", "Π“Π»Π°Π²Π½Ρ‹ΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ", "ΠŸΡ€Π°Π²Ρ‹ΠΉ Π΄Π²ΠΈΠΆΠΎΠΊ"] print(f"πŸ€– РСшСниС ΠΏΠΈΠ»ΠΎΡ‚Π°: {actions[action]}")