prostochel097 commited on
Commit
38f015d
·
verified ·
1 Parent(s): 34822ed

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +50 -5
README.md CHANGED
@@ -1,17 +1,62 @@
1
  ---
2
- library_name: transformers
3
  tags:
4
  - reinforcement-learning
5
  - gymnasium
6
  - dqn
 
 
7
  model_name: Alpha-Pilot-V1
8
- thumbnail: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/model_card.png
9
  pipeline_tag: reinforcement-learning
 
10
  ---
11
 
12
  # 🚀 Alpha-Pilot-V1 (LunarLander-v2)
13
 
14
- Эта модель научилась сажать лунный модуль за 357 попыток.
15
 
16
- ## Видео полета
17
- ![Alpha Pilot Landing](https://cdn-uploads.huggingface.co/production/uploads/694031e46f4ee7b27d767524/C0BHwaqOzTjxDl0nfFCUs.mp4)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ library_name: pytorch
3
  tags:
4
  - reinforcement-learning
5
  - gymnasium
6
  - dqn
7
+ - lunar-lander
8
+ - alpha-pilot
9
  model_name: Alpha-Pilot-V1
 
10
  pipeline_tag: reinforcement-learning
11
+ license: apache-2.0
12
  ---
13
 
14
  # 🚀 Alpha-Pilot-V1 (LunarLander-v2)
15
 
16
+ **Alpha-Pilot-V1** это полностью автономная интеллектуальная система управления космическим модулем, обученная с нуля методом глубокого обучения с подкреплением (Deep Q-Learning).
17
 
18
+ Модель прошла путь цифровой эволюции от хаотичных падений до ювелирной посадки на поверхность Луны всего за **357 тренировочных эпизодов**.
19
+
20
+ ## 🎥 Видео полета (Эпизод №357)
21
+
22
+ <div align="center">
23
+ <video src="https://cdn-uploads.huggingface.co/production/uploads/694031e46f4ee7b27d767524/C0BHwaqOzTjxDl0nfFCUs.mp4" width="100%" controls autoplay loop muted></video>
24
+ </div>
25
+
26
+ *На видео продемонстрирован финальный этап обучения: агент идеально стабилизирует модуль и совершает мягкую посадку в заданном квадрате.*
27
+
28
+ ## 🧠 Характеристики модели
29
+ - **Архитектура:** Многослойный перцептрон (MLP) с 35.7k параметров.
30
+ - **Входные данные:** 8 сенсоров (координаты, скорости, углы, касание лап).
31
+ - **Выходные данные:** 4 дискретных действия (Ничего не делать, Левый движок, Главный движок, Правый движок).
32
+ - **Формат:** SafeTensors (безопасные веса, мгновенная загрузка).
33
+ - **Точность:** Float32.
34
+
35
+ ## 📈 История обучения
36
+ Модели потребовалось менее 400 попыток, чтобы полностью освоить физику среды:
37
+ - **Эпизоды 0-100:** Хаотичное движение, поиск базовых инстинктов выживания.
38
+ - **Эпизоды 100-250:** Стабилизация горизонтального полета, попытки подруливания.
39
+ - **Эпизоды 300+:** Профессиональное маневрирование и стабильная мягкая посадка с итоговой наградой > 200 очков.
40
+
41
+ ## 💻 Как запустить
42
+ Модель поддерживает автоматическую загрузку через библиотеку `transformers`.
43
+
44
+ ```python
45
+ import torch
46
+ from transformers import AutoModel
47
+
48
+ # Загрузка модели
49
+ # Обязательно используйте trust_remote_code=True для активации кастомной архитектуры
50
+ model = AutoModel.from_pretrained("prostochel097/alphapilot-v1", trust_remote_code=True)
51
+ model.eval()
52
+
53
+ # Симуляция входных данных с датчиков (8 чисел)
54
+ dummy_observation = torch.randn(1, 8)
55
+
56
+ # Принятие решения
57
+ with torch.no_grad():
58
+ logits = model(dummy_observation)
59
+ action = torch.argmax(logits).item()
60
+
61
+ actions = ["Ничего не делать", "Левый движок", "Главный движок", "Правый движок"]
62
+ print(f"🤖 Решение пилота: {actions[action]}")