Nininkkka
/

GestureAI_v1

+---
+language: ru
+license: mit
+tags:
+  - pytorch
+  - computer-vision
+  - image-classification
+  - gesture-recognition
+  - custom-model
+  - real-time
+  - webcam
+---
+# ✋ Распознаватель жестов руки (GestureAI_v1)
+Привет! 👋
+Это моя собственная свёрточная нейросеть, обученная **с нуля** распознавать жесты руки в реальном времени через веб-камеру.
+Модель понимает **5 командных жестов** и может использоваться для управления компьютером (например, движением мыши) или в других проектах.
+---
+## 🚀 Особенности модели
+ - ⭐ Модель была обучена **на 24 760 реальных изображений голубой перчатки**, из-за чего смогла **научится обобщать за 1 эпоху.**
+ - 🧠 Архитектура была сделана и обучена с нуля, вместе с датасетом (никаких предобученных моделей!)
+ - 🎥 Все 24 760 изображений было сделанно 1 человеком, но это **никак не помешало** модели обобщать
+---
+## 📊 Распознаваемые жесты
+| Жест       | Класс          | Движение мышки            |
+|------------|----------------|---------------------------|
+| 👆         | `up`           | Движение вверх            |
+| 👇         | `down`         | Движение вниз             |
+| 👈         | `left`         | Движение влево            |
+| 👉         | `right`        | Движение вправо           |
+| 🙂         | `nothing`      | Никаких действий          |
+---
+## 🧠 Архитектура модели
+Модель реализована на `PyTorch` в виде последовательной CNN (`nn.Sequential`).
+```python
+class GestureCNN(nn.Module):
+    def __init__(self, num_classes):
+        super().__init__()
+        self.net = nn.Sequential(
+            nn.Conv2d(3, 32, 3, padding=1), nn.BatchNorm2d(32), nn.ReLU(), nn.MaxPool2d(2),
+            nn.Conv2d(32, 64, 3, padding=1), nn.BatchNorm2d(64), nn.ReLU(), nn.MaxPool2d(2),
+            nn.Conv2d(64, 128, 3, padding=1), nn.BatchNorm2d(128), nn.ReLU(), nn.MaxPool2d(2),
+            nn.Conv2d(128, 256, 3, padding=1), nn.BatchNorm2d(256), nn.ReLU(), nn.AdaptiveAvgPool2d(1),
+            nn.Flatten(),
+            nn.Dropout(0.3),
+            nn.Linear(256, 128), nn.ReLU(), nn.Dropout(0.3),
+            nn.Linear(128, num_classes)
+        )
+    def forward(self, x):
+        return self.net(x)
+## 📦 Как использовать
+### 1. Установка зависимостей
+```bash
+pip install torch pyautogui cv2
+### 2. Запуск
+```bash
+py main.py

config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "architectures": ["GestureAI_v1"],
+  "model_type": "custom_gesture_cnn",
+  "num_classes": 5
+}

gesture_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3eee42d77d367b321345578f96216429c406a866ba0610ef4d598702b82d3625
+size 1706254

main.py ADDED Viewed

	@@ -0,0 +1,100 @@

+import cv2
+import torch
+import torch.nn as nn
+import pyautogui
+from collections import deque
+MODEL_PATH = "gesture_model.bin"
+DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+IMG_SIZE = 128
+SMOOTHING = deque(maxlen=5)
+MOVE_STEP = 0          # пикселей за шаг
+MOVE_EVERY_N_FRAMES = 1 # каждый кадр (при 30 fps будет ~120 пикс/сек с шагом 4)
+# ---------- Модель ----------
+class GestureCNN(nn.Module):
+    def __init__(self, num_classes):
+        super().__init__()
+        self.net = nn.Sequential(
+            nn.Conv2d(3, 32, 3, padding=1), nn.BatchNorm2d(32), nn.ReLU(), nn.MaxPool2d(2),
+            nn.Conv2d(32, 64, 3, padding=1), nn.BatchNorm2d(64), nn.ReLU(), nn.MaxPool2d(2),
+            nn.Conv2d(64, 128, 3, padding=1), nn.BatchNorm2d(128), nn.ReLU(), nn.MaxPool2d(2),
+            nn.Conv2d(128, 256, 3, padding=1), nn.BatchNorm2d(256), nn.ReLU(), nn.AdaptiveAvgPool2d(1),
+            nn.Flatten(),
+            nn.Dropout(0.3),
+            nn.Linear(256, 128), nn.ReLU(), nn.Dropout(0.3),
+            nn.Linear(128, num_classes)
+        )
+    def forward(self, x):
+        return self.net(x)
+classes = ["down", "left", "nothing", "right", "up"]  # алфавитный порядок ImageFolder
+model = GestureCNN(num_classes=len(classes))
+model.load_state_dict(torch.load(MODEL_PATH, map_location=DEVICE))
+model.eval().to(DEVICE)
+cap = cv2.VideoCapture(0)
+if not cap.isOpened(): exit()
+print("Управление жестами. 'q' для выхода.")
+last_action = None
+frame_counter = 0
+while True:
+    ret, frame = cap.read()
+    if not ret: break
+    frame = cv2.flip(frame, 1)
+    h, w = frame.shape[:2]
+    size = min(w, h) // 2
+    x1, y1 = w//2 - size//2, h//2 - size//2
+    x2, y2 = x1 + size, y1 + size
+    # Обработка ROI
+    roi = frame[y1:y2, x1:x2]
+    roi_rgb = cv2.cvtColor(roi, cv2.COLOR_BGR2RGB)
+    roi_resized = cv2.resize(roi_rgb, (IMG_SIZE, IMG_SIZE))
+    tensor = torch.from_numpy(roi_resized).permute(2,0,1).unsqueeze(0).float()/255.0
+    tensor = tensor.to(DEVICE)
+    with torch.no_grad():
+        output = model(tensor)
+        _, pred = torch.max(output, 1)
+        gesture = classes[pred.item()]
+    SMOOTHING.append(gesture)
+    # Определяем стабильный жест (только когда очередь полна и все значения одинаковы)
+    if len(SMOOTHING) == SMOOTHING.maxlen and all(g == SMOOTHING[0] for g in SMOOTHING):
+        stable_gesture = SMOOTHING[0]
+    else:
+        stable_gesture = None
+    # === НЕПРЕРЫВНОЕ ДВИЖЕНИЕ ===
+    if stable_gesture in ("up", "down", "left", "right"):
+        frame_counter += 1
+        if frame_counter >= MOVE_EVERY_N_FRAMES:
+            dx, dy = 0, 0
+            if stable_gesture == "up":
+                dy = -MOVE_STEP
+            elif stable_gesture == "down":
+                dy = MOVE_STEP
+            elif stable_gesture == "left":
+                dx = -MOVE_STEP
+            elif stable_gesture == "right":
+                dx = MOVE_STEP
+            MOVE_STEP = MOVE_STEP + 1
+            pyautogui.moveRel(dx, dy, duration=0)  # моментальное смещение
+            frame_counter = 0
+    else:
+        # Если жест не направленный или нестабильный – сбрасываем счётчик и ничего не двигаем
+        frame_counter = 0
+        MOVE_STEP = 0
+    # Отрисовка и выход
+    cv2.rectangle(frame, (x1,y1), (x2,y2), (0,255,0), 2)
+    cv2.putText(frame, f"Gesture: {gesture}", (10,30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,255,0), 2)
+    cv2.imshow("Gesture Control", frame)
+    if cv2.waitKey(1) & 0xFF == ord('q'): break
+cap.release()
+cv2.destroyAllWindows()