Spaces:

123ahmed
/

Vol_demo

Sleeping

App Files Files Community

123ahmed commited on Nov 15, 2025

Commit

80adaa7

verified ·

1 Parent(s): 1b6b488

Upload 4 files

Browse files

Files changed (5) hide show

.gitattributes +1 -0
alert.wav +3 -0
app.py +164 -0
best_vit_lstm.pt +3 -0
requirements.txt +8 -3

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+alert.wav filter=lfs diff=lfs merge=lfs -text

alert.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75f14a2044af42630de43fea45ed720988fec1345eb7ef688a413eaf24db5a7b
+size 3173020

app.py ADDED Viewed

	@@ -0,0 +1,164 @@

+import streamlit as st
+import torch
+import torchvision.transforms as transforms
+from torch import nn
+import timm
+import cv2
+import numpy as np
+from playsound import playsound
+import threading
+import tempfile
+# ================================
+# إعداد الصفحة
+# ================================
+st.set_page_config(page_title="Violence Detection System", layout="wide")
+st.markdown(
+    """
+    <h1 style='text-align:center; color:#d32f2f;'>Violence Detection System</h1>
+    <p style='text-align:center; font-size:18px; color:#444;'>
+    Real-time violence detection using <b>ViT + LSTM</b> architecture deployed on HuggingFace Spaces.<br>
+    Supports camera input & uploaded videos.
+    </p>
+    <hr>
+    """,
+    unsafe_allow_html=True
+)
+# ================================
+# تحميل النموذج
+# ================================
+MODEL_PATH = "best_vit_lstm.pt"
+ALERT_SOUND = "alert.wav"
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+class ViT_LSTM_Classifier(nn.Module):
+    def __init__(self, vit_name="vit_tiny_patch16_224", lstm_hidden=256,
+                 lstm_layers=1, num_classes=2, dropout=0.3):
+        super().__init__()
+        self.vit = timm.create_model(vit_name, pretrained=False, num_classes=0)
+        self.feat_dim = self.vit.num_features
+        self.lstm = nn.LSTM(self.feat_dim, lstm_hidden, lstm_layers,
+                            batch_first=True, bidirectional=True)
+        self.classifier = nn.Sequential(
+            nn.Linear(lstm_hidden * 2, 256),
+            nn.ReLU(),
+            nn.Dropout(dropout),
+            nn.Linear(256, num_classes)
+        )
+    def forward(self, x):
+        B, T, C, H, W = x.shape
+        x = x.view(B*T, C, H, W)
+        feats = self.vit(x)
+        feats = feats.view(B, T, -1)
+        out, _ = self.lstm(feats)
+        last = out[:, -1, :]
+        return self.classifier(last)
+model = ViT_LSTM_Classifier().to(device)
+state = torch.load(MODEL_PATH, map_location=device)
+model.load_state_dict(state, strict=False)
+model.eval()
+# ================================
+# التحويلات
+# ================================
+transform = transforms.Compose([
+    transforms.ToPILImage(),
+    transforms.Resize((224, 224)),
+    transforms.ToTensor(),
+    transforms.Normalize(mean=[0.5]*3, std=[0.5]*3)
+])
+def play_alert():
+    try:
+        playsound(ALERT_SOUND)
+    except:
+        pass
+def predict_frames(frames):
+    seq_len = 8
+    if len(frames) < seq_len:
+        return 0
+    clip = frames[-seq_len:]
+    clip = torch.stack(clip).unsqueeze(0).to(device)
+    with torch.no_grad():
+        output = model(clip)
+        pred = torch.argmax(output, dim=1).item()
+    return pred
+# ================================
+# واجهة المستخدم
+# ================================
+st.sidebar.header("Mode Selection")
+mode = st.sidebar.radio("Choose Input Mode", ["Open Camera", "Upload Video"])
+if mode == "Open Camera":
+    picture = st.camera_input("Open your camera and capture a short video clip")
+    if picture:
+        with tempfile.NamedTemporaryFile(delete=False) as tmp:
+            tmp.write(picture.read())
+            video_path = tmp.name
+        cap = cv2.VideoCapture(video_path)
+        frames = []
+        while True:
+            ret, frame = cap.read()
+            if not ret:
+                break
+            rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+            tensor = transform(rgb)
+            frames.append(tensor)
+            st.image(rgb)
+        cap.release()
+        pred = predict_frames(frames)
+        label = "Violent" if pred == 1 else "Non-Violent"
+        if pred == 1:
+            st.error("⚠️ Violent Behavior Detected!")
+            threading.Thread(target=play_alert, daemon=True).start()
+        else:
+            st.success("✔️ Normal Activity")
+elif mode == "Upload Video":
+    uploaded = st.file_uploader("Upload MP4 Video", type=["mp4"])
+    if uploaded:
+        with tempfile.NamedTemporaryFile(delete=False) as tmp:
+            tmp.write(uploaded.read())
+            video_path = tmp.name
+        cap = cv2.VideoCapture(video_path)
+        frames = []
+        st.info("Processing video...")
+        while True:
+            ret, frame = cap.read()
+            if not ret:
+                break
+            rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
+            tensor = transform(rgb)
+            frames.append(tensor)
+        cap.release()
+        pred = predict_frames(frames)
+        label = "Violent" if pred == 1 else "Non-Violent"
+        if pred == 1:
+            st.error("⚠️ Violence Detected!")
+            threading.Thread(target=play_alert, daemon=True).start()
+        else:
+            st.success("✔️ Non-Violent")

best_vit_lstm.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bafb8ce0f006cab77c6f24f8823d6ad755afb017d27ec23f085df491d21f5b31
+size 26374863

requirements.txt CHANGED Viewed

@@ -1,3 +1,8 @@
-altair
-pandas
-streamlit

+streamlit
+torch
+torchvision
+timm
+opencv-python-headless
+numpy
+playsound==1.2.2
+Pillow