Spaces:

IbrahimHasani
/

ActionDetectionVideo

Runtime error

IbrahimHasani commited on Aug 16, 2023

Commit

a6c8793

1 Parent(s): a23243f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,10 @@ from transformers import AutoProcessor, AutoModel
 from PIL import Image
 from decord import VideoReader, cpu
 def sample_uniform_frame_indices(clip_len, seg_len):
     if seg_len < clip_len:
         repeat_factor = np.ceil(clip_len / seg_len).astype(int)
@@ -45,21 +49,28 @@ def model_interface(uploaded_video, model_choice, activity):
         "microsoft/xclip-base-patch32-16-frames": 16,
         "microsoft/xclip-base-patch32": 8
     }.get(model_choice, 32)
     indices = sample_uniform_frame_indices(clip_len, seg_len=len(VideoReader(uploaded_video)))
     video = read_video_decord(uploaded_video, indices)
     concatenated_image = concatenate_frames(video, clip_len)
-    # Appending "other" to the list of activities
     activities_list = [activity, "other"]
-    processor = AutoProcessor.from_pretrained(model_choice)
-    model = AutoModel.from_pretrained(model_choice)
     inputs = processor(
         text=activities_list,
-        videos=list(video),
         return_tensors="pt",
         padding=True,
     )
     with torch.no_grad():
         outputs = model(**inputs)

 from PIL import Image
 from decord import VideoReader, cpu
+# Use GPU if available
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+torch.backends.cudnn.benchmark = True
 def sample_uniform_frame_indices(clip_len, seg_len):
     if seg_len < clip_len:
         repeat_factor = np.ceil(clip_len / seg_len).astype(int)
         "microsoft/xclip-base-patch32-16-frames": 16,
         "microsoft/xclip-base-patch32": 8
     }.get(model_choice, 32)
     indices = sample_uniform_frame_indices(clip_len, seg_len=len(VideoReader(uploaded_video)))
     video = read_video_decord(uploaded_video, indices)
     concatenated_image = concatenate_frames(video, clip_len)
     activities_list = [activity, "other"]
+    processor = AutoProcessor.from_pretrained(model_choice).to(device)
+    model = AutoModel.from_pretrained(model_choice).to(device)
+    # Convert the list of frames to a single numpy array for efficient conversion to a tensor
+    video_np_array = np.array(video)
     inputs = processor(
         text=activities_list,
+        videos=video_np_array,
         return_tensors="pt",
         padding=True,
     )
+    inputs = {k: v.to(device) for k, v in inputs.items()}
     with torch.no_grad():
         outputs = model(**inputs)