Spaces:

IbrahimHasani
/

ActionDetectionVideo

Runtime error

App Files Files Community

IbrahimHasani commited on Aug 16, 2023

Commit

a23243f

1 Parent(s): 41f8ba0

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -17

app.py CHANGED Viewed

@@ -3,11 +3,7 @@ import torch
 import numpy as np
 from transformers import AutoProcessor, AutoModel
 from PIL import Image
-from decord import VideoReader, cpu, gpu
-import cv2
-print(f"Is CUDA available: {torch.cuda.is_available()}")
-print(f"CUDA device: {torch.cuda.get_device_name(torch.cuda.current_device())}")
 def sample_uniform_frame_indices(clip_len, seg_len):
     if seg_len < clip_len:
@@ -20,7 +16,7 @@ def sample_uniform_frame_indices(clip_len, seg_len):
     return np.array(indices).astype(np.int64)
 def read_video_decord(file_path, indices):
-    vr = VideoReader(file_path, num_threads=1, ctx=cpu(0))#gpu(0) if torch.cuda.is_available() else cpu(0))
     video = vr.get_batch(indices).asnumpy()
     return video
@@ -49,30 +45,25 @@ def model_interface(uploaded_video, model_choice, activity):
         "microsoft/xclip-base-patch32-16-frames": 16,
         "microsoft/xclip-base-patch32": 8
     }.get(model_choice, 32)
     indices = sample_uniform_frame_indices(clip_len, seg_len=len(VideoReader(uploaded_video)))
     video = read_video_decord(uploaded_video, indices)
     concatenated_image = concatenate_frames(video, clip_len)
-    # Convert list of numpy arrays to a single numpy ndarray
-    video_np = np.array(video)
     activities_list = [activity, "other"]
     processor = AutoProcessor.from_pretrained(model_choice)
-    model = AutoModel.from_pretrained(model_choice).to('cuda')
     inputs = processor(
         text=activities_list,
-        videos=video_np,  # Use the ndarray instead of the list
         return_tensors="pt",
         padding=True,
     )
-    inputs = {name: tensor.to('cuda') for name, tensor in inputs.items()}
     with torch.no_grad():
         outputs = model(**inputs)
-    logits_per_video = outputs.logits_per_video.cpu()
     probs = logits_per_video.softmax(dim=1)
     results_probs = []
@@ -88,7 +79,7 @@ def model_interface(uploaded_video, model_choice, activity):
     likely_label = activities_list[max_prob_index]
     likely_probability = float(probs[0][max_prob_index]) * 100
-    return concatenated_image, results_probs, results_logits, [likely_label, likely_probability]
 iface = gr.Interface(
     fn=model_interface,
@@ -110,4 +101,4 @@ iface = gr.Interface(
     live=False
 )
-iface.launch()

 import numpy as np
 from transformers import AutoProcessor, AutoModel
 from PIL import Image
+from decord import VideoReader, cpu
 def sample_uniform_frame_indices(clip_len, seg_len):
     if seg_len < clip_len:
     return np.array(indices).astype(np.int64)
 def read_video_decord(file_path, indices):
+    vr = VideoReader(file_path, num_threads=1, ctx=cpu(0))
     video = vr.get_batch(indices).asnumpy()
     return video
         "microsoft/xclip-base-patch32-16-frames": 16,
         "microsoft/xclip-base-patch32": 8
     }.get(model_choice, 32)
     indices = sample_uniform_frame_indices(clip_len, seg_len=len(VideoReader(uploaded_video)))
     video = read_video_decord(uploaded_video, indices)
     concatenated_image = concatenate_frames(video, clip_len)
+    # Appending "other" to the list of activities
     activities_list = [activity, "other"]
     processor = AutoProcessor.from_pretrained(model_choice)
+    model = AutoModel.from_pretrained(model_choice)
     inputs = processor(
         text=activities_list,
+        videos=list(video),
         return_tensors="pt",
         padding=True,
     )
     with torch.no_grad():
         outputs = model(**inputs)
+    logits_per_video = outputs.logits_per_video
     probs = logits_per_video.softmax(dim=1)
     results_probs = []
     likely_label = activities_list[max_prob_index]
     likely_probability = float(probs[0][max_prob_index]) * 100
+    return concatenated_image, results_probs, results_logits, [ likely_label , likely_probability ]
 iface = gr.Interface(
     fn=model_interface,
     live=False
 )
+iface.launch()