Spaces:

ManishThota
/

Build

Paused

App Files Files Community

ManishThota commited on Mar 7, 2024

Commit

7294f1e

verified ·

1 Parent(s): 634326a

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -13

app.py CHANGED Viewed

@@ -20,19 +20,51 @@ model = AutoModelForCausalLM.from_pretrained("ManishThota/SparrowVQE",
 tokenizer = AutoTokenizer.from_pretrained("ManishThota/SparrowVQE", trust_remote_code=True)
-def process_video(video_bytes):
-    """Extracts frames from the video, 1 per second."""
-    video = cv2.VideoCapture(io.BytesIO(video_bytes))
-    fps = video.get(cv2.CAP_PROP_FPS)
-    frames = []
-    success, frame = video.read()
-    while success:
-        frames.append(frame)
-        for _ in range(int(fps)):  # Skip fps frames
-            success, frame = video.read()
-    video.release()
-    return frames[:4]  # Return the first 4 frames
 def predict_answer(image, video, question, max_tokens=100):
@@ -53,7 +85,7 @@ def predict_answer(image, video, question, max_tokens=100):
     elif video:
         # Process as a video
-        frames = process_video(video)
         answers = []
         for frame in frames:
             frame = Image.open(frame).convert("RGB")

 tokenizer = AutoTokenizer.from_pretrained("ManishThota/SparrowVQE", trust_remote_code=True)
+# def process_video(video_bytes):
+#     """Extracts frames from the video, 1 per second."""
+#     video = cv2.VideoCapture(io.BytesIO(video_bytes))
+#     fps = video.get(cv2.CAP_PROP_FPS)
+#     frames = []
+#     success, frame = video.read()
+#     while success:
+#         frames.append(frame)
+#         for _ in range(int(fps)):  # Skip fps frames
+#             success, frame = video.read()
+#     video.release()
+#     return frames[:4]  # Return the first 4 frames
+def video_to_frames(video_path):
+    """Converts a video file into frames and stores them as PNG images in a list."""
+    # List to hold frames encoded as PNG
+    frames_png = []
+    # Open the video file
+    cap = cv2.VideoCapture(video_path)
+    # Check if video opened successfully
+    if not cap.isOpened():
+        print("Error opening video file")
+        return frames_png
+    # Read until video is completed
+    while cap.isOpened():
+        # Capture frame-by-frame
+        ret, frame = cap.read()
+        # If frame is read correctly ret is True
+        if not ret:
+            print("Can't receive frame (stream end?). Exiting ...")
+            break
+        # Convert the frame to PNG and store it
+        is_success, buffer = cv2.imencode(".png", frame)
+        if is_success:
+            frames_png.append(np.array(buffer).tobytes())
+    # When everything done, release the video capture object
+    cap.release()
+    return frames_png
 def predict_answer(image, video, question, max_tokens=100):
     elif video:
         # Process as a video
+        frames = video_to_frames(video)
         answers = []
         for frame in frames:
             frame = Image.open(frame).convert("RGB")