Spaces:

nouvellevision
/

VSL-VideoMAE

Build error

App Files Files Community

tanthinhdt commited on Apr 18, 2024

Commit

3b64f55

verified ·

1 Parent(s): b808ec1

feat: add application file

Browse files

Files changed (1) hide show

app.py +164 -0

app.py ADDED Viewed

	@@ -0,0 +1,164 @@

+import yaml
+import gradio as gr
+from mediapipe.python.solutions import holistic
+from torchvision.transforms.v2 import Compose, Lambda, Normalize
+from transformers import VideoMAEForVideoClassification, VideoMAEImageProcessor
+from utils import get_predictions, preprocess
+title = '''
+'''
+cite_markdown = '''
+'''
+description = '''
+'''
+examples = [
+    ['samples/000_con_cho.mp4', 'Con chó'],
+    ['samples/001_con_meo.mp4', 'Con mèo'],
+    ['samples/005_con_tho.mp4', 'Con thỏ'],
+    ['samples/006_con_trau.mp4', 'Con trâu'],
+    ['samples/007_con_bo.mp4', 'Con bò'],
+    ['samples/008_con_de.mp4', 'Con dê'],
+    ['samples/009_con_heo.mp4', 'Con heo'],
+    ['samples/010_mau_den.mp4', 'Màu đen'],
+    ['samples/021_qua_man.mp4', 'Quả mận'],
+    ['samples/022_qua_dua.mp4', 'Quả dứa'],
+    ['samples/023_qua_dao.mp4', 'Quả đào'],
+    ['samples/029_qua_dua.mp4', 'Quả dưa'],
+    ['samples/031_me.mp4', 'Mẹ'],
+    ['samples/032_con_trai.mp4', 'Con trai'],
+    ['samples/033_con_gai.mp4', 'Con gái'],
+    ['samples/035_chong.mp4', 'Chồng'],
+    ['samples/044_mach.mp4', 'Mách'],
+    ['samples/051_chay.mp4', 'Chạy'],
+    ['samples/054_mua.mp4', 'Múa'],
+    ['samples/055_nau.mp4', 'Nấu'],
+    ['samples/057_nham_lan.mp4', 'Nhầm lẫn'],
+    ['samples/059_cam_trai.mp4', 'Cắm trại'],
+    ['samples/060_cung_cap.mp4', 'Cung cấp'],
+    ['samples/062_bat_buoc.mp4', 'Bắt buộc'],
+    ['samples/064_mua_ban.mp4', 'Mua bán'],
+    ['samples/066_khong_nen.mp4', 'Không nên'],
+    ['samples/067_khong_can.mp4', 'Không cần'],
+    ['samples/069_khong_nghe_loi.mp4', 'Không nghe lời'],
+    ['samples/073_ngot.mp4', 'Ngọt'],
+    ['samples/079_chat.mp4', 'Chật'],
+    ['samples/080_hep.mp4', 'Hẹp'],
+    ['samples/081_rong.mp4', 'Rộng'],
+    ['samples/082_dai.mp4', 'Dài'],
+    ['samples/085_om.mp4', 'Ốm'],
+    ['samples/086_map.mp4', 'Mập'],
+    ['samples/087_ngoan.mp4', 'Ngoan'],
+    ['samples/089_khoe.mp4', 'Khoẻ'],
+    ['samples/091_dau.mp4', 'Đau'],
+    ['samples/095_tot_bung.mp4', 'Tốt bụng'],
+    ['samples/097_thu_vi.mp4', 'Thú vị'],
+]
+def inference(
+    video: str,
+    k: int,
+    model,
+    keypoints_detector,
+    data_height: int,
+    data_width: int,
+    model_input_height: int,
+    model_input_width: int,
+    device: str,
+    transform: Compose,
+    progress: gr.Progress,
+) -> tuple:
+    progress(0, desc='Preprocessing video')
+    inputs = preprocess(
+        model_num_frames=model.config.num_frames,
+        keypoints_detector=keypoints_detector,
+        source=video,
+        data_height=data_height,
+        data_width=data_width,
+        model_input_height=model_input_height,
+        model_input_width=model_input_width,
+        device=device,
+        transform=transform,
+    )
+    progress(1/2, desc='Getting predictions')
+    predictions = get_predictions(inputs=inputs, model=model, k=k)
+    output_message = ''
+    for i, prediction in enumerate(predictions):
+        output_message += f'{i}. {prediction["label"]} ({prediction["score"]})\n'
+    output_message = output_message.strip()
+    progress(1/2, desc='Completed')
+    return output_message
+if __name__ == '__main__':
+    with open('config.yaml', 'r') as file:
+        config = yaml.safe_load(file)
+    device = 'cpu'
+    image_processor = VideoMAEImageProcessor.from_pretrained(config['model']['name'])
+    model = VideoMAEForVideoClassification.from_pretrained(config['model']['name'])
+    model = model.eval().to(device)
+    mean = image_processor.image_mean
+    std = image_processor.image_std
+    if 'shortest_edge' in image_processor.size:
+        height = width = image_processor.size['shortest_edge']
+    else:
+        height = image_processor.size['height']
+        width = image_processor.size['width']
+    keypoints_detector = holistic.Holistic(
+        static_image_mode=False,
+        model_complexity=2,
+        enable_segmentation=True,
+        refine_face_landmarks=True,
+    )
+    transform = Compose(
+        [
+            Lambda(lambda x: x / 255.0),
+            Normalize(mean=mean, std=std),
+        ]
+    )
+    inference(
+        model=model,
+        keypoints_detector=keypoints_detector,
+        source=config['inference']['source'],
+        data_height=config['data']['height'],
+        data_width=config['data']['width'],
+        model_input_height=height,
+        model_input_width=width,
+        device=device,
+        transform=transform,
+    )
+    iface = gr.Interface(
+        fn=inference,
+        inputs=[
+            'video',
+            gr.components.Slider(
+                minimum=1,
+                maximum=5,
+                value=3,
+                step=1,
+                label='k',
+                info='Return top-k results',
+            ),
+        ],
+        outputs='text',
+        examples=examples,
+        title=title,
+        description=description,
+    )
+    iface.launch()