Model Card for Human Activity Recognition (HAR) - ResNet50 + Bi-LSTM

Model Details

Model Description

Đây là một mô hình phân loại chuỗi video được thiết kế để giải quyết bài toán Nhận dạng Hoạt động của Con người (Human Activity Recognition - HAR) từ các video ngắn.

Mô hình này sử dụng kiến trúc lai (hybrid) bao gồm:

  1. ResNet50 (Pre-trained trên ImageNet): Hoạt động như một bộ trích xuất đặc trưng không gian (spatial feature extractor) từ từng khung hình video, loại bỏ lớp phân loại cuối cùng (Fully Connected - FC layer). Đầu ra là vector đặc trưng 2048 chiều.
  2. Bi-LSTM Đa tầng (Multi-layer Bidirectional LSTM): Hoạt động như một mô hình học tuần tự (sequential learning model) để nắm bắt các mối quan hệ thời gian (temporal relationships) giữa chuỗi các vector đặc trưng được trích xuất từ các khung hình liên tiếp.

Hệ thống được cải tiến bằng cách sử dụng ResNet50 thay cho AlexNet để khắc phục vấn đề vanishing gradient và thêm lớp Dropout để giảm thiểu hiện tượng overfitting.

  • Developed by: Đinh Nguyễn Gia Bảo , Hoàng Bảo Khanh (Trường Đại học Khoa học Tự nhiên, ĐHQG-TPHCM )
  • Model type: Hybrid Deep Learning Model (CNN-LSTM) / Video Classification
  • Language(s) (NLP): N/A (Tập trung vào Thị giác máy tính - Computer Vision)
  • License: MIT
  • Finetuned from model [optional]: ResNet50 (Pre-trained trên ImageNet)

Uses

Direct Use

Mô hình này được thiết kế để phân loại hành động trong các video ngắn đầu vào.

  • Đầu vào: Video định dạng MP4 hoặc AVI.
  • Đầu ra: Nhãn hành động dự đoán (ví dụ: "Bowling", "Diving", "Horse Riding").

Downstream Use

  • Chăm sóc sức khỏe: Theo dõi hành động của bệnh nhân, phát hiện các triệu chứng bất thường.
  • Giám sát an ninh: Phát hiện hành vi bất thường tại các khu vực nhạy cảm (ngân hàng, sân bay, nhà ở).
  • Theo dõi thể chất (Fitness tracking): Phân tích và theo dõi các hoạt động thể chất.

Bias, Risks, and Limitations

  • Hạn chế về dữ liệu: Mô hình được đánh giá trên các bộ dữ liệu chuẩn UCF11, UCF50, UCF101, chủ yếu là các video thể thao hoặc hành động đơn giản. Khả năng khái quát hóa đối với các hành động phức tạp, phi thực tế hoặc các môi trường có nhiều nhiễu thị giác có thể bị hạn chế.
  • Tương tự thị giác: Vẫn tồn tại nhầm lẫn giữa các hành động có biểu hiện hình ảnh tương tự nhau (ví dụ: "JumpRope" với "JumpingJack" , "BenchPress với “PushUps" ).
  • Tốc độ suy luận (Inference Speed): Tối ưu hóa tốc độ suy luận vẫn là một hướng nghiên cứu tiềm năng để ứng dụng trong các hệ thống thời gian thực hoặc thiết bị nhúng.

Training Details

Training Data

Mô hình được huấn luyện và đánh giá trên ba bộ dữ liệu chuẩn về hành động:

  • UCF11 (Youtube Action Dataset): 11 lớp hành động.
  • UCF50: 50 lớp hành động.
  • UCF101: 101 lớp hành động (13,320 video).

Training Procedure

Preprocessing

  • Chuyển đổi Video: Video được chuyển thành chuỗi khung hình (frames).
  • Trích xuất Khung hình: Chọn 32 khung hình đầu tiên từ mỗi video.
  • Thay đổi Kích thước: Khung hình được resize về $224\times224$ pixels (kích thước chuẩn cho ResNet50).
  • Chuẩn hóa (Normalization): Khung hình được chuẩn hóa bằng phương pháp Z-score dựa trên giá trị trung bình và độ lệch chuẩn của tập ImageNet.

Training Hyperparameters

Tham số Giá trị
Số lượng epoch tối đa 100
Số lượng frame 16 (trong bảng thống kê) hoặc 32 (trong mô hình đề xuất)
Kích thước lớp ẩn (Hidden size) 256
Tỷ lệ học (Learning rate) 0.0001
Patience (Early Stopping) 10
Kích thước batch (Batch size) 16
Hàm lỗi (Loss function) Cross-entropy
Kỹ thuật Regularization Dropout (Tỷ lệ 0.2/20%) , Early Stopping
Tối ưu hóa (Optimizer) Tối ưu hóa ngẫu nhiên (Stochastic optimization) với Learning Rate Scheduler

Speeds, Sizes, Times

Dataset Feat. Time (s) Train Time (s)
UCF11 86.91 7.75
UCF50 557.77 108.60
UCF101 1773.93 106.37

Evaluation

Testing Data, Factors & Metrics

  • Testing Data: Tập kiểm thử được chia ngẫu nhiên chiếm 20% tổng dữ liệu.
  • Metrics: Mô hình được đánh giá bằng các chỉ số: Accuracy (Độ chính xác), Precision (Độ chính xác theo lớp), Recall (Độ phủ), F1-Score (Trung bình điều hòa của Precision và Recall), và AUC (Area Under the Curve).

Results

Dataset Accuracy Loss F1-Score AUC
UCF11 97.50% 0.0726 0.9731 0.9998
UCF50 94.76% 0.1782 0.9449 0.9993
UCF101 94.37% 0.2128 0.9408 0.9995

Summary

Mô hình đạt hiệu suất rất cao trên cả ba tập dữ liệu, với Độ chính xác luôn trên 94%giá trị AUC xấp xỉ 1.0 , chứng minh khả năng phân biệt lớp cực kỳ tốt.

Technical Specifications

Model Architecture and Objective

  • Kiến trúc: CNN (ResNet50) + Recurrent Network (Multi-layer Bi-LSTM).
  • Mục tiêu: Phân loại hành động từ chuỗi khung hình video (Video Classification for HAR).

Compute Infrastructure

  • Phần mềm (Software): Python 3.10 trở lên , PyTorch (hoặc TensorFlow) , VS Code , NumPy , Pandas , Scikit-learn , Matplotlib , Seaborn.

Citation

[1] University of Central Florida, "UCF Youtube Action Data Set", [Online]. Available: https://www.crcv.ucf.edu/data/UCF_YouTube_Action.php [2] A. Yilmaz and M. Shah, “Actions sketch: A novel action representation,” in Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2005, pp. 984–989. [3] L. Gorelick, M. Blank, E. Shechtman, M. Irani, and R. Basri, “Actions as space-time shapes,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 29, no. 12, pp. 2247–2253, Dec. 2007. [4] Chanlong Zhang, Yuanping Xu, Zhijie Xu, Jian Huang, Jun Ju. 2021. Hybrid handcrafted and learned feature framework for human action recognition. 52:12771–12787. [5] Waqar Ahmad, Misbah Kazmi, Hazrat Ali, "Human Activity Recognition using Multi-Head CNN followed by LSTM", 21 Feb 2020. [6] Iman Deznabi, Madalina Fiterau, "MultiWave: Multiresolution Deep Architectures through Wavelet Decomposition for Multivariate Time Series Prediction", 16 Jun 2023 [7] Garima Pandey1, Abhishek Kumar Karn2, Manish Jha, "Human Activity Recognition Using CNN-LSTM-GRU Model", April 2024 [8] Erdal Genc, Mustafa Eren Yildirim, Yucel Batu Salman, "Human activity recognition with fine-tuned CNN-LSTM", February 2024 [9] Amin Ullah, Jamil Ahmad, Khan Muhammad, Muhammad Sajjad, Sung Wook Baik. "Action Recognition in Video Sequences using Deep Bi- Directional LSTM With CNN Features", February 14 2018. [10] University of Central Florida, "UCF101 - Action Recognition Data Set", [Online]. Available: https://www.crcv.ucf.edu/data/UCF101.php [11] University of Central Florida, "UCF50 - Action Recognition Data Set", [Online]. Available: https://www.crcv.ucf.edu/data/UCF50.php

APA:

Đinh Nguyễn Gia Bảo, & Hoàng Bảo Khanh. (2025). Human Activity Recognition (HAR). Trường Đại học Khoa học Tự nhiên, ĐHQG-TPHCM.

BibTeX:

@techreport{GiaBao2025HAR,
  author = {Đinh Nguyễn Gia Bảo and Hoàng Bảo Khanh},
  title = {Human Activity Recognition (HAR)},
  institution = {Trường Đại học Khoa học Tự nhiên, ĐHQG-TPHCM},
  year = {2025},
  note = {Báo cáo nghiên cứu khoa học}
}
Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support