Model Card for Human Activity Recognition (HAR) - ResNet50 + Bi-LSTM
Model Details
Model Description
Đây là một mô hình phân loại chuỗi video được thiết kế để giải quyết bài toán Nhận dạng Hoạt động của Con người (Human Activity Recognition - HAR) từ các video ngắn.
Mô hình này sử dụng kiến trúc lai (hybrid) bao gồm:
- ResNet50 (Pre-trained trên ImageNet): Hoạt động như một bộ trích xuất đặc trưng không gian (spatial feature extractor) từ từng khung hình video, loại bỏ lớp phân loại cuối cùng (Fully Connected - FC layer). Đầu ra là vector đặc trưng 2048 chiều.
- Bi-LSTM Đa tầng (Multi-layer Bidirectional LSTM): Hoạt động như một mô hình học tuần tự (sequential learning model) để nắm bắt các mối quan hệ thời gian (temporal relationships) giữa chuỗi các vector đặc trưng được trích xuất từ các khung hình liên tiếp.
Hệ thống được cải tiến bằng cách sử dụng ResNet50 thay cho AlexNet để khắc phục vấn đề vanishing gradient và thêm lớp Dropout để giảm thiểu hiện tượng overfitting.
- Developed by: Đinh Nguyễn Gia Bảo , Hoàng Bảo Khanh (Trường Đại học Khoa học Tự nhiên, ĐHQG-TPHCM )
- Model type: Hybrid Deep Learning Model (CNN-LSTM) / Video Classification
- Language(s) (NLP): N/A (Tập trung vào Thị giác máy tính - Computer Vision)
- License: MIT
- Finetuned from model [optional]: ResNet50 (Pre-trained trên ImageNet)
Uses
Direct Use
Mô hình này được thiết kế để phân loại hành động trong các video ngắn đầu vào.
- Đầu vào: Video định dạng MP4 hoặc AVI.
- Đầu ra: Nhãn hành động dự đoán (ví dụ: "Bowling", "Diving", "Horse Riding").
Downstream Use
- Chăm sóc sức khỏe: Theo dõi hành động của bệnh nhân, phát hiện các triệu chứng bất thường.
- Giám sát an ninh: Phát hiện hành vi bất thường tại các khu vực nhạy cảm (ngân hàng, sân bay, nhà ở).
- Theo dõi thể chất (Fitness tracking): Phân tích và theo dõi các hoạt động thể chất.
Bias, Risks, and Limitations
- Hạn chế về dữ liệu: Mô hình được đánh giá trên các bộ dữ liệu chuẩn UCF11, UCF50, UCF101, chủ yếu là các video thể thao hoặc hành động đơn giản. Khả năng khái quát hóa đối với các hành động phức tạp, phi thực tế hoặc các môi trường có nhiều nhiễu thị giác có thể bị hạn chế.
- Tương tự thị giác: Vẫn tồn tại nhầm lẫn giữa các hành động có biểu hiện hình ảnh tương tự nhau (ví dụ: "JumpRope" với "JumpingJack" , "BenchPress với “PushUps" ).
- Tốc độ suy luận (Inference Speed): Tối ưu hóa tốc độ suy luận vẫn là một hướng nghiên cứu tiềm năng để ứng dụng trong các hệ thống thời gian thực hoặc thiết bị nhúng.
Training Details
Training Data
Mô hình được huấn luyện và đánh giá trên ba bộ dữ liệu chuẩn về hành động:
- UCF11 (Youtube Action Dataset): 11 lớp hành động.
- UCF50: 50 lớp hành động.
- UCF101: 101 lớp hành động (13,320 video).
Training Procedure
Preprocessing
- Chuyển đổi Video: Video được chuyển thành chuỗi khung hình (frames).
- Trích xuất Khung hình: Chọn 32 khung hình đầu tiên từ mỗi video.
- Thay đổi Kích thước: Khung hình được resize về $224\times224$ pixels (kích thước chuẩn cho ResNet50).
- Chuẩn hóa (Normalization): Khung hình được chuẩn hóa bằng phương pháp Z-score dựa trên giá trị trung bình và độ lệch chuẩn của tập ImageNet.
Training Hyperparameters
| Tham số | Giá trị |
|---|---|
| Số lượng epoch tối đa | 100 |
| Số lượng frame | 16 (trong bảng thống kê) hoặc 32 (trong mô hình đề xuất) |
| Kích thước lớp ẩn (Hidden size) | 256 |
| Tỷ lệ học (Learning rate) | 0.0001 |
| Patience (Early Stopping) | 10 |
| Kích thước batch (Batch size) | 16 |
| Hàm lỗi (Loss function) | Cross-entropy |
| Kỹ thuật Regularization | Dropout (Tỷ lệ 0.2/20%) , Early Stopping |
| Tối ưu hóa (Optimizer) | Tối ưu hóa ngẫu nhiên (Stochastic optimization) với Learning Rate Scheduler |
Speeds, Sizes, Times
| Dataset | Feat. Time (s) | Train Time (s) |
|---|---|---|
| UCF11 | 86.91 | 7.75 |
| UCF50 | 557.77 | 108.60 |
| UCF101 | 1773.93 | 106.37 |
Evaluation
Testing Data, Factors & Metrics
- Testing Data: Tập kiểm thử được chia ngẫu nhiên chiếm 20% tổng dữ liệu.
- Metrics: Mô hình được đánh giá bằng các chỉ số: Accuracy (Độ chính xác), Precision (Độ chính xác theo lớp), Recall (Độ phủ), F1-Score (Trung bình điều hòa của Precision và Recall), và AUC (Area Under the Curve).
Results
| Dataset | Accuracy | Loss | F1-Score | AUC |
|---|---|---|---|---|
| UCF11 | 97.50% | 0.0726 | 0.9731 | 0.9998 |
| UCF50 | 94.76% | 0.1782 | 0.9449 | 0.9993 |
| UCF101 | 94.37% | 0.2128 | 0.9408 | 0.9995 |
Summary
Mô hình đạt hiệu suất rất cao trên cả ba tập dữ liệu, với Độ chính xác luôn trên 94% và giá trị AUC xấp xỉ 1.0 , chứng minh khả năng phân biệt lớp cực kỳ tốt.
Technical Specifications
Model Architecture and Objective
- Kiến trúc: CNN (ResNet50) + Recurrent Network (Multi-layer Bi-LSTM).
- Mục tiêu: Phân loại hành động từ chuỗi khung hình video (Video Classification for HAR).
Compute Infrastructure
- Phần mềm (Software): Python 3.10 trở lên , PyTorch (hoặc TensorFlow) , VS Code , NumPy , Pandas , Scikit-learn , Matplotlib , Seaborn.
Citation
[1] University of Central Florida, "UCF Youtube Action Data Set", [Online]. Available: https://www.crcv.ucf.edu/data/UCF_YouTube_Action.php [2] A. Yilmaz and M. Shah, “Actions sketch: A novel action representation,” in Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2005, pp. 984–989. [3] L. Gorelick, M. Blank, E. Shechtman, M. Irani, and R. Basri, “Actions as space-time shapes,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 29, no. 12, pp. 2247–2253, Dec. 2007. [4] Chanlong Zhang, Yuanping Xu, Zhijie Xu, Jian Huang, Jun Ju. 2021. Hybrid handcrafted and learned feature framework for human action recognition. 52:12771–12787. [5] Waqar Ahmad, Misbah Kazmi, Hazrat Ali, "Human Activity Recognition using Multi-Head CNN followed by LSTM", 21 Feb 2020. [6] Iman Deznabi, Madalina Fiterau, "MultiWave: Multiresolution Deep Architectures through Wavelet Decomposition for Multivariate Time Series Prediction", 16 Jun 2023 [7] Garima Pandey1, Abhishek Kumar Karn2, Manish Jha, "Human Activity Recognition Using CNN-LSTM-GRU Model", April 2024 [8] Erdal Genc, Mustafa Eren Yildirim, Yucel Batu Salman, "Human activity recognition with fine-tuned CNN-LSTM", February 2024 [9] Amin Ullah, Jamil Ahmad, Khan Muhammad, Muhammad Sajjad, Sung Wook Baik. "Action Recognition in Video Sequences using Deep Bi- Directional LSTM With CNN Features", February 14 2018. [10] University of Central Florida, "UCF101 - Action Recognition Data Set", [Online]. Available: https://www.crcv.ucf.edu/data/UCF101.php [11] University of Central Florida, "UCF50 - Action Recognition Data Set", [Online]. Available: https://www.crcv.ucf.edu/data/UCF50.php
APA:
Đinh Nguyễn Gia Bảo, & Hoàng Bảo Khanh. (2025). Human Activity Recognition (HAR). Trường Đại học Khoa học Tự nhiên, ĐHQG-TPHCM.
BibTeX:
@techreport{GiaBao2025HAR,
author = {Đinh Nguyễn Gia Bảo and Hoàng Bảo Khanh},
title = {Human Activity Recognition (HAR)},
institution = {Trường Đại học Khoa học Tự nhiên, ĐHQG-TPHCM},
year = {2025},
note = {Báo cáo nghiên cứu khoa học}
}
- Downloads last month
- -