BISINDO CNN Hand Landmark Classifier

Model ini merupakan model klasifikasi alfabet BISINDO (Bahasa Isyarat Indonesia) menggunakan CNN (Convolutional Neural Network) berbasis data landmark 2 tangan yang diekstraksi menggunakan MediaPipe. Model ini dikembangkan menggunakan Keras Functional API.

Arsitektur Model

Model CNN dikembangkan dengan arsitektur sederhana menggunakan Conv1D yang dirancang untuk memproses urutan data landmark tangan:

input_layer = Input(shape=(42, 3), name='input')
x = Conv1D(64, 3, activation='relu')(input_layer)
x = MaxPooling1D(2)(x)
x = Conv1D(128, 3, activation='relu')(x)
x = MaxPooling1D(2)(x)
x = Flatten()(x)
x = Dense(128, activation='relu')(x)
x = Dropout(0.4)(x)
output_layer = Dense(y.shape[1], activation='softmax')(x)

Dataset

Dataset awal berasal dari hasil ekstraksi gambar alfabet BISINDO.
Untuk mengatasi keterbatasan jumlah data dan mencegah overfitting, dilakukan augmentasi data 10x lipat menggunakan:Rotasi (±15°),Skala (zoom in/out),Translasi acak, dan Gaussian noise ringan

Akurasi Model

Akurasi training: 98.7%
Akurasi validasi: 97.9%
Jumlah epoch: 28 (Early stopping)

Classification Report (Precision, Recall, F1-Score, Support):

          precision    recall  f1-score   support

       A       0.99      0.98      0.99       235
       B       0.98      0.98      0.98       315
       C       0.97      1.00      0.99       319
       D       0.98      0.98      0.98       337
       E       0.98      0.99      0.99       320
       F       0.99      0.99      0.99       307
       G       1.00      1.00      1.00       329
       H       1.00      0.99      1.00       313
       I       1.00      1.00      1.00       345
       J       1.00      1.00      1.00       328
       K       0.97      1.00      0.99       309
       L       0.99      0.99      0.99       347
       M       0.96      0.96      0.96       378
       N       0.96      0.95      0.95       372
       O       1.00      1.00      1.00       331
       P       0.99      0.97      0.98       369
       Q       0.98      0.99      0.99       306
       R       0.99      0.99      0.99       342
       S       0.98      0.98      0.98       327
       T       1.00      0.98      0.99       304
       U       1.00      0.99      1.00       336
       V       0.99      1.00      1.00       336
       W       0.99      0.99      0.99       308
       X       0.99      1.00      0.99       320
       Y       0.98      1.00      0.99       225
       Z       1.00      1.00      1.00       286

accuracy                           0.99      8344

macro avg 0.99 0.99 0.99 8344 weighted avg 0.99 0.99 0.99 8344

🔍 Evaluasi

Model diuji menggunakan confusion matrix dan visualisasi learning curve untuk memastikan tidak terjadi overfitting.

📁 Struktur Input Data

Shape: (42, 3) Tipe: float32 Format: landmark dua tangan dari MediaPipe

🤝 Kontribusi & Lisensi

Silakan gunakan model ini untuk pembelajaran, riset, dan pengembangan aplikasi Bahasa Isyarat. Mohon mencantumkan referensi jika digunakan secara publik.

Lisensi: MIT License

Downloads last month: 6

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support