Menggunakan teknologi Machine Learning, diharapkan dapat ditentukan fitur-fitur unik suara yang sangat kompleks dan heterogen oleh feature analysis dan diprediksi dengan akurat menggunakan teknologi deep learning.
Ditentukan beberapa tahapan yang akan dilakukan dalam melakukan data mining dan modelling pada proyek ini, tahapan-tahapan tersebut adalah:
- Studi Literatur
- Pencaharian Data
- Eksplorasi dan Visualisasi Data
- Ekstraksi Fitur
- Pembuatan Model / Aristektur Deep Learning
- Evaluasi dan Prediksi
Studi literatur dilakukan untuk menentukan pendekatan terbaik untuk mendapatkan sistema yang efektif dan efisien berdasarkan penelitian dan pendekatan yang telah dilakukan sebelumnya oleh peneliti lain
Data yang digunakan pada proyek ini adalah data hasil "scrapping" yang bersumber dari situs YouTube yang lalu di label secara manual berdasarkan emosi yang terdengar pada video tersebut. Video lalu disegmentasi per 3 detik yang lalu diekspor menjadi file suara .wav atau .mp3
Eksplorasi, Visualisasi Data Analysis (EVD/EDA) dilakukan untuk menentukan pendekatan yang lebih spesifik terhadap data yang dimiliki didapat di tahap sebelumnya. Analysis ini diharapkan akan memberikan ide akan parameter yang akan digunakan pada tahap ekstraksi fitur
Ekstraksi fitur adalah tahap terpenting dalam proyek ini, dikarenakan hasil akhir model akan ditentukan oleh seberapa baik data yang masuk ke dalam sistem. Ada banyak parameter yang dapat diubah untuk mendapatkan fitur terbaik di antara kelas. Parameter tersebut ditentukan berdasarkan hasil dari tahap sebelumnya
Pada tahap ini, data hasil ekstraksi fitur yang telah dilakukan pada tahap sebelumnya, dimasukkan ke dalam model machine learning ataupun model deep learning. Juga terdapat banyak parameter atau knofigurasi yang dapat dibuat pada saat pemodelan deep learning, tapi untuk proyek ini digunakan arsitektur yang digunakan pada salah satu studi yang telah dilakukan (RNN Bi-directional LSTM)
Tahap ini adalah tahap terakhir dari proyek, dimana model yang telah dibuat dievaluasi untuk akurasinya dan dilakukan prediksi langsung terhadap suara yang baru.
Dataset yang digunakan dalam analisis penelitian ini dapat diakses pada link berikut: https://tinyurl.com/DatasetAudio-KelompokC. Data tersebut merupakan hasil scrapping video di YouTube yang merepresentasikan 4 ekspresi manusia, yakni marah, sedih, senang, dan netral. Label angry terdiri dari 1.302 data, label happy terdiri dari 427 data, label neutral terdiri dari 624 data, dan label sad terdiri dari 897 data.
Supervisor : Ratih Ardiati Ningrum, M.S., M.Stat.
- Hafiyyah k. S.
- Aretha levi
- Nicholas Juan K.
- rofa arfaqo
Pull requests are welcome. For major changes, how-to, and in-depth explanation, please contact one of the authors.
This project is licensed under GNU General Public License v3.0 - see the [LICENSE](https://github.com/Neek0tine/SpeechEmotionRecognition/blob/main/LICENSE) file for details.