Skip to content

NeekJK/SpeechEmotionRecognition

Repository files navigation

SER

Speech Emotion Recognition (SER)

Intro

Speech Emotion Recognition adalah sebuah sistem dimana perasaan atau emosi seseorang dapat diklasifikasikan dari gaya berbicaranya. Berdasarkan teori speech emotion analysis oleh Patrik dan Klaus (2008), emosi seseorang dapat dirasakan secara nonverbal dari perubahan ritme respirasi, tensi otot yang menggetarkan suara dan mengganti karakteristik akustik, dan lain-lain. Diferensiasi dari emosi tersebut terbukti susah untuk ditentukan, karena sifat natural suara yang kompleks. Contohnya, susah dibedakan emosi spontan dan emosi yang lama terbuat, atau emosi dingin ataupun emosi yang panas.

Menggunakan teknologi Machine Learning, diharapkan dapat ditentukan fitur-fitur unik suara yang sangat kompleks dan heterogen oleh feature analysis dan diprediksi dengan akurat menggunakan teknologi deep learning.

Metode

Ditentukan beberapa tahapan yang akan dilakukan dalam melakukan data mining dan modelling pada proyek ini, tahapan-tahapan tersebut adalah:

  1. Studi Literatur
  2. Studi literatur dilakukan untuk menentukan pendekatan terbaik untuk mendapatkan sistema yang efektif dan efisien berdasarkan penelitian dan pendekatan yang telah dilakukan sebelumnya oleh peneliti lain

  3. Pencaharian Data
  4. Data yang digunakan pada proyek ini adalah data hasil "scrapping" yang bersumber dari situs YouTube yang lalu di label secara manual berdasarkan emosi yang terdengar pada video tersebut. Video lalu disegmentasi per 3 detik yang lalu diekspor menjadi file suara .wav atau .mp3

  5. Eksplorasi dan Visualisasi Data
  6. Eksplorasi, Visualisasi Data Analysis (EVD/EDA) dilakukan untuk menentukan pendekatan yang lebih spesifik terhadap data yang dimiliki didapat di tahap sebelumnya. Analysis ini diharapkan akan memberikan ide akan parameter yang akan digunakan pada tahap ekstraksi fitur

  7. Ekstraksi Fitur
  8. Ekstraksi fitur adalah tahap terpenting dalam proyek ini, dikarenakan hasil akhir model akan ditentukan oleh seberapa baik data yang masuk ke dalam sistem. Ada banyak parameter yang dapat diubah untuk mendapatkan fitur terbaik di antara kelas. Parameter tersebut ditentukan berdasarkan hasil dari tahap sebelumnya

  9. Pembuatan Model / Aristektur Deep Learning
  10. Pada tahap ini, data hasil ekstraksi fitur yang telah dilakukan pada tahap sebelumnya, dimasukkan ke dalam model machine learning ataupun model deep learning. Juga terdapat banyak parameter atau knofigurasi yang dapat dibuat pada saat pemodelan deep learning, tapi untuk proyek ini digunakan arsitektur yang digunakan pada salah satu studi yang telah dilakukan (RNN Bi-directional LSTM)

  11. Evaluasi dan Prediksi
  12. Tahap ini adalah tahap terakhir dari proyek, dimana model yang telah dibuat dievaluasi untuk akurasinya dan dilakukan prediksi langsung terhadap suara yang baru.

Metodologi

Dataset

Dataset yang digunakan dalam analisis penelitian ini dapat diakses pada link berikut: https://tinyurl.com/DatasetAudio-KelompokC. Data tersebut merupakan hasil scrapping video di YouTube yang merepresentasikan 4 ekspresi manusia, yakni marah, sedih, senang, dan netral. Label angry terdiri dari 1.302 data, label happy terdiri dari 427 data, label neutral terdiri dari 624 data, dan label sad terdiri dari 897 data.



Authors

Supervisor : Ratih Ardiati Ningrum, M.S., M.Stat.

  • Hafiyyah k. S.
  • Aretha levi
  • Nicholas Juan K.
  • rofa arfaqo

Contributing

Pull requests are welcome. For major changes, how-to, and in-depth explanation, please contact one of the authors.

License


This project is licensed under GNU General Public License v3.0 - see the [LICENSE](https://github.com/Neek0tine/SpeechEmotionRecognition/blob/main/LICENSE) file for details.

About

A simple script to recognize emotion based on speech audio

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages