Analisis Perbandingan: SMOTE dan Undersampling pada Klasifikasi Spam Naïve Bayes

Studi Eksperimen perbandingan pada Dataset Email Berbahasa Indonesia

Authors

  • Rivaldo Jeffmarvin Universitas Amikom Purwokerto
  • Hafizh Dzaky Universitas Amikom Purwokerto
  • Yusup Ardiyanto Universitas Amikom Purwokerto
  • Apriliyanto Dwi Saputra Universitas Amikom Purwokerto
  • Deri Irawan Universitas Amikom Purwokerto
  • Jason Bernard Ardianto Sekolah Tinggi Ilmu Komputer Yos Sudarso

DOI:

https://doi.org/10.63547/jiite.v2i2.92
Abstract View: 0,

Keywords:

Naïve Bayes, Spam Email, Bahasa Indonesia, SMOTE, Random Undersampling

Abstract

Spam email merupakan masalah serius dalam komunikasi digital, dan sebagian besar riset mengenai deteksi spam masih terfokus pada dataset berbahasa Inggris, sehingga menciptakan celah penelitian untuk bahasa lain seperti bahasa Indonesia. Penelitian ini bertujuan untuk mengisi celah tersebut dengan mengimplementasikan algoritma Naïve Bayes untuk klasifikasi spam pada dataset berbahasa Indonesia. Selain itu, penelitian ini juga membandingkan efektivitas dua teknik penyeimbangan data, yaitu Synthetic Minority Over-sampling Technique (SMOTE) dan Random Undersampling (RUS), untuk menemukan pendekatan yang paling optimal. Metode penelitian mencakup beberapa tahapan, mulai dari pra-pemrosesan data, ekstraksi fitur menggunakan TF-IDF dan N-gram, hingga pelatihan model Naïve Bayes. Hasil evaluasi menunjukkan bahwa kedua model memiliki performa yang sangat baik. Model dengan teknik RUS sedikit lebih unggul dengan akurasi 95,74%, presisi 95,92%, dan F1-score 95,73%, dibandingkan model SMOTE yang mencapai akurasi 95,63%. Kesimpulannya, teknik RUS menunjukkan hasil yang lebih stabil dan efisien untuk dataset ini, membuktikan bahwa Naïve Bayes adalah solusi yang kuat untuk deteksi spam berbahasa Indonesia.

Published

2025-08-31

How to Cite

Rivaldo Jeffmarvin, Hafizh Dzaky, Yusup Ardiyanto, Apriliyanto Dwi Saputra, Deri Irawan, & Jason Bernard Ardianto. (2025). Analisis Perbandingan: SMOTE dan Undersampling pada Klasifikasi Spam Naïve Bayes: Studi Eksperimen perbandingan pada Dataset Email Berbahasa Indonesia. Journal of Informatics and Interactive Technology, 2(2), 377–383. https://doi.org/10.63547/jiite.v2i2.92

Issue

Section

Articles