Analisis Perbandingan: SMOTE dan Undersampling pada Klasifikasi Spam Naïve Bayes
Studi Eksperimen perbandingan pada Dataset Email Berbahasa Indonesia
DOI:
https://doi.org/10.63547/jiite.v2i2.92

Keywords:
Naïve Bayes, Spam Email, Bahasa Indonesia, SMOTE, Random UndersamplingAbstract
Spam email merupakan masalah serius dalam komunikasi digital, dan sebagian besar riset mengenai deteksi spam masih terfokus pada dataset berbahasa Inggris, sehingga menciptakan celah penelitian untuk bahasa lain seperti bahasa Indonesia. Penelitian ini bertujuan untuk mengisi celah tersebut dengan mengimplementasikan algoritma Naïve Bayes untuk klasifikasi spam pada dataset berbahasa Indonesia. Selain itu, penelitian ini juga membandingkan efektivitas dua teknik penyeimbangan data, yaitu Synthetic Minority Over-sampling Technique (SMOTE) dan Random Undersampling (RUS), untuk menemukan pendekatan yang paling optimal. Metode penelitian mencakup beberapa tahapan, mulai dari pra-pemrosesan data, ekstraksi fitur menggunakan TF-IDF dan N-gram, hingga pelatihan model Naïve Bayes. Hasil evaluasi menunjukkan bahwa kedua model memiliki performa yang sangat baik. Model dengan teknik RUS sedikit lebih unggul dengan akurasi 95,74%, presisi 95,92%, dan F1-score 95,73%, dibandingkan model SMOTE yang mencapai akurasi 95,63%. Kesimpulannya, teknik RUS menunjukkan hasil yang lebih stabil dan efisien untuk dataset ini, membuktikan bahwa Naïve Bayes adalah solusi yang kuat untuk deteksi spam berbahasa Indonesia.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Journal of Informatics and Interactive Technology

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.