Feature Fusion TF-IDF dan Analisis URL untuk Deteksi Phishing Lintas Domain dengan LinearSVC
DOI:
https://doi.org/10.63547/jiite.v3i1.118
Keywords:
phishing email, feature fusion, TF-IDF, LinearSVC, evaluasi lintas domainAbstract
Meningkatnya serangan phishing melalui email menuntut sistem deteksi otomatis yang tidak hanya akurat, tetapi juga mampu beradaptasi terhadap perbedaan karakteristik data antar domain. Meskipun berbagai pendekatan berbasis machine learning telah menunjukkan performa tinggi, sebagian besar penelitian masih berfokus pada penggunaan satu jenis fitur dan evaluasi dalam satu domain, sehingga kemampuan generalisasi model pada data nyata yang heterogen belum teruji secara komprehensif. Penelitian ini bertujuan untuk mengatasi keterbatasan tersebut dengan mengusulkan pendekatan deteksi email phishing yang lebih menyeluruh melalui integrasi fitur tekstual dan struktural serta evaluasi lintas domain. Metode yang diusulkan mengombinasikan fitur tekstual dari badan email yang diekstraksi menggunakan Term Frequency–Inverse Document Frequency (TF-IDF) dan fitur struktural URL dalam skema feature fusion, dengan proses klasifikasi menggunakan algoritma Linear Support Vector Classifier (LinearSVC) yang efisien untuk data berdimensi tinggi dan bersifat sparse. Dataset SpamAssassin digunakan sebagai data pelatihan dan evaluasi internal, sedangkan dataset Enron digunakan untuk evaluasi lintas domain guna mengukur ketahanan model terhadap domain bias. Hasil evaluasi internal menunjukkan bahwa model mencapai akurasi sebesar 98,84% dengan nilai F1-score makro 97,75%, sementara pada evaluasi lintas domain model mempertahankan kemampuan deteksi email legitimate dengan nilai recall sebesar 93,62% meskipun terjadi penurunan kinerja akibat perbedaan distribusi data. Temuan ini menunjukkan bahwa pendekatan feature fusion lebih tangguh dibandingkan penggunaan fitur tunggal dan efektif sebagai baseline deteksi phishing lintas domain, serta berpotensi dikembangkan lebih lanjut melalui strategi adaptasi domain untuk meningkatkan ketahanan model pada lingkungan nyata.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2026 Journal of Informatics and Interactive Technology

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.










