Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert

Spam pada SMS dan Email menyebabkan pengalaman kurang menyenangkan bagi pengguna dalam pemanfaatan teknologi. Spam secara umum merupakan sebuah tindakan mengirim pesan yang tidak diinginkan atau tidak diminta kepada sejumlah besar orang. Spam kini dapat ditemui dalam berbagai bentuk, seperti web ma...

Full description

Saved in:
Bibliographic Details
Main Authors: Muhammad Basil Musyaffa Amin, Gibran Hakim, Muhammad Taufik Maulana, Muhammad Fajrul Alwan, Hanna Shafira Anggraheni, Muhammad Jilan Naufal, Novanto Yudistira
Format: Article
Language:Indonesian
Published: University of Brawijaya 2024-12-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Subjects:
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/8121
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858636193005568
author Muhammad Basil Musyaffa Amin
Gibran Hakim
Muhammad Taufik Maulana
Muhammad Fajrul Alwan
Hanna Shafira Anggraheni
Muhammad Jilan Naufal
Novanto Yudistira
author_facet Muhammad Basil Musyaffa Amin
Gibran Hakim
Muhammad Taufik Maulana
Muhammad Fajrul Alwan
Hanna Shafira Anggraheni
Muhammad Jilan Naufal
Novanto Yudistira
author_sort Muhammad Basil Musyaffa Amin
collection DOAJ
description Spam pada SMS dan Email menyebabkan pengalaman kurang menyenangkan bagi pengguna dalam pemanfaatan teknologi. Spam secara umum merupakan sebuah tindakan mengirim pesan yang tidak diinginkan atau tidak diminta kepada sejumlah besar orang. Spam kini dapat ditemui dalam berbagai bentuk, seperti web maupun multimedia. Penelitian ini bertujuan untuk mengevaluasi model berbasis BERT, khususnya IndoBERT dan MultilingualBERT, dalam mendeteksi dan mengklasifikasi spam berbahasa Indonesia pada pesan SMS dan Email. Model yang dipilih kemudian dilatih untuk mengidentifikasi perbedaan antara pesan spam dan bukan spam. Hasil evaluasi pada percobaan menggunakan dataset SMS dan Email memiliki nilai akurasi sebesar 98% pada model IndoBERT dan 95% pada model MultilingualBERT, yang menunjukkan tingkat akurasi yang tinggi. Hasil ini menunjukkan bahwa model BERT efektif dalam mendeteksi pesan spam dalam Bahasa Indonesia.   Abstract Spam on SMS and Email causes an unpleasant experience for users in using technology. Spam in general is the act of sending unwanted or unsolicited messages to a large number of people. Spam can now be found in various forms, such as web and multimedia. This research aims to evaluate BERT-based models, specifically IndoBERT and MultilingualBERT, in detecting and classifying Indonesian spam in SMS and Email messages. The selected model is then trained to identify the differences between spam and non-spam messages. Evaluation results in experiments using SMS and Email datasets have an accuracy value of 98% in the IndoBERT model and 95% in the MultilingualBERT model, which shows a high level of accuracy. These results indicate that the BERT model is effective in detecting spam messages in Indonesian.
format Article
id doaj-art-94921b0ddfbe454d933bcce504efb3aa
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2024-12-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-94921b0ddfbe454d933bcce504efb3aa2025-02-11T10:36:42ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792024-12-0111610.25126/jtiik.1168121Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model BertMuhammad Basil Musyaffa Amin0Gibran Hakim1Muhammad Taufik Maulana2Muhammad Fajrul Alwan3Hanna Shafira Anggraheni4Muhammad Jilan Naufal5Novanto Yudistira6Universitas Brawijaya, MalangUniversitas Brawijaya, MalangUniversitas Brawijaya, MalangUniversitas Brawijaya, MalangUniversitas Brawijaya, MalangUniversitas Brawijaya, MalangUniversitas Brawijaya, Malang Spam pada SMS dan Email menyebabkan pengalaman kurang menyenangkan bagi pengguna dalam pemanfaatan teknologi. Spam secara umum merupakan sebuah tindakan mengirim pesan yang tidak diinginkan atau tidak diminta kepada sejumlah besar orang. Spam kini dapat ditemui dalam berbagai bentuk, seperti web maupun multimedia. Penelitian ini bertujuan untuk mengevaluasi model berbasis BERT, khususnya IndoBERT dan MultilingualBERT, dalam mendeteksi dan mengklasifikasi spam berbahasa Indonesia pada pesan SMS dan Email. Model yang dipilih kemudian dilatih untuk mengidentifikasi perbedaan antara pesan spam dan bukan spam. Hasil evaluasi pada percobaan menggunakan dataset SMS dan Email memiliki nilai akurasi sebesar 98% pada model IndoBERT dan 95% pada model MultilingualBERT, yang menunjukkan tingkat akurasi yang tinggi. Hasil ini menunjukkan bahwa model BERT efektif dalam mendeteksi pesan spam dalam Bahasa Indonesia.   Abstract Spam on SMS and Email causes an unpleasant experience for users in using technology. Spam in general is the act of sending unwanted or unsolicited messages to a large number of people. Spam can now be found in various forms, such as web and multimedia. This research aims to evaluate BERT-based models, specifically IndoBERT and MultilingualBERT, in detecting and classifying Indonesian spam in SMS and Email messages. The selected model is then trained to identify the differences between spam and non-spam messages. Evaluation results in experiments using SMS and Email datasets have an accuracy value of 98% in the IndoBERT model and 95% in the MultilingualBERT model, which shows a high level of accuracy. These results indicate that the BERT model is effective in detecting spam messages in Indonesian. https://jtiik.ub.ac.id/index.php/jtiik/article/view/8121 spam, deteksi spam, pemrosesan bahasa alami, BERT, text mining, klasifikasi teks
spellingShingle Muhammad Basil Musyaffa Amin
Gibran Hakim
Muhammad Taufik Maulana
Muhammad Fajrul Alwan
Hanna Shafira Anggraheni
Muhammad Jilan Naufal
Novanto Yudistira
Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert
Jurnal Teknologi Informasi dan Ilmu Komputer
spam, deteksi spam, pemrosesan bahasa alami, BERT, text mining, klasifikasi teks
title Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert
title_full Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert
title_fullStr Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert
title_full_unstemmed Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert
title_short Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert
title_sort deteksi spam berbahasa indonesia berbasis teks menggunakan model bert
topic spam, deteksi spam, pemrosesan bahasa alami, BERT, text mining, klasifikasi teks
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/8121
work_keys_str_mv AT muhammadbasilmusyaffaamin deteksispamberbahasaindonesiaberbasisteksmenggunakanmodelbert
AT gibranhakim deteksispamberbahasaindonesiaberbasisteksmenggunakanmodelbert
AT muhammadtaufikmaulana deteksispamberbahasaindonesiaberbasisteksmenggunakanmodelbert
AT muhammadfajrulalwan deteksispamberbahasaindonesiaberbasisteksmenggunakanmodelbert
AT hannashafiraanggraheni deteksispamberbahasaindonesiaberbasisteksmenggunakanmodelbert
AT muhammadjilannaufal deteksispamberbahasaindonesiaberbasisteksmenggunakanmodelbert
AT novantoyudistira deteksispamberbahasaindonesiaberbasisteksmenggunakanmodelbert