Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku

Komunikasi merupakan hal yang paling penting dalam kehidupan sehari-hari. Setiap orang berkomunikasi dengan cara mereka berdasarkan latar belakang serta kedekatan antar pembicara. Oleh karena itu, perkembangan bahasa informal terjadi sangat cepat dan tidak jarang menciptakan kata-kata baru sebagai...

Full description

Saved in:
Bibliographic Details
Main Authors: Muhammad Fathur Rahman Khairul, Rizal Setya Perdana
Format: Article
Language:Indonesian
Published: University of Brawijaya 2024-10-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Subjects:
Online Access:https://jtiik.ub.ac.id/index.php/jtiik/article/view/7984
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1823858653680107520
author Muhammad Fathur Rahman Khairul
Rizal Setya Perdana
author_facet Muhammad Fathur Rahman Khairul
Rizal Setya Perdana
author_sort Muhammad Fathur Rahman Khairul
collection DOAJ
description Komunikasi merupakan hal yang paling penting dalam kehidupan sehari-hari. Setiap orang berkomunikasi dengan cara mereka berdasarkan latar belakang serta kedekatan antar pembicara. Oleh karena itu, perkembangan bahasa informal terjadi sangat cepat dan tidak jarang menciptakan kata-kata baru sebagai pengganti bahasa formal. Hal ini menjadi masalah jika dilihat dari perspektif pemrosesan bahasa alami (NLP). NLP umumnya hanya dapat dilakukan dengan bahasa yang formal dan tidak mampu menginterpretasikan makna dari kalimat informal. Maka dari itu, penulis mengusulkan pendekatan untuk memungkinkan mesin memahami bahasa informal dengan melakukan normalisasi bahasa infomal menjadi baku dengan memanfaatkan NLP. Pendekatan yang dilakukan akan melatih model pre-trained GPT-2 berbahasa Indonesia dengan data parallel corpus untuk memahami makna dari bahasa informal dan mampu menerjemahkannya ke dalam bentuk baku. Melalui eksperimen yang dilakukan, pendekatan ini mencapai tingkat akurasi 91% dan dapat menerjemahkan bahasa informal dengan baik. Performa ini dapat diraih dengan konfigurasi hiperparameter yaitu Adam optimizer dengan learning rate 1e-4, batch size sebesar 16 dan dropout rate sebesar 0,5.   Abstract   Communication is the most essential thing in daily life. Everyone communicates in their own way based on their background and the closeness between speakers. Thus, the development of informal language occurs quickly and it is often to create new words as a substitute for formal language. This is an issue from a natural language processing (NLP) perspective. NLP generally only works with formal language and is unable to interpret the meaning of informal sentences. Therefore, the authors propose an approach to enable machines to understand informal language by normalizing the informal language to standard by utilizing NLP. The approach will train a pre-trained GPT-2 model in Indonesian with parallel corpus data to understand the meaning of informal language and be able to translate it into standardized form. Through experiments, the method achieved 91% accuracy and can translate informal language well. This performance can be achieved with a hyperparameter configuration, namely Adam optimizer with a learning rate of 1e-4, batch size of 16 and dropout rate of 0.5.
format Article
id doaj-art-d1c75672a09746cb893637e3a81abeea
institution Kabale University
issn 2355-7699
2528-6579
language Indonesian
publishDate 2024-10-01
publisher University of Brawijaya
record_format Article
series Jurnal Teknologi Informasi dan Ilmu Komputer
spelling doaj-art-d1c75672a09746cb893637e3a81abeea2025-02-11T10:37:05ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792024-10-0111510.25126/jtiik.1077984Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi BakuMuhammad Fathur Rahman Khairul0Rizal Setya Perdana1Universitas Brawijaya, MalangUniversitas Brawijaya, Malang Komunikasi merupakan hal yang paling penting dalam kehidupan sehari-hari. Setiap orang berkomunikasi dengan cara mereka berdasarkan latar belakang serta kedekatan antar pembicara. Oleh karena itu, perkembangan bahasa informal terjadi sangat cepat dan tidak jarang menciptakan kata-kata baru sebagai pengganti bahasa formal. Hal ini menjadi masalah jika dilihat dari perspektif pemrosesan bahasa alami (NLP). NLP umumnya hanya dapat dilakukan dengan bahasa yang formal dan tidak mampu menginterpretasikan makna dari kalimat informal. Maka dari itu, penulis mengusulkan pendekatan untuk memungkinkan mesin memahami bahasa informal dengan melakukan normalisasi bahasa infomal menjadi baku dengan memanfaatkan NLP. Pendekatan yang dilakukan akan melatih model pre-trained GPT-2 berbahasa Indonesia dengan data parallel corpus untuk memahami makna dari bahasa informal dan mampu menerjemahkannya ke dalam bentuk baku. Melalui eksperimen yang dilakukan, pendekatan ini mencapai tingkat akurasi 91% dan dapat menerjemahkan bahasa informal dengan baik. Performa ini dapat diraih dengan konfigurasi hiperparameter yaitu Adam optimizer dengan learning rate 1e-4, batch size sebesar 16 dan dropout rate sebesar 0,5.   Abstract   Communication is the most essential thing in daily life. Everyone communicates in their own way based on their background and the closeness between speakers. Thus, the development of informal language occurs quickly and it is often to create new words as a substitute for formal language. This is an issue from a natural language processing (NLP) perspective. NLP generally only works with formal language and is unable to interpret the meaning of informal sentences. Therefore, the authors propose an approach to enable machines to understand informal language by normalizing the informal language to standard by utilizing NLP. The approach will train a pre-trained GPT-2 model in Indonesian with parallel corpus data to understand the meaning of informal language and be able to translate it into standardized form. Through experiments, the method achieved 91% accuracy and can translate informal language well. This performance can be achieved with a hyperparameter configuration, namely Adam optimizer with a learning rate of 1e-4, batch size of 16 and dropout rate of 0.5. https://jtiik.ub.ac.id/index.php/jtiik/article/view/7984NLP finetuninggpt2normalizationmachine translationdeep learning
spellingShingle Muhammad Fathur Rahman Khairul
Rizal Setya Perdana
Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku
Jurnal Teknologi Informasi dan Ilmu Komputer
NLP
finetuning
gpt2
normalization
machine translation
deep learning
title Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku
title_full Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku
title_fullStr Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku
title_full_unstemmed Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku
title_short Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku
title_sort arsitektur sistem percakapan otomatis berbahasa indonesia dengan normalisasi bahasa informal menjadi baku
topic NLP
finetuning
gpt2
normalization
machine translation
deep learning
url https://jtiik.ub.ac.id/index.php/jtiik/article/view/7984
work_keys_str_mv AT muhammadfathurrahmankhairul arsitektursistempercakapanotomatisberbahasaindonesiadengannormalisasibahasainformalmenjadibaku
AT rizalsetyaperdana arsitektursistempercakapanotomatisberbahasaindonesiadengannormalisasibahasainformalmenjadibaku