A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION

In natural language processing, part-of-speech (POS) tagging plays an important role, as its output is the input of many other tasks (syntax analysis, semantic analysis. . . ). One of the problems related to POS tagging is to define the POS set. This could be solved using unsupervised machine learni...

Full description

Saved in:
Bibliographic Details
Main Authors: Nguyễn Minh Hiệp, Nguyễn Thị Minh Huyền, Ngô Thế Quyền, Trần Thị Phương Linh
Format: Article
Language:English
Published: Dalat University 2016-06-01
Series:Tạp chí Khoa học Đại học Đà Lạt
Subjects:
Online Access:http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/40
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1832569944735219712
author Nguyễn Minh Hiệp
Nguyễn Thị Minh Huyền
Ngô Thế Quyền
Trần Thị Phương Linh
author_facet Nguyễn Minh Hiệp
Nguyễn Thị Minh Huyền
Ngô Thế Quyền
Trần Thị Phương Linh
author_sort Nguyễn Minh Hiệp
collection DOAJ
description In natural language processing, part-of-speech (POS) tagging plays an important role, as its output is the input of many other tasks (syntax analysis, semantic analysis. . . ). One of the problems related to POS tagging is to define the POS set. This could be solved using unsupervised machine learning methods. This paper presents an application of the DBSCAN clustering algorithm to classify Vietnamese words from a large corpus. The features used to characterize each word are naturally defined by the context of that word in a sentence. We use a large corpus containing sentences automatically extracted from the online Nhan Dan newspaper.
format Article
id doaj-art-9ba1d25fe2e94ed89ecb4a9b782f4eb4
institution Kabale University
issn 0866-787X
0866-787X
language English
publishDate 2016-06-01
publisher Dalat University
record_format Article
series Tạp chí Khoa học Đại học Đà Lạt
spelling doaj-art-9ba1d25fe2e94ed89ecb4a9b782f4eb42025-02-02T18:41:08ZengDalat UniversityTạp chí Khoa học Đại học Đà Lạt0866-787X0866-787X2016-06-016210.37569/DalatUniversity.6.2.40(2016)23A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATIONNguyễn Minh Hiệp0Nguyễn Thị Minh Huyền1Ngô Thế Quyền2Trần Thị Phương Linh3Khoa Công nghệ Thông tin, Trường Đại học Đà LạtKhoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà NộiKhoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà NộiKhoa Công nghệ Thông tin, Trường Đại học Đà LạtIn natural language processing, part-of-speech (POS) tagging plays an important role, as its output is the input of many other tasks (syntax analysis, semantic analysis. . . ). One of the problems related to POS tagging is to define the POS set. This could be solved using unsupervised machine learning methods. This paper presents an application of the DBSCAN clustering algorithm to classify Vietnamese words from a large corpus. The features used to characterize each word are naturally defined by the context of that word in a sentence. We use a large corpus containing sentences automatically extracted from the online Nhan Dan newspaper.http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/40corpusdbscangán nhãn từ loạiphân cụmtừ loạitập từ loạị.
spellingShingle Nguyễn Minh Hiệp
Nguyễn Thị Minh Huyền
Ngô Thế Quyền
Trần Thị Phương Linh
A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
Tạp chí Khoa học Đại học Đà Lạt
corpus
dbscan
gán nhãn từ loại
phân cụm
từ loại
tập từ loạị.
title A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
title_full A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
title_fullStr A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
title_full_unstemmed A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
title_short A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
title_sort clustering technique for the vietnamese word categorization
topic corpus
dbscan
gán nhãn từ loại
phân cụm
từ loại
tập từ loạị.
url http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/40
work_keys_str_mv AT nguyenminhhiep aclusteringtechniqueforthevietnamesewordcategorization
AT nguyenthiminhhuyen aclusteringtechniqueforthevietnamesewordcategorization
AT ngothequyen aclusteringtechniqueforthevietnamesewordcategorization
AT tranthiphuonglinh aclusteringtechniqueforthevietnamesewordcategorization
AT nguyenminhhiep clusteringtechniqueforthevietnamesewordcategorization
AT nguyenthiminhhuyen clusteringtechniqueforthevietnamesewordcategorization
AT ngothequyen clusteringtechniqueforthevietnamesewordcategorization
AT tranthiphuonglinh clusteringtechniqueforthevietnamesewordcategorization