A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION
In natural language processing, part-of-speech (POS) tagging plays an important role, as its output is the input of many other tasks (syntax analysis, semantic analysis. . . ). One of the problems related to POS tagging is to define the POS set. This could be solved using unsupervised machine learni...
Saved in:
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Dalat University
2016-06-01
|
Series: | Tạp chí Khoa học Đại học Đà Lạt |
Subjects: | |
Online Access: | http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/40 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
_version_ | 1832569944735219712 |
---|---|
author | Nguyễn Minh Hiệp Nguyễn Thị Minh Huyền Ngô Thế Quyền Trần Thị Phương Linh |
author_facet | Nguyễn Minh Hiệp Nguyễn Thị Minh Huyền Ngô Thế Quyền Trần Thị Phương Linh |
author_sort | Nguyễn Minh Hiệp |
collection | DOAJ |
description | In natural language processing, part-of-speech (POS) tagging plays an important role, as its output is the input of many other tasks (syntax analysis, semantic analysis. . . ). One of the problems related to POS tagging is to define the POS set. This could be solved using unsupervised machine learning methods. This paper presents an application of the DBSCAN clustering algorithm to classify Vietnamese words from a large corpus. The features used to characterize each word are naturally defined by the context of that word in a sentence. We use a large corpus containing sentences automatically extracted from the online Nhan Dan newspaper. |
format | Article |
id | doaj-art-9ba1d25fe2e94ed89ecb4a9b782f4eb4 |
institution | Kabale University |
issn | 0866-787X 0866-787X |
language | English |
publishDate | 2016-06-01 |
publisher | Dalat University |
record_format | Article |
series | Tạp chí Khoa học Đại học Đà Lạt |
spelling | doaj-art-9ba1d25fe2e94ed89ecb4a9b782f4eb42025-02-02T18:41:08ZengDalat UniversityTạp chí Khoa học Đại học Đà Lạt0866-787X0866-787X2016-06-016210.37569/DalatUniversity.6.2.40(2016)23A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATIONNguyễn Minh Hiệp0Nguyễn Thị Minh Huyền1Ngô Thế Quyền2Trần Thị Phương Linh3Khoa Công nghệ Thông tin, Trường Đại học Đà LạtKhoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà NộiKhoa Toán – Cơ – Tin học, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà NộiKhoa Công nghệ Thông tin, Trường Đại học Đà LạtIn natural language processing, part-of-speech (POS) tagging plays an important role, as its output is the input of many other tasks (syntax analysis, semantic analysis. . . ). One of the problems related to POS tagging is to define the POS set. This could be solved using unsupervised machine learning methods. This paper presents an application of the DBSCAN clustering algorithm to classify Vietnamese words from a large corpus. The features used to characterize each word are naturally defined by the context of that word in a sentence. We use a large corpus containing sentences automatically extracted from the online Nhan Dan newspaper.http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/40corpusdbscangán nhãn từ loạiphân cụmtừ loạitập từ loạị. |
spellingShingle | Nguyễn Minh Hiệp Nguyễn Thị Minh Huyền Ngô Thế Quyền Trần Thị Phương Linh A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION Tạp chí Khoa học Đại học Đà Lạt corpus dbscan gán nhãn từ loại phân cụm từ loại tập từ loạị. |
title | A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION |
title_full | A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION |
title_fullStr | A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION |
title_full_unstemmed | A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION |
title_short | A CLUSTERING TECHNIQUE FOR THE VIETNAMESE WORD CATEGORIZATION |
title_sort | clustering technique for the vietnamese word categorization |
topic | corpus dbscan gán nhãn từ loại phân cụm từ loại tập từ loạị. |
url | http://tckh.dlu.edu.vn/index.php/tckhdhdl/article/view/40 |
work_keys_str_mv | AT nguyenminhhiep aclusteringtechniqueforthevietnamesewordcategorization AT nguyenthiminhhuyen aclusteringtechniqueforthevietnamesewordcategorization AT ngothequyen aclusteringtechniqueforthevietnamesewordcategorization AT tranthiphuonglinh aclusteringtechniqueforthevietnamesewordcategorization AT nguyenminhhiep clusteringtechniqueforthevietnamesewordcategorization AT nguyenthiminhhuyen clusteringtechniqueforthevietnamesewordcategorization AT ngothequyen clusteringtechniqueforthevietnamesewordcategorization AT tranthiphuonglinh clusteringtechniqueforthevietnamesewordcategorization |