Utemeljevanje sloWNeta na korpusnih podatkih

Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izd...

Full description

Saved in:

Bibliographic Details
Main Authors:	Darja Fišer, Maciej Piasecki, Bartosz Broda
Format:	Article
Language:	English
Published:	University of Ljubljana Press (Založba Univerze v Ljubljani) 2013-12-01
Series:	Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
Subjects:	leksikalna semantika wordnet semantična podobnost semantične relacije
Online Access:	https://journals.uni-lj.si/slovenscina2/article/view/6927
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1849721584214867968
author	Darja Fišer Maciej Piasecki Bartosz Broda
author_facet	Darja Fišer Maciej Piasecki Bartosz Broda
author_sort	Darja Fišer
collection	DOAJ
description	Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.
format	Article
id	doaj-art-e1fd58ff198049f6a3cd3f4552e4cc55
institution	DOAJ
issn	2335-2736
language	English
publishDate	2013-12-01
publisher	University of Ljubljana Press (Založba Univerze v Ljubljani)
record_format	Article
series	Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
spelling	doaj-art-e1fd58ff198049f6a3cd3f4552e4cc552025-08-20T03:11:37ZengUniversity of Ljubljana Press (Založba Univerze v Ljubljani)Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave2335-27362013-12-011210.4312/slo2.0.2013.2.82-112Utemeljevanje sloWNeta na korpusnih podatkihDarja Fišer0Maciej Piasecki1Bartosz Broda2Department of Translation, Faculty of Arts, University of LjubljanaDepartment of Artificial Intelligence, Institute of Informatics, Wroclaw University of TechnologyDepartment of Artificial Intelligence, Institute of Informatics, Wroclaw University of TechnologyWordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.https://journals.uni-lj.si/slovenscina2/article/view/6927leksikalna semantikawordnetsemantična podobnostsemantične relacije
spellingShingle	Darja Fišer Maciej Piasecki Bartosz Broda Utemeljevanje sloWNeta na korpusnih podatkih Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave leksikalna semantika wordnet semantična podobnost semantične relacije
title	Utemeljevanje sloWNeta na korpusnih podatkih
title_full	Utemeljevanje sloWNeta na korpusnih podatkih
title_fullStr	Utemeljevanje sloWNeta na korpusnih podatkih
title_full_unstemmed	Utemeljevanje sloWNeta na korpusnih podatkih
title_short	Utemeljevanje sloWNeta na korpusnih podatkih
title_sort	utemeljevanje slowneta na korpusnih podatkih
topic	leksikalna semantika wordnet semantična podobnost semantične relacije
url	https://journals.uni-lj.si/slovenscina2/article/view/6927
work_keys_str_mv	AT darjafiser utemeljevanjeslownetanakorpusnihpodatkih AT maciejpiasecki utemeljevanjeslownetanakorpusnihpodatkih AT bartoszbroda utemeljevanjeslownetanakorpusnihpodatkih

Utemeljevanje sloWNeta na korpusnih podatkih

Similar Items