Utemeljevanje sloWNeta na korpusnih podatkih

Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izd...

Full description

Saved in:
Bibliographic Details
Main Authors: Darja Fišer, Maciej Piasecki, Bartosz Broda
Format: Article
Language:English
Published: University of Ljubljana Press (Založba Univerze v Ljubljani) 2013-12-01
Series:Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
Subjects:
Online Access:https://journals.uni-lj.si/slovenscina2/article/view/6927
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1849721584214867968
author Darja Fišer
Maciej Piasecki
Bartosz Broda
author_facet Darja Fišer
Maciej Piasecki
Bartosz Broda
author_sort Darja Fišer
collection DOAJ
description Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.
format Article
id doaj-art-e1fd58ff198049f6a3cd3f4552e4cc55
institution DOAJ
issn 2335-2736
language English
publishDate 2013-12-01
publisher University of Ljubljana Press (Založba Univerze v Ljubljani)
record_format Article
series Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
spelling doaj-art-e1fd58ff198049f6a3cd3f4552e4cc552025-08-20T03:11:37ZengUniversity of Ljubljana Press (Založba Univerze v Ljubljani)Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave2335-27362013-12-011210.4312/slo2.0.2013.2.82-112Utemeljevanje sloWNeta na korpusnih podatkihDarja Fišer0Maciej Piasecki1Bartosz Broda2Department of Translation, Faculty of Arts, University of LjubljanaDepartment of Artificial Intelligence, Institute of Informatics, Wroclaw University of TechnologyDepartment of Artificial Intelligence, Institute of Informatics, Wroclaw University of TechnologyWordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.https://journals.uni-lj.si/slovenscina2/article/view/6927leksikalna semantikawordnetsemantična podobnostsemantične relacije
spellingShingle Darja Fišer
Maciej Piasecki
Bartosz Broda
Utemeljevanje sloWNeta na korpusnih podatkih
Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave
leksikalna semantika
wordnet
semantična podobnost
semantične relacije
title Utemeljevanje sloWNeta na korpusnih podatkih
title_full Utemeljevanje sloWNeta na korpusnih podatkih
title_fullStr Utemeljevanje sloWNeta na korpusnih podatkih
title_full_unstemmed Utemeljevanje sloWNeta na korpusnih podatkih
title_short Utemeljevanje sloWNeta na korpusnih podatkih
title_sort utemeljevanje slowneta na korpusnih podatkih
topic leksikalna semantika
wordnet
semantična podobnost
semantične relacije
url https://journals.uni-lj.si/slovenscina2/article/view/6927
work_keys_str_mv AT darjafiser utemeljevanjeslownetanakorpusnihpodatkih
AT maciejpiasecki utemeljevanjeslownetanakorpusnihpodatkih
AT bartoszbroda utemeljevanjeslownetanakorpusnihpodatkih