Utemeljevanje sloWNeta na korpusnih podatkih
Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izd...
Saved in:
| Main Authors: | , , |
|---|---|
| Format: | Article |
| Language: | English |
| Published: |
University of Ljubljana Press (Založba Univerze v Ljubljani)
2013-12-01
|
| Series: | Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave |
| Subjects: | |
| Online Access: | https://journals.uni-lj.si/slovenscina2/article/view/6927 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1849721584214867968 |
|---|---|
| author | Darja Fišer Maciej Piasecki Bartosz Broda |
| author_facet | Darja Fišer Maciej Piasecki Bartosz Broda |
| author_sort | Darja Fišer |
| collection | DOAJ |
| description | Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo. |
| format | Article |
| id | doaj-art-e1fd58ff198049f6a3cd3f4552e4cc55 |
| institution | DOAJ |
| issn | 2335-2736 |
| language | English |
| publishDate | 2013-12-01 |
| publisher | University of Ljubljana Press (Založba Univerze v Ljubljani) |
| record_format | Article |
| series | Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave |
| spelling | doaj-art-e1fd58ff198049f6a3cd3f4552e4cc552025-08-20T03:11:37ZengUniversity of Ljubljana Press (Založba Univerze v Ljubljani)Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave2335-27362013-12-011210.4312/slo2.0.2013.2.82-112Utemeljevanje sloWNeta na korpusnih podatkihDarja Fišer0Maciej Piasecki1Bartosz Broda2Department of Translation, Faculty of Arts, University of LjubljanaDepartment of Artificial Intelligence, Institute of Informatics, Wroclaw University of TechnologyDepartment of Artificial Intelligence, Institute of Informatics, Wroclaw University of TechnologyWordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.https://journals.uni-lj.si/slovenscina2/article/view/6927leksikalna semantikawordnetsemantična podobnostsemantične relacije |
| spellingShingle | Darja Fišer Maciej Piasecki Bartosz Broda Utemeljevanje sloWNeta na korpusnih podatkih Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave leksikalna semantika wordnet semantična podobnost semantične relacije |
| title | Utemeljevanje sloWNeta na korpusnih podatkih |
| title_full | Utemeljevanje sloWNeta na korpusnih podatkih |
| title_fullStr | Utemeljevanje sloWNeta na korpusnih podatkih |
| title_full_unstemmed | Utemeljevanje sloWNeta na korpusnih podatkih |
| title_short | Utemeljevanje sloWNeta na korpusnih podatkih |
| title_sort | utemeljevanje slowneta na korpusnih podatkih |
| topic | leksikalna semantika wordnet semantična podobnost semantične relacije |
| url | https://journals.uni-lj.si/slovenscina2/article/view/6927 |
| work_keys_str_mv | AT darjafiser utemeljevanjeslownetanakorpusnihpodatkih AT maciejpiasecki utemeljevanjeslownetanakorpusnihpodatkih AT bartoszbroda utemeljevanjeslownetanakorpusnihpodatkih |