Застосування сховищ даних для виявлення плагіату в текстових документах

Робота присвячена застосуванню сховищ даних для виявлення плагіату в текстових документах, в результаті якої побудовано масштабовану програмну архітектуру. Підготовлено датасет з бакалаврських і магістерських робіт та виконано його попередню обробку, зокрема очищення, лематизацію, видалення стоп-сл...

Full description

Saved in:

Bibliographic Details
Main Authors:	Д. Галайко, Ю. Олійник
Format:	Article
Language:	English
Published:	Igor Sikorsky Kyiv Polytechnic Institute 2024-10-01
Series:	Adaptivni Sistemi Avtomatičnogo Upravlinnâ
Subjects:	виявлення плагіату NLP потік Apache Hive DynamoDB сховища даних
Online Access:	https://asac.kpi.ua/article/view/313093
Tags:	Add Tag No Tags, Be the first to tag this record!

Description
Summary:	Робота присвячена застосуванню сховищ даних для виявлення плагіату в текстових документах, в результаті якої побудовано масштабовану програмну архітектуру. Підготовлено датасет з бакалаврських і магістерських робіт та виконано його попередню обробку, зокрема очищення, лематизацію, видалення стоп-слів, видалення підміни символів, заміни на синоніми. Створено тестовий набір даних для аналізу продуктивності рішення Проведено дослідження ефективності застосованих сховищ даних, виконано їх порівняльний аналіз та проведено декілька прогонів для уникнення стохастичної помилки. За результатами тестування моделей виокремлено DynamoDB як найефективніше сховище даних для задачі виявлення запозичень. Бібл. 14, іл. 8, табл. 3
ISSN:	1560-8956 2522-9575

Застосування сховищ даних для виявлення плагіату в текстових документах

Similar Items