Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями

Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текс...

Full description

Saved in:
Bibliographic Details
Main Authors: Дмитро Дашенков, Кирило Смеляков
Format: Article
Language:English
Published: Kharkiv National University of Radio Electronics 2025-03-01
Series:Сучасний стан наукових досліджень та технологій в промисловості
Subjects:
Online Access:https://www.itssi-journal.com/index.php/ittsi/article/view/556
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1850055457366867968
author Дмитро Дашенков
Кирило Смеляков
author_facet Дмитро Дашенков
Кирило Смеляков
author_sort Дмитро Дашенков
collection DOAJ
description Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання.
format Article
id doaj-art-9adb73ae901a4899abdb7b238a318eab
institution DOAJ
issn 2522-9818
2524-2296
language English
publishDate 2025-03-01
publisher Kharkiv National University of Radio Electronics
record_format Article
series Сучасний стан наукових досліджень та технологій в промисловості
spelling doaj-art-9adb73ae901a4899abdb7b238a318eab2025-08-20T02:51:57ZengKharkiv National University of Radio ElectronicsСучасний стан наукових досліджень та технологій в промисловості2522-98182524-22962025-03-011(31)10.30837/2522-9818.2025.1.020Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннямиДмитро Дашенков0Кирило Смеляков1Харківський національний університет радіоелектронікиХарківський національний університет радіоелектроніки Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання. https://www.itssi-journal.com/index.php/ittsi/article/view/556мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.
spellingShingle Дмитро Дашенков
Кирило Смеляков
Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
Сучасний стан наукових досліджень та технологій в промисловості
мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.
title Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
title_full Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
title_fullStr Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
title_full_unstemmed Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
title_short Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
title_sort розширення набору даних imagenet для мультимодального навчання з текстом та зображеннями
topic мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація.
url https://www.itssi-journal.com/index.php/ittsi/article/view/556
work_keys_str_mv AT dmitrodašenkov rozširennânaborudanihimagenetdlâmulʹtimodalʹnogonavčannâztekstomtazobražennâmi
AT kirilosmelâkov rozširennânaborudanihimagenetdlâmulʹtimodalʹnogonavčannâztekstomtazobražennâmi