Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями
Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текс...
Saved in:
| Main Authors: | , |
|---|---|
| Format: | Article |
| Language: | English |
| Published: |
Kharkiv National University of Radio Electronics
2025-03-01
|
| Series: | Сучасний стан наукових досліджень та технологій в промисловості |
| Subjects: | |
| Online Access: | https://www.itssi-journal.com/index.php/ittsi/article/view/556 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1850055457366867968 |
|---|---|
| author | Дмитро Дашенков Кирило Смеляков |
| author_facet | Дмитро Дашенков Кирило Смеляков |
| author_sort | Дмитро Дашенков |
| collection | DOAJ |
| description |
Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання.
|
| format | Article |
| id | doaj-art-9adb73ae901a4899abdb7b238a318eab |
| institution | DOAJ |
| issn | 2522-9818 2524-2296 |
| language | English |
| publishDate | 2025-03-01 |
| publisher | Kharkiv National University of Radio Electronics |
| record_format | Article |
| series | Сучасний стан наукових досліджень та технологій в промисловості |
| spelling | doaj-art-9adb73ae901a4899abdb7b238a318eab2025-08-20T02:51:57ZengKharkiv National University of Radio ElectronicsСучасний стан наукових досліджень та технологій в промисловості2522-98182524-22962025-03-011(31)10.30837/2522-9818.2025.1.020Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннямиДмитро Дашенков0Кирило Смеляков1Харківський національний університет радіоелектронікиХарківський національний університет радіоелектроніки Предмет дослідження: методи оброблення зображень для класифікації та інших завдань комп’ютерного зору з використанням мультимодальної інформації, зокрема текстових описів класів і зображень. Мета статті – розроблення мультимодального набору даних для класифікації зображень за допомогою аналізу текстової метаінформації. Отриманий набір має містити: дані зображень, класи зображень, а саме 1000 класів об’єктів, поданих на фото з набору ImageNet, текстові описи окремих зображень і текстові описи класів зображень загалом. Завдання: 1) на основі зображень набору ImageNet скомпілювати набір даних для навчання моделей-класифікаторів із текстовими описами класів зображень та окремих зображень; 2) на основі отриманого набору даних провести експеримент з навчання мовної нейронної мережі для підтвердження ефективності використання запропонованого підходу для виконання завдання класифікації. Методи: компіляція наборів даних вручну, навчання мовних нейронних мереж на основі архітектури RoBERTa. Навчання нейронної мережі проводилось за методом донавчання (fine-tuning), а саме надбудови шару нейронної мережі на наявну модель для отримання нової моделі машинного навчання, здатної виконувати обране завдання. Результати дослідження. Створено набір даних, що комбінує дані зображень з текстовою інформацією. Отриманий набір даних є корисним для встановлення зв’язку між інформацією, яку модель машинного навчання здатна виокремити з фото, та інформацією, яку модель може виокремити з текстових даних. Мультимодальний підхід може застосовуватись у розв’язанні широкого спектра завдань, що продемонстровано на прикладі навчання мовної нейронної мережі. Навчена мовна модель обробляє опис зображень, що містяться в наборі даних, та прогнозує клас зображення, з яким пов’язаний цей опис. Модель покликана відфільтрувати нерелевантну текстову метаінформацію, покращуючи якість набору. Висновки: набори даних, які комбінують в собі декілька видів інформації, здатні надавати ширший контекст для розв’язання завдань, що, як правило, асоціюються лише з одним типом даних. Це дає змогу більш ефективно застосовувати методи машинного навчання. https://www.itssi-journal.com/index.php/ittsi/article/view/556мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація. |
| spellingShingle | Дмитро Дашенков Кирило Смеляков Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями Сучасний стан наукових досліджень та технологій в промисловості мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація. |
| title | Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями |
| title_full | Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями |
| title_fullStr | Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями |
| title_full_unstemmed | Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями |
| title_short | Розширення набору даних ImageNET для мультимодального навчання з текстом та зображеннями |
| title_sort | розширення набору даних imagenet для мультимодального навчання з текстом та зображеннями |
| topic | мультимодальне машинне навчання; класифікація зображень; оброблення природної мови; набори даних; текстова метаінформація. |
| url | https://www.itssi-journal.com/index.php/ittsi/article/view/556 |
| work_keys_str_mv | AT dmitrodašenkov rozširennânaborudanihimagenetdlâmulʹtimodalʹnogonavčannâztekstomtazobražennâmi AT kirilosmelâkov rozširennânaborudanihimagenetdlâmulʹtimodalʹnogonavčannâztekstomtazobražennâmi |