ІДЕНТИФІКАЦІЯ ПАРАМЕТРІВ ДИНАМІЧНИХ ОБ’ЄКТІВ З ВИКОРИСТАННЯМ ТРАНСФОРМЕРА З ОПТИЧНИМ ПОТОКОМ ТА АНСАМБЛЕВИХ МЕТОДІВ
У статті розглянуто підхід до ідентифікації параметрів динамічних об’єктів у відеопотоці з використанням трансформерної архітектури, моделі GeoNet та ансамблевих методів машинного навчання, зокрема бегінгу та бустінгу. Ідентифікація параметрів таких об’єктів, як положення, швидкість, напрям руху та...
Saved in:
| Main Authors: | , |
|---|---|
| Format: | Article |
| Language: | English |
| Published: |
National Technical University Kharkiv Polytechnic Institute
2025-07-01
|
| Series: | Вісник Національного технічного університету "ХПÌ": Системний аналіз, управління та інформаційні технології |
| Subjects: | |
| Online Access: | http://samit.khpi.edu.ua/article/view/335107 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | У статті розглянуто підхід до ідентифікації параметрів динамічних об’єктів у відеопотоці з використанням трансформерної архітектури, моделі GeoNet та ансамблевих методів машинного навчання, зокрема бегінгу та бустінгу. Ідентифікація параметрів таких об’єктів, як положення, швидкість, напрям руху та глибина, має важливе значення для широкого спектра застосувань, включаючи автономне водіння, робототехніку та системи відеоспостереження. У роботі описано комплексну систему, яка забезпечує інтеграцію просторово-часових характеристик відеопотоку через обчислення оптичного потоку та карти глибини за допомогою GeoNet, їх подальший аналіз із застосуванням трансформера, а також підвищення точності завдяки ансамблюванню результатів. GeoNet, як глибока згорткова нейронна мережа, об’єднує завдання оцінки глибини та оптичного потоку в єдину архітектуру, що дозволяє точно реконструювати тривимірну сцену. Використання трансформера дозволяє моделювати глобальні залежності в кадрах відео та покращити точність класифікації та виявлення об’єктів. Водночас, бегінг зменшує дисперсію шляхом усереднення результатів кількох моделей, навчених на різних підвибірках, а бустінг дозволяє фокусуватися на складних прикладах для підвищення точності прогнозу. Запропонована система забезпечує високу точність в умовах динамічного фону, зміни освітлення, оклюзії та шумів, завдяки чому може бути адаптована для використання в реальному часі в складних сценах. Наведено детальний опис кожного з компонентів системи: архітектури GeoNet, модулів трансформера, реалізації бегінгу та бустінгу, а також алгоритму об’єднання результатів. Очікувані результати мають демонструвати ефективність інтеграції методів глибокого навчання з класичними ансамблевими підходами для задач високоточної ідентифікації динамічних об’єктів. Запропонована методологія відкриває перспективи для створення інтелектуальних систем комп’ютерного зору нового покоління. |
|---|---|
| ISSN: | 2079-0023 2410-2857 |