Організація програмних і нейромережевих алгоритмів машинного аналізу текстових повідомлень, поданих природною мовою
У статті розглянуто питання організації програмних і нейромережевих алгоритмів машинного аналізу текстових даних, поданих природною мовою. Обґрунтовано актуальність завдання оброблення як стислих текстових повідомлень і відгуків, що потребують швидкого оброблення з мінімальними ресурсними витратами...
Saved in:
| Main Authors: | , |
|---|---|
| Format: | Article |
| Language: | English |
| Published: |
Kharkiv National University of Radio Electronics
2025-06-01
|
| Series: | Сучасний стан наукових досліджень та технологій в промисловості |
| Subjects: | |
| Online Access: | https://www.itssi-journal.com/index.php/ittsi/article/view/590 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | У статті розглянуто питання організації програмних і нейромережевих алгоритмів машинного аналізу текстових даних, поданих природною мовою. Обґрунтовано актуальність завдання оброблення як стислих текстових повідомлень і відгуків, що потребують швидкого оброблення з мінімальними ресурсними витратами, так і складних структурованих документів, які вимагають збереження структурних характеристик і глибокого контекстного аналізу. Проведено комплексний аналіз сучасних методів машинного оброблення текстової інформації, зокрема токенізації, кластеризації, семантико-релевантного пошуку й застосування нейромережевих архітектур. Особливу увагу приділено підходам, що дають змогу оптимізувати обчислювальні витрати без суттєвого зниження якості результатів аналізу, що є критично важливим для роботи в умовах обмежених ресурсів. На основі аналізу розроблено багаторівневу методику організації машинного аналізу текстових даних. Методика передбачає попередню класифікацію текстових масивів за типами документів, групування текстів методом кластеризації для підвищення релевантності оброблення та застосування нейромережевих моделей глибокого навчання. Для глибокого аналізу текстової інформації реалізовано архітектуру на основі двонаправленої рекурентної нейронної мережі (Bidirectional LSTM) із використанням регуляризації Dropout та механізмів раннього припинення навчання. З метою практичної перевірки запропонованої методики розроблено застосунок для автоматизованого аналізу стислих текстових повідомлень природною мовою. Подано результати навчання моделі, побудовано графіки динаміки зміни функції втрат на тренувальних і валідаційних вибірках, розроблено матриці помилок та візуалізацію результатів прогнозування. Продемонстровано стабільне зниження функції втрат без суттєвого збільшення обчислювальних витрат системи. Запропонована методика може бути застосована в інформаційних системах різного призначення для автоматизованого оброблення текстових повідомлень у режимах з обмеженими ресурсами, а також має перспективи подальшого розвитку в напрямі аналізу мультимодальних даних і впровадження в реальні інформаційно-аналітичні комплекси.
|
|---|---|
| ISSN: | 2522-9818 2524-2296 |