МОДЕЛІ ПРИВАТНОСТІ ТА ТЕХНІКИ АНОНІМІЗАЦІЇ ТАБЛИЧНИХ МЕДИЧНИХ ДАНИХ

У сучасному світі питання приватності та захисту персональних даних набувають надзвичайної актуальності, особливо в медичній галузі, де використання великих обсягів даних для досліджень стає все більш поширеним. Використання персональних даних регулюється відповідними законами, які вимагають анонімі...

Full description

Saved in:
Bibliographic Details
Main Authors: Denys Kalinin, Valerii Severyn, Mykola Bezmenov
Format: Article
Language:English
Published: National Technical University Kharkiv Polytechnic Institute 2024-12-01
Series:Вісник Національного технічного університету "ХПÌ": Системний аналіз, управління та інформаційні технології
Subjects:
Online Access:http://samit.khpi.edu.ua/article/view/320184
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:У сучасному світі питання приватності та захисту персональних даних набувають надзвичайної актуальності, особливо в медичній галузі, де використання великих обсягів даних для досліджень стає все більш поширеним. Використання персональних даних регулюється відповідними законами, які вимагають анонімізації даних для мінімізації ризиків ідентифікації осіб. Анонімізація є процесом, що дозволяє використовувати чутливі дані без ризику розкриття особистої інформації, зберігаючи при цьому їх корисність. У статті розглядаються основні моделі приватності та техніки анонімізації, що застосовуються для захисту табличних медичних даних. Моделі приватності включають k-анонімність (k-anonymity), l-диверсність (l-diversity) та t-близькість (t-closeness). Модель k-анонімності забезпечує щоб будь-яка комбінація квазіідентифікаторів була спільною для щонайменше k записів. Модель l-диверсності доповнює k-анонімність, вимагаючи наявності щонайменше l унікальних комбінацій значень чутливих атрибутів (SA) у кожному класі еквівалентності. Модель t-близькості враховує розподіл значень цих чутливих атрибутів, забезпечуючи, щоб відстань між розподілом SA у класі еквівалентності та загальним розподілом не перевищувала заданий поріг. Техніки анонімізації включають узагальнення (generalization), подавлення (suppression), перенесення (relocation), перестановку (permutation), пертурбацію (perturbation), розділення (slicing), диференційну приватність (differential privacy) та синтетичні дані (synthetic data). Узагальнення зменшує точність квазіідентифікаторів. Подавлення видаляє певні значення з набору даних для покращення його статистичних характеристик. Перенесення змінює обмежену кількість значень в даних з метою підвищення захисту. Перестановка змішує значення квазіідентифікаторів між записами, зберігаючи при цьому загальні статистичні особливості набору даних. Пертурбація додає шум до даних, що підвищує приватність. Ідея диференційної приватності також полягає у додаванні шуму, але це виконується на етапі обробки запитів за даними. Генерація синтетичних даних дозволяє створювати нові набори даних, як схожі за характеристиками на оригінальні дані.
ISSN:2079-0023
2410-2857