ШІ та персональні дані: що радить європейський регулятор EDPB
Хайп навколо ШІ не стихає. Кожен розробник/овнер/інвестор (підкреслити потрібне) бажає інтегрувати ШІ у свій продукт або запустити новий, «підсилений» штучним інтелектом.
Одна з перших речей, яку варто з’ясувати – чи взагалі підпадає ваша ШІ-модель під вимоги GDPR, оскільки від цього залежить, наскільки глибоко доведеться занурюватися у питання захисту даних. Коли ми кажемо “ШІ-модель”, то мова йде, наприклад, про всім добре знайомі сервіси, як-от ChatGPT, Gemini, Claude чи Perplexity, які застосовуються для генерації тексту та обробки запитів. Але не тільки про них. Ваш продукт, підсилений штучним інтелектом – теж може викликати питання за GDPR.
GDPR не говорить прямо про ШІ, але говорить про захист даних. Тож взаємодія ШІ з персональними даними потребувала створення зрозумілих рамок і тлумачень як для користувачів, так і для розробників. У грудні 2024 року європейський регулятор (Європейська рада із захисту даних, більш відома як EDPB) оприлюднив Висновок щодо певних аспектів захисту даних, пов’язаних з обробкою персональних даних у контексті ШІ (Висновок).
Висновок відповідає на конкретні запитання Ірландської комісії щодо обробки персональних даних у контексті етапів розробки та впровадження моделей ШІ:
(1) коли і як модель ШІ можна вважати «анонімною»;
(2) чи можна використовувати легітимний інтерес як правову основу для розробки або використання моделей ШІ;
(3) що буде, якщо порушити GDPR при розробці і роботі ШІ-моделей.
У цій статті ми розберемо ключові відповіді на ці питання.
Природа моделей ШІ у контексті визначення персональних даних. Коли моделі ШІ можна вважати анонімними?
Найперше варто визначити, чи підпадає ШІ-модель під регулювання GDPR. Якщо зробити це неправильно – можна отримати покарання за неналежну обробку персональних даних, порушення принципів обробки, неповідомлення про витік даних і так далі.
GDPR поширюється:
- на європейські компанії під час обробки персональних даних;
- на компанії, які обробляють персональні дані/моніторять поведінку людей з ЄС.
Якщо немає персональних даних (дані анонімні) – GDPR не застосовується. Тож EDPB розпочинає аналіз саме із питання анонімності.
У Висновку розмежовують ШІ-моделі:
- які за своєю природою точно оброблятимуть персональні дані. Наприклад, це ШІ-моделі, які спеціально розроблені, щоб генерувати чи імітувати персональні дані, що використовувалися під час навчання моделі (наприклад, голос людини);
- і ті, щодо яких не все так однозначно: це моделі, які навчені за допомогою персональних даних, але після навчання не обов’язково будуть обробляти або генерувати персональні дані. Досі існувала невизначеність, оскільки важко було визначити, чи можна вважати ці моделі такими, що обробляють персональні дані в процесі їх подальшого використання.
EDPB наголошує: хоча загалом моделі ШІ не містять даних, які можна прямо пов’язати з конкретною особою, все ж із них можна отримати певну інформацію.
Крім того, якщо під час навчання використовували персональні дані, такі моделі не завжди можна вважати анонімними. Це означає, що навіть якщо дані здаються прихованими або не пов’язаними з конкретною людиною, ШІ все одно може відновити чи згадати якусь інформацію про цих людей. Інформація про людину може залишатися у параметрах моделі. Якщо такі дані можуть бути вилучені або випадково отримані з моделі ШІ контролером чи іншою особою, таку модель не можна вважати анонімною.
Легко сказати – важче розібратися на практиці. Тому EDPB дає кілька порад місцевим європейським регуляторам із захисту даних (DPA), щодо того як відрізняти анонімні моделі від неанонімних.
Фактори для оцінки анонімності ШІ-моделей
DPA повинен в кожному конкретному випадку оцінювати, чи є ШІ-модель анонімною. Щоб модель була анонімною, малоймовірною має бути можливість:
- прямо чи опосередковано ідентифікувати осіб, чиї дані використовувалися для навчання та розробки моделі;
- “витягнути” такі персональні дані з моделі за допомогою різних запитів.
Рада наводить невичерпний список елементів, які можуть враховувати наглядові органи під час оцінки анонімності моделі ШІ:
- 1. Дизайн моделі. Наглядові органи повинні оцінити, як була розроблена модель ШІ. Це включає:
- Вибір джерел даних: Перевіряється, чи розробники обрали найбільш релевантні джерела для навчання моделі та чи зібрали мінімум персональних даних.
- Підготовка даних: Оцінюється, чи використовувалися анонімізовані або псевдонімізовані дані, а також чи були відфільтровані нерелевантні дані перед навчанням.
- Методологія навчання: Важливо, щоб використовувалася методика, яка мінімізує ідентифікацію осіб, а також застосовувались технології для забезпечення конфіденційності.
- Механізми захисту: Перевіряється, чи є механізми, які знижують ризик “витягання” персональних даних через запити до моделі.
- Здатність забезпечити анонімність. Перевіряється, чи проводилися аудити для оцінки заходів, що знижують ризик ідентифікації.
- Тестування моделі ШІ та стійкість до атак. Оцінюється, чи тестували модель на вразливість до атак, які можуть витягнути персональні дані.
- Документація. Контролери повинні ретельно документувати всі етапи обробки даних та заходи, що гарантують, що моделі ШІ не навчалися на персональних даних.
Такими документами можуть бути:
- оцінка впливу на захист даних (ст. 35 GDPR) або обґрунтування її непотрібності.
- інформація про заходи, вжиті, щоб зменшити ризик ідентифікації на всіх етапах життєвого циклу моделі.
- підтвердження, що модель стійка до повторної ідентифікації та опис заходів для захисту від атак
Чи є легітимний інтерес відповідною правовою основою для обробки персональних даних у моделях ШІ?
Буває, що легітимний інтерес може бути правовою підставою для обробки персональних даних при розробці та використанні моделей ШІ. Зокрема, EDPB посилається на свої попередні вказівки, які містять триетапний тест для оцінки цього підходу:
- виявити законні, сформульовані і реальні інтереси;
- довести, що обробляти дані було необхідно (водночас мінімізувавши використання персональних даних); і
- збалансувати права суб’єктів даних.
Як приклад, контролер – власник ШІ моделі може покладатися на свій легітимний інтерес, якщо розробляє сервіс розмовного агента для допомоги користувачам або створює модель ШІ, щоб виявляти шахрайство чи небезпечний контент, а також щоб покращувати безпеку інформаційних систем.
Як вирахувати вплив обробки на суб’єктів даних? Зокрема, ризики можуть залежати від характеру даних (наприклад, фінансові чи геолокаційні дані можуть нести серйозні репутаційні або дискримінаційні загрози), кількості осіб, чиї дані обробляються, а також від характеру відносин між контролером і суб’єктами даних.
Компанії мають чітко пояснювати людям, як їхні дані будуть використовуватися, щоб відповідати розумним очікуванням суб’єктів даних щодо обробки даних при використанні ШІ-моделей і забезпечувати тим самим прозорість відповідно до вимог GDPR.
Контролерам також варто застосовувати заходи, щоб знизити потенційні ризики, зокрема:
– технічні заходи, як-от псевдонімізація чи маскування персональних даних у навчальних наборах;
– додаткові заходи прозорості, наприклад, публікація інформації про критерії збору даних або роз’яснення щодо роботи моделі через інфокампанії чи графічні матеріали.
Такі заходи допоможуть контролеру продемонструвати, що він обробляє дані обґрунтовано та належно враховує інтереси суб’єктів даних.
Що буде, якщо незаконно обробляти персональні дані на етапі розробки моделі ШІ?
Наглядові органи можуть самостійно вирішувати, які заходи вжити в залежності від ситуації. Це може бути:
- вимога виправити порушення в обробці даних,
- штраф,
- тимчасове обмеження обробки,
- видалення частини або всього набору даних, або взагалі усієї моделі ШІ.
Але, зважаючи на практику роботи особливо активних регуляторних органів, чимось одним власник моделі точно не відбудеться. А якщо вже одного разу опинитися на гачку, є ризик потрапити під постійний пристальний нагляд. А далі, хто зна, можливо, знайдуть ще пару порушень у діяльності, просто як бонус.
У Висновку розглядаються 3 сценарії порушення, коли персональні дані незаконно обробляються для розробки моделі ШІ та:
(1) зберігаються в моделі ШІ, та згодом обробляються тим самим контролером;
(2) зберігаються в моделі ШІ, та обробляються іншим контролером у контексті розробки моделі;
(3) якщо контролер забезпечує анонімність моделі ШІ перед подальшою обробкою персональних даних у ній.
Тож незаконна обробка даних на початковому етапі розробки моделі ШІ може мати різні наслідки залежно від того, як ці дані обробляються після цього (чи зберігаються, анонімізуються, чи передаються іншому контролеру). У кожному з випадків наглядовий орган має оцінити, чи є належна правова підстава для подальшої обробки даних, а також врахувати контекст кожного конкретного випадку для визначення можливих порушень.
Важливий висновок EDPB, згаданий в усіх цих сценаріях – навіть якщо початкова обробка даних була незаконною, це не завжди позначатиметься на законності подальших операцій. Подальша обробка може бути законною, якщо дані були змінені (наприклад, анонімізовані) або якщо інші правові підстави для обробки відповідають вимогам GDPR.
Якщо дані анонімізовані, подальша обробка вже не підпадає під дію GDPR, оскільки анонімні дані не є персональними.
Рекомендаційно-примусовий характер
Висновок має рекомендаційний характер для компетентних наглядових органів на всій території Європейського економічного простору, проте Рада може ухвалити зобов’язальне рішення, якщо орган не враховує висновок. Тому, по суті, наглядові органи повинні одразу враховувати цей висновок у своїй практиці.
Що ми порадимо розробникам ШІ-моделей
- Ще на етапі розробки визначте, чи підпадає ваша ШІ-модель під GDPR.
- Забезпечте анонімність ШІ-моделі: мінімізуйте персональні дані, використовуючи анонімізовані або псевдонімізовані дані, перевіряйте модель на стійкість до атак і захищайте дані.
- Обґрунтуйте правову підставу для обробки даних: вкажіть законність і реальність інтересу, необхідність обробки, дотримання прав суб’єктів і проведіть оцінку ризиків для їх мінімізації.
- Документуйте свої дії: фіксуйте всі кроки та заходи щодо обробки даних, які ви проводите в рамках вашої ШІ-моделі (наприклад, якщо проводите оцінку легітимного інтересу – робіть це письмово).
- Запобігайте незаконній обробці даних на етапі розробки, адже це може призвести до штрафу чи навіть подальшого видалення моделі. Подальша обробка може бути законною за умови подальшої анонімізації чи наявності належної правової підстави.
Схожі статті
ICO просить вас сплатити data protection registration fee?
26 Березня, 2024 1 хв
Суб’єкт даних подав запит про видалення даних – що робити?
9 Лютого, 2026 1 хв
Виробництво для Сил оборони: що має знати виробник, як бізнес
15 Листопада, 2025 1 хв
Дві Галі, один ринок: що відбувається між мережами «Балувана Галя» і «Галя Балувана»
18 Липня, 2025 1 хв
Чи порушує права інтелектуальної власності навчання ШІ на чужих творах?
29 Травня, 2025 1 хв