EDPS pubblica le linee guida riviste sull’IA generativa: rafforzare la protezione dei dati nell’era digitale
Il Garante europeo della protezione dei dati (EDPS) ha pubblicato oggi la versione rivista e ampliata delle sue linee guida sull’intelligenza artificiale generativa e la protezione dei dati personali, fornendo orientamenti pratici e dettagliati alle istituzioni, agli organi e agli organismi dell’Unione europea (EUIs).
Un documento strategico per l’era dell’IA
Le “Orientations for ensuring data protection compliance when using Generative AI systems (Version 2)” rappresentano un’evoluzione significativa rispetto alla prima versione del 2024. Questo aggiornamento tiene conto dell’evoluzione tecnologica dei sistemi di IA generativa, del loro crescente utilizzo da parte delle istituzioni europee e dei risultati delle attività di monitoraggio e supervisione dell’EDPS. È importante sottolineare che queste linee guida vengono emesse dall’EDPS nel suo ruolo di autorità di controllo per la protezione dei dati, non come autorità di vigilanza del mercato ai sensi dell’AI Act, e sono senza pregiudizio del Regolamento sull’Intelligenza Artificiale.
Comprendere l’IA generativa: dai concetti alla pratica
Il documento chiarisce innanzitutto la gerarchia concettuale che va dall’Intelligenza Artificiale generale al Machine Learning, al Deep Learning, fino all’IA Generativa e ai Large Language Models (LLM). Questi ultimi sono modelli di machine learning addestrati su quantità enormi di dati testuali che possono generare risposte in linguaggio naturale basandosi su pattern e relazioni tra parole e frasi. L’EDPS evidenzia una distinzione cruciale: i modelli AI non costituiscono sistemi autonomi, ma sono componenti fondamentali di un sistema più complesso che include altre componenti essenziali.
Il ciclo di vita di un sistema di IA generativa attraversa cinque fasi principali:
Le cinque fasi del ciclo di vita:
- Scope (Ambito): definizione del caso d’uso e degli obiettivi
- Select (Selezione): scelta o creazione del modello più appropriato
- Adapt (Adattamento): training e fine-tuning con dati specifici
- Evaluate (Valutazione): istituzione di metriche per valutare accuratezza e performance
- Integrate (Integrazione): ottimizzazione, deployment e monitoraggio continuo
Ogni fase può comportare il trattamento di dati personali con finalità e rischi distinti, richiedendo un’analisi separata dal punto di vista della protezione dei dati.
Ruoli e responsabilità nella catena di fornitura dell’IA
Uno degli aspetti più complessi e critici riguarda la determinazione dei ruoli ai sensi del Regolamento (UE) 2018/1725. L’EDPS chiarisce che i termini “provider”, “developer” e “deployer” comunemente utilizzati nel settore tecnologico e nell’AI Act non corrispondono ai concetti di protezione dei dati.
I ruoli secondo il Regolamento (UE) 2018/1725:
- Titolare del trattamento: l’entità che determina le finalità e i mezzi essenziali del trattamento dei dati personali
- Contitolare: entità che determinano congiuntamente finalità e mezzi per uno scopo comune
- Responsabile del trattamento: entità che tratta dati personali per conto del titolare, senza determinare le finalità
Questa distinzione è fondamentale perché determina le obbligazioni specifiche di ciascun operatore.
Il titolare del trattamento è l’entità che determina le finalità e i mezzi del trattamento dei dati personali. Nel contesto dell’IA generativa, può essere l’organizzazione che decide di sviluppare un sistema AI, che utilizza un fornitore di servizi per lo sviluppo, o che implementa un sistema generativo per uno scopo specifico. Le istituzioni europee devono condurre una valutazione approfondita caso per caso e documentare i risultati nei loro registri delle attività di trattamento, considerando che il trattamento dei dati personali coinvolge molteplici entità e varie finalità che dipendono dalla fase del ciclo di vita del modello AI.
La questione della base giuridica: tra interesse pubblico e consenso
La determinazione della base giuridica rappresenta una delle sfide più significative nell’implementazione di sistemi di IA generativa da parte delle EUIs. Il documento sottolinea che deve essere identificata una base giuridica distinta per ogni singola operazione di trattamento, con basi giuridiche separate per la fase di sviluppo e quella di deployment, poiché le finalità del trattamento sono diverse in ciascuna fase.
La base giuridica più comunemente applicabile per le EUIs è l’articolo 5(1)(a) del Regolamento, che riguarda la necessità per l’esecuzione di un compito di interesse pubblico o nell’esercizio di pubblici poteri. Tuttavia, quando le istituzioni si basano su questa norma, devono dimostrare che esiste un compito di interesse pubblico legato alle loro funzioni principali o che stanno esercitando un’autorità ufficiale attraverso specifici poteri, compiti e doveri loro conferiti. La base giuridica per il trattamento deve essere stabilita dal diritto dell’Unione, che può fornire istruzioni aggiuntive riguardo ad aspetti del trattamento come le categorie di dati o i periodi di conservazione.
Per quanto riguarda il consenso come base giuridica, l’EDPS evidenzia che il suo utilizzo può applicarsi solo in circostanze limitate
Requisiti per un consenso valido:
- Deve essere libero: senza coercizione o condizionamento
- Deve essere specifico: per finalità determinate e chiare
- Deve essere informato: l’interessato deve comprendere cosa autorizza
- Deve essere inequivocabile: richiede un’azione positiva chiara
- Deve essere revocabile: in qualsiasi momento e con la stessa facilità con cui è stato dato
Data la modalità con cui i sistemi di IA generativa vengono addestrati e le fonti dei dati di training, incluse le informazioni pubblicamente disponibili, sarebbe praticamente difficile acquisire il consenso degli individui.
Web scraping: una pratica da gestire con estrema cautela
L’EDPS esprime preoccupazioni significative sull’uso delle tecniche di web scraping per la raccolta di dati personali. Il documento chiarisce che il trattamento di dati personali pubblicamente disponibili rimane soggetto alla legislazione europea sulla protezione dei dati. L’uso di tecniche di web scraping per raccogliere dati da siti web e il loro utilizzo per finalità di training dovranno conformarsi a tutti i principi rilevanti di protezione dei dati, come la liceità, la trasparenza, la minimizzazione dei dati e il principio di accuratezza.
Una sfida primaria per garantire la legalità del web scraping è stabilire una base giuridica valida ai sensi dell’articolo 5 del Regolamento. Sebbene il web scraping di per sé non sia vietato, le EUIs possono affrontare sfide significative nell’identificare una base giuridica appropriata nel contesto di questa tecnica di raccolta dati. L’EDPS raccomanda alle EUIs di utilizzare fonti diverse di dati personali, ove possibile.
Salvaguardie raccomandate per il web scraping:
- Limitare la raccolta a dati liberamente accessibili
- Raccogliere solo dati manifestamente resi pubblici dall’individuo
- Implementare meccanismi di trasparenza rafforzati
- Prevedere procedure semplificate per l’esercizio dei diritti
- Valutare attentamente la necessità e proporzionalità della raccolta
Limitazione della finalità: un principio da applicare in ogni fase
Il potere dei modelli di IA generativa risiede nella loro adattabilità e versatilità in numerosi campi. Tuttavia, questa ampia funzionalità non deve andare a scapito dei principi di protezione dei dati, in particolare del principio di limitazione della finalità. Il ciclo di vita di un sistema di IA generativa comprende fasi distinte che possono comportare potenzialmente il trattamento di dati personali per finalità diverse, e indipendentemente dalla fase, i principi di protezione dei dati devono essere rispettati e deve essere definita una finalità per ogni operazione di trattamento.
L’EDPS riconosce che definire una finalità specifica e chiara per un modello di IA generativa durante la sua fase di sviluppo potrebbe essere più impegnativo rispetto alle fasi successive di deployment. È intrinseco nella natura dei sistemi di IA generativa essere aperti e servire per diverse applicazioni. Tuttavia, la finalità della raccolta deve essere chiaramente e specificamente identificata. Pertanto, la finalità dovrebbe essere definita anche nelle prime fasi di sviluppo del modello, considerando potenziali casi d’uso e funzionalità previste. I titolari dovrebbero avere un contesto chiaro per il deployment del modello AI e devono includere questo nei dettagli della finalità del trattamento quando completano i loro registri.
Minimizzazione e accuratezza: qualità prima della quantità
Il principio di minimizzazione dei dati richiede che i titolari garantiscano che i dati personali in fase di trattamento siano adeguati, pertinenti e limitati a quanto necessario in relazione alle finalità per cui vengono trattati. Nel contesto dell’intelligenza artificiale, i titolari hanno l’obbligo di limitare la raccolta e il trattamento di dati personali a quanto necessario per le finalità del trattamento, evitando il trattamento indiscriminato. Questa obbligazione copre l’intero ciclo di vita del sistema, e i dati personali non devono essere raccolti e trattati indiscriminatamente.
L’EDPS sottolinea un punto fondamentale: l’uso di grandi quantità di dati per addestrare un sistema di IA generativa non implica necessariamente maggiore efficacia o risultati migliori. Il design accurato di dataset ben strutturati, da utilizzare in sistemi che danno priorità alla qualità rispetto alla quantità, seguendo un processo di training adeguatamente supervisionato e soggetto a monitoraggio regolare, è essenziale per ottenere i risultati attesi non solo in termini di minimizzazione dei dati, ma anche per quanto riguarda la qualità dell’output e la sicurezza dei dati.
Riguardo al principio di accuratezza, i sistemi di IA generativa possono utilizzare in tutte le fasi del loro ciclo di vita enormi quantità di informazioni, inclusi dati personali. I titolari del trattamento devono garantire l’accuratezza dei dati in tutte le fasi dello sviluppo e dell’uso di un sistema di IA generativa, implementando le misure necessarie per integrare la protezione dei dati fin dalla progettazione. Nonostante gli sforzi per garantire l’accuratezza dei dati, i sistemi di IA generativa sono ancora soggetti a risultati inaccurati che possono avere un impatto sui diritti e le libertà fondamentali degli individui, le cosiddette “allucinazioni”. Le EUIs dovrebbero valutare attentamente l’accuratezza dei dati durante tutto il ciclo di vita dei sistemi di IA generativa e riconsiderare l’uso di tali sistemi se l’accuratezza non può essere mantenuta.
Diritti degli interessati: sfide tecniche e soluzioni pratiche
Gli individui i cui dati personali vengono trattati in qualsiasi fase del ciclo di vita di un sistema di IA generativa hanno diritti sui loro dati personali.
Diritti degli interessati da garantire:
- Diritto all’informazione: comprendere come i dati vengono utilizzati
- Diritto di accesso: ottenere conferma e copia dei propri dati
- Diritto di rettifica: correggere dati inesatti o incompleti
- Diritto alla cancellazione: ottenere l’eliminazione dei propri dati
- Diritto di opposizione: opporsi al trattamento in determinate circostanze
- Diritto alla limitazione: limitare il trattamento dei propri dati
- Diritto alla portabilità: ricevere i dati in formato strutturato
- Diritto di revoca del consenso: ritirare il consenso precedentemente prestato
Le EUIs che sviluppano o implementano sistemi di IA generativa devono mantenere procedure efficaci per consentire agli individui di esercitare questi diritti ogni volta che i dati personali vengono trattati.
Le caratteristiche uniche dei sistemi di IA generativa presentano sfide significative per l’esercizio dei diritti individuali. In particolare, nel contesto di richieste relative a dati di training o post-training, può essere difficile identificare l’individuo a cui i dati di training si riferiscono. Questo perché i modelli di IA generativa, come gli LLM, sono spesso addestrati su dataset diversi e vasti provenienti da molteplici fonti, rendendo estremamente difficile determinare se i dati personali di un individuo specifico siano stati inclusi nel dataset di training e, successivamente, rintracciarli. È anche complesso gestire i dati personali generati attraverso inferenza, poiché i sistemi di IA generativa creano nuove informazioni inferite basate su pattern appresi.
Per quanto riguarda l’esercizio del diritto alla cancellazione o alla rettifica, le EUIs potrebbero essere preoccupate che cancellare o rettificare i dati di un individuo dal dataset di training possa influenzare le prestazioni del modello. Tuttavia, la rimozione o la modifica di un punto dati da un dataset di training massiccio difficilmente avrà un impatto sulla capacità del modello di IA generativa di soddisfare le sue finalità di training, dato che rimangono trattati ampi dati di altri individui. La sfida principale sarebbe più legata alle difficoltà tecniche e computazionali della rimozione dei dati interessati.
Decisioni automatizzate e bias: vigilanza costante
L’uso di un sistema di IA generativa non implica necessariamente un processo decisionale automatizzato ai sensi dell’articolo 24 del Regolamento. Tuttavia, esistono sistemi di IA generativa che forniscono informazioni decisionali ottenute con mezzi automatizzati che coinvolgono profilazione e/o valutazioni individuali. A seconda dell’uso di tali informazioni nella decisione finale da parte di un servizio pubblico, le EUIs potrebbero rientrare nell’ambito di applicazione dell’articolo 24, quindi devono garantire che siano assicurate salvaguardie individuali, includendo almeno il diritto a ottenere l’intervento umano da parte del titolare, di esprimere il proprio punto di vista e di contestare la decisione.
I sistemi di intelligenza artificiale in generale tendono ad amplificare i bias umani esistenti e possono incorporarne di nuovi, creando nuove sfide etiche e rischi di conformità legale. I bias possono sorgere in qualsiasi fase dello sviluppo di un sistema di IA generativa attraverso i dataset di training, gli algoritmi o attraverso le persone che sviluppano o utilizzano il sistema. I bias nei sistemi di IA generativa possono portare a conseguenze negative significative.
Fonti principali di bias nell’IA generativa:
- Pattern esistenti e stereotipi presenti nei dati di training
- Mancanza di rappresentatività di determinati gruppi o popolazioni
- Inclusione o omissione di variabili rilevanti nei dataset
- Errori metodologici nelle fasi di raccolta e preparazione dei dati
- Bias introdotti durante le fasi di monitoraggio e valutazione
- Pregiudizi inconsapevoli degli sviluppatori e degli utilizzatori
È essenziale che i dataset utilizzati per creare e addestrare modelli garantiscano una rappresentazione adeguata ed equa del mondo reale, senza bias che possano aumentare il potenziale danno per individui o collettività non ben rappresentati nei dataset di training. Le EUIs, in quanto autorità pubbliche, dovrebbero implementare salvaguardie per evitare un eccessivo affidamento sui risultati forniti dai sistemi che può portare a bias di automazione e conferma.
Sicurezza e accountability: responsabilità documentata
L’uso di sistemi di IA generativa può amplificare i rischi di sicurezza esistenti o crearne di nuovi.
Principali rischi di sicurezza specifici dell’IA generativa:
- Model inversion attacks: estrazione di informazioni sensibili attraverso reverse-engineering del modello
- Prompt injection: introduzione di istruzioni malevole che alterano il comportamento del sistema
- Jailbreaking: tecniche per aggirare le salvaguardie e i limiti implementati nel modello
- Data poisoning: contaminazione dei dati di training con informazioni manipolate
- Memorizzazione e riproduzione: rischio di riproduzione involontaria di dati personali dal training set
I titolari dovrebbero integrare controlli specifici per queste vulnerabilità, facilitando il monitoraggio continuo e la valutazione della loro efficacia.
Rispetto ai sistemi tradizionali, i rischi specifici di sicurezza dell’IA generativa possono derivare da dati di training inaffidabili, dalla complessità dei sistemi, dall’opacità, dai problemi nell’eseguire test adeguati e dalle vulnerabilità nelle salvaguardie del sistema.
I titolari dovrebbero, oltre ai controlli di sicurezza tradizionali per i sistemi IT, integrare controlli specifici adattati alle vulnerabilità già note di questi sistemi - attacchi di inversione del modello, iniezione di prompt, jailbreak - in modo da facilitare il monitoraggio continuo e la valutazione della loro efficacia. Le EUIs dovrebbero formare il loro personale su come identificare e gestire i rischi di sicurezza legati all’uso di sistemi di IA generativa. Poiché i rischi evolvono rapidamente, sono necessari monitoraggio regolare e aggiornamenti della valutazione del rischio.
Il principio di accountability richiede che le responsabilità siano chiaramente identificate e rispettate tra i vari attori coinvolti nella catena di fornitura del modello di IA generativa. Le EUIs devono documentare tutte le misure di mitigazione implementate e la valutazione finale che l’IA generativa è affidabile e conforme al Regolamento, garantendo così la piena accountability. Questo include il mantenimento di registri tracciabili del trattamento dei dati personali e la gestione dei dataset in modo da permettere la tracciabilità del loro utilizzo.
Il ruolo centrale del Data Protection Officer
Nel contesto dell’implementazione da parte delle EUIs di sistemi di IA generativa che trattano dati personali, è importante garantire che i DPO, nel loro ruolo, forniscano consulenza e assistenza in modo indipendente sull’applicazione del Regolamento e abbiano una comprensione adeguata del ciclo di vita del sistema di IA generativa che l’istituzione sta considerando di acquisire, progettare o implementare. Il DPO dovrebbe essere coinvolto nella revisione delle questioni di conformità nel contesto degli accordi di condivisione dati firmati con i fornitori di modelli.
Compiti essenziali del DPO nel contesto dell’IA generativa:
- Fornire consulenza sull’applicazione del Regolamento in tutte le fasi del ciclo di vita
- Comprendere approfonditamente il funzionamento tecnico del sistema
- Assistere nella conduzione delle DPIA e nella gestione dei rischi
- Verificare la conformità degli accordi con fornitori e sviluppatori
- Monitorare il rispetto dei principi di data protection by design e by default
- Fungere da punto di contatto per interessati e autorità di controllo
Dalla prospettiva organizzativa, l’implementazione di sistemi di IA generativa in conformità con il Regolamento non dovrebbe essere uno sforzo di una sola persona. Dovrebbe esserci un dialogo continuo tra tutti gli stakeholder coinvolti durante il ciclo di vita del prodotto. Pertanto, i titolari dovrebbero interfacciarsi con tutte le funzioni rilevanti all’interno dell’organizzazione, in particolare il DPO, il Servizio Legale, il Servizio IT e il Local Informatics Security Officer (LISO) per garantire che l’istituzione operi nei parametri dell’IA generativa affidabile, di una buona governance dei dati e in conformità con il Regolamento. La creazione di una task force AI, che includa il DPO, e la preparazione di un piano d’azione, comprese azioni di sensibilizzazione a tutti i livelli dell’organizzazione e la preparazione di orientamenti interni, possono contribuire al raggiungimento di questi obiettivi.
Valutazione d’impatto: uno strumento fondamentale
Il Regolamento richiede che una DPIA debba essere effettuata prima di qualsiasi operazione di trattamento che possa comportare un rischio elevato per i diritti e le libertà fondamentali degli individui. Il Regolamento sottolinea l’importanza di effettuare tale valutazione quando devono essere utilizzate nuove tecnologie o sono di nuovo tipo in relazione alle quali non è stata effettuata alcuna valutazione in precedenza dal titolare, ad esempio nel caso dei sistemi di IA generativa.
Il titolare è obbligato a chiedere il parere del DPO quando effettua una DPIA. A seguito della valutazione, devono essere adottate misure tecniche e organizzative appropriate per mitigare i rischi identificati, date le responsabilità, il contesto e le misure disponibili allo stato dell’arte. Tutti gli attori coinvolti nella DPIA devono garantire che qualsiasi decisione e azione sia adeguatamente documentata, coprendo l’intero ciclo di vita del sistema di IA generativa, comprese le azioni intraprese per gestire i rischi e le successive revisioni da effettuare.
Anonimizzazione: una questione complessa
L’EDPS, in linea con il Parere EDPB 28/2024, chiarisce che un modello AI addestrato con dati personali può essere considerato anonimo solo se la probabilità di estrazione diretta (inclusa quella probabilistica) di dati personali riguardanti individui i cui dati personali sono stati utilizzati per addestrare il modello, così come la probabilità di ottenere tali dati personali da interrogazioni (intenzionalmente o meno), sia insignificante per qualsiasi interessato.
Per impostazione predefinita, l’EDPS considera che i modelli AI richiedano probabilmente una valutazione approfondita della probabilità di identificazione per giungere a una conclusione sulla loro possibile natura anonima. Questa probabilità dovrebbe essere valutata tenendo conto di “tutti i mezzi ragionevolmente utilizzabili” dal titolare o da un’altra persona, e dovrebbe anche considerare il riutilizzo o la divulgazione non intenzionali del modello.
Conclusioni: verso un’IA affidabile e conforme
Le linee guida dell’EDPS rappresentano un contributo fondamentale per garantire che l’uso dell’IA generativa da parte delle istituzioni europee sia conforme ai principi di protezione dei dati e rispettoso dei diritti fondamentali delle persone. Il documento adotta un approccio pragmatico, non prescrivendo misure tecniche specifiche ma enfatizzando i principi generali di protezione dei dati.
La natura evolutiva della guidance riflette la rapida evoluzione della tecnologia: il documento continuerà ad essere aggiornato, perfezionato ed espanso nel tempo per affrontare le esigenze emergenti e garantire un’implementazione efficace. Le EUIs hanno la responsabilità specifica, in quanto attori pubblici, di garantire il pieno rispetto dei diritti fondamentali e delle libertà degli individui nell’utilizzo delle nuove tecnologie, e queste linee guida forniscono gli strumenti necessari per affrontare questa sfida in modo conforme ed efficace.
Il documento sottolinea l’importanza di una vigilanza continua per i rischi emergenti e non identificati, mantenendo un approccio vigile verso rischi non ancora rilevati. La comprensione dei rischi legati all’uso dell’IA generativa è ancora in evoluzione, richiedendo un atteggiamento di costante attenzione. Le EUIs devono ricordare che la responsabilità di garantire che tutte le operazioni di trattamento effettuate nel contesto dell’IA generativa siano conformi al Regolamento rimane con il titolare del trattamento, che deve assicurare che tutti i processi siano adeguatamente documentati e che sia garantita la trasparenza.
Documento completo: EDPS Orientations for ensuring data protection compliance when using Generative AI systems (Version 2) - PDF
Per approfondimenti:
Hashtag correlati
#EDPS #IAGenerativa #ProtezioneDati #EUDPR #GDPR #AIAct #LLM #Privacy #DataProtection #EURegulation #ArtificialIntelligence #ComplianceAI
