In una società guidata da Mental Coach, formatori e filosofi di ultima generazione, ci siamo imbattuti probabilmente tutti in aforismi datati e insegnamenti scontati.
Quasi tutti partono da una premessa: prendere tutto in maniera positiva, trasformare i problemi in opportunità e approcciare agli eventi negativi come base di partenza o stimolo per cambiare.
Con molta fantasia e (poca fiducia in questi soggetti) possiamo raccogliere l’invito a “trasformare il brutto in buono” e applicarlo nel mondo della cybersecurity e più in generale nella gestione e trattamento dei dati personali.
Se è vero (difficile smentire, cosiccome confermare, ma in questo caso è sufficiente che sia verosimile) che Charlie Chaplin non vinse il concorso per il sosia più simile a Charlie Chaplin, chi ci assicura che la versione originale sia sempre la migliore?
L’importanza dei dati: dalla quantità alla qualità
A testimoniare l’importanza di avere un database ricco e organizzato, la constatazione che ogni azienda è diventata data-driven ossia guidata dai dati.
La quantità di dati non è mai stato un problema e probabilmente mai lo sarà in futuro, per questo motivo l’obiettivo attuale e prossimo sarà migliorare la qualità dei dati per renderli utili.
A legiferare e orientare la raccolta e l’utilizzo di tali informazioni c’è il regolamento per la gestione e il trattamento dei dati che per tutelare i soggetti interessati definisce responsabilità, limiti e processi.
Cosa sono i dati sintetici
“I dati sintetici sono dati generati artificialmente attraverso l'utilizzo di algoritmi e tecniche di sintesi, creati con lo scopo di simulare dati reali.
In pratica, si tratta di dati che non hanno nulla a che fare con la realtà, ma che presentano le stesse caratteristiche dei dati reali”.
Queste le parole di Guido Scorza, componente del Collegio del Garante, intervistato da Matteo Flora, esperto di Cybersecurity.
Se ne parla però di più di 20 anni, tant’è vero che Donald B. Rubin, docente di statistica di Harvard, in un articolo del 1993 li definiva “dati costruiti utilizzando l'imputazione multipla in modo da poter essere analizzati validamente con un software statistico standard”.
Riassumendo all’estremo potremmo prendere in prestito le parole utilizzate da Federprivacy: dati creati a tavolino che rispecchiano le caratteristiche della base dati di riferimento, non necessariamente basati su una distribuzione normale, senza la possibilità di risalire ai dati originari.
I dati sintetici possono essere utilizzati per addestrare algoritmi di machine learning, per la creazione di dataset di test e di training, o per la valutazione di algoritmi in situazioni estreme.
A cosa servono i dati sintetici
Come intuibile nel paragrafo precedente, i dati sintetici diventano importanti soprattutto nei contesti in cui è necessario utilizzare dati sensibili e al contempo proteggere la privacy delle persone coinvolte.
Rispetto all’anonimizzazione dei dati personali, i dati sintetici rappresentano una soluzione migliore perché non consentono in alcun modo il recupero delle informazioni originarie.
Oltre a garantire un vantaggio economico nell’acquisizione del dato, l’utilizzo dei dati sintetici permette di garantire un maggior anonimato e un più semplice adempimento alle indicazioni introdotte dal GDPR.
Il rapporto tra GDPR e dati sintetici: cosa valutare
L’occhiolino da parte dei dati sintetici verso il GDPR non deve ingannare: occorre valutare con attenzione l’impostazione di questa operazione per rispettare il regolamento.
Di seguito alcune utili interrogazioni:
- La raccolta preventiva per la generazione dei dati di partenza rispetta il GDPR?
- L’algoritmo è strutturato in maniera corretta da garantire la rielaborazione?
- L’utilizzo dei dati sintetici avviene in maniera trasparente?
- Il responsabile del trattamento dei dati personali è coinvolto nei processi di generazione e utilizzo?
- Il trattamento dei dati sintetici sono inclusi nelle informative e nel registro dei trattamenti?