SostituzioneModifica
La sostituzione è uno dei metodi più efficaci per applicare il mascheramento dei dati ed essere in grado di conservare l’aspetto autentico dei record di dati.
Permette di eseguire il mascheramento in modo tale che un altro valore dall’aspetto autentico possa essere sostituito al valore esistente. Ci sono diversi tipi di campi di dati in cui questo approccio fornisce un beneficio ottimale nel mascherare il sottoinsieme di dati complessivo per sapere se si tratta di un insieme di dati mascherati o meno. Per esempio, se si tratta di dati sorgente che contengono record di clienti, il cognome o il nome della vita reale può essere sostituito casualmente da un file di ricerca fornito o personalizzato. Se il primo passaggio della sostituzione permette di applicare un nome maschile a tutti i nomi, allora il secondo passaggio dovrebbe permettere di applicare un nome femminile a tutti i nomi dove il genere è uguale a “F”. Usando questo approccio potremmo facilmente mantenere il mix di genere all’interno della struttura dei dati, applicare l’anonimato ai record di dati ma anche mantenere un database dall’aspetto realistico, che non potrebbe essere facilmente identificato come un database composto da dati mascherati.
Questo metodo di sostituzione deve essere applicato per molti dei campi che sono nelle strutture DB in tutto il mondo, come numeri di telefono, codici postali e codici di avviamento postale, così come i numeri delle carte di credito e altri numeri di tipo carta come i numeri di previdenza sociale e Medicare dove questi numeri devono effettivamente essere conformi a un test checksum dell’algoritmo Luhn.
Nella maggior parte dei casi, i file di sostituzione dovranno essere abbastanza estesi, quindi avere grandi set di dati di sostituzione e la capacità di applicare set di sostituzione di dati personalizzati dovrebbe essere un elemento chiave dei criteri di valutazione per qualsiasi soluzione di mascheramento dei dati.
ShufflingEdit
Il metodo shuffling è una forma molto comune di offuscamento dei dati. È simile al metodo della sostituzione, ma deriva l’insieme di sostituzione dalla stessa colonna di dati che viene mascherata. In termini molto semplici, i dati vengono mischiati casualmente all’interno della colonna. Tuttavia, se usato in modo isolato, chiunque abbia una qualsiasi conoscenza dei dati originali può applicare uno scenario “What If” al set di dati e quindi ricostruire una vera identità. Il metodo dello shuffling può anche essere invertito se l’algoritmo di shuffling può essere decifrato.
Shuffling, tuttavia, ha alcuni punti di forza reali in alcune aree. Se per esempio, le cifre di fine anno per le informazioni finanziarie in un database di prova, si possono mascherare i nomi dei fornitori e poi mischiare il valore dei conti in tutto il database mascherato. È altamente improbabile che qualcuno, anche qualcuno con una conoscenza intima dei dati originali, possa ricavare un vero record di dati ai suoi valori originali.
Varianza di numeri e dateModifica
Il metodo della varianza numerica è molto utile da applicare a campi di informazioni finanziarie e date. Effettivamente, un metodo che utilizza questo tipo di mascheramento può ancora lasciare un intervallo significativo in un set di dati finanziari come il libro paga. Se la varianza applicata è di circa +/- 10%, allora è ancora un insieme di dati molto significativo in termini di intervalli di stipendi che sono pagati ai destinatari.
Lo stesso vale anche per le informazioni sulle date. Se il set di dati complessivo deve mantenere l’integrità dei dati demografici e attuariali, allora l’applicazione di una varianza numerica casuale di +/- 120 giorni ai campi data preserverebbe la distribuzione delle date, ma impedirebbe ancora la tracciabilità a un’entità nota basata sulla loro data di nascita effettiva nota o su un valore di data noto per qualsiasi record venga mascherato.
CrittografiaModifica
La crittografia è spesso l’approccio più complesso alla soluzione del problema del mascheramento dei dati. L’algoritmo di crittografia spesso richiede l’applicazione di una “chiave” per visualizzare i dati in base ai diritti dell’utente. Questa sembra spesso la soluzione migliore, ma in pratica la chiave può essere data a personale senza i diritti appropriati per vedere i dati. Questo vanifica lo scopo dell’esercizio di mascheramento. I vecchi database possono essere copiati con le credenziali originali della chiave fornita e lo stesso problema incontrollato sopravvive.
Di recente, il problema di criptare i dati preservando le proprietà delle entità ha ottenuto un riconoscimento e un nuovo interesse acquisito tra i fornitori e il mondo accademico. La nuova sfida ha dato vita ad algoritmi chiamati FPE (format preserving encryption). Sono basati sulla modalità algoritmica AES accettata che li fa riconoscere dal NIST.
Nulling out o deletionEdit
A volte viene adottato un approccio molto semplicistico al mascheramento attraverso l’applicazione di un valore nullo a un campo particolare. L’approccio del valore nullo è davvero utile solo per impedire la visibilità dell’elemento di dati.
In quasi tutti i casi, diminuisce il grado di integrità dei dati che viene mantenuto nell’insieme di dati mascherati. Non è un valore realistico e quindi fallirà qualsiasi convalida della logica applicativa che può essere stata applicata nel software di front-end che è nel sistema in prova. Evidenzia anche a chiunque voglia fare reverse engineering dei dati di identità che il mascheramento dei dati è stato applicato in qualche misura all’insieme di dati.
Mascherare l’outEdit
Lo scrambling dei caratteri o il mascheramento di certi campi è anche un altro metodo semplicistico ma molto efficace per impedire la visualizzazione di informazioni sensibili. È davvero un’estensione del precedente metodo di nulling out, ma c’è una maggiore enfasi nel mantenere i dati reali e non completamente mascherati insieme.
Questo è comunemente applicato ai dati delle carte di credito nei sistemi di produzione. Per esempio, un operatore di un call center potrebbe fatturare un articolo sulla carta di credito di un cliente. Quindi citano un riferimento di fatturazione alla carta con le ultime 4 cifre di XXXX XXXX xxxx 6789. Come operatore può vedere solo le ultime 4 cifre del numero della carta, ma una volta che il sistema di fatturazione passa i dettagli del cliente per l’addebito, il numero completo viene rivelato ai sistemi del gateway di pagamento.
Questo sistema non è molto efficace per i sistemi di test, ma è molto utile per lo scenario di fatturazione descritto sopra. È anche comunemente noto come metodo di mascheramento dinamico dei dati.
Regole aggiuntive complesseModifica
Regole aggiuntive possono anche essere integrate in qualsiasi soluzione di mascheramento, indipendentemente da come i metodi di mascheramento sono costruiti. I libri bianchi indipendenti dal prodotto sono una buona fonte di informazioni per esplorare alcuni dei requisiti complessi più comuni per le soluzioni di mascheramento aziendali, che includono regole di sincronizzazione interna alle righe, regole di sincronizzazione interna alle tabelle e regole di sincronizzazione da tabella a tabella.