Maskování dat

SubstituceEdit

Substituce je jednou z nejefektivnějších metod maskování dat, která umožňuje zachovat autentický vzhled datových záznamů.

Umožňuje provést maskování takovým způsobem, že stávající hodnotu lze nahradit jinou autenticky vypadající hodnotou. Existuje několik typů datových polí, u nichž tento přístup poskytuje optimální výhodu při maskování celkové podmnožiny dat, zda se jedná o maskovaný soubor dat, či nikoli. Například pokud se jedná o zdrojová data, která obsahují záznamy o zákaznících, lze náhodně nahradit skutečné příjmení nebo jméno z dodaného nebo přizpůsobeného vyhledávacího souboru. Pokud první průchod záměny umožňuje použít mužské křestní jméno na všechna křestní jména, pak by druhý průchod musel umožnit použití ženského křestního jména na všechna křestní jména, kde se pohlaví rovná „F“. Pomocí tohoto přístupu bychom mohli snadno zachovat mix pohlaví v rámci datové struktury, aplikovat anonymitu na datové záznamy, ale také zachovat realisticky vypadající databázi, kterou by nebylo možné snadno identifikovat jako databázi složenou z maskovaných dat.

Tuto metodu substituce je třeba aplikovat na mnoho polí, která jsou ve strukturách DB po celém světě, jako jsou telefonní čísla, poštovní směrovací čísla a poštovní směrovací čísla, stejně jako čísla kreditních karet a další čísla typu karet, jako jsou čísla sociálního pojištění a čísla zdravotních pojišťoven, kde tato čísla skutečně musí vyhovovat testu kontrolního součtu Luhnova algoritmu.

Ve většině případů budou muset být substituční soubory poměrně rozsáhlé, takže disponovat rozsáhlými substitučními datovými sadami a také schopností použít vlastní substituční datové sady by mělo být klíčovým prvkem hodnotících kritérií pro jakékoli řešení maskování dat.

ShufflingEdit

Metoda shuffling je velmi běžnou formou obfuskace dat. Je podobná substituční metodě, ale substituční množinu odvozuje ze stejného sloupce dat, který je maskován. Velmi zjednodušeně řečeno, data jsou v rámci sloupce náhodně zamíchána. Pokud se však použije izolovaně, může kdokoli s jakoukoli znalostí původních dat aplikovat na soubor dat scénář „Co kdyby“ a poté dát dohromady skutečnou identitu. Metodu míchání je také možné zvrátit, pokud se podaří rozluštit algoritmus míchání.

Míchání má však v určitých oblastech skutečné přednosti. Pokud se například jedná o údaje ke konci roku u finančních informací v testovací databázi, lze zamaskovat jména dodavatelů a poté zamíchat hodnoty účtů v celé zamaskované databázi. Je velmi nepravděpodobné, že by někdo, dokonce i někdo s důvěrnou znalostí původních dat, dokázal odvodit pravdivý záznam dat zpět k původním hodnotám.

Odchylka čísel a datUpravit

Metoda číselné odchylky je velmi užitečná pro aplikaci na pole finančních informací a informací řízených daty. Efektivně může metoda využívající tento způsob maskování stále ponechat smysluplný rozsah v souboru finančních dat, jako jsou mzdy. Pokud se použitá odchylka pohybuje kolem +/- 10 %, pak se stále jedná o velmi smysluplný soubor dat, pokud jde o rozsahy mezd, které jsou vypláceny příjemcům.

To samé platí i pro informace o datu. Pokud si má celkový soubor údajů zachovat integritu demografických a pojistněmatematických údajů, pak by použití náhodné číselné odchylky +/- 120 dní u datových polí zachovalo rozložení dat, ale stále by znemožnilo zpětné dohledání známého subjektu na základě jeho známého skutečného data nebo data narození nebo známé hodnoty data pro jakýkoli maskovaný záznam.

ŠifrováníEdit

Šifrování je často nejsložitějším přístupem k řešení problému maskování dat. Šifrovací algoritmus často vyžaduje použití „klíče“ pro zobrazení dat na základě uživatelských práv. To často zní jako nejlepší řešení, ale v praxi pak může být klíč předán pracovníkům bez příslušných práv k prohlížení dat. To pak zmaří účel maskovacího cvičení. Staré databáze se pak mohou zkopírovat s původními pověřeními dodaného klíče a stejný nekontrolovaný problém žije dál.

V poslední době se problematice šifrování dat při zachování vlastností entit dostalo uznání a nově nabytého zájmu mezi dodavateli a akademickou obcí. Nová výzva dala vzniknout algoritmům označovaným jako FPE (format preserving encryption). Jsou založeny na uznávaném algoritmickém módu AES, díky němuž je uznává i NIST.

Vymazání nebo odstraněníEdit

Někdy se k maskování přistupuje velmi zjednodušeně pomocí použití nulové hodnoty na určité pole. Přístup s nulovou hodnotou je ve skutečnosti užitečný pouze pro zabránění viditelnosti datového prvku.

Téměř ve všech případech snižuje míru integrity dat, která je v maskované datové sadě zachována. Není to reálná hodnota a pak selže jakákoli validace aplikační logiky, která mohla být použita ve front end softwaru, který je v testovaném systému. Upozorňuje také každého, kdo by chtěl zpětně analyzovat některý z údajů o totožnosti, že na soubor dat bylo v určité míře použito maskování dat.

MaskováníEdit

Zakódování znaků nebo maskování určitých polí je také další zjednodušenou, ale velmi účinnou metodou, jak zabránit zobrazení citlivých informací. Jedná se vlastně o rozšíření předchozí metody nulling out, ale je zde kladen větší důraz na to, aby údaje zůstaly skutečné a nebyly zcela zamaskovány dohromady.

Tato metoda se běžně používá u údajů o kreditních kartách v produkčních systémech. Například operátor v call centru může zákazníkovi zaúčtovat položku na jeho kreditní kartu. Pak uvede fakturační odkaz na kartu s posledními čtyřmi číslicemi XXXX XXXX xxxx 6789. Jako operátor vidí pouze poslední 4 číslice čísla karty, ale jakmile fakturační systém předá zákazníkovi údaje pro účtování, zjistí systémy platební brány celé číslo.

Tento systém není příliš efektivní pro testovací systémy, ale je velmi užitečný pro výše uvedený scénář účtování. Běžně se také označuje jako metoda dynamického maskování dat.

Další komplexní pravidlaUpravit

Další pravidla lze také zohlednit v jakémkoli řešení maskování bez ohledu na to, jak jsou metody maskování konstruovány. Produktově agnostické bílé knihy jsou dobrým zdrojem informací pro zkoumání některých nejběžnějších komplexních požadavků na podniková maskovací řešení, mezi něž patří pravidla interní synchronizace řádků, pravidla interní synchronizace tabulek a pravidla synchronizace mezi tabulkami.