ZastępowanieEdit
Zastępowanie jest jedną z najbardziej skutecznych metod stosowania maskowania danych i możliwości zachowania autentycznego wyglądu rekordów danych.
Pozwala na wykonanie maskowania w taki sposób, że inna autentycznie wyglądająca wartość może zostać zastąpiona istniejącą wartością. Istnieje kilka typów pól danych, w przypadku których takie podejście zapewnia optymalne korzyści w zakresie maskowania ogólnego podzbioru danych pod kątem tego, czy jest to zbiór danych maskowanych, czy nie. Na przykład, jeśli mamy do czynienia z danymi źródłowymi, które zawierają rekordy klientów, prawdziwe nazwisko lub imię może być losowo zastąpione z dostarczonego lub dostosowanego pliku look up. Jeśli pierwsze przejście substytucji pozwala na zastosowanie męskiego imienia do wszystkich imion, to drugie przejście musiałoby pozwolić na zastosowanie żeńskiego imienia do wszystkich imion, w których płeć jest równa „F”. Używając tego podejścia moglibyśmy łatwo utrzymać mieszankę płci w strukturze danych, zastosować anonimowość do rekordów danych, ale także utrzymać realistycznie wyglądającą bazę danych, która nie mogłaby być łatwo zidentyfikowana jako baza danych składająca się z zamaskowanych danych.
Ta metoda zastępowania musi być zastosowana do wielu pól, które są w strukturach DB na całym świecie, takich jak numery telefonów, kody pocztowe i kody pocztowe, a także numery kart kredytowych i inne numery typu karty, takie jak numery Social Security i Medicare, gdzie numery te faktycznie muszą być zgodne z testem sumy kontrolnej algorytmu Luhn.
W większości przypadków pliki zastępujące będą musiały być dość obszerne, więc posiadanie dużych zbiorów danych zastępujących, jak również możliwość stosowania niestandardowych zestawów zastępujących dane powinno być kluczowym elementem kryteriów oceny każdego rozwiązania maskowania danych.
ShufflingEdit
Metoda shuffling jest bardzo powszechną formą maskowania danych. Jest ona podobna do metody substytucji, ale pochodzi zestaw substytucji z tej samej kolumny danych, które są maskowane. W bardzo prostych słowach, dane są losowo tasowane w obrębie kolumny. Jednakże, jeśli jest stosowana w izolacji, każdy, kto posiada jakąkolwiek wiedzę na temat oryginalnych danych, może zastosować scenariusz „Co by było, gdyby” do zestawu danych, a następnie złożyć z powrotem prawdziwą tożsamość. Metoda tasowania jest również otwarta do bycia odwróconym, jeśli algorytm tasowania może być rozszyfrowany.
Tasowanie, jednak, ma pewne prawdziwe zalety w niektórych obszarach. Jeśli, na przykład, na koniec roku liczby informacji finansowych w bazie danych testowych, można zamaskować nazwy dostawców, a następnie przetasować wartość rachunków w całej zamaskowanej bazy danych. Jest bardzo mało prawdopodobne, że ktokolwiek, nawet ktoś z dogłębną znajomością oryginalnych danych, mógłby wyprowadzić prawdziwy rekord danych z powrotem do jego oryginalnych wartości.
Wariancja numeryczna i dataEdit
Metoda wariancji numerycznej jest bardzo przydatna do stosowania w polach informacji finansowych i wynikających z daty. Skutecznie, metoda wykorzystująca ten sposób maskowania może nadal pozostawiać znaczący zakres w zestawie danych finansowych, takich jak lista płac. Jeśli wariancja stosowana jest około +/- 10% to nadal jest to bardzo znaczący zestaw danych w odniesieniu do zakresów wynagrodzeń, które są wypłacane do odbiorców.
To samo odnosi się również do informacji o dacie. Jeżeli ogólny zbiór danych musi zachować integralność danych demograficznych i aktuarialnych, wówczas zastosowanie losowej wariancji liczbowej +/- 120 dni do pól daty zachowałoby rozkład dat, ale nadal uniemożliwiałoby śledzenie wstecz do znanego podmiotu na podstawie znanej rzeczywistej daty urodzenia lub znanej wartości daty dla dowolnego rekordu, który jest maskowany.
SzyfrowanieEdit
Szyfrowanie jest często najbardziej złożonym podejściem do rozwiązania problemu maskowania danych. Algorytm szyfrowania często wymaga zastosowania „klucza” do przeglądania danych w oparciu o uprawnienia użytkownika. Często brzmi to jak najlepsze rozwiązanie, ale w praktyce klucz może zostać wydany personelowi bez odpowiednich uprawnień do przeglądania danych. Zniweczy to cel maskowania. Stare bazy danych mogą następnie zostać skopiowane z oryginalnymi danymi uwierzytelniającymi dostarczony klucz i ten sam niekontrolowany problem żyje dalej.
Ostatnio, problem szyfrowania danych przy jednoczesnym zachowaniu właściwości podmiotów zyskał uznanie i nowo nabyte zainteresowanie wśród dostawców i środowisk akademickich. Nowe wyzwanie dało początek algorytmom zwanym FPE (format preserving encryption). Opierają się one na przyjętym trybie algorytmicznym AES, dzięki czemu są uznawane przez NIST.
Nulling out or deletionEdit
Czasami przyjmuje się bardzo uproszczone podejście do maskowania poprzez zastosowanie wartości null do danego pola. Podejście oparte na wartości zerowej jest tak naprawdę przydatne tylko do zapobiegania widoczności elementu danych.
W prawie wszystkich przypadkach zmniejsza ono stopień integralności danych, który jest utrzymywany w maskowanym zbiorze danych. Nie jest to realistyczna wartość i nie powiedzie się wtedy żadna walidacja logiki aplikacji, która mogła być zastosowana w oprogramowaniu front-end, które jest w testowanym systemie. Podkreśla to również każdemu, kto chce odtworzyć dane tożsamości, że maskowanie danych zostało zastosowane w pewnym stopniu na zbiorze danych.
Masking outEdit
Zakodowanie znaków lub maskowanie niektórych pól jest również inną prostą, ale bardzo skuteczną metodą zapobiegania wrażliwych informacji do przeglądania. To jest naprawdę rozszerzenie poprzedniej metody nulling out, ale jest większy nacisk na utrzymanie danych rzeczywistych i nie w pełni zamaskowane wszystkie razem.
To jest powszechnie stosowane do danych kart kredytowych w systemach produkcyjnych. Na przykład, operator w centrum telefonicznym może wystawić rachunek za przedmiot na kartę kredytową klienta. Następnie podaje numer referencyjny do karty z ostatnimi 4 cyframi XXXX XXXX xxxx 6789. Jako operator mogą oni zobaczyć tylko 4 ostatnie cyfry numeru karty, ale gdy system rozliczeniowy przekaże dane klienta do obciążenia, pełny numer jest ujawniany systemom bramek płatniczych.
System ten nie jest zbyt skuteczny dla systemów testowych, ale jest bardzo przydatny dla scenariusza rozliczeniowego opisanego powyżej. Jest on również powszechnie znany jako dynamiczna metoda maskowania danych.
Dodatkowe złożone regułyEdit
Dodatkowe reguły mogą być również uwzględnione w każdym rozwiązaniu maskującym, niezależnie od tego, jak skonstruowane są metody maskowania. Białe księgi niezależne od produktu są dobrym źródłem informacji do zbadania niektórych z bardziej powszechnych złożonych wymagań dotyczących rozwiązań maskowania dla przedsiębiorstw, które obejmują reguły synchronizacji wewnętrznej wierszy, reguły synchronizacji wewnętrznej tabel oraz reguły synchronizacji między tabelami.