Datenmaskierung

SubstitutionBearbeiten

Die Substitution ist eine der effektivsten Methoden, um Daten zu maskieren und das authentische Aussehen der Datensätze zu bewahren.

Sie ermöglicht es, die Maskierung so durchzuführen, dass der vorhandene Wert durch einen anderen authentisch aussehenden Wert ersetzt werden kann. Es gibt mehrere Datenfeldtypen, bei denen dieser Ansatz einen optimalen Nutzen bietet, indem er die gesamte Datenuntermenge dahingehend verschleiert, ob es sich um einen maskierten Datensatz handelt oder nicht. Wenn es sich beispielsweise um Quelldaten handelt, die Kundendatensätze enthalten, können Nach- oder Vornamen nach dem Zufallsprinzip aus einer mitgelieferten oder angepassten Nachschlagedatei ersetzt werden. Wenn der erste Durchgang der Ersetzung die Anwendung eines männlichen Vornamens auf alle Vornamen ermöglicht, dann müsste der zweite Durchgang die Anwendung eines weiblichen Vornamens auf alle Vornamen ermöglichen, bei denen das Geschlecht gleich „F“ ist. Mit diesem Ansatz könnten wir die Geschlechtermischung innerhalb der Datenstruktur leicht beibehalten, die Datensätze anonymisieren und gleichzeitig eine realistisch aussehende Datenbank erhalten, die nicht leicht als eine aus maskierten Daten bestehende Datenbank identifiziert werden könnte.

Diese Substitutionsmethode muss für viele der Felder angewandt werden, die in DB-Strukturen auf der ganzen Welt vorkommen, wie Telefonnummern, Postleitzahlen, sowie Kreditkartennummern und andere kartenartige Nummern wie Sozialversicherungsnummern und Medicare-Nummern, bei denen diese Nummern tatsächlich einem Prüfsummentest des Luhn-Algorithmus entsprechen müssen.

In den meisten Fällen müssen die Substitutionsdateien recht umfangreich sein, so dass große Substitutionsdatensätze sowie die Möglichkeit, benutzerdefinierte Datensubstitutionssätze anzuwenden, ein Schlüsselelement der Bewertungskriterien für jede Datenmaskierungslösung sein sollten.

ShufflingEdit

Das Shuffling-Verfahren ist eine sehr verbreitete Form der Datenverschleierung. Sie ähnelt der Substitutionsmethode, aber sie leitet den Substitutionssatz aus derselben Datenspalte ab, die maskiert wird. Vereinfacht ausgedrückt, werden die Daten innerhalb der Spalte zufällig gemischt. Bei isolierter Anwendung kann jedoch jeder, der die Originaldaten kennt, ein „Was-wäre-wenn“-Szenario auf den Datensatz anwenden und dann eine echte Identität wiederherstellen. Die Shuffling-Methode kann auch rückgängig gemacht werden, wenn der Shuffling-Algorithmus entschlüsselt werden kann.

Das Shuffling hat jedoch in bestimmten Bereichen echte Stärken. Wenn zum Beispiel die Jahresendzahlen für Finanzinformationen in einer Testdatenbank, kann man die Namen der Lieferanten maskieren und dann den Wert der Konten durch die maskierte Datenbank mischen. Es ist höchst unwahrscheinlich, dass jemand, selbst jemand mit intimer Kenntnis der ursprünglichen Daten, einen echten Datensatz auf seine ursprünglichen Werte zurückführen könnte.

Zahlen- und DatumsabweichungBearbeiten

Die Methode der numerischen Abweichung ist sehr nützlich für die Anwendung auf Finanz- und datumsgesteuerte Informationsfelder. Eine Methode, die diese Art der Maskierung verwendet, kann immer noch einen aussagekräftigen Bereich in einem Finanzdatensatz, wie z. B. der Gehaltsabrechnung, belassen. Wenn die angewandte Abweichung etwa +/- 10 % beträgt, handelt es sich immer noch um einen sehr aussagekräftigen Datensatz in Bezug auf die Spanne der Gehälter, die an die Empfänger gezahlt werden.

Das Gleiche gilt auch für die Datumsinformationen. Wenn der Gesamtdatensatz die Integrität der demografischen und versicherungsmathematischen Daten bewahren muss, dann würde die Anwendung einer zufälligen numerischen Abweichung von +/- 120 Tagen auf Datumsfelder die Datumsverteilung bewahren, aber es würde immer noch die Rückverfolgbarkeit zu einer bekannten Person auf der Grundlage ihres bekannten tatsächlichen Geburtsdatums oder eines bekannten Datumswerts für den zu maskierenden Datensatz verhindern.

VerschlüsselungBearbeiten

Die Verschlüsselung ist oft der komplexeste Ansatz zur Lösung des Problems der Datenmaskierung. Der Verschlüsselungsalgorithmus erfordert oft die Anwendung eines „Schlüssels“, um die Daten auf der Grundlage von Benutzerrechten anzuzeigen. Das hört sich oft nach der besten Lösung an, aber in der Praxis kann der Schlüssel dann an Mitarbeiter weitergegeben werden, die nicht die richtigen Rechte haben, um die Daten einzusehen. Dadurch wird der Zweck der Maskierung zunichte gemacht. Alte Datenbanken können dann mit den ursprünglichen Anmeldeinformationen des gelieferten Schlüssels kopiert werden, und das gleiche unkontrollierte Problem besteht weiter.

In jüngster Zeit wurde das Problem der Verschlüsselung von Daten unter Beibehaltung der Eigenschaften der Entitäten erkannt und fand ein neues Interesse bei den Anbietern und in der Wissenschaft. Diese neue Herausforderung führte zur Entwicklung von Algorithmen mit der Bezeichnung FPE (format preserving encryption). Sie basieren auf dem anerkannten AES-Algorithmus, weshalb sie vom NIST anerkannt werden.

Nulling out or deletionEdit

Gelegentlich wird ein sehr einfacher Ansatz zur Maskierung gewählt, indem ein Nullwert auf ein bestimmtes Feld angewendet wird. Der Ansatz des Nullwerts ist wirklich nur nützlich, um die Sichtbarkeit des Datenelements zu verhindern.

In fast allen Fällen verringert er den Grad der Datenintegrität, der in dem maskierten Datensatz beibehalten wird. Es handelt sich um einen unrealistischen Wert, der jede Validierung der Anwendungslogik, die in der Front-End-Software des zu prüfenden Systems angewandt wurde, zum Scheitern bringen wird. Außerdem wird jedem, der Identitätsdaten zurückentwickeln möchte, deutlich gemacht, dass der Datensatz bis zu einem gewissen Grad maskiert wurde.

AusmaskierenBearbeiten

Das Verschlüsseln von Zeichen oder das Ausmaskieren bestimmter Felder ist ebenfalls eine einfache, aber sehr wirksame Methode, um zu verhindern, dass sensible Informationen eingesehen werden können. Es handelt sich dabei um eine Erweiterung der vorherigen Methode des Auslöschens, wobei jedoch mehr Wert darauf gelegt wird, dass die Daten echt bleiben und nicht vollständig maskiert werden.

Dies wird häufig bei Kreditkartendaten in Produktionssystemen angewandt. So kann beispielsweise ein Mitarbeiter eines Call-Centers einen Artikel über die Kreditkarte eines Kunden abrechnen. Er gibt dann eine Rechnungsreferenz für die Karte mit den letzten 4 Ziffern XXXX XXXX xxxx 6789 an. Als Bediener kann er nur die letzten 4 Ziffern der Kartennummer sehen, aber sobald das Abrechnungssystem die Kundendaten zur Abrechnung weitergibt, wird den Zahlungsgatewaysystemen die vollständige Nummer mitgeteilt.

Dieses System ist für Testsysteme nicht sehr effektiv, aber für das oben beschriebene Abrechnungsszenario ist es sehr nützlich. Es ist auch allgemein als dynamische Datenmaskierungsmethode bekannt.

Zusätzliche komplexe RegelnBearbeiten

Zusätzliche Regeln können auch in jede Maskierungslösung einbezogen werden, unabhängig davon, wie die Maskierungsmethoden aufgebaut sind. Produktunabhängige White Papers sind eine gute Informationsquelle, um einige der häufigeren komplexen Anforderungen für Unternehmensmaskierungslösungen zu erforschen, zu denen zeileninterne Synchronisierungsregeln, tabelleninterne Synchronisierungsregeln und Regeln für die Synchronisierung von Tabellen gehören.