Gegevensafscherming

SubstitutieEdit

Substitutie is een van de meest effectieve methoden om gegevens af te schermen en het authentieke uiterlijk van de gegevensrecords te behouden.

Hiermee kan de afscherming zodanig worden uitgevoerd dat een andere authentiek ogende waarde in de plaats van de bestaande waarde kan worden gesteld. Er zijn verscheidene gegevensveldtypes waarvoor deze aanpak een optimaal voordeel biedt doordat zij verhult dat de gehele gegevenssubverzameling al dan niet een afgeschermde gegevensverzameling is. Wanneer bijvoorbeeld brongegevens worden gebruikt die klantrecords bevatten, kan de echte achternaam of voornaam willekeurig worden vervangen uit een verstrekt of aangepast opzoekbestand. Als bij de eerste substitutie een mannelijke voornaam op alle voornamen kan worden toegepast, dan moet bij de tweede substitutie een vrouwelijke voornaam kunnen worden toegepast op alle voornamen waarbij het geslacht gelijk is aan “F”. Met behulp van deze aanpak zouden we gemakkelijk de geslachtsmix binnen de gegevensstructuur kunnen handhaven, anonimiteit toepassen op de gegevensrecords, maar ook een realistisch uitziende database handhaven, die niet gemakkelijk kan worden geïdentificeerd als een database die bestaat uit gemaskeerde gegevens.

Deze substitutiemethode moet worden toegepast op veel van de velden die in DB-structuren over de hele wereld voorkomen, zoals telefoonnummers, postcodes en postcodes, evenals creditcardnummers en andere kaarttypische nummers zoals sofinummers en Medicare-nummers, waar deze nummers daadwerkelijk moeten voldoen aan een controlesomtest van het Luhn-algoritme.

In de meeste gevallen zullen de substitutiebestanden vrij omvangrijk moeten zijn, zodat het hebben van grote substitutie-datasets, alsmede de mogelijkheid om aangepaste data-substitutiesets toe te passen, een belangrijk element moet zijn van de evaluatiecriteria voor elke oplossing voor data-afscherming.

ShufflingEdit

De shuffling-methode is een zeer gebruikelijke vorm van data-obfuscatie. Zij is vergelijkbaar met de substitutiemethode, maar zij leidt de substitutieset af uit dezelfde kolom gegevens die wordt gemaskeerd. Eenvoudig gezegd, de gegevens worden willekeurig door elkaar geschud binnen de kolom. Bij geïsoleerd gebruik kan iedereen met enige kennis van de oorspronkelijke gegevens een “wat indien”-scenario op de gegevensreeks toepassen en dan een echte identiteit reconstrueren. De shuffling-methode kan ook worden omgekeerd als het shuffling-algoritme kan worden ontcijferd.

Shuffling heeft echter op bepaalde gebieden een aantal sterke punten. Als het bijvoorbeeld gaat om de eindejaarscijfers van financiële informatie in een testdatabank, kan men de namen van de leveranciers maskeren en vervolgens de waarde van de rekeningen door de gemaskeerde databank heen schudden. Het is hoogst onwaarschijnlijk dat iemand, zelfs iemand met een grondige kennis van de oorspronkelijke gegevens, een waarheidsgetrouw gegevensbestand zou kunnen terugleiden tot de oorspronkelijke waarden.

Nummer- en datumvariantieEdit

De numerieke variantiemethode is zeer nuttig voor toepassing op financiële en datumgestuurde informatievelden. Met een methode die op deze manier wordt afgeschermd, kan in een financiële gegevensverzameling zoals de loonlijst nog een zinvol bereik overblijven. Als de toegepaste variantie ongeveer +/- 10% bedraagt, is het nog steeds een zeer zinvolle gegevensreeks in termen van de bereiken van de salarissen die aan de ontvangers worden betaald.

Hetzelfde geldt ook voor de datuminformatie. Als de totale gegevensverzameling demografische en actuariële gegevensintegriteit moet behouden, dan zou het toepassen van een willekeurige numerieke variantie van +/- 120 dagen op datumvelden de datumverdeling behouden, maar het zou nog steeds herleidbaarheid verhinderen tot een bekende entiteit op basis van hun bekende werkelijke geboortedatum of een bekende datumwaarde voor welk record ook wordt gemaskeerd.

EncryptieEdit

Encryptie is vaak de meest complexe benadering voor het oplossen van het probleem van het maskeren van gegevens. Het encryptie-algoritme vereist vaak dat een “sleutel” wordt toegepast om de gegevens te bekijken op basis van gebruikersrechten. Dit klinkt vaak als de beste oplossing, maar in de praktijk kan de sleutel dan worden uitgedeeld aan personeel zonder de juiste rechten om de gegevens te bekijken. Hierdoor wordt het doel van de afschermingsoefening tenietgedaan. Oude databanken kunnen dan worden gekopieerd met de originele gegevens van de verstrekte sleutel en hetzelfde ongecontroleerde probleem blijft bestaan.

Onlangs kreeg het probleem van het versleutelen van gegevens met behoud van de eigenschappen van de entiteiten erkenning en een nieuw verworven belangstelling bij de verkopers en de academische wereld. Uit deze nieuwe uitdaging zijn algoritmen voortgekomen die FPE (format preserving encryption) worden genoemd. Zij zijn gebaseerd op de geaccepteerde algoritmische AES-methode, waardoor zij door NIST worden erkend.

Null out of deletionEdit

Soms wordt een zeer simplistische benadering van maskering gevolgd door op een bepaald veld een nulwaarde toe te passen. De nulwaarde-aanpak is eigenlijk alleen nuttig om de zichtbaarheid van het gegevenselement te voorkomen.

In bijna alle gevallen vermindert dit de mate van gegevensintegriteit die in de afgeschermde gegevensverzameling wordt gehandhaafd. Het is geen realistische waarde en zal dan elke validatie van toepassingslogica falen die mogelijk is toegepast in de front-end software die zich in het te testen systeem bevindt. Het maakt ook iedereen die de identiteitsgegevens wil reverse-engineeren duidelijk dat de gegevens in zekere mate zijn afgeschermd.

Uitwissen

Het coderen of afschermen van bepaalde velden is ook een andere simplistische, maar zeer doeltreffende methode om te voorkomen dat gevoelige informatie wordt ingezien. Het is eigenlijk een uitbreiding van de vorige methode van nulling out, maar er wordt meer nadruk gelegd op het reëel houden van de gegevens en niet volledig maskeren van alle gegevens.

Dit wordt vaak toegepast op creditcard-gegevens in productiesystemen. Zo kan een telefonist in een callcenter een artikel op de creditkaart van een klant in rekening brengen. Hij vermeldt dan een factuurreferentie voor de kaart met de laatste 4 cijfers van XXXX XXXX xxxx 6789. Als operator kunnen zij alleen de laatste 4 cijfers van het kaartnummer zien, maar zodra het factureringssysteem de gegevens van de klant doorgeeft om ze in rekening te brengen, wordt het volledige nummer onthuld aan de betalingsgatewaysystemen.

Dit systeem is niet erg effectief voor testsystemen, maar het is zeer nuttig voor het hierboven beschreven factureringsscenario. Het is ook algemeen bekend als een dynamische data maskering methode.

Aanvullende complexe regelsEdit

Er kunnen ook aanvullende regels worden verwerkt in elke maskering oplossing, ongeacht hoe de maskering methoden zijn opgebouwd. Product agnostische White Papers zijn een goede bron van informatie voor het verkennen van een aantal van de meer voorkomende complexe eisen voor enterprise masking oplossingen, waaronder Row Internal Synchronisation Rules, Table Internal Synchronisation Rules en Table to Table Synchronisation Rules.