Datamaskering | SG Web

SubstitutionRediger

Substitution er en af de mest effektive metoder til at anvende datamaskering og bevare dataposternes autentiske udseende.

Det gør det muligt at udføre maskering på en sådan måde, at en anden autentisk udseende værdi kan erstattes af den eksisterende værdi. Der er flere datafelttyper, hvor denne fremgangsmåde giver optimale fordele med hensyn til at skjule den samlede delmængde af data om, hvorvidt det er et maskeret datasæt eller ej. Hvis der f.eks. er tale om kildedata, der indeholder kunderegistre, kan det virkelige efternavn eller fornavn erstattes tilfældigt fra en medfølgende eller tilpasset opslagsfil. Hvis den første del af erstatningen gør det muligt at anvende et mandligt fornavn på alle fornavne, skal den anden del af erstatningen gøre det muligt at anvende et kvindeligt fornavn på alle fornavne, hvor køn er lig med “F”. Ved hjælp af denne fremgangsmåde kunne vi let opretholde kønsblandingen i datastrukturen, anvende anonymitet på dataposterne, men også opretholde en realistisk udseende database, som ikke let kunne identificeres som en database bestående af maskerede data.

Denne substitutionsmetode skal anvendes for mange af de felter, der findes i DB-strukturer over hele verden, såsom telefonnumre, postnumre og postnumre samt kreditkortnumre og andre kortnumre som f.eks. socialsikringsnumre og Medicare-numre, hvor disse numre faktisk skal være i overensstemmelse med en checksum-test af Luhn-algoritmen.

I de fleste tilfælde vil substitutionsfilerne skulle være ret omfattende, så det at have store substitutionsdatasæt samt evnen til at anvende tilpassede datasubstitutionssæt bør være et centralt element i evalueringskriterierne for enhver datamaskeringsløsning.

ShufflingEdit

Shuffling-metoden er en meget almindelig form for dataobfuskering. Den ligner substitutionsmetoden, men den udleder substitutionssættet fra den samme kolonne af data, som maskeres. I meget enkle vendinger blandes dataene tilfældigt inden for kolonnen. Hvis den anvendes isoleret, kan enhver med kendskab til de oprindelige data anvende et “hvad nu hvis”-scenarie på datasættet og derefter sammensætte en ægte identitet. Shuffling-metoden kan også omvendes, hvis shuffling-algoritmen kan dechifreres.

Shuffling har dog nogle reelle styrker på visse områder. Hvis det f.eks. drejer sig om regnskabstal ved årets udgang for finansielle oplysninger i en testdatabase, kan man maskere navnene på leverandørerne og derefter shuffle værdien af regnskaberne i hele den maskerede database. Det er højst usandsynligt, at nogen, selv en person med indgående kendskab til de oprindelige data, vil kunne udlede en sand datapost tilbage til de oprindelige værdier.

Tal- og datovariansRediger

Den numeriske variansmetode er meget nyttig til anvendelse på finansielle og datadrevne informationsfelter. En metode, der anvender denne måde at maskere på, kan stadig efterlade et meningsfuldt område i et finansielt datasæt, f.eks. en lønseddel. Hvis den anvendte varians er omkring +/- 10 %, er det stadig et meget meningsfuldt datasæt med hensyn til intervallerne for de lønninger, der udbetales til modtagerne.

Det samme gælder også for datooplysningerne. Hvis det samlede datasæt skal bevare den demografiske og aktuarmæssige dataintegritet, vil anvendelsen af en tilfældig numerisk varians på +/- 120 dage på datofelterne bevare datofordelingen, men det vil stadig forhindre sporbarhed tilbage til en kendt enhed baseret på deres kendte faktiske fødselsdato eller en kendt datoværdi for den pågældende post, der maskeres.

KrypteringRediger

Kryptering er ofte den mest komplekse tilgang til løsning af datamaskeringsproblemet. Krypteringsalgoritmen kræver ofte, at der anvendes en “nøgle” for at få vist dataene baseret på brugerrettigheder. Dette lyder ofte som den bedste løsning, men i praksis kan nøglen så blive udleveret til personale uden de rette rettigheder til at se dataene. Dette er i så fald i modstrid med formålet med maskeringen. Gamle databaser kan derefter blive kopieret med den udleverede nøgles oprindelige legitimationsoplysninger, og det samme ukontrollerede problem lever videre.

For nylig blev problemet med at kryptere data, samtidig med at enhedernes egenskaber bevares, anerkendt og fik ny interesse blandt leverandører og akademiske kredse. Den nye udfordring gav anledning til algoritmer kaldet FPE (format preserving encryption). De er baseret på den accepterede AES-algoritme, som gør, at de er anerkendt af NIST.

Nulling out or deletionRediger

I nogle tilfælde anvendes en meget forenklet tilgang til maskering ved at anvende en nulværdi på et bestemt felt. Nulværdimetoden er egentlig kun nyttig til at forhindre synlighed af dataelementet.

I næsten alle tilfælde mindskes den grad af dataintegritet, der opretholdes i det maskerede datasæt. Det er ikke en realistisk værdi, og den vil derefter fejle enhver validering af applikationslogik, der måtte være blevet anvendt i den front-end-software, der er i det testede system. Det fremhæver også for enhver, der ønsker at foretage reverse engineering af identitetsdata, at der i et vist omfang er anvendt datamaskering på datasættet.

Maskering udRediger

Karakterforvrængning eller maskering af visse felter er også en anden enkel, men meget effektiv metode til at forhindre, at følsomme oplysninger kan ses. Det er egentlig en udvidelse af den tidligere metode med nulling out, men der lægges større vægt på at holde dataene reelle og ikke helt maskeret helt og holdent.

Dette anvendes almindeligvis på kreditkortdata i produktionssystemer. F.eks. kan en operatør i et callcenter fakturere en vare på en kundes kreditkort. De angiver så en faktureringsreference til kortet med de sidste 4 cifre XXXX XXXX XXXX xxxx 6789. Som operatør kan de kun se de sidste 4 cifre i kortnummeret, men når faktureringssystemet videregiver kundens oplysninger til opkrævning, afsløres det fulde nummer for betalingsgateway-systemerne.

Dette system er ikke særlig effektivt til testsystemer, men det er meget nyttigt til det faktureringsscenarie, der er beskrevet ovenfor. Det er også almindeligvis kendt som en dynamisk datamaskeringsmetode.

Yderligere komplekse reglerRediger

Der kan også indarbejdes yderligere regler i enhver maskeringsløsning, uanset hvordan maskeringsmetoderne er opbygget. Produktnostalgiske hvidbøger er en god informationskilde til at udforske nogle af de mere almindelige komplekse krav til maskeringsløsninger til virksomheder, som omfatter regler for intern synkronisering af rækker, regler for intern synkronisering af tabeller og regler for synkronisering af tabeller til tabeller.