SubstitutionEdit
La substitution est l’une des méthodes les plus efficaces pour appliquer le masquage des données et pouvoir préserver l’aspect authentique des enregistrements de données.
Elle permet d’effectuer le masquage de manière à ce qu’une autre valeur d’aspect authentique puisse être substituée à la valeur existante. Il existe plusieurs types de champs de données pour lesquels cette approche offre un avantage optimal en masquant le sous-ensemble global de données pour savoir s’il s’agit ou non d’un ensemble de données masquées. Par exemple, s’il s’agit de données sources contenant des enregistrements de clients, le nom ou le prénom réel peut être substitué de manière aléatoire à partir d’un fichier de recherche fourni ou personnalisé. Si le premier passage de la substitution permet d’appliquer un prénom masculin à tous les prénoms, le deuxième passage devra permettre d’appliquer un prénom féminin à tous les prénoms où le sexe est égal à « F ». En utilisant cette approche, nous pourrions facilement maintenir le mélange de genre dans la structure de données, appliquer l’anonymat aux enregistrements de données, mais aussi maintenir une base de données d’apparence réaliste, qui ne pourrait pas être facilement identifiée comme une base de données constituée de données masquées.
Cette méthode de substitution doit être appliquée pour de nombreux champs qui sont dans les structures de DB à travers le monde, tels que les numéros de téléphone, les codes postaux et les codes postaux, ainsi que les numéros de cartes de crédit et d’autres numéros de type carte comme les numéros de sécurité sociale et les numéros de Medicare où ces numéros doivent effectivement se conformer à un test de somme de contrôle de l’algorithme de Luhn.
Dans la plupart des cas, les fichiers de substitution devront être assez étendus, de sorte que le fait de disposer de grands ensembles de données de substitution ainsi que la capacité d’appliquer des ensembles de substitution de données personnalisés devraient être un élément clé des critères d’évaluation de toute solution de masquage de données.
ShufflingEdit
La méthode du shuffling est une forme très courante d’obfuscation de données. Elle est similaire à la méthode de substitution mais elle dérive l’ensemble de substitution de la même colonne de données qui est masquée. En termes très simples, les données sont mélangées de manière aléatoire dans la colonne. Toutefois, si elle est utilisée de manière isolée, toute personne connaissant les données d’origine peut alors appliquer un scénario « What If » à l’ensemble des données et reconstituer une identité réelle. La méthode de brassage est également susceptible d’être inversée si l’algorithme de brassage peut être déchiffré.
Le brassage présente toutefois de réels atouts dans certains domaines. Si, par exemple, les chiffres de fin d’année des informations financières dans une base de données de test, on peut masquer les noms des fournisseurs et ensuite mélanger la valeur des comptes dans toute la base de données masquée. Il est très peu probable que quelqu’un, même une personne ayant une connaissance intime des données d’origine, puisse dériver un véritable enregistrement de données vers ses valeurs d’origine.
Variance numérique et variance par dateEdit
La méthode de la variance numérique est très utile pour s’appliquer aux champs d’informations financières et axés sur la date. Effectivement, une méthode utilisant cette manière de masquer peut toujours laisser une plage significative dans un ensemble de données financières telles que la paie. Si la variance appliquée est d’environ +/- 10 %, alors il s’agit toujours d’un ensemble de données très significatif en termes de fourchettes de salaires versés aux bénéficiaires.
La même chose s’applique également aux informations de date. Si l’ensemble des données doit conserver l’intégrité des données démographiques et actuarielles, alors l’application d’une variance numérique aléatoire de +/- 120 jours aux champs de date préserverait la distribution des dates, mais empêcherait toujours la traçabilité jusqu’à une entité connue sur la base de sa date réelle connue ou de sa date de naissance ou d’une valeur de date connue pour n’importe quel enregistrement masqué.
CryptageEdit
Le cryptage est souvent l’approche la plus complexe pour résoudre le problème du masquage des données. L’algorithme de cryptage nécessite souvent qu’une « clé » soit appliquée pour visualiser les données en fonction des droits des utilisateurs. Cela semble souvent être la meilleure solution, mais dans la pratique, la clé peut être donnée à des personnes n’ayant pas les droits nécessaires pour visualiser les données. Cela va à l’encontre de l’objectif de l’exercice de masquage. Les anciennes bases de données peuvent alors être copiées avec les informations d’identification originales de la clé fournie et le même problème incontrôlé perdure.
Récemment, le problème du cryptage des données tout en préservant les propriétés des entités a obtenu une reconnaissance et un intérêt nouvellement acquis parmi les vendeurs et le monde universitaire. Ce nouveau défi a donné naissance à des algorithmes appelés FPE (format preserving encryption). Ils sont basés sur le mode algorithmique AES accepté qui fait qu’ils sont reconnus par le NIST.
Masquage ou suppressionEdit
Parfois, une approche très simpliste du masquage est adoptée en appliquant une valeur nulle à un champ particulier. L’approche de la valeur nulle n’est vraiment utile que pour empêcher la visibilité de l’élément de données.
Dans presque tous les cas, elle diminue le degré d’intégrité des données qui est maintenu dans l’ensemble de données masquées. Ce n’est pas une valeur réaliste et elle échouera alors toute validation de la logique d’application qui peut avoir été appliquée dans le logiciel frontal qui est dans le système en cours de test. Cela met également en évidence, pour quiconque souhaite faire de l’ingénierie inverse sur les données d’identité, que le masquage des données a été appliqué à un certain degré sur l’ensemble des données.
Masquage de l’édition
Le brouillage des caractères ou le masquage de certains champs est également une autre méthode simpliste mais très efficace pour empêcher la visualisation d’informations sensibles. Il s’agit en fait d’une extension de la méthode précédente de nulling out, mais l’accent est davantage mis sur le fait de garder les données réelles et de ne pas les masquer entièrement toutes ensemble.
Cette méthode est couramment appliquée aux données de cartes de crédit dans les systèmes de production. Par exemple, un opérateur dans un centre d’appel peut facturer un article sur la carte de crédit d’un client. Il cite alors une référence de facturation de la carte dont les 4 derniers chiffres sont XXXX XXXX xxxx 6789. En tant qu’opérateur, ils ne peuvent voir que les 4 derniers chiffres du numéro de carte, mais une fois que le système de facturation transmet les détails du client pour la facturation, le numéro complet est révélé aux systèmes de passerelle de paiement.
Ce système n’est pas très efficace pour les systèmes de test, mais il est très utile pour le scénario de facturation détaillé ci-dessus. Il est aussi communément appelé méthode de masquage dynamique des données.
Règles complexes supplémentairesModifier
Des règles supplémentaires peuvent également être prises en compte dans toute solution de masquage, indépendamment de la façon dont les méthodes de masquage sont construites. Les livres blancs agnostiques aux produits sont une bonne source d’information pour explorer certaines des exigences complexes les plus courantes pour les solutions de masquage d’entreprise, qui incluent les règles de synchronisation interne des lignes, les règles de synchronisation interne des tables et les règles de synchronisation de table à table.