Enmascaramiento de datos

SustituciónEditar

La sustitución es uno de los métodos más eficaces para aplicar el enmascaramiento de datos y poder preservar el aspecto auténtico de los registros de datos.

Permite realizar el enmascaramiento de manera que otro valor de aspecto auténtico pueda ser sustituido por el valor existente. Hay varios tipos de campos de datos en los que este enfoque proporciona un beneficio óptimo para disfrazar el subconjunto de datos global en cuanto a si es o no un conjunto de datos enmascarados. Por ejemplo, si se trata de datos de origen que contienen registros de clientes, los apellidos o nombres reales pueden sustituirse aleatoriamente a partir de un archivo de búsqueda suministrado o personalizado. Si la primera pasada de la sustitución permite aplicar un nombre de pila masculino a todos los nombres de pila, la segunda pasada tendría que permitir aplicar un nombre de pila femenino a todos los nombres de pila en los que el género sea igual a «F». Utilizando este enfoque podríamos mantener fácilmente la mezcla de géneros dentro de la estructura de datos, aplicar el anonimato a los registros de datos, pero también mantener una base de datos de aspecto realista, que no podría identificarse fácilmente como una base de datos formada por datos enmascarados.

Este método de sustitución debe aplicarse a muchos de los campos que se encuentran en las estructuras de BD de todo el mundo, como los números de teléfono, los códigos postales y los códigos postales, así como los números de las tarjetas de crédito y otros números de tipo tarjeta como los números de la Seguridad Social y los números de Medicare, en los que estos números deben ajustarse realmente a una prueba de suma de comprobación del algoritmo de Luhn.

En la mayoría de los casos, los archivos de sustitución tendrán que ser bastante extensos, por lo que disponer de grandes conjuntos de datos de sustitución, así como de la capacidad de aplicar conjuntos de sustitución de datos personalizados, debería ser un elemento clave de los criterios de evaluación de cualquier solución de enmascaramiento de datos.

ShufflingEdit

El método de shuffling es una forma muy común de ofuscación de datos. Es similar al método de sustitución, pero deriva el conjunto de sustitución de la misma columna de datos que se está enmascarando. En términos muy simples, los datos se barajan aleatoriamente dentro de la columna. Sin embargo, si se utiliza de forma aislada, cualquiera que conozca los datos originales puede aplicar un escenario «What If» al conjunto de datos y luego reconstruir una identidad real. El método de barajado también puede ser revertido si el algoritmo de barajado puede ser descifrado.

El barajado, sin embargo, tiene algunas fortalezas reales en ciertas áreas. Si, por ejemplo, las cifras de fin de año de la información financiera en una base de datos de prueba, uno puede enmascarar los nombres de los proveedores y luego barajar el valor de las cuentas en toda la base de datos enmascarada. Es muy poco probable que alguien, incluso alguien con un conocimiento íntimo de los datos originales, pueda devolver un registro de datos verdadero a sus valores originales.

Varianza numérica y de fechaEditar

El método de la varianza numérica es muy útil para aplicarlo a campos de información financiera y de fecha. Efectivamente, un método que utiliza esta forma de enmascaramiento puede seguir dejando un rango significativo en un conjunto de datos financieros como la nómina. Si la varianza aplicada es de alrededor de +/- 10%, sigue siendo un conjunto de datos muy significativo en términos de los rangos de salarios que se pagan a los destinatarios.

Lo mismo se aplica a la información de la fecha. Si el conjunto de datos necesita conservar la integridad de los datos demográficos y actuariales, la aplicación de una variación numérica aleatoria de +/- 120 días a los campos de fecha preservaría la distribución de la fecha, pero seguiría impidiendo la trazabilidad hasta una entidad conocida basada en su fecha real o de nacimiento conocida o en un valor de fecha conocido para cualquier registro que se esté enmascarando.

EncriptaciónEditar

La encriptación suele ser el enfoque más complejo para resolver el problema del enmascaramiento de datos. El algoritmo de encriptación a menudo requiere que se aplique una «clave» para ver los datos en función de los derechos del usuario. Esto suele parecer la mejor solución, pero en la práctica la clave puede ser entregada a personal sin los derechos adecuados para ver los datos. Esto anula el propósito del ejercicio de enmascaramiento. Las bases de datos antiguas pueden entonces copiarse con las credenciales originales de la clave suministrada y el mismo problema incontrolado sigue existiendo.

Recientemente, el problema de encriptar datos preservando las propiedades de las entidades obtuvo reconocimiento y un interés recién adquirido entre los vendedores y el mundo académico. El nuevo reto dio lugar a los algoritmos denominados FPE (format preserving encryption). Se basan en el modo algorítmico AES aceptado, lo que hace que sean reconocidos por el NIST.

Enmascaramiento o borradoEditar

A veces se adopta un enfoque muy simplista del enmascaramiento mediante la aplicación de un valor nulo a un campo concreto. El enfoque del valor nulo sólo es realmente útil para evitar la visibilidad del elemento de datos.

En casi todos los casos, disminuye el grado de integridad de los datos que se mantiene en el conjunto de datos enmascarados. No es un valor realista y entonces fallará cualquier validación de la lógica de la aplicación que pueda haber sido aplicada en el software frontal que está en el sistema bajo prueba. También pone de manifiesto a cualquier persona que desee realizar ingeniería inversa de cualquiera de los datos de identidad que el enmascaramiento de datos se ha aplicado en cierta medida en el conjunto de datos.

EnmascaramientoEditar

La codificación de caracteres o el enmascaramiento de ciertos campos es también otro método simplista pero muy eficaz para evitar que la información sensible sea vista. Es realmente una extensión del método anterior de anulación, pero hay un mayor énfasis en mantener los datos reales y no totalmente enmascarados.

Esto se aplica comúnmente a los datos de tarjetas de crédito en los sistemas de producción. Por ejemplo, un operador de un centro de llamadas puede facturar un artículo a la tarjeta de crédito de un cliente. Entonces cita una referencia de facturación a la tarjeta con los últimos 4 dígitos de XXXX XXXX xxxx 6789. Como operador, sólo puede ver los últimos 4 dígitos del número de la tarjeta, pero una vez que el sistema de facturación pasa los datos del cliente para el cobro, el número completo se revela a los sistemas de la pasarela de pago.

Este sistema no es muy eficaz para los sistemas de prueba, pero es muy útil para el escenario de facturación detallado anteriormente. También se conoce comúnmente como un método de enmascaramiento de datos dinámicos.

Reglas complejas adicionalesEditar

Las reglas adicionales también pueden ser factorizadas en cualquier solución de enmascaramiento independientemente de cómo se construyan los métodos de enmascaramiento. Los libros blancos independientes del producto son una buena fuente de información para explorar algunos de los requisitos complejos más comunes para las soluciones de enmascaramiento empresarial, que incluyen reglas de sincronización interna de filas, reglas de sincronización interna de tablas y reglas de sincronización entre tablas.