Database
 sql >> Base de données >  >> RDS >> Database

Anonymisation des identifiants indirects pour réduire le risque de réidentification

Les quasi-identifiants, ou identifiants indirects, sont des attributs personnels qui sont vrais, mais pas nécessairement uniques, pour un individu. Les exemples sont l'âge ou la date de naissance, la race, le salaire, le niveau d'instruction, la profession, l'état civil et le code postal. Comparez-les à des identifiants directs et uniques tels que le nom légal complet d'une personne, son adresse e-mail, son numéro de téléphone, sa carte d'identité nationale, son numéro de passeport ou de carte de crédit, etc.

La plupart des consommateurs sont déjà conscients des risques liés au partage de leurs informations personnelles identifiables (PII) uniques. L'industrie de la sécurité des données se concentre également généralement sur ces identifiants directs. Mais avec seulement le sexe, la date de naissance et le code postal, 80 à 90 % de la population américaine peut être identifiée.

Presque tout le monde peut être réidentifié à partir d'un ensemble de données autrement masqué s'il reste suffisamment d'identifiants indirects et peut être joint à une population de surensemble avec des valeurs similaires.

La règle HIPAA Expert Determination Method relative aux informations de santé protégées (PHI) et la loi FERPA concernant la confidentialité des données des étudiants tiennent compte de ces préoccupations et exigent que les ensembles de données aient une probabilité statistiquement faible de ré-identifiabilité (moins de 20% est la norme aujourd'hui). Ceux qui souhaitent utiliser des données de santé et d'éducation à des fins de recherche et/ou de marketing doivent se conformer à ces lois, mais également compter sur la précision démographique des quasi-identifiants pour que les données soient utiles.

Pour cette raison, les travaux de masquage de données dans le produit IRI FieldShield ou IRI Voracity (plate-forme de gestion de données) peuvent appliquer une ou plusieurs techniques supplémentaires pour masquer les données, tout en les gardant suffisamment précises à des fins de recherche ou de marketing. Par exemple, les fonctions de flou numérique créent un bruit aléatoire pour des plages d'âge et de dates spécifiées, comme décrit dans cet article.

S'appuyant sur l'article ici, cet exemple montrera comment IRI Workbench peut créer et utiliser des fichiers d'ensemble pour anonymiser les quasi-identifiants.

Démarrer dans la Généralisation via Bucketing Assistant, disponible depuis la liste des règles de protection des données :

Une fois l'assistant ouvert, commencez à définir la source des valeurs pour le fichier défini, y compris le format source et le champ nécessitant une valeur de remplacement généralisée.

Sur la page suivante, il existe deux types de substitutions de fichiers définis :Utiliser le fichier défini comme groupe et Utiliser le fichier défini comme plage options. Cet exemple utilise l'option Utiliser le fichier défini comme groupe option. L'article sur le floutage des données montre l'option Utiliser les fichiers définis comme une plage option. Les ensembles de recherche construits ici seront utilisés pour pseudonymiser les quasi-identifiants d'origine avec la nouvelle valeur de généralisation.

Cette page est l'endroit où les regroupements parmi chacune des valeurs de champ quasi-identifiantes d'origine sont créés. Sur la gauche se trouvent les valeurs uniques dans le champ précédemment sélectionné. Les groupes peuvent être créés soit par glisser-déposer dans les valeurs de groupe sur la gauche, soit en saisissant manuellement les valeurs. Chaque groupe a également besoin d'une valeur de remplacement unique. Il s'agit de la valeur qui remplacera la valeur d'origine dans le groupe. Dans cet exemple, toute valeur de "9th" sera remplacée par "High School".

L'ajout de groupes jusqu'à ce que toutes les valeurs sources soient couvertes produit le fichier d'ensemble de recherche suivant pour anonymiser le quasi-identifiant du statut d'éducation :

Si des niveaux supplémentaires de regroupement sont requis, l'assistant de regroupement peut être réexécuté en utilisant ce fichier défini comme source.

Lorsque le fichier d'ensemble est utilisé dans une tâche d'anonymisation des données, les données source sont comparées aux valeurs de la première colonne du fichier d'ensemble. Si une correspondance est trouvée, les données sont remplacées par la valeur de la deuxième colonne. Le fichier set ci-dessus est utilisé dans le script ci-dessous à la ligne 38.

L'utilisation de Workbench pour appliquer cinq techniques d'anonymisation différentes donne le script suivant :


Les dix premières lignes des données d'origine sont affichées ici :

Les résultats anonymisés après l'exécution de la tâche sont affichés ici :

Avant ces généralisations, le risque de ré-identification basée sur les valeurs originales d'identification indirecte était trop élevé. Mais lorsque l'ensemble de résultats plus général est exécuté à nouveau via l'assistant de notation des risques pour produire une autre détermination du risque de réidentification, le risque est acceptable et les données sont toujours utiles à des fins de recherche ou de marketing.

Si vous avez des questions sur ces fonctions ou sur la notation des risques de réidentification, contactez .