Contexte

Dans le cadre d’une préparation de la base de données ou d’un jeu de données à des fins d’anonymisation de données, une classification des données permet l’identification des identifiants directs, des identifiants indirects, et des variables (ou attributs) cibles.

Les variables cibles demeurent habituellement inchangées, sauf si l’objectif attendu est une génération de données synthétiques.

Exemples

Voici deux (2) exemples en lien avec un jeu de données d'employés ∕ clients ont été extraits de [Personal Data Protection Commission Singapore (PDPC), 2022]:

Exemple 1

Dans cet exemple, les identifiants directs sont:  le numéro de l'employé (Staff ID), le nom (Name); les identifiants indirects sont : le département (Department), le genre (Gender), la date de naissance (Date of birth); et les variables cibles sont: la date de début de service (Start date of service), le type d'emploi (Employment type).

Exemple 2

Dans cet exemple, les identifiants directs sont:  le numéro du client (Customer ID), le nom (Name); les identifiants indirects sont : le genre (Gender), la date de naissance (Date of birth), le code postal (Postal code), le titre d'emploi (Occupation), le diplome (Education), l'état civil (Marital statut); et une variable cible: le revenu (Income).

Diagramme de décision associée

Le diagramme ci-dessous (en anglais) est fourni pour aider à classifier les attributs de données de façon appropriée.

Diagramme de décision associée


Des questions? Contactez-nous



  • Aucune étiquette