- Created by Dominic Boisvert, last updated on Mar 12, 2025 15 minute read
You are viewing an old version of this page. View the current version.
Compare with Current View Page History
« Previous Version 5 Next »
Préambule
Les présentes orientations fournissent au personnel de l'Université de Montréal un vocabulaire commun pour comprendre la qualité des données et des conseils sur la manière d’aborder cette question dans le quotidien.
Le contenu du présent document est très fortement inspiré du document Orientation sur la qualité des données du Gouvernement du Canada.
Les concepts clés
En quoi consiste la qualité des données ?
La qualité des données est une caractéristique des données définie en fonction de l’une des dix dimensions suivantes : accessibilité, exactitude, cohérence, exhaustivité, constance, intelligibilité, pertinence, fiabilité, actualité et validité.
Pourquoi la qualité des données est-elle importante?
La qualité des données détermine si les utilisateurs peuvent trouver, partager et utiliser facilement les données lorsqu’ils en ont besoin. Une qualité élevée des données favorise la prise de décisions fondée sur des données probantes, l’utilisation de systèmes de décisions automatisés, et peut améliorer la conception et la mise en œuvre des politiques, programmes et services à l’échelle de l’institution.
La qualité des données peut également aider les domaines de données à confirmer que les données répondent aux besoins et aux objectifs d’utilisateurs particuliers, c’est-à-dire qu’elles sont adaptées à leur but ultime. Toutefois, les données peuvent être considérées comme adaptées à leur usage sans pour autant répondre à toutes les dimensions de la qualité des données dans la même mesure. Bien que les domaines de données soient encouragés à considérer la qualité des données en fonction de l’objectif pour lequel les données sont utilisées, les dimensions de la qualité des données ne seront pas toutes pertinentes de la même façon dans tous les contextes. De même, la qualité des données doit être prise en compte tout au long du cycle de vie des données en question, car la pertinence de chaque dimension peut varier en fonction de l’étape à laquelle la qualité des données est examinée.
Que sont les dimensions de la qualité des données ?
Les dix dimensions de la qualité des données fournissent aux domaines de données un vocabulaire commun pour définir et évaluer la qualité des données. Les dimensions peuvent aider les domaines de données à identifier et à articuler les différents problèmes de qualité des données, et à les traiter afin de garantir que les données soient utilisables et répondent à leurs besoins. Le respect de ces dimensions peut renforcer la gouvernance, la gestion, le partage et la réutilisation des données à l’échelle de l’Université.
Les dimensions peuvent se chevaucher et l’importance de chacune peut varier en fonction des besoins spécifiques de l’utilisateur. Dans certains cas, il peut être nécessaire de trouver un équilibre entre les deux.
Que sont les pratiques exemplaires ?
Les pratiques exemplaires fournissent une approche commune pour l’évaluation et la gestion de la qualité des données. La liste des pratiques recommandées n’est pas exhaustive, mais elle permet aux domaines de données d’interpréter et d’appliquer les dimensions de manière cohérente. Ces pratiques peuvent également être utilisées pour orienter les approches en matière d’évaluation, de maintien ou d’amélioration de la qualité des données. Les dimensions et les pratiques exemplaires peuvent être utilisées pour tous les types de données. Les pratiques n'ont pas toujours la même pertinence ou n’ont pas la même signification d’un contexte à l’autre ; les domaines de données sont donc libres de décider s’il y a lieu de les appliquer, et de déterminer dans quels cas et de quelle façon.
Les dimensions de la qualité des données
Accessibilité
Définition de la dimension
L’accessibilité désigne la facilité avec laquelle un utilisateur peut découvrir, traiter, manipuler et obtenir les données. L’accessibilité permet de savoir si les utilisateurs sont au courant de l’existence des données et s’ils ont l’autorisation d’y accéder. Même s’ils y ont accès, les utilisateurs n’ont pas toujours la capacité de les traiter ou de les manipuler pour répondre à leurs besoins en raison de contraintes techniques, de ressources insuffisantes, de l’absence d’information requise, ou de certaines politiques ou lois restreignant l’utilisation des données.
Pratiques exemplaires pour cette dimension
- Élaborer un répertoire ou un catalogue des jeux de données afin d’appuyer les politiques, les programmes ou les services.
- Appliquer les normes de référence des métadonnées (c’est-à-dire les normes de référence des métadonnées prescrites à l’échelle de l’Université) pour décrire les concepts, les variables ou les nomenclatures de vos actifs de données.
- Établir des processus concernant la manière dont votre domaine de données documente, conserve, publie, archive et élimine les données qu’elle recueille ou crée.
- Attribuer des catégories de classification aux actifs de données comme l’exige Politique de gestion de l'information.
- Définir les droits d’accès, les privilèges et les restrictions en ce qui concerne les actifs de données, conformément à la Politique de gestion de l’information et à celle de la Politique de la sécurité de l’information.
- Veiller à ce qu’il existe des processus et des procédures pour appuyer la production de données en réponse aux demandes de renseignements en vertu de la Loi sur l'accès aux documents des organismes publics et sur la protection des renseignements personnels (RLRQ c A-2.1) ou de Loi sur les renseignements de santé et de services sociaux (RLRQ c R-22.1).
- Utiliser un langage simple (se référer au guide de rédaction d’une règle de qualité des données de l’Université) et des formats lisibles par machine (par exemple : les fichiers CSV, les fichiers de langage XML, les fichiers JSON) pour faciliter le partage, le traitement, l’utilisation, la publication et l’archivage des données, y compris dans les métadonnées requises.
- Fournir aux utilisateurs de multiples méthodes d’accès aux données et d’extraction de celles-ci, notamment en offrant les données dans des formats multiples et au moyen d’interfaces de protocole d’application (API) accessibles élaborées à l’exemple des Normes du gouvernement du Canada sur les API.
- Investir dans les infrastructures de données afin de fournir un accès facile et sécurisé aux données, conformément à la Politique de sécurité de l’information et à la Directive sur l’utilisation de l’infonuagique.
- Travailler à l’ouverture par défaut et publier des données (données ouvertes).
- Travailler au partage des services et produits de données en les publiant dans le Catalogue des services de données et dans le respect des cadres réglementaires applicables en matière de protection des renseignements personnels, de sécurité et de propriété intellectuelle.
- Réaliser des sondages pour identifier les obstacles à la découvrabilité, à l’accès et à l’utilisation des données au sein de votre unité.
- Signaler tout accès aux données ou utilisation des données non autorisés aux responsables de la sécurité désignés et en cas de renseignements personnels, aux responsables de la protection des renseignements personnels de votre unité comme l’exige la Politique sur la protection des renseignements personnels.
Exactitude
Définition de la dimension
L’exactitude désigne la mesure dans laquelle les données décrivent les phénomènes du monde réel qu’elles sont censées représenter. Les données sont exactes lorsqu’elles représentent adéquatement un phénomène. Les évaluations de l’exactitude varient selon le contexte, la méthodologie et la validité des hypothèses ou des suppositions sous-jacentes. Le maintien de l’exactitude implique de garantir que les données recueillies pour administrer les services correspondent à ce que les utilisateurs ont partagé. Dans le cas des initiatives stratégiques et des programmes, pour garantir l’exactitude, les utilisateurs doivent souvent valider les données en consultant des sources fiables et en évaluant les méthodes ou les processus par lesquels les données ont été acquises.
Pratiques exemplaires pour cette dimension
- Consulter les sources de données fiables pour identifier les sources d’erreurs et déterminer les mesures requises pour corriger ces erreurs, le cas échéant, vérifier le contenu et comprendre le contexte entourant les données.
- Veiller à ce que les données soient décrites conformément aux normes de référence prescrites pour les métadonnées afin de permettre aux utilisateurs de déterminer leur exactitude. Les métadonnées pertinentes pourraient inclure des renseignements sur la source, le but et la méthode de collecte, le traitement, les révisions, la couverture, le modèle de données, ainsi que sur les hypothèses connexes.
- Veiller à ce que les données soient adéquatement représentatives de tous les domaines (par exemple les zones géographiques, les populations) qu’elles contiennent.
- Assurer des plages de valeurs adéquates, le cas échéant. Des explications concernant les valeurs aberrantes doivent être fournies aux utilisateurs de données.
- Élaborer des règles permettant de veiller à ce que les données ne comportent pas d’erreurs, y compris le dédoublement dans un jeu de données. Appliquer les règles tout au long du cycle de vie des données, en particulier lors de la collecte et du partage des données.
- Veiller à ce que les méthodes utilisées tout au long du cycle de vie des données minimisent les biais et les erreurs statistiques (par exemple les erreurs d’échantillonnage).
- Veiller à ce qu’il existe une source faisant autorité pour les données, dans la mesure du possible.
- Élaborer des procédures permettant de corriger ou de mettre à jour les renseignements personnels sur demande conformément à l’exercice de droits des personnes concernées en matière de vie privée.
- Valider les concepts et les hypothèses utilisés avec des experts en la matière afin de déterminer dans quelle mesure les données correspondent à ce que l’utilisateur recherche.
- Fournir des renseignements sur le niveau d’erreur ou d’incertitude dans le cas des données (par exemple une erreur standard, des intervalles de confiance), le cas échéant.
- Veiller à ce que les résultats des systèmes d’intelligence artificielle (IA) (par exemple l’IA générative) soient évalués en termes d’exactitude, notamment au moyen de tests de partialité.
Cohérence
Définition de la dimension
La cohérence désigne la mesure dans laquelle les données provenant d’un ou de plusieurs sources sont comparables et peuvent être reliées entre elles. Un jeu de données cohérent est conforme aux taxonomies ou nomenclatures d’architecture communes. Les utilisateurs peuvent améliorer la cohérence des données en adoptant des normes ou des standards, et en particulier celles qui sont prescrites comme norme de référence pour les éléments de données de l’Université de Montréal. Lorsque les données sont plus cohérentes, elles peuvent facilement être réutilisées et combinées avec d’autres données, ce qui permet aux utilisateurs de les intégrer et de les comparer.
Pratiques exemplaires pour cette dimension
- En l’absence d’une norme référentielle relative aux données de l’Université, adopter ou adapter les normes relatives aux données ministérielles, nationales ou internationales existantes et documenter les différences de pratiques, en particulier lors du partage de données avec d’autres organisations ou de la publication de données sur le site web de l’Université. Les normes pertinentes pourraient être propres à un domaine, conçues pour des types particuliers de données (par exemple les données statistiques ou géospatiales).
- Consigner de manière cohérente les normes référentielles relatives aux données utilisées dans un répertoire ou un catalogue de données ou dans des ententes de partage de données. Si de nouvelles normes référentielles relatives aux données sont élaborées, documenter les raisons pour lesquelles on n’utilise pas les normes gouvernementales ou ministérielles existantes et applicables ne sont pas utilisées.
- Veiller à ce que les éléments de données soient définis, classifiés et représentés selon les architectures de données communes, à l’exemple du Cadre de l’architecture intégrée du gouvernement du Canada.
- Veiller à ce que les concepts, les définitions et les nomenclatures soient compatibles dans les jeux de données et entre eux, afin de permettre la comparaison et l’intégration des données, tant en interne qu’en externe.
- Utiliser des tableaux de concordance permettant d’illustrer les écarts et les transitions entre les normes utilisées pour toutes les sources de données.
- Réduire la duplication des données entre les jeux de données afin d’améliorer l’intégrité des données et de garantir leur unicité.
Exhaustivité
Définition de la dimension
L’exhaustivité désigne la mesure dans laquelle les valeurs de données sont suffisamment remplies. Les données peuvent être considérées comme complètes lorsqu’elles contiennent les entrées nécessaires pour que les utilisateurs les utilisent de façon appropriée. L’information contextuelle et de fond permet aux utilisateurs de comprendre un jeu de données dans leurs secteurs d’activité respectifs.
Pratiques exemplaires pour cette dimension
- Veiller à ce qu’aucune entrée, colonne ou ligne essentielle soit manquante ou incomplète.
- Tenir à jour les valeurs, les concepts, les définitions, les nomenclatures et les méthodologies.
- Attribuer des étiquettes obligatoires et facultatives aux colonnes ou aux lignes d’un jeu de données afin de faciliter les évaluations de l’exhaustivité.
- Compléter les données au moyen des métadonnées appropriées qui précisent le contexte et le but de leur acquisition. Les métadonnées pourraient également préciser les facteurs relatifs à la vie privée, à la confidentialité ou à l’exactitude ayant une incidence sur l’exhaustivité.
Constance
Définition de la dimension
La constance désigne la mesure dans laquelle les données sont non contradictoires en interne.
La constance permet de garantir la validité logique d’un jeu de données.
Pratiques exemplaires pour cette dimension
- Élaborer des règles pour valider les relations logiques codées dans un jeu de données. Cela pourrait inclure des règles officialisant la relation entre deux variables interreliées.
- Valider régulièrement la constance des jeux de données. Les processus de validation devraient être normalisés et automatisés pour favoriser l’efficience.
- Tenir un registre des problèmes de constance décelés au moyen des procédures de validation des données et revoir périodiquement les règles de validation afin de garantir leur pertinence et leur efficacité.
- Obtenir les métadonnées appropriées auprès du fournisseur de données pour en apprendre davantage sur les classes d’entités d’un jeu de données, les valeurs qu’elles sont censées permettre et les relations qui existent entre elles.
Intelligibilité
Définition de la dimension
L’intelligibilité désigne la mesure dans laquelle les données peuvent être comprises dans leur contexte approprié. Un jeu de données peut être interprété si un utilisateur (humain ou machine) est en mesure de comprendre ses entrées, de déterminer pourquoi et comment il a été recueilli ou créé, et de juger de sa pertinence pour une politique, un programme, un service ou une autre initiative institutionnelle.
Pratiques exemplaires pour cette dimension
- Adopter, adapter ou développer des vocabulaires contrôlés afin de veiller à ce que les concepts clés soient nommés et définis de façon uniforme dans un jeu de données. Voir les métadonnées ou les normes référentielles prescrites relativement aux données.
- Respecter les normes référentielles prescrites régissant les valeurs admissibles des éléments d’un jeu de données (par exemple les données de référence, les données de base).
- Consigner l’information nécessaire pour interpréter les données de façon significative, notamment en ce qui concerne le but initial des méthodes de collecte et de calcul des données, et maintenir des liens entre cette information et les données tout au long de leur cycle de vie.
- Veiller à ce que les utilisateurs soient conscients des limites des données.
Pertinence
Définition de la dimension
La pertinence désigne la mesure dans laquelle les données sont jugées convenables pour appuyer un objectif.
La pertinence des données dépend de la valeur informative ou analytique qu’elles apportent à l’objectif de l’utilisateur. L’évaluation de la pertinence dépend du contexte et des besoins de l’utilisateur. Ainsi, les mêmes données peuvent être pertinentes dans un contexte, mais non pertinentes dans un autre contexte.
Pratiques exemplaires pour cette dimension
- Établir des processus permettant de consulter les intervenants au sujet de leurs besoins en matière de données. Il pourrait s’agit de tirer parti des répertoires ou des données disponibles pour déterminer les données existantes et réduire au minimum la collecte de données redondantes.
- Déterminer les besoins en matière de données et les sources de données en fonction des objectifs opérationnels et des besoins des utilisateurs.
- Évaluer et documenter la façon dont les actifs de données satisfont aux exigences en matière de données afin d’évaluer leur pertinence. Cela pourrait comprendre le suivi sur la manière dont les actifs de données sont utilisés et réutilisés.
- Utiliser les résultats des évaluations de la pertinence pour orienter l’acquisition future de données et les activités connexes de gestion du cycle de vie et de gouvernance.
- Établir des critères permettant de garantir que les efforts d’acquisition de données établissent un équilibre approprié entre les besoins opérationnels et les risques en matière de protection des renseignements personnels et de sécurité (vous pouvez vous inspirer possibilité de s’inspirer des Principes de nécessité et de proportionnalité de Statistique Canada).
- Suivre les instructions de la Division des Archives et de la Gestion de l’Information (DAGI) du Secrétariat Général concernant les éléments requis pour le consentement, particulièrement quant aux fondements juridiques.
- Préserver les données et les métadonnées connexes qui ont une valeur historique ou archivistique conformément aux règles de gestion de la DAGI.
Fiabilité
Définition de la dimension
La fiabilité désigne la mesure dans laquelle la variabilité des données peut être expliquée. La fiabilité porte sur le fait que les données répondent aux attentes des utilisateurs au fil du temps. Un jeu de données est fiable si les utilisateurs peuvent expliquer comment il évolue ou change au fil du temps. La fiabilité consiste également à veiller à ce que les données demeurent intactes et ne soient pas modifiées, à moins que les modifications soient documentées grâce à des mesures de contrôle de l'intégrité des données.
Pratiques exemplaires pour cette dimension
- Veiller à ce que les méthodes de collecte et d’analyse des données soient clairement articulées afin de faciliter la validation par un tiers et de maintenir l’intégrité du processus de production des données.
- Identifier et consigner les sources susceptibles de modifier directement ou indirectement un jeu de données. Les sources de changement pourraient inclure ce que représentent les données, les méthodes de collecte de données, les technologies de saisie et de stockage de données, les plateformes de traitement de données, les mesures législatives ou réglementaires, les exigences de politique et les cyberattaques.
- Tester les instruments de collecte ou de création de données avant de les déployer, et documenter les étalonnages et tenir compte de la variation des résultats.
- Tenir un registre des modifications apportées à vos actifs de données afin que les utilisateurs puissent déterminer leur provenance et suivre l’évolution depuis leur création (c’est-à-dire documenter au moyen de métadonnées).
- Déterminer et consigner les dépendances entre les actifs de données liés dans une architecture de données ou dans le contexte de l’analyse des données.
- Appuyer la compatibilité des concepts, des définitions et des nomenclatures au fil du temps. Préciser et expliquer les écarts quant à la façon dont ces éléments sont conservés au fil du temps.
- Protéger les actifs de données contre les activités frauduleuses ou non autorisées qui pourraient nuire à leur crédibilité. Cela comprend la définition, la mise en œuvre et la tenue à jour des mesures de sécurité permettant de répondre aux exigences en matière de sécurité de la technologie de l’information (TI) et de la protection de la vie privée.
- Utiliser des approches de conservation numérique pour surveiller et prévenir la détérioration des actifs de données tout au long de leur cycle de vie. Cela comprend des vérifications régulières de l’intégrité des données (par exemple au moyen du hachage ou en utilisation des sommes de contrôle) et la documentation de toute preuve de détérioration.
- Signaler l’altération ou la destruction non autorisée des actifs de données aux répondants en matière de protection des renseignements personnels ou aux responsables informatiques désignés.
- Veiller à ce que les données aient une source faisant autorité, dans la mesure du possible.
Actualité
Définition de la dimension
L’actualité est une mesure du délai entre deux moments : la période à laquelle les données se rapportent et la période où les utilisateurs peuvent effectivement utiliser ces données. L’actualité décrit la mesure dans laquelle les utilisateurs ont accès aux données lorsqu’ils en ont besoin.
Pratiques exemplaires pour cette dimension
- Déterminer les besoins actuels et futurs des utilisateurs en matière de données, y compris les considérations de temps (par exemple les périodes de référence, les exigences législatives ou stratégiques, les normes relatives aux services).
- Consulter les fournisseurs de données pour évaluer si les besoins en données peuvent être satisfaits sans délai et informer les utilisateurs de données de tout problème prévu. Cela pourrait comprendre la confirmation de la capacité du fournisseur de données à respecter les délais prévus dans les ententes de partage de données.
- Veiller à ce que les fournisseurs de données disposent d’un calendrier de diffusion des données indiquant les étapes du processus de production des données et tenant compte des écarts et des retards (par exemple au moyen de la planification d’urgence).
Validité
Définition de la dimension
Les données sont conformes au format, au type ou à la plage de sa définition.
La validité désigne l’état de conformité d’une donnée, dans une base de données ou un fichier semi-structuré – comme un chiffrier, selon sa définition ou le format ou le type attendu.
Pratiques exemplaires pour cette dimension
- Établir un processus de collecte de données clair et cohérent : définitions des sources de données, détermination des types et des formats de données, établissement de procédure de saisie et de vérification des données; veiller à ce que toutes les données soient collectées en temps opportun et de manière cohérente et à ce que toute divergence ou erreur soit corrigée rapidement.
- Disposer d’un personnel formé pour saisir de données avec précision, cohérence et rapidité. Établir une vérification des données qui implique de vérifier l’exhaustivité, la cohérence et l’exactitude des données. Des contrôles manuels ou des outils de validation automatisés peuvent être utilisés.
- Nettoyer et standardiser les données afin de garantir la cohérence et l’exactitude des données.
Identifier et corriger les erreurs, supprimer les doublons et standardiser les formats de données.
- Utiliser des techniques et des outils d’analyse de données appropriés (analyses statistiques, outils de visualisation, tableaux de bord, et autres) afin de garantir une interprétation et une création de rapport précis des données.
Bibliographie
Canada, S. du C. du T. du. (2024, janvier 10). Orientation sur la qualité des données. https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/gestion-information/orientation-qualite-donnees.html
Canada, S. du C. du T. du. (2024, octobre 18). Normes du gouvernement du Canada sur les API. https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/technologiques-modernes-nouveaux/normes-gouvernement-canada-api.html
Canada, S. du C. du T. du. (2024, octobre 18). Cadre de l’architecture intégrée du gouvernement du Canada. https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/politiques-normes/cadre-architecture-integree-gouvernement-canada.html
Université de Montréal. Guide de rédaction d’une règle de qualité des données.
Université de Montréal. Secrétariat général. (2024, octobre 18). Politique de sécurité de l’information. https://secretariatgeneral.umontreal.ca/public/secretariatgeneral/documents/doc_officiels/reglements/administration/ges40_28-politique-securite-information.pdf
Université de Montréal. Secrétariat général. (2024, octobre 18). Politique de gestion de l’information. https://secretariatgeneral.umontreal.ca/public/secretariatgeneral/documents/doc_officiels/reglements/administration/adm10_47-Politique_gestion_information.pdf
Université de Montréal. Secrétariat général. (2024, octobre 18). Directive sur l’utilisation de l’infonuagique. https://secretariatgeneral.umontreal.ca/public/secretariatgeneral/documents/doc_officiels/reglements/administration/adm10_54-Directive_utilisation_infonuagique.pdf
Université de Montréal. Secrétariat général. (2024, octobre 18). Politique de protection des renseignements personnels. https://secretariatgeneral.umontreal.ca/public/secretariatgeneral/documents/doc_officiels/reglements/administration/ges40_29-protection-renseignements-personnels.pdf
Université de Montréal. Secrétariat général. (2024, octobre 18). Exercer vos droits – Vie Privée. https://vie-privee.umontreal.ca/exercer-vos-droits/
Université de Montréal. Secrétariat général. (2024, octobre 22). Les éléments requis pour le consentement.
https://udemontreal.sharepoint.com/sites/SG/Documents/elements_consentement_prp.pdf
Université de Montréal. Secrétariat général. (2024, octobre 22). Règle de gestion – Archives et gestion de l’information.
https://archives.umontreal.ca/gestion-de-documents/regles-de-gestion/
Statistique Canada. (2024, octobre 22). Principes de nécessité et de proportionnalité. https://www.statcan.gc.ca/fr/confiance/reponse
Enterprise Data Observability Platform – Acceldata. (2024, octobre 22). Bonnes pratiques pour garantir la validité des données (Traduction Google).
Table des matières
Communiquez avec nous
- No labels