Contexte
Pour faciliter une adoption minimisant les risques du développement et de l’utilisation de l’intelligence artificielle, les entreprises ou les organisations doivent entre autres rendre leur données prêtes pour l’intelligence artificielle.
Les données sont essentielles à l’Intelligence artificielle puisqu’elles sont utilisées dans plusieurs processus associés, comme l’entraînement, la validation, et le test des modèles associés. Il est donc crucial d’avoir des données prêtes pour le développement d’applications ou de solutions d’Intelligence artificielle dans le but d’améliorer les prédictions et/ou les performances attendues; des données valorisées sont requises également et devraient répondre à divers principes pertinents.
Ce document se base sur les cinq (5) critères proposés par Gartner (Gartner, 2023a) pour des données prêtes pour l’intelligence artificielle que nous avons approfondies en considérant la culture, le cadre normatif de l’Université de Montréal, des références externes en lien avec la gestion et/ou la gouvernance de données ainsi que celles de l’intelligence artificielle.
Les cinq (5) critères de Gartner (2023a) sont (traduction libre) :
- Données justes (Fair data)
- Données enrichies (Enriched data)
- Données sécurisées (Secure data)
- Données exactes (Accurate data)
- Principes phares (Lighthouse principles)
Il est à noter que l’application de cinq critères qui précèdent ne fait sens que lorsqu’un cas d’utilisation et une technique d’IA sont identifiées. En effet, il est inutile de préparer des données sans connaître le contexte d’utilisation. Ainsi, chaque cas d’utilisation exigera un nouveau jeu de données spécifique.
Les critères retenus permettent de répondre partiellement à la question : Que sont des données prêtes pour l’utilisation par l’intelligence artificielle ? En effet, selon Gartner (2024), au-delà de répondre aux cinq critères les données doivent répondre aux exigences suivantes :
- Répondre aux besoins du cas d’utilisation ;
- Être de qualité ;
- Démontrer que les données ont été gérées de manière appropriée.
Dans la pratique, les données prêtes à l’utilisation par l’intelligence artificielle devront aussi :
- Être documentées par des métadonnées ;
- Être observable pour détecter les problèmes potentiels ;
- Adhérer aux règles de gouvernance des données.
Enfin, le présent document n’est que l’un des outils nécessaires pour une bonne utilisation de l’intelligence artificielle.