May 20, 2024
Vous avez
entendu parler du data mesh ? Non ? C’est normal, le concept est
encore jeune, il date de 2019. Mais je suis certain que vous en
appliquez déjà certains des principes, sans même le savoir.
Dans votre entreprise, comme dans la plupart, la tendance est
clairement à la reprise du contrôle des données par les
utilisateurs métier. Finalement, ce sont leurs données, ils les
produisent, les saisissent, les améliorent, les rendent
disponibles. N’est-il pas normal qu’ils soient responsables, et
crédités, de leur qualité, de leur disponibilité, de leur
conformité. Pourquoi leur retirer leurs données, pour les
centraliser, hors de leur contrôle dans un data warehouse, data
lake, lakehouse ou que sais-je encore ? Rendre la donnée aux
métiers, permettre à chacun de partager ses données avec d’autres,
dans une plateforme commune, et encadré par de bonnes pratiques de
gouvernance.
Voici quelques-uns des mots clefs qu’il faut connaitre, pour
comprendre cette tendance.
1. Le Data Product Owner
Le “propriétaire” des données est celui qui connait la donnée, il
est donc du côté des métiers. A la demande du consommateur de
données, il propose un jeu de données (le data product) et s’engage
sur sa disponibilité, sa qualité, sa conformité, etc.
2. Le Data Product
C’est un jeu de données. Un ensemble de données qui répond aux
besoins d’un ou de plusieurs consommateurs de données. Il est
défini, créé, puis produit et mis à jour, en fonction des besoins
du consommateur et des contraintes du data product owner. Il est
encadré par le data contract et mis à disposition sur la data
product platform.
3. Le Data Contract
Le data contract est la clef de voute de l’ensemble. Il formalise,
contractualise, les conditions de fourniture du data product
négociées entre le métier producteur et le métier consommateur. Il
définit les détails techniques, mais aussi la qualité, la
disponibilité, la conformité, du data product. Souvent produit en
YAML ou JSON, il est lisible par un Être humain, et par le
logiciel. Des modèles standardisés sont en cours de
développement.
4. La Data Product Platform
Autant la relation entre consommateur et producteur de données est
décentralisée ; autant son hébergement et sa gestion informatique,
doivent être centralisées ! Elle catalogue, référence, héberge, et
met à disposition les data products, en s’assurant du respect des
règles du data contract.
5. Et enfin, le Data Product Manager
La donnée est un produit ? Elle doit donc être construite comme
telle. Et la fonction de Data Product Manager commence à
apparaitre. Il comprend les données et leurs usages, aide à la
préparation du data contract, et s’assure que le data product
répond aux besoins exprimés.