Un Master Data Management (MDM) ou référentiel de données stocke, gère et diffuse les données dites de référence (tiers, produits, organisation, nomenclature, employés .. ) au sein d'une organisation.
Un MDM centralise les données clefs d’un périmètre donné en un seul et unique endroit maître (appelé communément le point de Vérité), afin de faciliter leurs partages, garantir leur qualité, leur sécurité d’accès et leur gouvernance des données, etc.
Nos besoins d’urbanisation de l’information ont accéléré leur expansion. D’ailleurs, vous profitez de leurs utilités au quotidien sans le savoir. Afin de mieux cerner cet objet étrange, je vais m’appuyer sur des exemples et retours d’expériences issus de missions. Dans un deuxième temps, j’évoquerai les difficultés récurrentes qui font échouer la mise en œuvre des référentiels au sein d’une entreprise et comment déjouer ces écueils.
Nous pouvons distinguer deux grandes catégories appelées en anglais les Master Data (les données métiers) et les Reference data qui sont souvent appelées Nomenclatures ou tableau statique pour désigner leur faible mise à jour (code ISO pays, code devise, …).
A l’échelle internationale : le nom d’un pays varie d’une langue à l’autre et parfois au fil du temps. Ainsi, l’emploi de codes permet de gagner du temps et d’éviter les erreurs car un code composé de lettres et/ou de chiffres est compréhensible et traduisible dans le monde entier. Les compagnies aériennes, agences de voyages et affréteurs partagent tous les mêmes codes uniques visibles sur vos billets d’avions ORY, CDG, JFK … A titre d’information, la base IATA étendue a enregistré plus de 750 changements dans les 12 derniers mois plus ou moins importants selon le consommateur de la donnée et son usage.
Un simple scan d’un code barre GTIN de GS1 suivi d’une requête informatique vous offre la possibilité d’obtenir des infos clefs sur un produit : le numéro de série, des instructions de stockage, le type de conditionnement (à l'unité, en lot, en pack), le pays d'origine, le poids ou le volume, etc.
A l’échelle Nationale
En France, GoogleMaps croisent les données nationales (BAN), communales (BAL), l’IGN ainsi que les données de ses chers utilisateurs pour pointer au mieux les adresses sur une carte. Pour chaque pays, Google est contraint de puiser ces données dans les référentiels nationaux si ceux-ci existent, sont partagés et ne sont pas à Chiner…
En France, les identifiants SIREN (entreprise) et SIRET (établissement) devant figurer sur les documents administratifs tels que les bulletins de paie et les factures facilitent contrôle et traçabilité administrative.
A l’échelle de l’entreprise
REX 1 : Au sein d’un groupe industriel présent dans 40 pays, un référentiel multi-domaine reliait les projets, les tiers (clients/fournisseurs/autres), les sites, navires, entités, etc. De plus, le référentiel tiers était connecté à un service de données externes Duns&Bradstreet (base mondiale d’information entreprise) ajoutant des informations stratégiques financières.
Exemple de recherches possibles : Liste des projets en cours ayant comme client le groupe Petrobras ou l’une de ses filiales (participation capitalistique). En complément pour chaque projet identifié, obtenir les sites de production, les navires et les entités juridiques impliqués.
REX 2 : Une ONG de médecins gère un catalogue s’appuyant sur un référentiel de données. Il s’agit de 37k items utilisés sur le terrain ; des items médicaux et non médicaux selon 12 grands types : nutrition, kits, médicaments, transports, … Chaque fiche d’item possède des rubriques structurées et formatées (description, conseils d’utilisation, conservation, …) facilitant les recherches, les mises à jour et les traductions, etc. Le catalogue en ligne est consulté par d’autres ONG et enregistre annuellement plus de 3M de vues.
REX 3 : Société de Fret Forwarding : Liste de tous les noms de bateaux et caractéristiques clefs, liste des jours fériés pour chaque pays du monde, liste des données IATA, etc. Usage : des milliers de consultation par mois, des dizaines de connexions via API avec des applications métiers qui garantissent une source de données unique, fiable, disponible 24/7 et à jour.
REX 4 : Société pharmaceutique internationale. Cette société s’est séparée de dizaines de fichiers Excel éparpillés parmi tous ses départements (réglementaire, supply-chain, finance, achats, …) pour adopter un référentiel étendu multi-domaine. Voici un exemple d’analyse d’impact rendu possible en 2 secondes : dresser la liste de tous les fournisseurs implantés au Japon avec leur contribution (fabriquant, emballage, contrôle qualité, …) dans la chaine logistique de chaque produit impacté avec l’AMM concerné.
REX 5 : Ville de Paris : un rapport des commissaires aux comptes épinglait en 2008 la Ville pour une gestion insuffisante de son Patrimoine immobilier. La DPA (Direction du Patrimoine et de l’Architecture) lança quatre projets en parallèle (inventaire des assets/application MDM /processus cibles / Change vers 1200 employés) pour répondre à ce manque. Recherche possible : lister en 2 secondes, par arrondissement, les bâtiments ayant plus de 2000 m2 de surface utile, assujettis à un bail emphytéotique ou une délégation de service publique avec le statut d’ERP (Etablissement Recevant du Public) et des rapports d’inspection disponibles (PDF). Un des résultats : le Palais Brongniart exploité par GL Events.
La mise en œuvre est envisagée généralement quand :
Les référentiels répondent à d’autres enjeux tels que la réduction significative du temps de recherche de données et une meilleure urbanisation du SI et des flux. D’ailleurs, le nombre de flux consommateurs d’un référentiel représente un des indicateurs de ROI les plus pertinents à suivre.
Sans surprise, le premier référentiel MDM le plus souvent installé dans les entreprises européennes et américaines est typiquement le référentiel client (Customer MDM) ou un référentiel produit (Product MDM). Ces domaines sont considérés comme prioritaires car ils répondent à des besoins métiers critiques, notamment pour obtenir une vision unique, fiable et partagée des clients et des produits. Ensuite, vient souvent le référentiel tiers (partenaires, fournisseurs) pour l’optimisation des achats.
Ces référentiels peuvent être installés initialement de manière segmentée par domaine (clients, produits, fournisseurs) avant d’évoluer vers des plateformes MDM dites multi-domaines offrant une vision à 360°.
Pour qu’un CRM devienne un référentiel, il doit contenir toutes les données référentielles clients nécessaires, pas seulement celles liées à la relation commerciale, et être intégré dans une gouvernance de données robuste avec des règles claires sur la qualité et l’accès aux données. Souvent, un CRM n’est pas conçu pour gérer toute cette complexité telle que l’unification, la normalisation, la déduplication, etc. ce qui nécessite parfois un outil spécifique de Master Data Management (MDM) ou un référentiel dédié.
Un PIM (Product Information Management) et un MDM (Master Data Management) ont des objectifs et des périmètres différents, bien que complémentaires.
Le PIM se concentre exclusivement sur la gestion des informations produits. Il centralise, enrichit, et diffuse toutes les données nécessaires à la commercialisation et la promotion des produits, notamment les descriptions, spécifications techniques, images, et contenus marketing. Il est principalement utilisé par les équipes marketing et commerciales pour assurer la qualité et la cohérence des données produits sur tous les canaux de vente. Le MDM, lui, est une démarche plus globale de gestion des données de référence essentielles à l'ensemble de l'entreprise.
|
Attributs/Caractéristiques |
Présent dans PIM |
Présent dans MDM |
|
Descriptions marketing produit |
Oui Enrichissement des fiches produits |
Non ou limité |
|
Contenus multilingues |
Oui |
Selon le contexte |
|
Images, vidéos, supports marketing |
Oui Souvent intégration avec DAM (Digital Asset Management) |
Rarement ou via intégration externe |
|
Adaptation aux canaux de vente |
Oui Personnalisation selon canal (web, papier, marketplace) |
Non |
|
Informations contextuelles produit |
Oui Données promotionnelles, saisonnalité, usage spécifique |
Non |
|
Gestion des variantes de produit |
Oui Variantes, options détaillées |
Souvent limitée |
|
Collaboration métier marketing |
Oui Workflows d’enrichissement collaboratif |
Selon le contexte |
|
Granularité variable des données |
Oui Données très détaillées selon cible |
Généralement données «nettoyées» et homogènes |
|
Supports d’export pour canaux spécifiques |
Oui Formats spécifiques : catalogues, e-commerce |
Non |
Cette démarcation de périmètre n’est pas toujours si tranchée car dans certains contextes, des données dédiées aux PIM sont gérées dans le MDM avec l’usage d’interface de saisie ergonomique.
Il serait périlleux d’affirmer que dans tous les contextes il est majoritairement plus efficient (resultat/côut+effort) d’intégrer un progiciel MDM comme TIBCO(EBX), Stibo, Semarchy ou Informatica plutôt que de développer un outil maison. De nombreux critères sont à considérer :
Ces solutions offrent une plateforme centralisée et mature avec des fonctionnalités robustes de gestion, de gouvernance, d'enrichissement et de qualité des données, souvent difficile à reproduire en interne. Certains éditeurs proposent des modules de ‘redressement’ de données, de déduplication de données, de simulation d’intégration en masse de données, d’audit paramétrable, etc. La concurrence entre les éditeurs MDM engendre régulièrement l’apparition de nouvelles fonctionnalités innovantes.
REX 1 : Un courtier européen en assurances avait décidé de migrer sa base cliente hébergée dans Salesforce vers une application développée et hébergée en interne. Les motivations premières étaient la souveraineté des données clientes et la maitrise en interne d’évolutions faiblement importantes avec peu d’interfaces vers d’autres applications. Dans ce contexte, ce choix d’orientation s’est avéré judicieux et les bénéfices de cette migration probants.
REX 2 : une société spécialisée dans le traitement et la distribution de l’eau avait commandité une mission pour évaluer les coûts, avantages et inconvénients selon deux alternatives : un développement interne de référentiel ou l’intégration d’un progiciel MDM. Eléments de contexte : le schéma directeur de la DSI ambitionnait l’extension à 4 domaines avec workflows de validation, intégration automatisée de sources externes, bref une roadmap ambitieuse. Résultat après étude et projection du schéma directeur : à partir de l’intégration du 2ème domaine dans le MDM, les coûts cumulés de développement et de MCO devenaient sensiblement moins avantageux au moyen d’un développement interne que via un progiciel.
La mise en œuvre et le maintien en qualité de référentiels requiert la co-construction et le suivi de 6 briques essentielles (périmètre, processus, Matrice CRUD, gouvernance, …) alignées à la stratégie de l’organisation. Quand ces briques sont correctement alignées et solides, les bénéfices deviennent rapidement palpables et les référentiels sont perçus en tant que gisement et facilitateur de l’urbanisation. Si l’une des 6 briques est chancelante, les efforts de consolidation et les risques d’abandon sont importants.
L’implémentation d’un référentiel de données (MDM) partage de nombreuses similitudes avec celle d’un ERP multi-domaine :
Les deux sont des projets transversaux impactant sensiblement l’entreprise,
Ils remettent en cause les processus existants,
Ils nécessitent une forte implication des métiers, des managers et de la direction,
Ils requièrent une adaptation organisationnelle en obligeant à repenser la manière de travailler.
Il n’est pas rare que l’implémentation de référentiels devienne un pré-requis à l’intégration d’ERP.
La gouvernance de données nécessite quant à elle de nouveaux rôles (data steward, propriétaire de la donnée, etc) et des nouvelles instances qui selon le contexte se traduisent soit en nouveaux emplois soit en missions complémentaires à assigner auprès d’acteurs existants de l’organisation. Un accompagnement (via la méthode Prosci par exemple) de tous les acteurs est primordial. Ce dernier doit nécessairement comporter une phase de diagnostic du niveau de maturité de l’organisation par rapport à la DATA suivi d’un plan d’actions de sensibilisation et de formation différencié par profil acteur.
L’une des phases les plus délicates consiste à co-construire les processus cibles garantissant l’enrichissement des données sans alourdir les processus métiers en matière de complexité, délai, nombre de tâches, etc. Pour apporter fluidité et acceptation des processus cibles, la méthode est tout aussi importante que l’usage de dispositifs techniques et ergonomiques : auto-complétion, vérification et redressement post-saisie, UX intuitives, ...
Une autre phase tout aussi délicate : la récupération et préparation de jeu de données existant à injecter dans le MDM. Dans certains contextes, cette phase constitue un projet à part entière.
REX : Il y a quelques années, j’étais impliqué dans une mission de cadrage pour un gestionnaire du réseau de transport de gaz naturel qui envisageait d’implémenter un référentiel des équipements de leurs installations (postes de sectionnement et de détente). Après une première étude de périmètre et une évaluation du niveau de maturité de l’organisation, j’avais trouvé judicieux d’organiser une rencontre entre l’équipe projet mobilisée et celle de la Ville de Paris qui avait implémenté avec succès un référentiel patrimoine immobilier. Cette rencontre où de nombreuses questions fusèrent entre initiés et débutants ont permis à l’équipe projet d’identifier et de mesurer pleinement les éléments clefs à considérer à chaque phase de projet et ce, dans un contexte de service public similaire.
Appuyons-nous sur deux exemples pour comprendre l’importance de la traçabilité d’évènements et l’anticipation de leurs prises en compte dès la phase de cadrage.
Exemple 1 : une association de vacances sportives
Contexte : Une association proposant des stages auprès d’une population d’adolescents et de jeunes adultes. Des documents tels que des carnets de voyages, des emails commerciaux, factures, … sont à transmettre aux stagiaires et/ou au représentant légal avant la date de départ de stage.
En France, le taux annuel de changement d'adresse chez les 18-25 ans est d'environ 28 à 30%.
Points a considérer : Un tiers peut potentiellement avoir été, être ou devenir un prospect, un adhérent, un parent, un tuteur, un bénévole de l’association ou même un salarié de l’association.
Les périodes actives (définies via une date de début et une date de fin) du statut bénévole, prospect, stagiaire, mineur/majeur, doivent être enregistrées pour cibler des campagnes de mailing et d’emailing ou pour réaliser des statistiques.Exemple 2 : dans la gestion d’actifs matériels (produits, immobilier, items) et immatériels (brevet, compétences, …)
Il est judicieux d’enregistrer les changements de valeurs des données clefs, l’auteur et la date de mise à jour, etc. Cela offre la possibilité de générer des rapports ciblés et de reconstituer l’historique. Exemples : délai moyen entre des réhabilitations de locaux, nombre de mises à jour réalisées dans l'intervalle.
Ces deux exemples illustrent l’importance d’établir une matrice de droits CRUD(création, lecture, mise à jour …) enrichi d’un droit d’archivage et d’accès à l’historique.
Elle se définit généralement selon 6 critères au minimum : Complétude, précision, cohérence, unicité, actualisé, exactitude (fidèle à la réalité).
Le niveau de qualité des données peut être mesuré dans un référentiel ou dans d’autres sources exploitées par votre organisation (SharePoint, Excel, CRM, ERP, bases externes, ..).
Des outils sont disponibles sur le marché : Talend, Soda, IBM infosphère, datagalaxy pour établir des tableaux de bord, des suivis et alertes quant à la qualité des données. Les progiciels MDM du marché disposent également de rapports facilitant le suivi de qualité, l’usage par profil utilisateur, la consommation des données, etc.
Ces informations sont à partager dans le cadre de l’application d’une politique DATA. Elles concrétisent l’intérêt, l’enjeu et les bénéfices apportées en continu par le MDM.
Généralement, le degré d’utilité d’un référentiel est proportionnel au niveau de qualité des données et à ses facilités d’interactions : recherche, filtrage, export, MAJ, personnalisation et interfaçage (i.e interopérabilité). Dans de grandes organisations internationales, un référentiel peut être exploité par plusieurs dizaines d’autres applications et constitue ainsi un socle crucial pour une urbanisation évolutive. D’ailleurs, les noms et surnoms attribués aux référentiels sont évocateurs : golden records, Point de Vérité, SSOT : Single Source of Truth, Racine, Moïra, Argos.
Si la qualité n’est pas au rendez-vous, les utilisateurs se réorientent vers d’autres sources et reconstituent inexorablement leurs propres référentiels de l’ombre. Il n’est pas rare d’identifier des données ‘clefs’ dupliquées dans une dizaine de bases éparses au sein d’une organisation.
Exemple 1 : L’opérateur National de Paie
L'échec majeur du projet Opérateur National de Paie (ONP) en 2014 illustre bien les difficultés dans la mise en place d’un référentiel de données unifié. Lancé avec une forte ambition, ce projet visait à centraliser la paie des 2,7 millions de fonctionnaires français via un système d’information unique synchronisé avec huit référentiels différents. Parmi les causes principales de cet échec, la Cour des comptes souligne l’ignorance ou la sous-estimation grave des risques techniques, notamment la gestion automatisée des référentiels communs, qui n’avait pas été anticipée avant la contractualisation. De plus, la gouvernance éclatée entre les ministères et l’ONP a complexifié la coordination nécessaire à la réussite du projet, ce qui a conduit à l’abandon du programme après une perte financière importante : 346 Millions d’euros !
La phase de cadrage qui ne disposait d’aucuns outils IA n’avait pas suffisamment mesurer et anticiper :
Exemple 2 : Un bon référentiel = Un inventaire exhaustif suffit !
Un des écueils fréquents consiste à mettre tous ses efforts dans la phase inventaire sans se soucier du maintien en qualité de ce dernier. Souvenez-vous des inventaires des supermarchés qui fermaient annuellement leurs portes pour inventorier tous leurs produits en rayon et dans leurs stocks. Or, si aucune gestion n’est formalisée sur les flux entrants et sortants, un inventaire ne reste précis qu’une seule journée et cesse à l’instant précis où un client, un fournisseur ou un salarié interagit avec les produits.
A titre d’exemple : un opérateur national avait entrepris un inventaire exhaustif d’actifs techniques implantés sur tout le territoire pour se constituer un référentiel unique national : des mois de travaux de référencement couteux furent dépensés. Malheureusement, de fortes convictions ont comblé une faible conduite du changement. Ainsi, les processus cibles de mises à jour n’avaient pas été mis à l’épreuve avant l’exécution de cet inventaire méticuleux et onéreux. Post inventaire, les acteurs sachants rejetèrent l’application des processus cibles et conservèrent leurs habitudes et leur propre base régionale de données. Inexorablement, le degré de fiabilité et d’utilité du référentiel se dégradèrent jour après jour…
Retrouvez des sources et des compléments d’informations relatifs à cet article :