La gestion de la Qualité de Donnée

HPC
Écrit par Benjamin Simonneau, le 06 février 2018

Dans un précédent article, j'expliquais la part humaine dans les problématiques autour de la Data. Maintenant, j'aimerais creuser certaines compétences propres à la Qualité de Données. Donc, quel que soit le secteur d'activité, les Entreprises sont en souffrance face au volume des données à gérer, soit pour des questions fiscales ou réglementaires (Banques, Assurances, etc.), soit pour des enjeux stratégiques (Connaissance Client, R&D, Développement Produit, etc.).

Préambule - les limites aujourd'hui

Les équipes qui interviennent sur ces sujets ne sont pas forcément en mesure de connaître tous les tenants et aboutissants de la qualité de l'information qu'elles manipulent. C'est pourquoi une gouvernance se met en place, souvent pour déployer des rôles, des compétences, des Hommes afin d'apporter un support dans la mise en qualité de l'information.

Le constat est facile à admettre : sous dimensionnée ou sans moyen, une équipe aura un manque cruel de temps ou alors une réelle frustration dans l' incapacité à démontrer une connaissance totale et maitrisée de son patrimoine informationnel. Cela à cause du volume, et des problèmes conséquence du volume.

Développement de l'idée

Contexte

Aujourd'hui, les meilleurs outils du marché permettent d'explorer les données et de matérialiser des vues simplifiées, segmentées, sexy... sur les données en fonction de leurs dimensions et de leurs valeurs. Cependant, être capable de construire ces vues et d'en interpréter le résultat nécessite aujourd'hui la mise en place d'une compétence dans l'Entreprise : la Data Science. La Data Science, et je vulgarise, c'est la capacité d'utiliser une expertise fonctionnelle pour contextualiser un ensemble de données et construire un résultat en phase avec un problème ou un objectif de l'Entreprise.

Attention aux contraintes de la CNIL si vous travaillez sur le périmètre des données personnelles. Les exemples qui suivent ne tiennent pas compte de ces contraintes.

Exemple 1 : une banque veut établir des profils de consommation de ses Clients. La Data Science permet, avec l'ensemble des transactions bancaires, d'identifier les achats d'une clientèle et, à partir de règles de segmentation, de définir des profils basés sur les habitudes des Clients et leurs informations personnelles.

Exemple 2 : une société d'assurance provisionne trop d'euros sur un périmètre produit et impacte lourdement son résultat. La Data Science permet, avec l'ensemble des données Contrat et Client, d'isoler un volume anormal de taux extraordinaires sur un volume de Client important.

Vous comprenez ici que, sans expertise, sans outil, il est impossible de restituer rapidement et qualitativement une telle étude.

"Test and learn", "Quick and dirty", ... bien-sûr ! Prendre de tels risques auprès de la DGFIP ou de l'ACPR ? Avancer à l'aveugle dans sa prochaine stratégie marketing ? Concevoir un nouveau produit sans évaluer les impacts sur les marchés ?

Aller plus loin

Je propose ici une idée. Les destinataires seraient plutôt nos amis Editeurs orienté Data Quality, Data Governance et Big Data.

Depuis une source de donnée, en passant par l'analyse des valeurs, en travaillant sur les dimensions et les écarts, en poussant les analyses contradictoires, un outil est capable d'isoler des volumes de données. Et si l'étape d'après était un échange, une discussion entre une intelligence de l'outil et l'utilisateur ?

En analysant ses propres résultats, de manière infinitésimale, quelques résultats intéressants pourraient être restitués à l'utilisateur pour co-construire un espace de discussion, et proposer un ensemble de règles utiles dans la démarche QDD de l'Entreprise.