Retour
Hadrien Diesbecq Le 16 mars 2022

Pourquoi la qualité des données est avant tout un sujet métier ?

Les experts métiers sont les plus compétents pour améliorer la qualité des données qu’ils utilisent.

Aujourd’hui, le nombre de données dont disposent les organisations est énorme. Avec la crise du Covid-19, la digitalisation des processus est devenue monnaie courante, contribuant largement à cette expansion massive. Néanmoins, si leur collecte est aisée, la gestion de la qualité des données s’avère souvent beaucoup plus complexe. Mauvais format, informations manquantes, erreurs textuelles, données perdues, dédoublées ou non mises à jour : il existe de nombreuses situations dans lesquelles la donnée est de mauvaise qualité.

Actuellement, la gestion de cette qualité est très souvent confiée aux équipes affiliées au département IT. Celles-ci essaient de développer des outils en interne ou adoptent des solutions très horizontales de management des données et tentent tant bien que mal de corriger les erreurs, souvent dues à des opérateurs humains (pour en savoir plus, notre article sur le sujet ici). De même, des profils hautement qualifiés, à l’instar des data scientists, passent énormément de temps à corriger les données d’entraînement de leurs modèles, mais se retrouvent parfois démunis parce qu’ils ne comprennent pas le contexte autour de cette donnée.

C’est pourquoi, une approche très prometteuse est de plus en plus adoptée : confier la gestion de la qualité des données directement aux experts métiers.

 

Explications sur ce changement de point de vue qui peut s’avérer très profitable.

Les problèmes de qualité des données sont un frein à l’opérationnalisation des projets IA
Les modèles d’intelligence artificielle et notamment d’apprentissage machine (machine learning) interviennent de plus en plus au cœur de l’activité commerciale des entreprises. Leur capacité à réaliser des prédictions, à trouver des correspondances entre des jeux de données très hétérogènes ou encore à classifier de très gros volumes de données aux formats toujours plus diverses (texte, images, vidéos, etc.) les rend parfaitement appropriés pour des applications variées. Automatiser la rédaction et la vérification de contrats juridiques, analyser les causes de la perte de clientèle sur certaines lignes business, réaliser de la prévision de vente (voir notre article sur le sujet ici), les possibilités sont très nombreuses pour les organisations. De plus, cette transformation arrive très rapidement. Ainsi, selon le cabinet de conseil Gartner, 60% des entreprises utiliseront d’ici 2022 des outils d’intelligence artificielle pour automatiser des processus dans de multiples branches organisationnelles.

Dès lors, ces dernières années, l’efficacité des algorithmes développés s’est largement accrue. La sélection appropriée des modèles, le choix des paramètres pertinents et toute la phase d’entraînement sont maintenant bien ancrés dans les pratiques des data scientists. À tel point que l’enthousiasme généré par l’intelligence artificielle n’a jamais été aussi fort, y compris au sein des comités exécutifs qui y voient une promesse d’améliorer leurs résultats de manière très importante.

Néanmoins, de nombreuses entreprises ont encore du mal à tirer profit du plein potentiel de ces modèles. Gartner estime ainsi que plus de la moitié des projets IA en développement n’arrivent pas à maturité et ne sont jamais opérationnalisés.

Une des principales raisons qui explique ce frein concerne en réalité les données elles-mêmes. Jusqu’à présent, les entreprises se sont concentrées sur des méthodes pour mieux développer des algorithmes performants mais peu d’entre elles se sont réellement attaquées aux problèmes des données qui les alimentent. Pourtant, la préparation des données fait partie intégrante du travail des data scientists. Selon le magazine Forbes, ils passent jusqu’à 80 % de leur temps à cette tâche.

6143974ac7a23866425cf5c3_qualite_des_donnes_data_science_data_preparation

Or, étant donné que ces modèles sont déployés au cœur de l’activité commerciale des entreprises, traiter ces données nécessite de bien comprendre le contexte dans lequel elles s’inscrivent. Par exemple, dans l’industrie pharmaceutique, préparer efficacement un catalogue de données de médicaments avec des noms tels que Rhinofluimucil ou Piascledine et détecter d’éventuelles erreurs nécessite d’avoir une vraie connaissance du domaine.

Le problème est que les équipes IT ne sont pas nécessairement formées, ce qui peut conduire au mieux à une mauvaise interprétation des résultats et au pire à des erreurs dans les données d’entraînement, à l’origine d’une dégradation de la performance des modèles.

En outre, de plus en plus d’organisations sont impliquées dans plusieurs secteurs d’activité, à l’international et avec différentes lignes de business. La multiplication des cas d’utilisation pour des processus de plus en plus précis et complexes rend alors très difficile une gestion de la préparation des données centralisée par des équipes IT.

Ce problème peut être résolu grâce à un changement d’approche : confier la préparation et l’analyse des données à des experts métiers

Pour faire face à des problématiques de qualité des données, une nouvelle approche est en train d’émerger au sein des entreprises. Il s’agit de l’approche citizen qui consiste à confier directement à des experts métiers des tâches habituellement réservées à des profils techniques. On retrouve alors :

– Des citizen developers qui utilisent des outils accessibles en ligne (as a service) en faisant des copiés glissés de blocs logiciels déjà implémentés.

– Des citizen data scientists qui analysent les résultats de modèles IA à l’aide d’outils automatiques de visualisation de données.

– Des citizen data engineers qui construisent des pipelines de données grâce à des solutions d’intégration prêtes à l’emploi.

– Et d’autres profils tels que les citizen data stewards (voir notre article sur le sujet ici).

Les avantages de cette approche sont multiples :

Ces experts métiers ont une vraie vue opérationnelle et peuvent donc comprendre en profondeur les données qu’ils manipulent. Un responsable produit sera par exemple le mieux placé pour traiter des données sur les ventes de la marketplace qu’il gère. La complexité des modèles fait qu’interpréter de manière pertinente leurs résultats est fondamental : il faut être capable de comprendre les indicateurs et proposer des solutions pertinentes à partir de ceux-ci.

– Elle engendre des économies : au lieu de recruter systématiquement des profils hautement qualifiés techniquement, elle consiste à investir dans des outils pour assister des opérationnels déjà présents dans les équipes et avec une vraie connaissance du business.

Elle permet de démultiplier les cas d’usage. Par exemple, dans le secteur bancaire, des assistants conversationnels pour conseiller les clients, des algorithmes d’évaluation des risques de crédit ou encore des systèmes d’optimisation du capital pourraient être déployés. Mais les résultats produits devront être systématiquement  vérifiés et interprétés par l’humain, qui doit donc nécessairement disposer d’une expertise. De plus, il serait catastrophique que ces modèles soient entraînés avec des données de mauvaise qualité. Pour les préparer au mieux, la connaissance métier est ici aussi indispensable.

Ainsi, en délocalisant les tâches de préparation des données à des experts métiers, chaque branche organisationnelle (RH, logistique, ventes, comité exécutif) pourrait s’approprier des modèles d’intelligence artificielle pour leurs applications concrètes. Cela constitue donc une étape fondamentale pour les entreprises afin de devenir data-driven, c’est-à-dire d’avoir un fonctionnement piloté par les données.

Gartner estime ainsi que d’ici 2025, le manque de data scientists ne freinera plus l’adoption d’outils de machine learning. Avec des données mieux préparées par des experts métiers accompagnés d’outils d’automatisation, ils pourront alors beaucoup plus se focaliser sur des tâches beaucoup plus techniques de développement de modèles.

6143a5bdfe29902b15784e12_cas_d_usage_qualite_donnees

Cela nécessite néanmoins la mise en place de nouvelles pratiques organisationnelles ainsi que l’adoption d’outils d’intelligence artificielle dits no-code.

Cette transition de l’IT vers le business n’est pas aisée. Outre des barrières culturelles, il est essentiel d’instaurer une véritable confiance dans ces profils citizen. Pour cela, ils doivent être accompagnés pour ne pas être stoppés dès le moindre problème technique.

Il s’agit donc de mettre en place tout un écosystème autour de ces nouveaux profils, qui s’organise en trois piliers :

– Les outils. Le manque d’expertise technique des profils citizens doit être comblé par l’adoption de solutions dites no code, c’est-à-dire qui ne nécessitent pas de savoir coder dans un langage informatique. Par exemple, un responsable marketing, pourrait très rapidement visualiser les résultats de différents scénarios de campagnes promotionnelles en jouant sur des paramètres comme les prix, les produits visés ou la durée. Ici l’outil no-code consisterait en une interface très facile d’utilisation et très intuitive, couplée par un ou plusieurs algorithme de machine learning qui calculerait automatiquement les prévisions de vente en temps réel. Cela suppose cependant de disposer en amont de données de qualité qui seraient vérifiées par ce même responsable marketing, le seul capable de détecter d’éventuelles erreurs.

– Les personnes. Un profil citizen ne peut travailler tout seul. Pour être pleinement efficace, il a besoin d’être accompagné par d’autres rôles transverses. Citons par exemple les développeurs BI (business intelligence) dont le rôle est d’implémenter des outils de visualisation, des architectes ML (machine learning) pour imaginer et déployer les modèles d’analyse, et bien sûr les data scientistes pour développer tous les algorithmes sous-jacents et servant à produire des analyses.

– Les processus. Il y a une vraie nécessité à ce que ces différents rôles, IT et business, s’entendent et se comprennent. Cela passe alors par la mise en place de règles et de pratiques qui favorisent leur collaboration : bien définir la fonction de chacun, mettre en place des outils de communication ou encore instaurer une sémantique clarifiant le vocabulaire utilisé (des termes techniques tels que completeness ou NLT devront notamment être qualifiés, de même que des termes spécifiques à l’activité de l’entreprise). Un rôle de business translator, véritable pont entre équipes IT et business, est d’ailleurs en train de voir le jour. Sa fonction principale est de trouver les modèles analytiques les plus pertinents à déployer en fonction des profils métiers des utilisateurs finaux.

L’adoption de cette forme organisation, favorisant une plus grande coopération entre des profils techniques et métiers, a alors un vrai impact sur l’opérationnalisation de projets IA. Les tâches de préparation des données et d’analyse de données sont confiées à des profils citizens, accompagnés par des outils d’automatisation, laissant le temps aux experts IT de se concentrer sur l’implémentation et le déploiement de leurs modèles. Chacun exploite ainsi au maximum ses capacités et apporte son expertise.

6143a5bdf9cae974756e0a49_collaboration_experts_metiers_IT_qualite_donnees

Il y a ainsi un vrai changement culturel en cours au sein des organisations vis-à-vis de la gestion de la qualité de leurs données. Jusqu’à présent surtout traitée par le département IT, elle devient de plus en plus un sujet majeur pour chaque direction d’entreprise. Le manque de profils techniques et la nécessité de comprendre parfaitement ce que désignent ces données entraînent l’émergence de nouveaux profils, dits citizen. Leur réussite est néanmoins conditionnée au fait qu’ils travaillent conjointement avec les équipes IT et qu’ils soient accompagnés dans leurs tâches par des solutions d’intelligence artificielle très facile à prendre en main. À la clé, une meilleure efficacité, une meilleure agilité et donc des performances commerciales largement améliorées.

YZR : un outil destiné aux profils citizen pour leur permettre de préparer leurs données opérationnelles très facilement et très rapidement. Délivré sous la forme d’une interface et d’une API, notre outil est conçu pour améliorer la qualité des données de produits. Il permet donc de disposer de données fiables et directement exploitables par des modèles de machine learning.

YZR est une plateforme d’intelligence artificielle no-code 100% dédiée à la normalisation de données textuelles, phase primordiale dans la préparation de vos données. Sous la forme d’un outil plug&play, elle s’adresse aux opérationnels métiers (responsables produits, acheteurs, etc.) et tous ceux qui comprennent parfaitement le contexte business dans lequel s’inscrit la donnée. Parce que notre conviction est que leurs compétences seraient bien mieux utilisées à exploiter les données plutôt qu’à perdre beaucoup de temps à les préparer manuellement.

Notre outil SaaS est ainsi spécialement conçu pour résoudre vos problématiques liées à :

– La multiplicité de vos sources de données

– L’absence de conventions de nommage

– La correction manuelle de données

– La gouvernance et le partage des données

Il s’intègre également parfaitement à vos différents outils (Product Information Management, Master Data Management, Data Science – Machine Learning, Business Intelligence), pour vous permettre d’atteindre entre autres :

Une meilleure connaissance client

Des prévisions de ventes optimisées

Une digitalisation accélérée de votre offre.

Autrement dit, avec YZR, vous exploitez le plein potentiel de vos données.

Envie d’en savoir plus ? Vous souhaitez obtenir une démonstration de notre produit ? N’hésitez pas à nous contacter directement sur notre site ou à l’adresse hadrien@yzr.ai

Pour aller plus loin

Vous souhaitez approfondir le sujet et mieux comprendre pourquoi la qualité des données constitue un vecteur de croissance majeur pour les entreprises, n’hésitez pas à télécharger notre livre blanc disponible ici !

Sources

– Forbes ; Gil Press ; Cleaning Big Data : Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says; 23 mars 2016.
– Gartner ; Whit Andrews, Duy Nguyen, Arun Batchu ; Unlock AI Functions In Business Applications; 03 avril 2020.
– Gartner ; Peter Krensky ; Best Practices to Avoid Citizen Data Science Failure; 13 juillet 2020.
– Gartner ; Anirudh Ganeshan, Carlie Idoine ; Build a Comprehensive Ecosystem for Citizen Data Scientists to Drive Impactful Analytics; 6 avril 2021.
– Gartner ; Melissa Davis, Bern Elliot ; Applying AI in Business Domains; 26 juillet 2021.

Contenus liés