Panorama des solutions IA pour le e-commerce en 2024
Découvrir
Une donnée est une information numérique ou alphanumérique, codée, lisible par la seule machine, en vue de son enregistrement, traitement, conservation et communication… Dans la vie quotidienne cela peut être l’âge d’une personne et au sein d’une entreprise cela peut être le nombre d’employés.
Les données sont donc partout. Favorisées par l’hypercroissance du numérique, elles sont plus nombreuses et se propagent plus vite. Au total, on estime que pas moins de 175 Zo (zettaoctets) d’informations seront stockés dans les systèmes informatiques de la planète en 2025. Soit 175 milliards de téraoctets.
En -2000 avant JC, les analyses de données existaient déjà ! Les plus anciennes traces d’écriture conservées ne sont pas des choses éthérées comme des poèmes, des grands discours, des lettres d’amour ou des romans, mais plutôt des exemples d’analyse de données.
Chez les Sumériens* notamment, les scribes dressaient des listes de laboureurs employés par l’État et préservaient ces données sur des tablettes d’argile, constituant ainsi la première base de données. Ces inscriptions permettaient alors de calculer les salaires.
*Les Sumériens sont une civilisation historique en Basse-Mésopotamie pendant les IVe et IIIe millénaire av. J-C. Ils sont les inventeurs de la plus ancienne écriture humaine connue : l’écriture cunéiforme.
Aujourd’hui, les données sont devenues extrêmement utiles dans le monde de la santé. Il s’agit par exemple de renseignements médicaux classiques provenant de médecins, d’hôpitaux et de laboratoires. Mais aussi d’indicateurs captés dans la vie réelle, hors circuit médical : le rythme cardiaque mesuré par une montre, l’indice de masse corporelle calculé par une balance connectée ou le nombre de pas enregistrés par une application smartphone…
Selon les historiens, l’entrée de la data dans le secteur médical est apparue en 1663. John Graunt, l’un des premiers démographes, introduit l’analyse des données statistiques avec la peste bubonique, une maladie contagieuse au contact d’une piqûre d’une puce infectée. Il publie alors la première collection d’archives de santé publique, compilant notamment les taux de mortalité et leurs variations pendant la période de peste bubonique en Angleterre, de 1347-1351.
C’est dans les années 1960 et 1970 que l’analyse de données commence à se structurer sous une forme ressemblant à ce que nous connaissons aujourd’hui. Les capacités de calcul des ordinateurs commencent alors à augmenter, favorisant les premières bases de données informatisées. Avant cette date, les données étaient encore retranscrites et stockées sur du papier.
En 1965, les États-Unis prévoient de construire les premiers bâtiments de centres de données pour stocker des millions de déclarations d’impôts et d’empreintes digitales sur bande magnétique. C’est le début de la numérisation de l’administration.
Néanmoins, le volume de données se multipliant, des problèmes de maintenance commencent à se poser.
Un besoin de structuration de la donnée s’est alors fait sentir. Le SQL (Structured Query Language) apparaît. C’est un langage informatique utilisé pour exploiter des bases de données. Il permet de façon générale la définition, la manipulation et le contrôle de sécurité de données. Créé au début des années 1970 par Donald D. Chamberlin et Raymond F. Boyce, c’est à cette époque que les premières embauches de Data Analyst se font.
Une fois les données développées et stockées, une question s’est rapidement posée : comment les classifier selon différents niveaux d’agrégation ? Un exemple très simple : en plus de visualiser les données d’une ville, il devient pertinent de les comparer avec celles d’une région ou d’un département.
C’est alors que nous en sommes arrivés à reformater la donnée pour apporter de la flexibilité dans leurs compréhension. Ainsi les personnes des entreprises qui prennent des décisions sont en possession de rapports sophistiqués pour prendre les meilleures décisions. On a commencé à étudier les données dans leur ensemble, contexte, datation et etc.
Avec la démocratisation d’Internet dans les années 90, les sources de données se multiplient. Dès lors, les outils existants n’arrivent plus à suivre.
À partir des années 2000, on assiste à une explosion des données : on estime le volume des données créées ou répliquées dans le monde à 64 zettaoctets, ce qui équivaut à 64 mille milliards de gigaoctets. Il faut alors être en capacité de stocker les données et de les analyser. C’est l’apparition du Big Data. Le Big Data est composé de jeux de données complexes, provenant essentiellement de nouvelles sources. Ces ensembles de données sont si volumineux qu’un logiciel de traitement de données traditionnel ne peut tout simplement pas les gérer.
Le Big Data est donc des données plus variées, arrivant dans des volumes croissants et à une vitesse plus élevée. C’est ce que l’on appelle les trois « V » :
Répondant à ce besoin de stockage d’immenses volumes, le cloud se développe. En particulier, avec Google et Amazon qui ont simultanément repris le terme « cloud computing » en 2006. Son infrastructure et sa tarification à l’usage permettent en effet de diminuer les coûts technologiques, budgétaires et humains du stockage on-premise.
À partir de 2010, la Data Science devient reine : elle permet d’améliorer en profondeur l’analyse des données et de faire des prévisions.
Enfin, le Big Data, le cloud & la Data Science favorise le développement de l’intelligence artificielle (IA) et du machine-learning, donnant assez de matière aux algorithmes pour apprendre par eux-mêmes.
Retrouvez ci-dessous l’Histoire de la donnée au travers d’une vidéo qui retrace les grandes étapes clés de la data et de ses évolutions.