Science des données ou science des résultats : les statistiques à la retraite ?
Lorsque l’on cherche la réponse à un problème posé, comprendre le processus qui mène à elle est-il essentiel ? L’école de la science des données semble passer outre, celle des statistiques en fait son but. Cette pierre d’achoppement concentre les débats autour de la relation qu’entretiennent les deux disciplines. Quel lien, quelles différences et quelles complémentarités existe-t-il en réalité entre elles ? C’est à ces questions que tente de répondre une équipe internationale de chercheurs aux spécialités variées.
Les données sont de plus en plus présentes au quotidien : la santé, les réseaux sociaux, l’industrie, la logistique, les jeux vidéo… Aucun domaine n’y échappe. L’époque s’adapte à ce bouleversement et les sciences en font de même : la science des données prend progressivement le pas sur les statistiques pour traiter cet afflux d’informations. Au point qu’une concurrence s’établit entre ces deux disciplines, que ce soit dans le milieu de la recherche ou dans celui de l’industrie. La question de leurs relations en devient brûlante.
Accompagné d’une équipe internationale de chercheurs statisticiens et de scientifiques des données, Nicolas Vandeput, consultant indépendant spécialisé dans la gestion des stocks et de la prévision des ventes, et enseignant à CentraleSupélec, tente de déterminer les principales différences entre les deux disciplines et leurs réelles complémentarités. À partir d’une analyse conceptuelle, l’équipe conclut qu’un rapprochement constant se fait entre les statistiques et la science des données. Elle pointe également leurs principales limites et dessine les voies de progression à suivre pour l’analyse des données.
L’absence de consensus
Les pourcentages, l’échantillonnage, les tests d’hypothèses… Les statistiques étudient les corrélations et les causalités possibles entre plusieurs variables. Elles donnent du sens à un ensemble de données brutes. La science des données vise le même but, à la différence qu’elle permet d’analyser davantage de données. Leur étude nécessite différents outils comme l’apprentissage automatique. Ici, un modèle mathématique entraîne l’ordinateur et le pousse à apprendre et à se perfectionner de manière autonome. L’ambition est d’aboutir à des prédictions. Car beaucoup de données à analyser implique de recourir à beaucoup de cerveaux, et l’apprentissage automatique vient alléger ce travail. La distinction entre les deux disciplines pourrait s’arrêter là mais quelques zones d’ombres subsistent tout de même. La science des données et les statistiques ne se rencontrent-elles réellement jamais ? Les outils utilisés sont-ils vraiment opposés ? Malgré leurs approches différentes, ces deux disciplines tendent-elles à fournir les mêmes informations ?
En passant en revue les différents arguments échangés dans la littérature scientifique, Nicolas Vandeput et ses collaborateurs font apparaître deux aspects distincts. Pour certains, les deux disciplines rendent compte de la même chose et les statistiques constituent une composante – voire décisive - de la science des données. Utiliser un grand nombre d’outils statistiques en science des données en est une preuve. Pour d’autres, les deux champs disciplinaires sont strictement séparés et incomparables, et les activités en science de données ne demandent pas d’utiliser ou de connaître les modèles statistiques.
La scientificité même de la science des données est parfois remise en cause : si les données et une méthodologie spécifique sont bien des composantes scientifiques, elles ne déterminent pas pour autant une discipline nouvelle. Comparée aux statistiques, la science des données constitue un champ de recherche nouveau. « Il faut s’imaginer que la science des statistiques est restée assez stable pendant plusieurs décennies et que, d’un coup, la Data Science est arrivée », confirme Nicolas Vandeput. Dès lors, aboutir à un consensus quant au rôle et à l’importance de ces deux disciplines fait l’objet d’un affrontement récent.
Science des données, science naissante
À chaque époque ses besoins : la période actuelle, qui fait suite à une époque où les données étaient rares et l’enjeu d’en tirer malgré tout le maximum d’informations, se caractérise au contraire par une abondance de données. Et la science des données apparaît pour répondre à de nouvelles nécessités d’analyse, car les statistiques seules y sont techniquement inadaptées. En témoigne la « règle des quatre V » qui définit le Big Data : le volume, qui appelle la collecte d’une grande quantité de données, la valeur, qui détermine la plus-value du résultat, la véracité, qui interroge la fiabilité des données, et la vitesse, qui rend compte de la capacité à traiter une grande quantité d’informations en peu de temps. Mais puisque la science des données a autant d’avantages, comment expliquer que la concurrence avec les statistiques soit toujours d’actualité ?
En cause : plusieurs limites sur lesquelles bute la science des données. Elle éprouve par exemple des difficultés à travailler sur de petits échantillons ou à effectuer des tests d’hypothèses. Un obstacle majeur réside également dans le “Black Swan”. Ce concept fait référence aux événements qu’il est impossible de prévoir dans un modèle de science des données. Le « surapprentissage » et le « sous-apprentissage » participent aussi à tronquer le modèle : soit il est trop adapté aux données d’entraînement, ce qui le pénalise sur des données nouvelles, soit il n’est pas assez entraîné pour saisir les tendances propres aux données étudiées. Enfin, l’« interprétabilité » du modèle est décisive, pour réussir à expliquer et comprendre les décisions opérées. Or la science des données est techniquement incapable d’une telle opération : « Le réseau de neurones ne peut pas se justifier. Il ne fournit pas d’explications, ce n’est pas une suite de règles logiques simples », explique Nicolas Vandeput. La grande limite ici n’est pas dans l’efficacité des modèles, mais dans la confiance qu’ils suscitent.
Une opposition inféconde
L’équipe de chercheurs conclut que ces deux disciplines tendent en réalité à collaborer. Au-delà de leurs différences concernant leurs origines, leurs méthodologies et leurs outils, statistiques et science de données partagent des dynamiques et une finalité communes : enrichir l’analyse des données et proposer des prédictions. Leur complémentarité est en création et dépend de l’évolution de ces disciplines. La science des données est toujours limitée mais sa progression est rapide. « En machine learning, tous les modèles antérieurs à 2015 sont déjà quasiment dépassés aujourd’hui », illustre Nicolas Vandeput. De plus, les statistiques en font partie car elles sont mobilisées dans l’analyse. Elles permettent de structurer les données, de les approfondir et d’évaluer leur validité. L’interprétabilité, ou la capacité à expliquer les processus qui mènent à un résultat, demeure toutefois impossible en science des données. Sera-t-on un jour capable de proposer un véritable mariage entre ces deux disciplines ? L’alliance des techniques de Big Data et de l’interprétabilité ferait de beaux enfants.
Référence :
- Hassani, Hossein et al. 2021. « The Science of Statistics versus Data Science: What Is the Future? » Technological Forecasting and Social Change, 173: 121111.