Science des données : de la pratique à la discipline

La science des données n’est certes pas une nouvelle discipline, mais elle est en plein essor. Née de la multiplication des données numériques, elle s’est progressivement institutionnalisée et se développe bien au-delà de l’univers universitaire, dans les entreprises et les organisations privées et publiques. Retour sur sa genèse.

Qu’est-ce que la science des données ? L’auteur, Neel Sundaresan, dans cet article publié sur le blog du Huffington Post, la définit comme la capacité à extraire des connaissances des data, et à utiliser ces connaissances pour prendre des décisions. Cette science très large couvre de multiples domaines, tels que les mathématiques, la statistique, l’ingénierie, l’informatique et ses sous-univers, comme la reconnaissance de formes, la théorie de l’information, l’apprentissage automatique ou encore le calcul haute performance.

S’il est très employé aujourd’hui, le terme « science des données » existe en réalité depuis des décennies. Il a été utilisé pour la première fois par Peter Naur, un pionnier de la programmation informatique, en 1960, pour désigner le traitement des data. Le terme a été repris en 1970 par le professeur américain Jeff Wu dans une conférence intitulée « Statistiques = Science des données ? ». Ce n’est que bien plus tard, au début des années 2000, que le statisticien Bill Cleveland a demandé, dans les colonnes de l’International Statistical Review, la reconnaissance de la science des données comme une discipline à part entière.

 

Science de la donnée à la Silicon Valley

 

À la fin des années 2000, la Silicon Valley s’est approprié la dénomination. Neel Sundaresan explique qu’il y a plus de 10 ans, même si le terme n’était pas employé, il était déjà difficile d’imaginer travailler sans les données. Au sein des labos de recherche d’eBay, l’expert « Data Science » dirigeait une équipe d’ingénieurs et de scientifiques qui travaillaient avec les data sous toutes leurs formes, des infrastructures aux algorithmes en passant par l’apprentissage automatique, les interactions homme-machine ou les modèles économiques. Pourtant, pas un seul ne possédait le titre de « data scientist », très valorisé aujourd’hui. À l’époque, chacun était un expert dans son propre domaine, amené à travailler avec des volumes importants de données. La collaboration entre ces spécialistes a en revanche permis de partager les techniques de traitement des données par-delà les disciplines. Dans ce « département data science » qui n’en était pas encore un, l’expert en apprentissage automatique partageait son savoir avec l’économiste, le statisticien et vice-versa. Les ingénieurs bases de données étaient les plus appréciés de tous, car déjà, ils apportaient des solutions décisives et inédites aux scientifiques de tous les domaines !

 

Lire l’article (en anglais)

 

En complément :

Un article (en anglais) sur le rôle montant des data scientists aux États-Unis,

et un autre sur le rôle de la science des données en matière de sécurité.