L’intégration des données évolue grâce aux Big Data et à l’open source

« Pour moi, les big data n’existent pas en tant que volume. » Voilà une déclaration étonnante de la part d’un spécialiste de l’intégration de données. « La taille est relative. Elle ne reflète que l’origine. » Il est du reste impossible de définir un seuil minimal pour mesurer l’ampleur des big data, mais ce phénomène concerne le domaine de l’intégration de données, lui-même devenu quasiment une spécialisation banalisée. Une tribune d’Arturo Salazar, Business Solution Manager, SAS région Europe sud-ouest

(Cette tribune est extraite de la publication « Future Bright – Laissez-vous guider dans un monde de données » que vous pouvez télécharger ici.)

Ces doutes sur l’étendue réelle des big data émanent d’Arturo Salazar, qui occupe le poste de Business Solution Manager pour la région Europe du sud-ouest chez SAS Institute. Arturo Salazar explique que le terme «  big» (volumineux) revêt un tout autre sens pour une PME que pour une grande entreprise telle qu’un établissement financier. Selon lui, il ne peut y avoir de seuil minimal pour évaluer l’ampleur des big data.

Il est certain que ce phénomène influe énormément sur le domaine de l’intégration de données, qui doit aujourd’hui faire face à davantage de variables et de données inconnues. Arturo Salazar ajoute que l’intégration des données existe maintenant depuis un certain temps et est pratiquement considérée comme une tâche ordinaire. Toutes les entreprises ne sont pas pour autant à l’aise avec l’intégration de données : certaines ne mesurent pas l’importance d’une utilisation et d’un déploiement efficaces des données. Mais en tant que spécialisation, elle a aujourd’hui atteint le stade de la maturité.

 

Sortir de la zone de confort des entreprises

  1. Salazar convient que l’ampleur des big data est effectivement une dimension relative. « Les big data, ce sont toutes les données qui sortent de la zone de confort d’une entreprise. » Ils impliquent également l’exhaustivité des sources de données et, plus important encore, la rapidité d’intégration des informations pour en tirer de nouveaux enseignements exploitables. Il est important de savoir si les big data sont liés au degré de maturité d’une organisation. Si les données en question sont juste en-dehors de la zone de confort, ne s’agit-il pas simplement d’une question de développement ? « C’est effectivement une question de maturité », conclut Arturo Salazar.

 

Le reporting mensuel est inadapté

«  Les entreprises sont en pleine mutation technologique par rapport au mode de collecte et d’utilisation des informations », poursuit Arturo Salazar. Il cite l’exemple frappant des débuts de l’intégration de données il y a déjà quelques années. « Prenez l’exemple d’Internet et des journaux des serveurs web. » Les machines consignaient dans leurs fichiers journaux les visites et les clics enregistrés sur les pages web, notamment l’adresse IP des serveurs d’origine, les données provenant des cookies, etc.

« Tous ces clics représentent beaucoup de données. » Et toutes ces données pourraient être utiles. Selon Arturo Salazar, « la plupart des données consignées peuvent être purement et simplement éliminées, mais on ne sait pas lesquelles garder. » Le regard sur les données relatives à la navigation Internet a en outre beaucoup changé. Des données qui étaient auparavant effacées peuvent désormais s’avérer très précieuses. Savoir sur quelles pages d’un site web un visiteur cliquait ne présentait jusqu’alors que peu d’intérêt, tandis que ces informations peuvent aujourd’hui être cruciales. « Voyez les recommandations en temps réel émises par les sites marchands modernes. » Autre exemple : le suivi des habitudes de navigation lorsque les visiteurs sont connectés à un site. Le profilage est à présent le fer de lance des campagnes de fidélisation de la clientèle des entreprises présentes sur le web.

 

Augmentation des volumes de données et coûts de stockage

L’exemple des journaux Internet a convaincu le plus grand nombre de l’utilité de l’intégration des données, qui a elle-même favorisé la demande de déploiement de solutions d’intégration pour un large éventail d’applications. La mise en relation des données issues des sites web avec les sources d’informations « traditionnelles » – systèmes CRM, entrepôts de données, etc. – est un gage de valeur ajoutée. Elle est depuis longtemps reconnue comme offrant de nombreux avantages pour les entreprises. Depuis, des informations en constante évolution garantissent qu’elle ne se limite pas simplement à l’importation unilatérale de journaux de sites web dans une application CRM, par exemple. L’utilisation efficace des données nécessite un trafic bidirectionnel et une portée étendue, d’où des volumes de données toujours plus importants.

Dans un premier temps, la multiplication rapide des données recueillies, stockées et corrélées par les entreprises ne semble pas poser de problème majeur. La capacité des supports de stockage ne cesse d’augmenter, tandis que le prix par giga-octet est en baisse. Les performances des processeurs connaissent une croissance exponentielle, comme si les disques durs appliquaient leur propre version de la loi de Moore. Pourtant, non seulement la courbe de la capacité de stockage augmente moins nettement que celle des processeurs, mais sa progression est en outre insuffisante pour faire face à l’explosion des données.

 

Extraire des pépites de données inconnues

Les logiciels, en particulier ceux de base de données, constituent un autre problème d’intégration des données face à l’explosion des informations. La majeure partie de l’imposante montagne de données ne peut pas être simplement stockée dans une base de données relativement onéreuse ou un coûteux entrepôt. Même si ces énormes volumes de données recèlent un véritable trésor, nul n’en connaît encore la taille et l’emplacement. Selon les experts SAS, il s’agit en fait du problème de la poule et de l’œuf : la valeur encore inconnue des données opposée à leur coût de recherche. Mais un espoir se dessine pour cette forme de data mining. Grâce aux nouvelles technologies, les précurseurs n’ont plus à dégager à la main des pépites noyées dans les flux s’écoulant de la montagne des données, ni à y creuser laborieusement des puits de mine.

 

Suivre la même voie que Linux

C’est là qu’intervient le logiciel Open Source Hadoop, une solution abordable, capable de stocker et de traiter plusieurs pétaoctets de données, qui s’exécute sur du matériel standard. Quelle est sa puissance ? Hadoop repose sur une technologie développée par le géant des moteurs de recherche Google pour indexer Internet. « Hadoop suit la même voie que Linux », explique Arturo Salazar. Le marché l’adopte progressivement pour des applications plus sérieuses. « Personne ne souhaite stocker ses journaux dans une coûteuse base de données. » Toutefois, Hadoop n’en est qu’au début du chemin, tandis que Linux a déjà parcouru une longue distance, ce qui pose problème à de nombreuses entreprises. L’un et l’autre sont issus d’univers très différents de ceux auxquels la plupart des sociétés sont habituées et requièrent une certaine connaissance technique, y compris côté utilisateurs.

« Au début, les gens avaient tout aussi peur de Linux », rappelle Arturo Salazar. Depuis, des entreprises comme Red Hat ont associé le logiciel central du système à des applications métier, et en proposent les résultats sous forme de packages. Hadoop n’en est qu’au début de ce processus. Notre expert cite Cloudera et Hortonworks ; selon lui, ces programmes joueront pour Hadoop le même rôle que celui exercé par Red Hat dans l’adoption de Linux. « De nombreuses entreprises jugent encore Hadoop intimidant et trop compliqué », décrypte Arturo Salazar. Normalement, elles emploient des spécialistes pour ce type de logiciel Open Source, que ce soit pour l’installation, la configuration ou la maintenance, mais aussi pour l’utilisation au quotidien. Quelles sont les compétences nécessaires ? Des programmeurs expérimentés, dotés de compétences en programmation et d’une certaine aisance administrative, mais aussi des connaissances et de l’expertise habituellement réservées aux analystes de données. Cette somme de qualités est rare et par conséquent, coûteuse.

 

Mettre Hadoop à la portée du plus grand nombre

Hadoop connaît une popularité grandissante malgré sa complexité. « Il offre d’innombrables avantages », souligne Arturo Salazar. L’éditeur de solutions décisionnelles SAS suit également cette tendance. Selon A. Salazar, SAS utilise un socle technologique basé sur Hadoop. La complexité de ce logiciel étant ainsi dissimulée dans des processus et programmes avec lesquels le client est déjà familiarisé, les entreprises peuvent utiliser efficacement des outils d’intégration de données sans faire appel à des spécialistes du logiciel sous-jacent.

En février 2015, SAS lançait un nouveau produit de gestion des données pour accroître la convivialité de Hadoop. Arturo Salazar assure que la nouvelle application web baptisée SAS® Data Loader for Hadoop permettra de creuser encore plus profondément dans la montagne de données. Cette application permet aux utilisateurs lambda comme aux analystes de préparer, puis d’extraire les données stockées dans Hadoop. Bientôt, nous serons tous capables de trouver un trésor !

Cette tribune est extraite de la publication « Future Bright – Laissez-vous guider dans un monde de données » que vous pouvez télécharger ici.

 

Le data management : sujet phare de SAS Forum le 5 novembre 2015