Pas de paradis sans une gestion des données efficace !

Du point de vue analytique et machine learning, le paradis est à West Perth. Nous le savons grâce au projet Paradise Found et aux articles de blog de mon collègue Andreas Becks sur le sujet. Une chose est claire : sans le machine learning et l’analytique, nous ne serions jamais tombés sur ce quartier, dans cette ville australienne en plein essor. Par Andreas Gödde, Director Business Analytics chez SAS DACH.

Comment y sommes-nous parvenus ? En « décortiquant » cinq millions de données collectées sur 148 233 lieux dans le monde entier à partir de 1 124 sources différentes. Personnellement, je pense que la gestion des données est tout aussi importante que l’analytique, car pour faire « parler » les données, les deux techniques doivent fonctionner ensemble de façon optimale.

 

Le véritable enjeu des big data : V comme variété

 

Dans les projets analytiques (comme Paradise Found), l’enjeu réside souvent non pas dans le volume des données mais dans la variété des systèmes source et des chemins d’accès, ainsi que dans la diversité des structures de données et des structures manquantes. Ce projet a de nouveau confirmé l’importance d’une plate-forme analytique ouverte, capable d’accéder en toute transparence à quasiment toutes les sources de données et d’acquérir ces données sans problème.

Pour tirer parti de sources diverses et de structures de données hétérogènes, il faut mettre en œuvre une gamme complète de fonctions de gestion de la qualité des données. L’unification et la consolidation de noms de ville du monde entier aux formats si différents, tant au niveau de la langue que du système d’écriture, se sont révélées être les tâches les plus faciles du projet Paradise Found. Outre le profilage, l’analyse syntaxique et le nettoyage, il a été essentiel de procéder à un enrichissement des données analytiques pour le faire aboutir. Plutôt que d’exclure les données manquantes ou incorrectes de l’analyse, les processus comme le machine learning permettent d’améliorer la pertinence des données.

 

Rapidité et simplicité sont les maîtres-mots.

 

Il est indispensable de disposer des outils de gestion des données adéquats, mais aussi, et ce projet le montre une fois de plus, l’intégration étroite entre gestion et analytique est clé. Seul un processus intégré et itératif permet d’avancer rapidement et d’enrichir les analyses par des données supplémentaires afin d’en tirer des enseignements. La répartition classique des tâches entre data scientist et data architect, ou entre analyste métier et département informatique, appartient désormais au passé. Les démarches autrefois parallèles doivent fusionner et constituer un processus itératif créateur d’innovation. Seule une plate-forme intégrée comme celle de SAS, qui englobe ces étapes itératives au sein d’un processus complet, permet de mettre en œuvre un projet tel que Paradise Found en quelques semaines à peine.

L’utilisation cohérente d’algorithmes d’analytique et de machine learning tout au long du processus, y compris pendant la phase initiale de préparation des données, et la transparence constante des données existantes, de leur qualité et de toutes les informations déjà extraites des données sous forme de modèles sont des critères essentiels. Si on ajoute à cela une interface intuitive, des utilisateurs de tous horizons peuvent très rapidement faire « parler » les données, en mode libre-service.

La gestion des big data va alors au-delà du simple exercice de style, sans pour autant se transformer en tâche complexe et onéreuse. C’est le seul moyen d’obtenir une image claire et non faussée des données, et d’en extraire des modèles. La réussite ou l’échec de chaque analyse en dépend. En conclusion, il n’y a pas de paradis sans une bonne gestion des données, du moins pas de paradis validé par l’analytique. Le cas de Paradise Found n’est qu’une illustration pour montrer la puissance de l’analyse et du machine learning pour faire « parler » des données. Utilisé dans l’entreprise, le machine learning ouvrira des perspectives entièrement nouvelles.

 

*******************************************

Trouver le meilleur endroit au monde grâce au machine learning

Le machine learning à la portée de tous — tel est l’objectif du projet Paradise Found de SAS.

Grâce à l’analytique des big data et au machine learning, SAS a identifié le meilleur endroit au monde parmi près de150 000 lieux, sur la base de 69 critères.

Sans avoir défini de critère ou d’hypothèse au préalable, SAS a analysé plus de cinq millions d’enregistrements issus de 1 124 sources de données structurées et non structurées afin d’identifier la ville lauréate : West Perth, en Australie.

Et avec le configurateur de paradis, tout le monde peut trouver son paradis personnel !

SAS vous donnera à nouveau l’occasion de mieux appréhender les nouvelles tendances du machine learning et de l’analytique des big data : rendez-vous à SAS Forum France le 5 juin 2018.

 

*******************************************

Andreas Gödde, Director Business Analytics chez SAS DACH, aide les organisations à tirer le meilleur parti des données pour améliorer leurs prises de décision, en développant des stratégies d’analyse des big data, de digitalisation et d’Internet des objets. Il dirige la division Business Analytics de SAS en Allemagne, Autriche et Suisse. Capitalisant sur plus de 25 années d’expérience, Andreas a rejoint SAS en 1994 pour structurer les services professionnels de l’éditeur. En 2006, il a rejoint la division avant-vente pour développer une équipe dédiée au conseil en big data et Internet des objets.

*******************************************

En complément :

Les big data essentielles à la lutte contre la pauvreté,

Les big data au service de la santé.