IA : un bon apprentissage automatique nécessite des données propres

Si les outils de big data et d’intelligence artificielle sont devenus plus accessibles, leur utilité repose essentiellement sur la qualité des données fournies aux algorithmes d’apprentissage automatique. Or, pour limiter les biais, celles-ci doivent être nettoyées en amont. Un préalable indispensable que les entreprises commencent à prendre en compte.

La démocratisation de l’usage de l’intelligence artificielle (IA) passe par un nettoyage des données. Les entreprises sont en effet souvent focalisées sur l’acquisition d’une grande quantité de données. Mais leur attention devrait prioritairement se porter sur leur qualité. Le principal écueil porte sur les erreurs de biais dans les données utilisées par les algorithmes d’apprentissage automatique, qui peuvent conduire à des résultats inappropriés.

 

Des données moins nombreuses, propres et adaptées pour une IA performante

 

La récente conférence O’Reilly consacrée à l’IA a présenté plusieurs cas d’usage d’entreprises de toutes tailles confrontées à ce problème. Ainsi, la start-up new-yorkaise CTRL-labs, qui développe une interface cerveau-machine, doit-elle collecter des données à usage unique en raison de la singularité de chaque individu. Mais les capteurs recueillent souvent plus d’informations que nécessaire, d’où l’objectif de la société d’obtenir des données moins nombreuses, propres et adaptées en réduisant le nombre de connexions.

Chez le poids lourd Facebook, le passage à l’échelle de l’infrastructure IA requiert une mise en œuvre en trois temps : collecter et préparer les données, entraîner les modèles, et enfin les déployer. Lors de la première étape, des ingénieurs spécialisés doivent nettoyer les données afin de les optimiser pour les outils de machine learning, qui réalisent des tâches de traduction automatique ou de reconnaissance faciale, avec la difficulté supplémentaire que les besoins évoluent constamment.

 

Nettoyer automatiquement les données pour rendre les projets d’IA plus abordables

 

Pour les organisations aux ressources moins étendues que Facebook, une solution possible consiste à prétraiter les informations par le biais de programmes qui génèrent des ensembles de données structurées de taille plus petite. Un moyen de rendre les projets d’IA plus abordables en éliminant le besoin d’entraîner manuellement les algorithmes d’apprentissage automatique.

 

Lire l’article 

En complément : un article au sujet de la constitution d’un catalogue de données,

et un autre (en anglais) à propos des concepts sous-jacents de l’intelligence artificielle.