Comment la qualité des données améliore l’Intelligence Artificielle

Un texte de Jim Harris, expert reconnu dans le domaine de la qualité des données, consultant et auteur indépendant, rédacteur en chef du site « Obsessive-Compulsive Data Quality ».

Que ce soit dans le domaine des réseaux neuronaux, du traitement du langage naturel, de l’apprentissage automatique (machine learning) ou de la vision artificielle, l’intelligence artificielle (IA) est de plus en plus utilisée pour améliorer des solutions d’entreprise. Toutes les applications d’IA sont pilotées par les données et donc dépendantes de données de haute qualité. Dans cet article nous allons étudier des exemples montrant comment la qualité des données améliore l’IA.

 

De meilleures données pour une recherche améliorée

 

Commençons par regarder une utilisation de l’Intelligence Artificielle avec laquelle nous sommes familier depuis des décennies et que la plupart d’entre nous utilise plusieurs fois par jour – un moteur de recherche sur Internet. Son objectif est de vous aider à trouver des sites web, des images, des vidéos et d’autres contenus en ligne pertinents par rapport à votre requête. Un moteur de recherche est piloté par des données de haute qualité, dont il dépend, et cela de trois façons.

 

  • Index des mots clés et métadonnées

 

Tout d’abord, un moteur de recherche est piloté par un index des mots clés et de métadonnées que son algorithme utilise pour filtrer et évaluer les résultats de recherche. C’est de cette manière qu’il peut servir une liste ordonnée de liens, dont les résultats les plus pertinents sont classés en premier. Comme pour n’importe quel apprentissage automatique pour une IA, la qualité des données utilisées pour l’entrainement du moteur de recherche est essentielle. Les données d’entrainement constituent le premier index de recherche, accompagné d’une série des résultats de recherche attendus correspondants aux requêtes les plus courantes et relativement peu ambiguës. Ceci permet au modèle analytique que le moteur de recherche est en train de construire de partir dans la bonne direction, en établissant les bonnes corrélations entre l’index de recherche et différentes requêtes.

 

  • Les robots d’indexation (Web crawlers)

 

Des données à jour et rafraichies fréquemment sont nécessaires pour améliorer l’IA de n’importe quelle application. Les robots d’indexations aident les moteurs de recherche à obtenir ce type de données. Les robots vont de site en site collecter les données pour mettre à jour et optimiser l’index de recherche. C’est là que le système est confronté à un challenge de qualité de données particulièrement intéressant, le SEO (search engine optimization : l’optimisation pour les moteurs de recherche).

D’un point de vue SEO, aussi bien des particuliers que des organisations essayent de convaincre le système de mieux classer leur site web dans la liste des résultats de recherche. Je me souviens des débuts de l’internet quand le bas de page (footer) de sites web frauduleux et infestés de malwares était chargé de listes de mots clés courants. Il s’agissait de tactiques pour obtenir un meilleur classement et attire plus de visiteurs sur leur page. Dans cet exemple, les algorithmes de recherche ont dû être mis à jour – pas à cause de mauvaises données mais à cause de bonnes données utilisées à mauvais escient.

Le SEO nécessite que le moteur de recherche s’adapte en permanence – ou, dans certains cas – soit ajusté manuellement – pour déjouer des tentatives pour tromper son système. Des manipulations du moteur de recherche ne faisant pas appel à l’IA se produisent quand les sociétés payent pour apparaitre en tête des résultats de recherche. Mais depuis ces dernières années les moteurs de recherche indiquent clairement quels résultats sont des publicités.

 

  • Apprendre des utilisateurs

 

La troisième façon pour un moteur de recherche d’être piloté par la donnée est la vraie clé de son succès – le fait d’apprendre de ses utilisateurs. Quand ceux-ci n’aiment pas les résultats qui leur sont fournis, c’est souvent à cause d’erreurs dans leurs requêtes de recherche. Les gens font par exemple des erreurs d’orthographe ou d’ordre des mots, utilisent trop peu de mots ou des termes de recherche trop génériques, ou incluent dans leur requête des informations non concluantes ou inutiles.

Quand les utilisateurs modifient leur requête, en particulier avant de cliquer sur un résultat de recherche, c’est une formidable opportunité d’apprentissage pour le moteur de recherche. Car le moteur de recherche garde en mémoire à la fois la requête d’origine et la requête modifiée. En comparant les deux requêtes et les résultats finalement retenus, le moteur de recherche apprend et renforce les corrélations entre l’index de recherche et différentes requêtes.

Si vous avez dans un premier temps recherché « bat man » et ensuite « bat man superhéros », le moteur apprend que les utilisateurs sont plus susceptibles de chercher des informations sur un personnage de bande dessinée que sur un « homme spécialiste des chauves-souris ».

C’est pourquoi l’algorithme prédictif qui vous aide à finir votre requête vous recommande des mots clés à ajouter à votre recherche au fur et à mesure que vous tapez sur votre clavier.  Par exemple, si vous commencez à taper “bat man,” les mots clés recommandés par la plupart des moteurs de recherche sont « film », ou « bande dessinée / comics» ou « jouet ».Pour la même raison il pourra vous demander “Voulez-vous dire Batman?” – car le moteur de recherche a appris que le nom du personnage de comics s’écrit en un mot. De plus, le moteur de recherche a appris à épeler non pas en utilisant un dictionnaire mais en apprenant les corrélations entre les mots mal écrits et ceux bien orthographiés présents dans son index.

Ceci nous montre que les utilisateurs améliorent en continu la qualité des données dont dépend si fortement un moteur de recherche. Les utilisateurs réalisent la tâche la plus consommatrice de temps et qui handicape la plupart des applications d’IA : le nettoyage des données.

Un moteur de recherche permet de faire la démonstration de la quantité phénoménale de données de qualité dont a besoin une IA pour atteindre ses objectifs. Cet exemple nous montre également comment une IA doit intégrer des process formalisés de consommation continue de nouvelles data et de méthodes pour améliorer en continu la qualité des donnés.

 

Explorez comment l’IA peut améliorer notre compréhension du monde dans l’e-book « Making sense of AI » en libre téléchargement sur le site de SAS.