Le Captcha de Google: comment vous avez aidé à entraîner des IA sans le savoir !





Un captcha c'est ce test qu'on vous propose souvent après avoir rempli un formulaire ou pour accéder à un lien de téléchargement ou un site pour vérifier que vous n’êtes pas un robot (un bot ou une machine). Que ce soit 2 mots barrés à réécrire ou un objet à reconnaître dans une photo, sachez que durant toutes ces années, vous avez servi à aider à résoudre des problèmes d'entrainement d'IA !

Un Captcha: un test de turing mais pas seulement .. 



Vous savez qu’il arrive parfois que vous soyez invité à répondre à un Captcha lorsque vous remplissez un formulaire sur Internet, afin de prouver que vous êtes un être humain et pas une machine. Alors que vous pensiez que vous passiez un test de routine pour pouvoir accéder à un site, dans les coulisses de l'un des systèmes de Captcha les plus populaires - le système Recaptcha de Google - vos clics humanoïdes ont contribué à former l'IA de Google pour qu'il soit encore plus intelligent. 

Qu'est ce qui se cache réellement derrière ces captcha ?



Lorsque vous tombez sur un captcha texte, on vous présente deux mots barrés à saisir, pour confirmer que vous êtes bien un humain. Mais n'avez-vous jamais posé la question : pourquoi deux mots et pas un seul ? Il suffit, en effet, d'un seul pour vérifier que vous n’êtes pas une machine. Et c'est exactement le rôle du premier mot (que le test reconnait, par le résultat de plusieurs milliers d'utilisateurs qui ont déjà répondu à ce test, par exemple) qui joue le rôle d'un captcha habituel. C'est un mot que vous devez reconnaître correctement pour passer avec succès le test. Le deuxième mot qu'on vous présente est par contre inconnu par le système de reCaptcha. En effet, c'est un mot issu de la numérisation d'un livre et que vous et tous les utilisateurs qui vont deviner ce qu'est ce même mot aiderez à le résoudre.

Le système part du principe que si vous résolvez correctement le captcha habituel, alors vous devez déchiffrer correctement et sans problème le mot inconnu. Mais au final, rien n’empêche un internaute qui connait déjà le fonctionnement de système ou qui n'a pas pu déchiffrer correctement le mot (n'a pas pu reconnaître une lettre ou par fausse frappe) d'écrire n'importe quoi en réponse du deuxième mot ! Théoriquement parlant, c'est vrai, mais pour garantir une meilleure performance, le système ne considère un mot comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat. 

Et c'est comme ça que vous avez servi à numériser des livres !



Au lieu de numériser des livres en confiant ça à une seule personne la tâche très ennuyeuse de taper ou de vérifier manuellement un livre entier, des millions de personnes - dont vous et moi - ont collaboré sans le savoir pour atteindre cet objectif, via ce système de Recaptcha. En effet, grâce à ce système installé sur la majorité des plus grands sites internet, et les dizaines de millions d'internautes qui y répondaient, Google a pu numériser l'intégralité des archives de Google Books !

Google captcha ou comment vous avez aidé à entraîner des algorithmes de machine learning ?



Alors maintenant qu'il ne reste plus aucun livre à numériser, le système de recaptcha va servir à des choses plus prometteuses: entraîner l'IA de Google. En effet, en 2012, Google a commencé à inclure non seulement des mots, mais également des extraits de photos de Google Street View
Aujourd'hui, le système a évolué, et on croise souvent des captcha présentant un ensemble de photos et demandant aux utilisateurs de sélectionner celles contenant un objet en particulier, par exemple une voiture. 


Si vous avez une petite idée sur l'apprentissage automatique (machine learning), vous devez savoir que dans un apprentissage dit supervisé on a besoin de données étiquetées (annotées). Par exemple, si je veux apprendre à une machine de reconnaître l'image d'un chat, je dois lui donner plusieurs images de chats en lui disant: "voilà un chat", pour qu'elle puisse après apprentissage reconnaître une nouvelle image d'un chat. Cette base d'images - ou ce jeu de données comme on l'appelle souvent en ML- qui va servir à l'apprentissage de la machine doit être assez grande pour pouvoir obtenir de meilleurs résultats lors de la prédiction. Autrement, plus je montre à la machine des images de chats, plus elle pourra le reconnaître dans le futur. Ce jeu de données d'images étiquetées est enrichi par les résultats que Google collecte de son système de Captcha
Quand vous sélectionnez les images dans lesquelles figure un feu de circulation, vous êtes implicitement en train de donner une étiquette à ces images, vous attribuez l'étiquette "objet feu de circulation", précisément. Votre réponse pourrait servir à améliorer un système de conduite d'une voiture autonome, par exemple.


C'est ainsi que Recaptcha est devenu un appui pour le développement des jeux de données pour les algorithmes d’apprentissage automatique: plus les données sont analysées, plus les résultats obtenus seront intéressants - ce qui donnera à ses produits actuels et futurs un avantage concurrentiel.

No Response to "Le Captcha de Google: comment vous avez aidé à entraîner des IA sans le savoir !"

Enregistrer un commentaire

Related Posts Plugin for WordPress, Blogger...
 

Partenaires

ZinfosWeb

Notre site Info Magazine est listé dans la catégorie Informatique : Actualités informatiques de l'annuaire Fiche descriptive de Youtube

VDP-Annuaire annuaire gratuit

Copyright © 2013 Info Magazine All rights reserved.
Converted To Blogger Template by Blogspot Templates Theme By- WooThemes