Vous trouvez que nous n'avons pas assez de préjugés ? Rassurez-vous, l'IA les amplifie

Écrit par Wilfried Kirschenmann, le 06 février 2018

"La France est à Paris ce que le Japon est à Tokyo."

"L'homme est au roi ce que la femme est à la reine."

Une des approches les plus utilisées actuellement en intelligence artificielle construit ce type d'analogies. Lorsqu'on demande à une IA de ce type de compléter la proposition "L'homme est au roi ce que la femme est à X", elle répond "la reine". L'IA aura appris ces analogies à partir d'un corpus de textes.
[* : Une introduction assez claire peut être trouvée (en anglais) à ce lien : A Simple Introduction to Word Embeddings]

En 2016, des chercheurs de l'université de Boston et du centre de recherche de Microsoft à Cambridge ont entraîné un tel système avec des textes récupérés sur Google news. Ses déductions sont assez saisissantes :

  • "L'homme est au développeur ce que la femme est à la ménagère"
  • "L'homme est au chirurgien ce que la femme est à l'infirmière"
  • "L'homme est au commerçant ce que la femme est à la femme au foyer"

Les chercheurs ont proposé une méthode pour compenser ce biais issu des données². Leur méthode nécessite toutefois une correction explicite et donc que ces biais soit identifiés
[² : tous les détails sont dans leur article https://arxiv.org/pdf/1607.06520.pdf]

Il y a statistiquement aujourd'hui plus de chirurgiens que de chirurgiennes et plus d'infirmières que d'infirmiers. C'est donc naturel que dans les articles de Google news, ces biais se retrouvent. L'algorithme s'appuyant sur ces données a simplement généralisé ces biais.

L'IA est également largement utilisé pour décrire les images. Un exemple d'application serait de détecter la présence d'une personne et de reconnaître ce qu'elle fait. Et les résultats peuvent être impressionnants : sur la photo suivante, un  algorithme est capable d'identifier qu'une femme cuisine des fruits avec un couteau dans une cuisine et qu'elle n'utilise pas d'instrument de cuisson.

Ici encore, l'algorithme a appris à partir des données fournies. Ici encore, il a appris des biais issus de ces données. Il les a même amplifié : lorsque la scène représente une personne qui cuisine, la moitié des hommes sont reconnus comme des femmes. Dans photos de cuisine contenaient 67% de femmes et 33% d'hommes. Après son apprentissage, l'algorithme y voyait 84% de femmes et 16% d'hommes. Les chercheurs de l'université de Virginie qui ont mis cette amplification en avant proposent une méthode* qui permet de la réduire. Elle conduit l'algorithme à reconnaître 80% de femmes et 20% d'hommes. Ils ont certes réduit le biais mais ne l'ont pas supprimé. Peut-être qu'ils y parviendraient en combinant leur approche et celle mentionné au début de cet article.

[* : tous les détails dans leur article https://homes.cs.washington.edu/~my89/publications/bias.pdf]

Cet article présente deux exemples de cas où les biais inclus dans les données d'apprentissage se retrouvent et se généralisent dans les réponses de deux algorithmes. La question qui se pose à nous est de savoir comment constituer des jeux de données non biaisés. Ou comment identifier tous les biais contenus dans ces données. C'est un exercice d'autant plus difficile que l'on demande justement aux data scientists qui analysent ces données de les "faire parler", de retrouver les signaux faibles.

Distinguer les signaux faibles des biais constitue une vraie difficulté. Pour y parvenir, il est nécessaire de connaître la réalité qui se cache derrière les données. Il est nécessaire de savoir que le métier de chirurgien n'est pas réservé aux hommes. Il est donc nécessaire que les data scientists travaillent main dans la main avec les sachant métier qui connaissent la réalité des choses.