Les méthodes qui aident les utilisateurs à décider s’ils doivent faire confiance aux prédictions d’un modèle d’apprentissage automatique peuvent perpétuer les biais

l'informatique

Crédit : Pixabay/CC0 Domaine public

Lorsque les enjeux sont importants, les modèles d’apprentissage automatique sont parfois utilisés pour aider les décideurs humains. Par exemple, un modèle pourrait prédire quels candidats à la faculté de droit sont les plus susceptibles de réussir l’examen du barreau pour aider un responsable des admissions à déterminer quels étudiants devraient être acceptés.

Ces modèles ont souvent des millions de paramètres, il est donc presque impossible pour les chercheurs de comprendre pleinement comment ils font des prédictions, sans parler d’un responsable des admissions sans expérience en apprentissage automatique. Les chercheurs emploient parfois des méthodes d’explication qui imitent un modèle plus large en créant de simples approximations de ses prédictions. Ces approximations, beaucoup plus faciles à comprendre, aident les utilisateurs à déterminer s’ils doivent faire confiance aux prédictions du modèle.

Mais ces méthodes d’explication sont-elles justes ? Si une méthode d’explication fournit de meilleures approximations pour les hommes que pour les femmes, ou pour les Blancs que pour les Noirs, cela peut inciter les utilisateurs à faire confiance aux prédictions du modèle pour certaines personnes mais pas pour d’autres.

Les chercheurs du MIT ont examiné attentivement l’équité de certaines méthodes d’explication largement utilisées. Ils ont constaté que la qualité d’approximation de ces explications peut varier considérablement entre les sous-groupes et que la qualité est souvent nettement inférieure pour les sous-groupes minorisés.

En pratique, cela signifie que si la qualité de l’approximation est plus faible pour les candidatures féminines, il existe un décalage entre les explications et les prédictions du modèle qui pourrait conduire le responsable des admissions à rejeter à tort plus de femmes que d’hommes.

Une fois que les chercheurs du MIT ont vu à quel point ces écarts d’équité sont omniprésents, ils ont essayé plusieurs techniques pour uniformiser les règles du jeu. Ils ont pu réduire certaines lacunes, mais n’ont pas pu les éliminer.

“Ce que cela signifie dans le monde réel, c’est que les gens pourraient faire davantage confiance aux prédictions pour certains sous-groupes que pour d’autres. Ainsi, l’amélioration des modèles d’explication est importante, mais la communication des détails de ces modèles aux utilisateurs finaux est tout aussi importante. Ces lacunes existent, les utilisateurs peuvent donc vouloir ajuster leurs attentes quant à ce qu’ils obtiennent lorsqu’ils utilisent ces explications », déclare l’auteur principal Aparna Balagopalan, étudiante diplômée du groupe Healthy ML du MIT Computer Science and Artificial Intelligence Laboratory (CSAIL).

Balagopalan a rédigé l’article avec les étudiants diplômés du CSAIL Haoran Zhang et Kimia Hamidieh ; le postdoc CSAIL Thomas Hartvigsen; Frank Rudzicz, professeur agrégé d’informatique à l’Université de Toronto; et l’auteur principal Marzyeh Ghassemi, professeur adjoint et chef du groupe Healthy ML. La recherche sera présentée à la conférence ACM sur l’équité, la responsabilité et la transparence.

Haute fidélité

Les modèles d’explication simplifiés peuvent approximer les prédictions d’un modèle d’apprentissage automatique plus complexe d’une manière que les humains peuvent saisir. Un modèle d’explication efficace maximise une propriété connue sous le nom de fidélité, qui mesure à quel point il correspond aux prédictions du modèle plus large.

Plutôt que de se concentrer sur la fidélité moyenne du modèle d’explication global, les chercheurs du MIT ont étudié la fidélité de sous-groupes de personnes dans l’ensemble de données du modèle. Dans un ensemble de données avec des hommes et des femmes, la fidélité devrait être très similaire pour chaque groupe, et les deux groupes devraient avoir une fidélité proche de celle du modèle d’explication global.

“Lorsque vous ne regardez que la fidélité moyenne dans toutes les instances, vous risquez de manquer des artefacts qui pourraient exister dans le modèle d’explication”, déclare Balagopalan.

Ils ont développé deux mesures pour mesurer les écarts de fidélité ou les disparités de fidélité entre les sous-groupes. L’un est la différence entre la fidélité moyenne sur l’ensemble du modèle d’explication et la fidélité pour le sous-groupe le moins performant. La seconde calcule la différence absolue de fidélité entre toutes les paires possibles de sous-groupes, puis calcule la moyenne.

Avec ces mesures, ils ont recherché des écarts de fidélité à l’aide de deux types de modèles d’explication qui ont été formés sur quatre ensembles de données du monde réel pour des situations à enjeux élevés, comme prédire si un patient décède aux soins intensifs, si un accusé récidive ou si une loi le candidat de l’école réussira l’examen du barreau. Chaque ensemble de données contenait des attributs protégés, comme le sexe et la race de personnes individuelles. Les attributs protégés sont des fonctionnalités qui ne peuvent pas être utilisées pour prendre des décisions, souvent en raison de lois ou de politiques organisationnelles. La définition de ceux-ci peut varier en fonction de la tâche spécifique à chaque paramètre de décision.

Les chercheurs ont trouvé des écarts de fidélité clairs pour tous les ensembles de données et modèles d’explication. La fidélité pour les groupes défavorisés était souvent beaucoup plus faible, jusqu’à 21 % dans certains cas. L’ensemble de données de la faculté de droit présentait un écart de fidélité de 7% entre les sous-groupes raciaux, ce qui signifie que les approximations pour certains sous-groupes étaient erronées 7% plus souvent en moyenne. S’il y a 10 000 candidats de ces sous-groupes dans l’ensemble de données, par exemple, une partie importante pourrait être rejetée à tort, explique Balagopalan.

“J’ai été surpris de voir à quel point ces écarts de fidélité sont omniprésents dans tous les ensembles de données que nous avons évalués. Il est difficile de trop insister sur la fréquence à laquelle les explications sont utilisées comme “solution” pour les modèles d’apprentissage automatique en boîte noire. Dans cet article, nous montrons que les méthodes d’explication elles-mêmes sont des approximations imparfaites qui peuvent être pires pour certains sous-groupes », explique Ghassemi.

Réduire les écarts

Après avoir identifié les écarts de fidélité, les chercheurs ont essayé des approches d’apprentissage automatique pour les corriger. Ils ont formé les modèles d’explication pour identifier les régions d’un ensemble de données qui pourraient être sujettes à une faible fidélité, puis se concentrer davantage sur ces échantillons. Ils ont également essayé d’utiliser des ensembles de données équilibrés avec un nombre égal d’échantillons de tous les sous-groupes.

Ces stratégies de formation robustes ont réduit certains écarts de fidélité, mais elles ne les ont pas éliminés.

Les chercheurs ont ensuite modifié les modèles d’explication pour explorer pourquoi les écarts de fidélité se produisent en premier lieu. Leur analyse a révélé qu’un modèle d’explication pourrait utiliser indirectement des informations de groupe protégées, comme le sexe ou la race, qu’il pourrait apprendre de l’ensemble de données, même si les étiquettes de groupe sont masquées.

Ils veulent explorer davantage cette énigme dans des travaux futurs. Ils prévoient également d’étudier plus avant les implications des écarts de fidélité dans le contexte de la prise de décision dans le monde réel.

Balagopalan est ravi de voir que des travaux simultanés sur l’équité des explications d’un laboratoire indépendant sont arrivés à des conclusions similaires, soulignant l’importance de bien comprendre ce problème.

Alors qu’elle envisage la prochaine phase de cette recherche, elle a quelques mots d’avertissement pour les utilisateurs d’apprentissage automatique.

“Choisissez soigneusement le modèle d’explication. Mais plus important encore, réfléchissez bien aux objectifs de l’utilisation d’un modèle d’explication et aux personnes qu’il affecte éventuellement”, dit-elle.


Cadre pour décrire les décisions individuelles du modèle d’apprentissage automatique


Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Les méthodes qui aident les utilisateurs à décider de faire confiance aux prédictions d’un modèle d’apprentissage automatique peuvent perpétuer les biais (2022, 1er juin) récupéré le 1er juin 2022 sur https://techxplore.com/news/2022-06-methods-users-machine-learning -perpetuate-biases.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.