Cadre pour décrire les décisions individuelles du modèle d’apprentissage automatique

Les chercheurs créent un cadre pour décrire les décisions individuelles du modèle d'apprentissage automatique

Les chercheurs utilisent des méthodes d’explication locales pour essayer de comprendre comment les modèles d’apprentissage automatique prennent des décisions. Même si ces explications sont correctes, elles ne servent à rien si les humains ne peuvent pas comprendre ce qu’elles veulent dire. Les chercheurs du MIT ont maintenant développé un cadre mathématique pour quantifier et évaluer la compréhensibilité d’une explication. Crédit : Institut de technologie du Massachusetts

Les modèles d’apprentissage automatique modernes, tels que les réseaux de neurones, sont souvent appelés “boîtes noires” car ils sont si complexes que même les chercheurs qui les conçoivent ne peuvent pas comprendre pleinement comment ils font des prédictions.

Pour fournir des informations, les chercheurs utilisent des méthodes d’explication qui cherchent à décrire les décisions de modèles individuels. Par exemple, ils peuvent mettre en évidence des mots dans une critique de film qui ont influencé la décision du modèle selon laquelle la critique était positive.

Mais ces méthodes d’explication ne servent à rien si les humains ne peuvent pas facilement les comprendre, voire les mal comprendre. Ainsi, les chercheurs du MIT ont créé un cadre mathématique pour quantifier et évaluer formellement la compréhensibilité des explications des modèles d’apprentissage automatique. Cela peut aider à identifier des informations sur le comportement du modèle qui pourraient être manquées si le chercheur n’évalue qu’une poignée d’explications individuelles pour essayer de comprendre l’ensemble du modèle.

“Avec ce cadre, nous pouvons avoir une image très claire non seulement de ce que nous savons du modèle à partir de ces explications locales, mais surtout de ce que nous ne savons pas à son sujet”, explique Yilun Zhou, diplômé en génie électrique et en informatique. étudiant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et auteur principal d’un article présentant ce cadre.

Les co-auteurs de Zhou incluent Marco Tulio Ribeiro, chercheur principal chez Microsoft Research, et l’auteur principal Julie Shah, professeur d’aéronautique et d’astronautique et directrice du groupe de robotique interactive au CSAIL. La recherche sera présentée à la conférence du chapitre nord-américain de l’Association for Computational Linguistics.

Comprendre les explications locales

Une façon de comprendre un modèle d’apprentissage automatique est de trouver un autre modèle qui imite ses prédictions mais utilise des modèles de raisonnement transparents. Cependant, les modèles récents de réseaux de neurones sont si complexes que cette technique échoue généralement. Au lieu de cela, les chercheurs ont recours à des explications locales qui se concentrent sur des entrées individuelles. Souvent, ces explications mettent en évidence des mots dans le texte pour signifier leur importance pour une prédiction faite par le modèle.

Implicitement, les gens généralisent ensuite ces explications locales au comportement global du modèle. Quelqu’un peut voir qu’une méthode d’explication locale a mis en évidence des mots positifs (comme “mémorable”, “irréprochable” ou “charmant”) comme étant les plus influents lorsque le modèle a décidé qu’une critique de film avait un sentiment positif. Ils sont alors susceptibles de supposer que tous les mots positifs apportent des contributions positives aux prédictions d’un modèle, mais ce n’est peut-être pas toujours le cas, dit Zhou.

Les chercheurs ont développé un cadre, connu sous le nom d’ExSum (abréviation de résumé d’explication), qui formalise ces types d’allégations en règles pouvant être testées à l’aide de mesures quantifiables. ExSum évalue une règle sur un ensemble de données entier, plutôt que sur la seule instance pour laquelle elle est construite.

À l’aide d’une interface utilisateur graphique, un individu écrit des règles qui peuvent ensuite être modifiées, ajustées et évaluées. Par exemple, lors de l’étude d’un modèle qui apprend à classer les critiques de films comme positives ou négatives, on peut écrire une règle qui dit que “les mots de négation ont une saillance négative”, ce qui signifie que des mots comme “pas”, “non” et “rien” contribuent négativement au sentiment des critiques de films.

À l’aide d’ExSum, l’utilisateur peut voir si cette règle tient à l’aide de trois métriques spécifiques : la couverture, la validité et la netteté. La couverture mesure l’étendue de l’application de la règle à l’ensemble de l’ensemble de données. La validité met en évidence le pourcentage d’exemples individuels qui sont d’accord avec la règle. La netteté décrit la précision de la règle ; une règle hautement valide peut être si générique qu’elle n’est pas utile pour comprendre le modèle.

Hypothèses de test

Si un chercheur cherche à mieux comprendre le comportement de son modèle, il peut utiliser ExSum pour tester des hypothèses spécifiques, explique Zhou.

Si elle soupçonne que son modèle est discriminatoire en termes de genre, elle pourrait créer des règles pour dire que les pronoms masculins ont une contribution positive et que les pronoms féminins ont une contribution négative. Si ces règles ont une validité élevée, cela signifie qu’elles sont globalement vraies et que le modèle est probablement biaisé.

ExSum peut également révéler des informations inattendues sur le comportement d’un modèle. Par exemple, lors de l’évaluation du classificateur de critiques de films, les chercheurs ont été surpris de constater que les mots négatifs ont tendance à avoir des contributions plus pointues et plus nettes aux décisions du modèle que les mots positifs. Cela pourrait être dû au fait que les critiques essaient d’être polis et moins directs lorsqu’ils critiquent un film, explique Zhou.

“Pour vraiment confirmer votre compréhension, vous devez évaluer ces affirmations de manière beaucoup plus rigoureuse dans de nombreux cas. Ce type de compréhension à ce niveau fin, à notre connaissance, n’a jamais été découvert dans des travaux antérieurs”, a-t-il déclaré. dit.

“Passer des explications locales à la compréhension globale était une grande lacune dans la littérature. ExSum est une bonne première étape pour combler cette lacune”, ajoute Ribeiro.

Extension du cadre

À l’avenir, Zhou espère s’appuyer sur ce travail en étendant la notion de compréhensibilité à d’autres critères et formes d’explication, comme les explications contrefactuelles (qui indiquent comment modifier une entrée pour changer la prédiction du modèle). Pour l’instant, ils se sont concentrés sur les méthodes d’attribution de caractéristiques, qui décrivent les caractéristiques individuelles qu’un modèle utilise pour prendre une décision (comme les mots dans une critique de film).

En outre, il souhaite améliorer encore le cadre et l’interface utilisateur afin que les utilisateurs puissent créer des règles plus rapidement. L’écriture de règles peut nécessiter des heures d’implication humaine – et un certain niveau d’implication humaine est crucial car les humains doivent finalement être capables de saisir les explications – mais l’assistance de l’IA pourrait rationaliser le processus.

Alors qu’il réfléchit à l’avenir d’ExSum, Zhou espère que leurs travaux mettent en lumière la nécessité de changer la façon dont les chercheurs envisagent les explications des modèles d’apprentissage automatique.

“Avant ce travail, si vous avez une explication locale correcte, vous avez terminé. Vous avez atteint le Saint Graal d’expliquer votre modèle. Nous proposons cette dimension supplémentaire pour nous assurer que ces explications sont compréhensibles. La compréhensibilité doit être une autre mesure pour évaluer nos explications », dit Zhou.


Une nouvelle méthode compare le raisonnement d’un modèle d’apprentissage automatique à celui d’un humain


Plus d’information:
Yilun Zhou, Marco Tulio Ribeiro, Julie Shah, ExSum : des explications locales à la compréhension du modèle. arXiv:2205.00130v1 [cs.CL]arxiv.org/abs/2205.00130

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Cadre pour décrire les décisions individuelles de modèle d’apprentissage automatique (2022, 5 mai) récupéré le 5 mai 2022 sur https://techxplore.com/news/2022-05-framework-individual-machine-learning-decisions.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.