Rendre le machine learning plus utile aux décideurs à enjeux élevés

Rendre le machine learning plus utile aux décideurs à enjeux élevés

Un nouvel outil d’analyse visuelle aide les spécialistes de la protection de l’enfance à comprendre les prédictions de l’apprentissage automatique qui peuvent les aider à prendre des décisions. Crédit : Christine Daniloff, MIT

Les Centers for Disease Control and Prevention des États-Unis estiment qu’un enfant sur sept aux États-Unis a été victime d’abus ou de négligence au cours de la dernière année. Les agences de services de protection de l’enfance à travers le pays reçoivent un nombre élevé de rapports chaque année (environ 4,4 millions en 2019) de négligence ou d’abus présumés. Avec autant de cas, certaines agences mettent en œuvre des modèles d’apprentissage automatique pour aider les spécialistes de la protection de l’enfance à dépister les cas et à déterminer lesquels recommander pour une enquête plus approfondie.

Mais ces modèles ne servent à rien si les humains qu’ils sont censés aider ne comprennent pas ou ne font pas confiance à leurs résultats.

Des chercheurs du MIT et d’ailleurs ont lancé un projet de recherche pour identifier et relever les défis d’utilisabilité de l’apprentissage automatique dans le dépistage du bien-être de l’enfance. En collaboration avec un service de protection de l’enfance du Colorado, les chercheurs ont étudié comment les filtres d’appels évaluent les cas, avec et sans l’aide de prédictions d’apprentissage automatique. Sur la base des commentaires des agents de filtrage des appels, ils ont conçu un outil d’analyse visuelle qui utilise des graphiques à barres pour montrer comment des facteurs spécifiques d’un cas contribuent au risque prévu qu’un enfant soit retiré de son domicile dans les deux ans.

Les chercheurs ont découvert que les agents de contrôle sont plus intéressés à voir comment chaque facteur, comme l’âge de l’enfant, influence une prédiction, plutôt que de comprendre la base de calcul du fonctionnement du modèle. Leurs résultats montrent également que même un modèle simple peut prêter à confusion si ses caractéristiques ne sont pas décrites avec un langage simple.

Ces résultats pourraient être appliqués à d’autres domaines à haut risque où les humains utilisent des modèles d’apprentissage automatique pour les aider à prendre des décisions, mais manquent d’expérience en science des données, explique l’auteur principal Kalyan Veeramachaneni, chercheur principal au Laboratoire des systèmes d’information et de décision (LIDS) et auteur principal de l’article.

“Les chercheurs qui étudient l’IA explicable essaient souvent d’approfondir le modèle lui-même pour expliquer ce que le modèle a fait. Mais un gros point à retenir de ce projet est que ces experts du domaine ne veulent pas nécessairement apprendre ce que fait réellement l’apprentissage automatique. Ils sont plus intéressés à comprendre pourquoi le modèle fait une prédiction différente de ce que leur intuition dit, ou quels facteurs il utilise pour faire cette prédiction. Ils veulent des informations qui les aident à concilier leurs accords ou désaccords avec le modèle, ou confirment leur intuition ,” il dit.

Co-auteurs comprennent le génie électrique et l’informatique Ph.D. l’étudiante Alexandra Zytek, qui est l’auteur principal ; post-doctorant Dongyu Liu; et Rhema Vaithianathan, professeur d’économie et directeur du Center for Social Data Analytics à l’Université de technologie d’Auckland et professeur d’analyse de données sociales à l’Université du Queensland. La recherche sera présentée plus tard ce mois-ci à la conférence IEEE Visualization.

Recherche dans le monde réel

Les chercheurs ont commencé l’étude il y a plus de deux ans en identifiant sept facteurs qui rendent un modèle d’apprentissage automatique moins utilisable, notamment le manque de confiance dans l’origine des prédictions et les désaccords entre les opinions des utilisateurs et les résultats du modèle.

Avec ces facteurs à l’esprit, Zytek et Liu se sont envolés pour le Colorado à l’hiver 2019 pour apprendre de première main des agents de filtrage d’appels d’un service de protection de l’enfance. Ce département met en œuvre un système d’apprentissage automatique développé par Vaithianathan qui génère un score de risque pour chaque rapport, prédisant la probabilité que l’enfant soit retiré de son domicile. Ce score de risque est basé sur plus de 100 facteurs démographiques et historiques, tels que l’âge des parents et leurs antécédents judiciaires.

« Comme vous pouvez l’imaginer, juste obtenir un nombre entre un et 20 et étant dit d’intégrer dans votre flux de travail peut être un peu difficile », dit-Zytek.

Ils ont observé comment les équipes de contrôleurs traitent les cas en 10 minutes environ et passent la majeure partie de ce temps à discuter des facteurs de risque associés au cas. Cela a inspiré les chercheurs à développer une interface de détails spécifiques à chaque cas, qui montre comment chaque facteur a influencé le score de risque global à l’aide de graphiques à barres horizontales à code couleur qui indiquent l’ampleur de la contribution dans une direction positive ou négative.

Sur la base d’observations et d’entretiens détaillés, les chercheurs ont construit quatre interfaces supplémentaires qui fournissent des explications sur le modèle, dont une qui compare un cas actuel à des cas passés avec des scores de risque similaires. Ensuite, ils ont mené une série d’études d’utilisateurs.

Les études ont révélé que plus de 90 % des personnes chargées de la sélection ont trouvé l’interface de détails spécifiques au cas utile, et cela a généralement augmenté leur confiance dans les prédictions du modèle. En revanche, les sélectionneurs n’aimaient pas l’interface de comparaison de cas. Alors que les chercheurs pensaient que cette interface augmenterait la confiance dans le modèle, les agents de contrôle craignaient que cela puisse conduire à des décisions basées sur des cas passés plutôt que sur le rapport actuel.

“Le résultat le plus intéressant pour moi était que les fonctionnalités que nous leur avons montrées – les informations que le modèle utilise – devaient être vraiment interprétables pour commencer. Le modèle utilise plus de 100 fonctionnalités différentes pour faire sa prédiction, et beaucoup de c’était un peu déroutant », dit Zytek.

Garder les filtres au courant tout au long du processus itératif a aidé les chercheurs à prendre des décisions sur les éléments à inclure dans l’outil d’explication de l’apprentissage automatique, appelé Sibyl.

Au fur et à mesure qu’ils affinaient les interfaces Sibyl, les chercheurs ont pris soin de considérer comment fournir des explications pourrait contribuer à certains biais cognitifs, et même saper la confiance des contrôleurs dans le modèle.

Par exemple, étant donné que les explications sont basées sur des moyennes dans une base de données de cas de maltraitance et de négligence envers les enfants, le fait d’avoir trois références de maltraitance passées peut en fait diminuer le score de risque d’un enfant, car les moyennes dans cette base de données peuvent être beaucoup plus élevées. Un examinateur peut voir cette explication et décider de ne pas faire confiance au modèle, même s’il fonctionne correctement, explique Zytek. Et parce que les humains ont tendance à mettre davantage l’accent sur les informations récentes, l’ordre dans lequel les facteurs sont répertoriés pourrait également influencer les décisions.

Améliorer l’interprétabilité

Sur la base des commentaires des filtres d’appels, les chercheurs s’efforcent de peaufiner le modèle d’explication afin que les fonctionnalités qu’il utilise soient plus faciles à expliquer.

À l’avenir, ils prévoient d’améliorer les interfaces qu’ils ont créées sur la base de commentaires supplémentaires, puis de mener une étude utilisateur quantitative pour suivre les effets sur la prise de décision avec des cas réels. Une fois ces évaluations terminées, ils peuvent se préparer à déployer Sibyl, dit Zytek.

“C’était particulièrement précieux de pouvoir travailler si activement avec ces agents de contrôle. Nous avons pu vraiment comprendre les problèmes auxquels ils étaient confrontés. Bien que nous ayons vu certaines réserves de leur part, ce que nous avons vu davantage était l’enthousiasme quant à l’utilité de ces explications dans certains cas. C’était vraiment gratifiant », dit-elle.


ProtoTree : Aborder la nature de la boîte noire des modèles d’apprentissage en profondeur


Plus d’information:
Alexandra Zytek, Dongyu Liu, Rhema Vaithianathan, Kalyan Veeramachaneni, Sibyl : comprendre et relever les défis d’utilisabilité de l’apprentissage automatique dans la prise de décision à enjeux élevés. arXiv:2103.02071v2 [cs.HC], arxiv.org/abs/2103.02071

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Rendre l’apprentissage automatique plus utile aux décideurs à enjeux élevés (2021, 28 octobre) récupéré le 28 octobre 2021 à partir de https://techxplore.com/news/2021-10-machine-high-stakes-decision-makers.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.