Avec les modèles d’auto-apprentissage, la prédiction peut être expliquée

Avec les modèles d'auto-apprentissage, la prédiction peut être expliquée

doctorat chercheur Dennis Collaris. Crédit : Bart van Overbeeke Photographie.

Les modèles informatiques d’auto-apprentissage peuvent être utiles pour la reconnaissance vocale, la détection des fraudes et l’évaluation des risques médicaux. Cependant, le scandale des allocations, par exemple, montre qu’il faut faire preuve de la plus grande prudence : et c’est pourquoi la loi stipule qu’il doit toujours y avoir une explication quant à la façon dont un modèle parvient à une certaine conclusion. Pour aider les experts en données avec cela, Ph.D. Le chercheur Dennis Collaris a développé des outils de visualisation interactifs qui offrent un aperçu des « processus de pensée » des modèles artificiellement intelligents.

“C’est une sorte de conquête du monde”, déclare Dennis Collaris à propos de l’intelligence artificielle (IA). Et il est très sérieux à ce sujet. “L’IA est utilisée pour presque tout ce à quoi vous pouvez penser, en particulier pour faire des prédictions.”

Les applications sont souvent relativement innocentes ; pensez à la reconnaissance vocale ou aux traductions automatiques. “S’il y a une erreur mineure là-dedans, ce n’est pas la fin du monde. Mais bien sûr, il existe certaines applications, comme la détection de fraude, où une prédiction par un système d’IA peut avoir d’énormes conséquences pour les gens. Le scandale des avantages a montré à quel point ces conséquences peuvent être graves si vous êtes étiqueté à tort comme un fraudeur.”

Par conséquent, la législation européenne sur la protection de la vie privée GDPR stipule qu’il doit toujours y avoir une explication de la manière dont les modèles informatiques arrivent à une certaine recommandation. Cependant, c’est très difficile lorsqu’il s’agit de systèmes d’IA auto-apprenants : c’est une “boîte noire” proverbiale qui crache une réponse basée sur une montagne de données, et la façon dont elle est arrivée à cette réponse ne peut pas simplement être tracée.

Le nœud du problème est que le modèle informatique ne suit pas un plan étape par étape bien défini, mais a progressivement compris par lui-même quelles caractéristiques, par exemple, des clients potentiels de l’assurance indiquent la probabilité qu’ils aient l’intention de commettre une fraude. .

Motivation

L’essentiel est que ces modèles d’auto-apprentissage font des recommandations manifestement utiles, mais ils ne fournissent aucune motivation, alors que des motivations sont nécessaires pour rejeter quelqu’un à l’assurance ou pour lancer une enquête sur une fraude.

Et “l’ordinateur dit non” ne peut pas être considéré comme une raison valable. “Dans une compagnie d’assurance comme Achmea, avec laquelle j’ai collaboré pour mes recherches, il faut énormément de travail aux experts en données pour expliquer leurs modèles de prédiction”, souligne Collaris. Le diplômé d’Eindhoven a étudié les sciences du Web au département de mathématiques et d’informatique de TU / e et a obtenu son diplôme dans le cadre du groupe de visualisation dirigé par le professeur Jack van Wijk, qui lui a ensuite demandé de rester pour poursuivre un doctorat.

Pour savoir quelle stratégie un modèle informatique a adopté, avoir un aperçu clair des données utilisées et traitées est essentiel. À cette fin, Collaris a développé deux outils logiciels interactifs, “ExplainExplore” et “StrategyAtlas”, qui offrent aux utilisateurs un aperçu de l’âme des modèles d’auto-apprentissage.

Avec les modèles d'auto-apprentissage, la prédiction peut être expliquée

StrategyAtlas montre les fonctionnalités utilisées par un modèle informatique d’auto-apprentissage pour regrouper des individus. Crédit : Dennis Collaris

Groupes

Entre autres choses, StrategyAtlas recherche des modèles dans les données et, en particulier, montre comment le modèle divise les individus en différents groupes (voir l’image ci-dessus).

Dans le graphique 2A, chaque point représente un individu, et les individus qui ont des caractéristiques similaires sont regroupés étroitement. Le graphique 2B montre ces mêmes individus, mais classés selon les poids que le modèle a attribués à ces caractéristiques. Chaque groupe de points dans cette visualisation correspond à une “stratégie de modèle” qui est utilisée par un modèle pour faire une prédiction : le modèle utilise approximativement les mêmes caractéristiques pour tous les individus de ce groupe. Les pondérations dépendent de l’objectif du modèle (par exemple, estimer si un client est un fraudeur ou un défaillant potentiel).

Un modèle d’auto-apprentissage a souvent une vision du monde très différente de celle à laquelle vous vous attendez, le doctorat. souligne le chercheur. Cela ressort clairement des visualisations dans “StrategyAtlas”. “Vous pouvez voir que les groupes rouge et bleu, que le modèle perçoit comme très différents, ne semblent pas l’être sur la base des données d’entrée. Parce que dans 2A, le bleu et le rouge sont tous mélangés”, souligne Collaris.

L’autre outil logiciel de Collaris, ExplainExplore, indique très clairement le poids d’une caractéristique particulière dans les calculs du modèle pour déterminer une prédiction. “Nous appelons cela la” contribution aux fonctionnalités “”, explique Collaris. À titre d’exemple, il mentionne la prédiction du risque de diabète (voir image ci-dessous).

Avec les modèles d'auto-apprentissage, la prédiction peut être expliquée

ExplainExplore montre quelles fonctionnalités sont utilisées par un modèle informatique d’auto-apprentissage pour faire une prédiction. Crédit : Dennis Collaris

Pour chaque individu, le logiciel indique le poids de chaque caractéristique dans sa prédiction (à gauche, dans ce cas : 28 % de risque de diabète). L’épaisseur de la peau (“peau”), la glycémie (“glu”) et l’IMC étaient les facteurs les plus importants. “Si des contributions de fonctionnalités inattendues émergent de cette analyse, cela pourrait être une raison pour jeter un autre regard critique sur le modèle, mais en théorie, un résultat inattendu pourrait, bien sûr, également conduire à des informations médicales intéressantes.”

Sur la droite, il y a les contributions de fonctionnalités pour d’autres personnes dans l’ensemble de données. Cela montre, par exemple, que le modèle accorde généralement peu d’importance au nombre de grossesses qu’un individu a vécues, mais aussi qu’il existe une variation étonnamment grande dans le poids accordé à l’« arbre généalogique » (une mesure de la fréquence la maladie survient dans la famille). Enfin, la section du milieu illustre la résistance du modèle aux petits ajustements de valeurs. “Si l’épaisseur de la peau est si importante, vous ne vous attendriez pas à ce que l’épaisseur de la peau devienne soudainement à peine pertinente pour la prédiction si la peau est juste un peu plus épaisse ou plus mince.” Les tracés du milieu fournissent des informations à ce sujet et disent donc quelque chose sur la fiabilité du modèle.

Couverture de thèse

La couverture de sa thèse comporte également un diagramme à trois barres, que Collaris a créé à l’aide d’ExpliqueExplore. Pour s’amuser, il a appris à un modèle informatique à prédire à quelle catégorie appartient un document technique, sur la base de dix-sept caractéristiques. Il a ensuite entré le pdf de sa propre thèse. Et bien sûr: le résultat était: Ph.D. thèse. Il le savait déjà, bien sûr, mais maintenant il sait pourquoi. “Les ‘contributions de fonctionnalités’ les plus importantes se sont avérées être le nombre de pages et la hauteur et la largeur maximales des images. Apparemment, c’est ce qui fait de ma thèse de doctorat une thèse de doctorat.”


Intégrer l’explicabilité dans les composants des modèles d’apprentissage automatique


Fourni par l’Université de technologie d’Eindhoven

Citation: Avec des modèles d’auto-apprentissage, la prédiction peut être expliquée (7 juillet 2022) récupéré le 7 juillet 2022 sur https://techxplore.com/news/2022-07-self-learning.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.