Le modèle d’apprentissage en profondeur extrait des données importantes des dossiers de santé pour aider à la médecine personnalisée

dossiers de santé

Crédit : domaine public CC0

Les dossiers de santé électroniques (DSE) ont besoin d’un nouveau responsable des relations publiques. Il y a dix ans, le gouvernement américain a adopté une loi obligeant les hôpitaux à numériser leurs dossiers de santé dans le but d’améliorer et de rationaliser les soins. L’énorme quantité d’informations contenues dans ces dossiers désormais numériques pourrait être utilisée pour répondre à des questions très spécifiques au-delà de la portée des essais cliniques : quelle est la bonne dose de ce médicament pour les patients de cette taille et de ce poids ? Qu’en est-il des patients avec un profil génomique spécifique ?

Malheureusement, la plupart des données qui pourraient répondre à ces questions sont piégées dans des notes de médecin, pleines de jargon et d’abréviations. Ces notes sont difficiles à comprendre pour les ordinateurs utilisant les techniques actuelles – l’extraction d’informations nécessite la formation de plusieurs modèles d’apprentissage automatique. Les modèles formés pour un hôpital ne fonctionnent pas non plus bien dans d’autres, et la formation de chaque modèle nécessite des experts du domaine pour étiqueter de nombreuses données, un processus long et coûteux.

Un système idéal utiliserait un modèle unique capable d’extraire de nombreux types d’informations, de bien fonctionner dans plusieurs hôpitaux et d’apprendre à partir d’une petite quantité de données étiquetées. Mais comment? Les chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT pensaient que pour démêler les données, ils devaient faire appel à quelque chose de plus grand : de grands modèles de langage. Pour extraire ces informations médicales importantes, ils ont utilisé un très grand modèle de style GPT-3 pour effectuer des tâches telles que développer un jargon et des acronymes surchargés et extraire des schémas thérapeutiques.

Par exemple, le système prend une entrée, qui dans ce cas est une note clinique, “invite” le modèle avec une question sur la note, telle que “développez cette abréviation, CTA”. Le système renvoie une sortie telle que “clair à l’auscultation”, par opposition à une angiographie par tomodensitométrie. L’objectif de l’extraction de ces données propres, selon l’équipe, est de permettre à terme des recommandations cliniques plus personnalisées.

Les données médicales sont, à juste titre, une ressource assez délicate à naviguer librement. Il y a beaucoup de paperasse autour de l’utilisation des ressources publiques pour tester les performances de grands modèles en raison des restrictions d’utilisation des données, alors l’équipe a décidé de rassembler les leurs. À l’aide d’un ensemble d’extraits cliniques courts et accessibles au public, ils ont bricolé un petit ensemble de données pour permettre l’évaluation des performances d’extraction de grands modèles de langage.

« Il est difficile de développer un seul système de traitement du langage naturel clinique à usage général qui répondra aux besoins de chacun et sera robuste face à l’énorme variation observée dans les ensembles de données sur la santé. Par conséquent, jusqu’à aujourd’hui, la plupart des notes cliniques ne sont pas utilisées dans les analyses en aval ou pour aide à la décision en direct dans les dossiers de santé électroniques. Ces grandes approches de modèle de langage pourraient potentiellement transformer le traitement clinique du langage naturel », déclare David Sontag, professeur de génie électrique et d’informatique au MIT, chercheur principal au CSAIL et à l’Institute for Medical Engineering and Science, et superviseur auteur sur un article sur le travail, qui sera présenté à la Conférence sur les méthodes empiriques dans le traitement du langage naturel.

“Les avancées de l’équipe de recherche dans l’extraction d’informations cliniques sans coup férir rendent la mise à l’échelle possible. Même si vous avez des centaines de cas d’utilisation différents, pas de problème : vous pouvez créer chaque modèle en quelques minutes de travail, au lieu d’avoir à étiqueter une tonne de données pour cette tâche particulière.”

Par exemple, sans aucune étiquette, les chercheurs ont découvert que ces modèles pouvaient atteindre une précision de 86 % pour développer des acronymes surchargés, et l’équipe a développé des méthodes supplémentaires pour augmenter cette précision à 90 %, sans qu’aucune étiquette ne soit requise.

Emprisonné dans un DSE

Les experts construisent régulièrement de grands modèles de langage (LLM) depuis un certain temps, mais ils ont fait irruption dans le courant dominant avec la capacité largement couverte de GPT-3 à compléter des phrases. Ces LLM sont formés sur une énorme quantité de texte provenant d’Internet pour terminer des phrases et prédire le prochain mot le plus probable.

Alors que les modèles précédents, plus petits, comme les itérations précédentes de GPT ou BERT, ont obtenu de bonnes performances pour extraire des données médicales, ils nécessitent toujours un effort manuel important d’étiquetage des données.

Par exemple, une note, “pt will dc vanco due to n/v” signifie que ce patient (pt) prenait l’antibiotique vancomycine (vanco) mais a eu des nausées et des vomissements (n/v) suffisamment graves pour que l’équipe soignante arrête (dc) le médicament. Les recherches de l’équipe évitent le statu quo consistant à former des modèles d’apprentissage automatique distincts pour chaque tâche (extraction de médicaments, effets secondaires du dossier, désambiguïsation des abréviations courantes, etc.). En plus d’élargir les abréviations, ils ont étudié quatre autres tâches, notamment si les modèles pouvaient analyser les essais cliniques et extraire des schémas thérapeutiques riches en détails.

“Des travaux antérieurs ont montré que ces modèles sont sensibles à la formulation précise de l’invite. Une partie de notre contribution technique est un moyen de formater l’invite afin que le modèle vous donne des sorties dans le bon format”, explique Hunter Lang, CSAIL Ph.D. étudiant et auteur sur le papier.

“Pour ces problèmes d’extraction, il existe des espaces de sortie structurés. L’espace de sortie n’est pas simplement une chaîne. Il peut s’agir d’une liste. Il peut s’agir d’une citation de l’entrée d’origine. Il y a donc plus de structure que du texte libre. Une partie de notre recherche contribution encourage le modèle à vous donner une sortie avec la structure correcte. Cela réduit considérablement le temps de post-traitement.”

L’approche ne peut pas être appliquée aux données de santé prêtes à l’emploi dans un hôpital : cela nécessite l’envoi d’informations privées sur les patients via Internet ouvert à un fournisseur de LLM comme OpenAI. Les auteurs ont montré qu’il était possible de contourner ce problème en distillant le modèle en un modèle plus petit pouvant être utilisé sur site.

Le modèle – parfois tout comme les humains – n’est pas toujours redevable à la vérité. Voici à quoi pourrait ressembler un problème potentiel : Supposons que vous demandiez la raison pour laquelle quelqu’un a pris des médicaments. Sans garde-fous et contrôles appropriés, le modèle pourrait simplement indiquer la raison la plus courante de ce médicament, si rien n’est explicitement mentionné dans la note. Cela a conduit les efforts de l’équipe à forcer le modèle à extraire plus de citations des données et moins de texte libre.

Les travaux futurs de l’équipe comprennent l’extension à des langues autres que l’anglais, la création de méthodes supplémentaires pour quantifier l’incertitude dans le modèle et l’obtention de résultats similaires avec des modèles open source.

“Les informations cliniques enfouies dans des notes cliniques non structurées présentent des défis uniques par rapport au texte de domaine général, principalement en raison de l’utilisation massive d’acronymes et de modèles textuels incohérents utilisés dans différents établissements de santé”, déclare Sadid Hasan, responsable de l’IA chez Microsoft et ancien directeur exécutif de l’IA. à CVS Health, qui n’a pas participé à la recherche.

“À cette fin, ce travail présente un paradigme intéressant consistant à tirer parti de la puissance des grands modèles de langage de domaine général pour plusieurs tâches importantes de PNL clinique à zéro/quelques coups. Plus précisément, la conception rapide guidée proposée des LLM pour générer des sorties plus structurées pourrait conduire à développer davantage de modèles déployables plus petits en utilisant de manière itérative les pseudo-étiquettes générées par le modèle.”

“L’IA s’est accélérée au cours des cinq dernières années au point où ces grands modèles peuvent prédire des recommandations contextualisées avec des avantages se répercutant sur une variété de domaines tels que suggérer de nouvelles formulations de médicaments, comprendre des textes non structurés, coder des recommandations ou créer des œuvres d’art inspirées par un certain nombre d’artistes ou de styles humains », explique Parminder Bhatia, qui était auparavant responsable de l’apprentissage automatique chez AWS Health AI et est actuellement responsable du ML pour les applications low-code exploitant de grands modèles de langage chez AWS AI Labs. “Une des applications de ces grands modèles [the team has] récemment lancé est Amazon CodeWhisperer, qui est [an] Compagnon de codage alimenté par ML qui aide les développeurs à créer des applications.”

Plus d’information:
Monica Agrawal et al, Les grands modèles de langage sont des extracteurs d’informations cliniques à tir zéro, arXiv (2022). DOI : 10.48550/arxiv.2205.12689

Informations sur la revue :
arXiv

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l’aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l’actualité de la recherche, de l’innovation et de l’enseignement du MIT.

Citation: Un modèle d’apprentissage en profondeur extrait des données importantes des dossiers de santé pour aider à la médecine personnalisée (1er décembre 2022) récupéré le 10 décembre 2022 sur https://techxplore.com/news/2022-12-deep-learning-important-health-personalized -medicine.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.

Laisser un commentaire