Bordeaux population health
Amphi 1 - SESSION 3.1 - 07/02/2018 17:00 > 17:30


Classification automatique du langage de données du service hospitalier des urgences



1.Introduction

Lors de chaque visite aux urgences, le personnel crée une fiche sur le patient comprenant des données catégorielles, telles que le sexe et l'âge, mais aussi du texte libre qui sont les notes cliniques liées à son état (anamnèses). Ce texte est actuellement traité manuellement ce qui implique des coûts en temps de personnel hospitalier très important. L'automatisation du traitement devrait permettre d'une part, la réduction de ce coût et, d'autre part, le développement d'outils de surveillance. C'est l'objectif du projet TARPON (Traitement Automatique des Résumés de Passages aux urgences pour un Observatoire National) en développement à l'INSERM et le Service des urgences du CHU de Bordeaux, par le biais des derniers outils d'apprentissage profond, supervisés et non supervisés, appliqués à l'analyse automatique du langage. Le premier travail qui porte sur l'application du GPT-2 dévoilé en février 2019 par l'équipe d'OpenAI.

2.Méthodologie

Deux scénarios sont comparés. Le premier consiste en un entrainement non-supervisé sur 151 930 données non labélisées puis complété avec un entrainement supervisé sur 10 000 données labélisées. Le second consiste en un entrainement supervisé sur 161 930 données labélisées. La comparaison repose sur l'AUC et le F1 score, appliqués sur le même jeu de données test pour les deux scénarios.

3. Originalité/Perspective

L'Application d'un modèle récent de NLP à des données textuelles en français des urgences (jargon et abréviations cliniques, inclus) est originale. Tout comme dans les succès montrés dans d'autres domaines, les coûts liés à l'annotation des données sont radicalement réduits tout en garantissant des résultats comparables à du entièrement supervisé. L'étude des anamnèses mal classées, leur provenance, ainsi que d'optimisations diverses devraient permettre l'amélioration du modèle. Dans une deuxième phase du projet, il est prévu de s'attaquer à une classification multimodale permettant de décrire d'ensemble des mécanismes traumatiques dans l'objectif de construire un observatoire national de traumatologie.

Références :

- Binbin Xu, Cédric Gil-Jardiné, Frantz Thiessard, Eric Tellier, Marta Avalos, Emmanuel Lagarde. Neural Language Model for Automated Classification of Electronic Medical Records at the Emergency Room. The Significant Benefit of Unsupervised Generative Pre-training. https://arxiv.org/abs/1909.01136
- Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Voir aussi : https://openai.com/blog/better-language-models/


Télécharger les slides

Loïck Bourdois
Data Scientist


S'inscrire !
Nos sponsors

Les stands partenaires

{\rtf1}