Inovie
Amphi 3 - SESSION 3.3 - 07/02/2018 15h50 > 16h20


Les Large Language Models appliqués en biologie médicale : évaluation des décisions pour des cas d'urgences vitales et respect RGPD CNIL



Dans le cadre du déploiement de l'IA Générative au sein du Groupe Inovie et pour des applications d'aides au diagnostic médical et aide à l'interprétation. Nous avons développé un Benchmark privé pour évaluer la performance des IA génératives Large Language Models Locales (LLM Locales). 5 médecins ont developpé 50 questions : 25 en Cardiologie, 25 en Néphrologie avec des questions d'urgences vitales. Réponses évaluées par 2 médecins spécialistes en biologie médicale.

L'IA LLM LLAMA de Meta fait 0% d'erreur grave vitale en Néphrologie. Cependant elle réalise 63% d'erreurs graves vitales en Cardiologie.

QWEN d'Alibaba réalise le moins d'erreurs vitale en Cardiologie : 18.18% d'erreurs suivi de Copilot ChatGPT (36.36% d'erreurs).

En vue de déploiement d'une IA d'aide au diagnostic pour le groupe Inovie, il devient urgent d'utiliser des LLMs locaux et d'établir des benchmarks privés pour mesurer réellement le taux d'erreurs des LLMs sur des cas de "vie réelle".


Yohann Missiak
Docteur en Médecine en Biologie Médicale


S'inscrire !
Nos sponsors

Les stands partenaires

{\rtf1}