Dans le cadre du déploiement de l'IA Générative au sein du Groupe Inovie et pour des applications d'aides au diagnostic médical et aide à l'interprétation. Nous avons développé un Benchmark privé pour évaluer la performance des IA génératives Large Language Models Locales (LLM Locales). 5 médecins ont developpé 50 questions : 25 en Cardiologie, 25 en Néphrologie avec des questions d'urgences vitales. Réponses évaluées par 2 médecins spécialistes en biologie médicale.
L'IA LLM LLAMA de Meta fait 0% d'erreur grave vitale en Néphrologie. Cependant elle réalise 63% d'erreurs graves vitales en Cardiologie.
QWEN d'Alibaba réalise le moins d'erreurs vitale en Cardiologie : 18.18% d'erreurs suivi de Copilot ChatGPT (36.36% d'erreurs).
En vue de déploiement d'une IA d'aide au diagnostic pour le groupe Inovie, il devient urgent d'utiliser des LLMs locaux et d'établir des benchmarks privés pour mesurer réellement le taux d'erreurs des LLMs sur des cas de "vie réelle".