Fieldbox / Egis

Dataquitaine 2024 - SESSION 2.2 - Amphi 2 - 21/03/2024 14h20 > 14h50

Du NLP aux LLM pour l'extraction automatisée d'exigences

Résumé

Introduction

Lors de l'analyse d'un programme technique dans le domaine de l'ingénierie de la construction, de nombreux fichiers très hétérogènes sont reçus de la part du client. La prise de connaissance de ces éléments, leur compréhension, et la catégorisation des exigences qu'ils couvrent représentent une tâche laborieuse quantifiée à plusieurs milliers de jours-hommes par an, plusieurs centaines de milliers d'euros. Ce travail présente la création d'un outil permettant d'identifier et de classifier automatiquement les exigences se rapportant à chaque catégorie métier, diminuant ainsi le temps passé à réaliser ces tâches. Nous couvrirons la création d'un modèle de classification en traitement automatique du langage naturel (NLP en anglais), la construction d'une application en permettant l'exploitation, et la montée de version vers l'utilisation d'un grand modèle de langage (LLM en anglais) suite aux premiers retours d'adoption de l'outil. Le projet a commencé en septembre 2022 par une preuve de valeur, et la solution a été mise en production en juin 2023.

Méthodologie

La méthodologie a été déclinée en plusieurs phases : la création d'un prototype utilisant l'intelligence artificielle, la création d'une première version de l'application sans ce modèle IA, l'intégration du modèle dans l'application, la mise à disposition de l'outil aux utilisateurs et la création d'une version améliorée sur la base des retours.

Les objectifs scientifiques de la phase de prototypage étaient d'entraîner un modèle d'apprentissage automatique basé sur des plongements (word embeddings) dans le but de prédire la catégorie d'une phrase trouvée dans un programme technique. On disposait pour cela de documents (au format pdf notamment), traités par des moteurs d'extraction de texte. Plusieurs centaines d'exemples, pour chaque catégorie (plusieurs dizaines), ont été validés par les experts métiers. Ces données étaient alors préparées en suivant les meilleures pratiques NLP avant plongement, la classification multi-classes était réalisée par un modèle de type arbres de décision avec gradient boosting.

Ensuite il fallait concevoir et développer une application web capable de traiter les documents en donnant la possibilité d'identifier et de catégoriser les exigences détectées, sans le modèle de classification dans un premier temps, et ensuite en intégrant la prédiction faite par le modèle construit précédemment. L'architecture technique utilisée était le framework python Django, avec un front-end en React. Une phase d'expérimentation de 2 mois, auprès d'une population de 20 utilisateurs, a permis de mesurer l'utilité de cette application et de remonter un certain nombre d'idées d'amélioration. Cette phase a été essentielle dans l'identification des limitations du premier modèle : bonne précision mais trop de faux positifs, sous la forme d'un trop grand nombre d'exigences détectées.

La prise en compte de ces retours utilisateurs a fait l'objet d'une autre phase pendant laquelle le cœur du modèle a été revu en se basant sur une approche alternative utilisant des LLM (Large Language Model ou Grand Modèle de Langage), dans le but de dépasser les limites de l'approche NLP plus classique présentée précédemment.

Originalité / perspective

Le travail scientifique initial a été entamé en 2022, un tout premier prototype avait été présenté en 2022 avec des retours positifs et l'établissement d'une référence de performance. Cela a permis d'avancer vers la réalisation d'une application aux standards de qualité industriels. Ainsi, l'apport de valeur au métier a été possible avec une approche NLP classique, et n'a pas nécessité une performance parfaite pour prouver son utilité.

De nombreux challenges ont été rencontrés et relevés :
- Extraction d'information pertinente provenant de documents très hétérogènes (pdf à la mise en page variée, contenant images, tableaux, etc) ;
- Choix du nombre de classes et étiquetage ;
- Choix de l'indicateur de performance ;
- Choix restreint de bibliothèques logicielles python pour travailler en français.

La précision de la classification est proche de 80% avec la métrique top-3 (la vraie classe fait partie des 3 prédites comme les plus probables). La diminution du temps passé par les utilisateurs est également bien observée.

Une prochaine étape est de tirer les enseignements de la phase d'expérimentation avec les utilisateurs, afin d'affiner l'approche à base de LLM, sur plusieurs axes pressentis : fine-tuning complémentaire sur le domaine métier particulier d'Egis, amélioration de la reproductibilité

Références
br> PDFMiner - 3k https://pypi.org/project/pdfminer3k/
Bibliothèque python pour extraction d’information dans des fichiers pdf.
Fasttext - https://fasttext.cc/
Bibliothèque logicielle pour l’apprentissage des plongements (word embeddings) et la classification de textes multilingues.
LightGBM - https://lightgbm.readthedocs.io/en/stable/
Bibliothèque python implémentant l’algorithme d’apprentissage automatique LightGBM, à base d’arbres de décision

Revoir la vidéo :

https://www.fieldbox.ai/

A propos - Egis

https://www.egis-group.com/fr

A propos des orateurs

Joseph MCDONNELL

Software Enginee

Joseph McDonnell est un ingénieur en logiciel chez Fieldbox.

https://www.fieldbox.ai/

Axelle SIERRA

Product Manager

Je m'appelle Axelle Sierra, je suis designer en stratégies d'innovation, lead UX et Product Manager sur des produits de développement numérique au sein d'Egis. Je travaille pour la transformation numérique des métiers de l'ingénierie autour de l'Energie et la Ville Durable. Mon rôle est de suivre de près les évolutions menées par le numérique et leurs impacts auprès des utilisateurs. De la conception UX/UI au déploiement des outils en passant par la formation des collaborateurs, le design a un rôle essentiel dans les stratégies d'approche. La transformation numérique des métiers demande pédagogie et communication. Je suis là pour assister la conception, guider la conduite du changement sur la performance d'usage et faciliter l'appropriation de nouveaux outils et méthodologies de travail. L'IA bouleverse nos projets, crée de nouvelles ambitions, apporte de nouveaux outils et enrichit sous de multiples formes notre travail.

https://www.egis-group.com/fr

Thomas LESAGE

Responsable du département développement de produits numériques

En tant que responsable du département développement de produits numériques chez EGIS, je participe à façonner l'avenir de la transition écologique et numérique de l'entreprise. Notre équipe est au cœur de la révolution digitale, équipant la Business Line Énergie & Ville Durable avec des plateformes innovantes. De la conception à la mesure des indicateurs de performance, nous guidons nos clients vers plus de collaboration et d'efficacité. Mais notre mission va au-delà du numérique : nous investissons autant de temps dans la construction d'outils que dans l'acculturation, la formation et la communication d'homme à homme. L'intelligence artificielle et les technologies numériques n'étant que nos instruments pour un monde plus durable et prospère.

https://www.egis-group.com/fr

S'inscrire !

Ticket

Organisation

Avec le soutien de

Cet événement a bénéficié d'une aide de l’État gérée par l'Agence Nationale de la Recherche au titre du Plan France 2030, portant la référence ANR-21-EXES-0004

Avec la participation de

Partenaire OR & ARGENT

Partenaire PLATINE