Les données des entreprises résistent à l'homogénéité. Or, pour les métiers, l'accès à la connaissance contenue dans ces informations est un enjeu majeur pour assurer le maintien d'une base de connaissances fiable, accessible et dynamique. Avec l'essor de la compréhension du langage naturel, avec ChatGPT notamment, une nouvelle ère s'ouvre pour les relations Humain-Machine et à travers elles, l'accès à la connaissance.
L'émergence des architectures Transformers [https://arxiv.org/abs/1706.03762] et leurs capacités à traiter des données multimodales [https://arxiv.org/abs/2010.11929] permet de lire, de structurer et de rendre comparable diverses sources d'informations, aussi bien textuels que vidéo [https://arxiv.org/abs/2302.06419]. Dans ce contexte, les LLM séduisent les organisations industrielles mais leurs biais et leurs limites [https://doi.org/10.1016/j.iotcps.2023.04.003] paraissent freiner l'émergence d'un plateau de productivité.
Après une analyse du contexte et de ses enjeux, nous partagerons ici une étude de cas centrée sur la faisabilité d'un système de Question Answering capable d'exploiter plusieurs modalités de documents et requêtable en langage naturel, proposant donc donc des réponses sourcées et structurées.
Méthodologie
Pour cette étude de cas, nous nous reposons sur une approche inpirée de RetrievalAugmented Generation (RAG) [https://arxiv.org/abs/2005.11401].
Brièvement, les différents documents sont représentés par embedding -- dont la comparaison reflète une « distance sémantique » -- à l'aide de SentenceTransformer. Les documents relatifs à la requête utilisateur sont utilisés pour apporter du contexte à la question initialement posée, l'ensemble étant fourni à un modèle génératif via son prompt pour la génération d'une réponse. La réponse apportée à l'utilisateur est donc une reformulation en langage naturel d'une information existante dans la base de données.
Les documents utilisés sont un échantillon de sources variés (eg : littérature, comptes-rendus, documentation technique, articles scientifiques ou journalistiques) en plusieurs langues européenne.
Originalité / perspective
# Résultats
A travers notre étude de cas, nous avons pu mettre en évidence la faisabilité d'un système de Question/Réponse sur de grands volumes de documents variés en forme comme en contenu.
L'indexation spatiale a permis un requêtage efficace et distribuable d'un grand volume de documents. Les Transformers facilitent la recherche sémantique en prenant en compte le sens et le contexte des documents (eg : multiples langues, synonymes) pour retrouver les documents susceptibles de contenir l'information demandée. Un LLM génératif autorise ensuite une reformulation en langage naturel de cette information. Avec un prompt adapté, la forme de la réponse peut s'adapter aux attentes et à la culture de chaque utilisateur.
Néanmoins, ces LLM sont des systèmes gourmands en ressources et présentent des limites observables fortes : hallucinations, influences du prompt, consommation de ressources, temps de réponse, pertinence⦠L'utilisation de versions quantizés des modèles permet d'exécuter la méthode sur un PC de bureau sans dépendre d'API externe.
# Perspectives
Le LLM sous-jacent à une approche RAG a une grande influence sur l'indexation et la reformulation alors qu'il n'est paramétrable que par son prompt, ce qui permet de cadrer mais pas d'empêcher les hallucinations.
Les LLM étant des outils très polyvalents, il reste tout à fait possible de structurer des documents qui seront par ailleurs indexer par des méthodes éprouvées (eg : extraction de mots-clefs avec un LLM pour une recherche par BM25).
Les industries critiques pourraient quant à elles les exploiter pour établir un lien entre des documents hétérogènes et un raisonnement formalisé basé sur des ontologies [https://arxiv.org/abs/2308.06374]. Par ailleurs, l'Agence de l'Innovation de Défense ainsi que plusieurs acteurs de l'industrie française nous
soutiennent dans cette axe de travail.
Références
- Vaswani et al, 2017, Attention Is All You Need, https://arxiv.org/abs/1706.03762
- Lian et al, 2023, AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations, https://arxiv.org/abs/2302.06419
- Ray, 2023, ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope, https://doi.org/10.1016/j.iotcps.2023.04.003
- Lewis et al, 2021, Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, https://arxiv.org/abs/2005.11401
- Pan et al, 2023, Large Language Models and Knowledge Graphs: Opportunities and Challenges, https://arxiv.org/abs/2308.06374