Centre INRIA de l'Université de Bordeaux



Dataquitaine 2024 - SESSION 2.2 - Amphi 2 - 21/03/2024 14h55 > 15h25

Ancrer les modèles de langage dans le monde physique: défis et perspectives

Centre INRIA de l'Université de Bordeaux

Résumé

Introduction

Des travaux récents ont exploité avec succès les capacités des grands modèles de langage (LLM) à capturer des connaissances abstraites sur la physique du monde pour résoudre des problèmes de prise de décision. Cependant, l'alignement entre les connaissances des LLM et l'environnement peut être erroné et limiter la compétence fonctionnelle en raison du manque d'ancrage. Dans cet article, nous étudions une approche (nommée GLAM) pour réaliser cet alignement par le biais d'un ancrage fonctionnel: nous considérons un agent utilisant un LLM comme une politique qui est progressivement mise à jour au fur et à mesure que l'agent interagit avec l'environnement, en tirant parti de l'apprentissage par renforcement en ligne (online RL) pour améliorer ses performances en vue de résoudre des problèmes.

Méthodologie

Pour réussir à ancrer un modèle de langage pré-entraîné, nous l'avons fait interagir avec un jeu textuel (l'environnement est décrit par un texte) et nous avons mis à jour ses paramètres à l'aide d'un algorithme d'apprentissage par renforcement (RL).

Originalité / perspective

Ce travail est à notre connaissance la première tentative de fine-tuning d'un modèle de langage avec du RL en vue d'améliorer son ancrage dans un environnement.

Références

lien vers le papier: https://arxiv.org/abs/2302.02662
github du papier: https://github.com/flowersteam/Grounding_LLMs_with_online_RL

Revoir la vidéo :






A propos de l'orateur



Thomas CARTA
Doctorant

Je suis un doctorant co-supervisé par Pierre-Yves Oudeyer (Inria), Olivier Sigaud (Sorbonne Université) et Sylvain Lamprier (Université d'Angers). Je m'intéresse à l'utilisation du langage dans les RL. En particulier, comment la structure du langage et les grands modèles de langage (LLM) peuvent aider les agents RL à explorer l'environnement, à apprendre plus efficacement et à générer leurs propres objectifs.

Centre INRIA de l





S'inscrire !
Organisation

           

Avec le soutien de

              

              



Cet événement a bénéficié d'une aide de l’État gérée par l'Agence Nationale de la Recherche au titre du Plan France 2030, portant la référence ANR-21-EXES-0004

Avec la participation de

Partenaire OR & ARGENT


Partenaire PLATINE


                   

              
{\rtf1}