Introduction
Des travaux récents ont exploité avec succès les capacités des grands modèles de langage (LLM) à capturer des connaissances abstraites sur la physique du monde pour résoudre des problèmes de prise de décision. Cependant, l'alignement entre les connaissances des LLM et l'environnement peut être erroné et limiter la compétence fonctionnelle en raison du manque d'ancrage. Dans cet article, nous étudions une approche (nommée GLAM) pour réaliser cet alignement par le biais d'un ancrage fonctionnel: nous considérons un agent utilisant un LLM comme une politique qui est progressivement mise à jour au fur et à mesure que l'agent interagit avec l'environnement, en tirant parti de l'apprentissage par renforcement en ligne (online RL) pour améliorer ses performances en vue de résoudre des problèmes.
Méthodologie
Pour réussir à ancrer un modèle de langage pré-entraîné, nous l'avons fait interagir avec un jeu textuel (l'environnement est décrit par un texte) et nous avons mis à jour ses paramètres à l'aide d'un algorithme d'apprentissage par renforcement (RL).
Originalité / perspective
Ce travail est à notre connaissance la première tentative de fine-tuning d'un modèle de langage avec du RL en vue d'améliorer son ancrage dans un environnement.
Références
lien vers le papier: https://arxiv.org/abs/2302.02662
github du papier: https://github.com/flowersteam/Grounding_LLMs_with_online_RL