Le FAT5 (Flash Attention T5) : comment prÃ©-entraÃ®ner de maniÃ¨re efficiente un modÃ¨le de langage

Nous introduisons le FAT5 (Flash Attention T5), une mÃ©thodologie nous permettant de prÃ©-entraÃ®ner de maniÃ¨re efficiente un modÃ¨le T5 de 147M de paramÃ¨tres en franÃ§ais en un temps raisonnable sur une seule A100 et pour un coÃ»t limitÃ© (~1600â¬). Notre travail se base notamment sur la conception de noyaux CUDA/Triton pour rendre la Flash Attention compatible avec le T5 et pour disposer d'une infÃ©rence linÃ©aire Ã©tendant ainsi la taille de contexte prenable en compte par le modÃ¨le.

Revoir le live :

LoÃ¯ck Bourdois

Data Scientist

www.catie.fr

S'inscrire !

Ticket

Nos sponsors

Les stands partenaires

{\rtf1}