Nous introduisons le FAT5 (Flash Attention T5), une méthodologie nous permettant de pré-entraîner de manière efficiente un modèle T5 de 147M de paramètres en français en un temps raisonnable sur une seule A100 et pour un coût limité (~1600â¬). Notre travail se base notamment sur la conception de noyaux CUDA/Triton pour rendre la Flash Attention compatible avec le T5 et pour disposer d'une inférence linéaire étendant ainsi la taille de contexte prenable en compte par le modèle.