Fieldbox

Dataquitaine 2024 - SESSION 1.3 - Amphi 3 - 21/03/2024 10h40 > 11h10

Comment Fieldbox utilise Kedro pour des pipelines modulaires et reproductibles

Résumé

Quand plusieurs data engineer et scientists travaillent sur un même projet, que ce soit en même temps ou les uns à la suite des autres, la collaboration peut être difficile : par exemple, il est fastidieux de comprendre comment s'articulent les fonctions les unes avec les autres à travers les différentes parties de l'application, de suivre les étapes de la transformation, ou encore d'identifier rapidement quelles sont les sources des données. Avoir une structure standard et une définition unifiée des entrées et sorties de données permettrait une meilleure efficacité et d'éviter des erreurs.

Méthodologie

Nous utilisons l'outil Kedro qui permet d'écrire des pipelines reproductibles en Python, qui peuvent être partagées par l'utilisation du contrôle de version type git. Cet outil permet aussi de déclarer un catalogue de données, qui fait un point d'entrée unique et standardisé pour comprendre l'origine des données et leurs destinations. Par exemple, certaines données proviennent d'une base de données, d'autres d'une REST API, et d'autres encore de fichiers plats stockés dans un serveur distant. Toute cette configuration est centralisée dans un fichier et découplée du traitement qui en est fait. Enfin, l'outil permet aussi une visualisation efficace des pipelines de données, pour partager avec des interlocuteurs de différents niveaux. Pour encore plus de standardisation, nous avons développé un “starter”, qui permet une configuration de base similaire pour tous les utilisateurs, et de complémenter Kedro avec nos autres outils et packages communs.

Originalité / perspective

Python est un outil très souple et polyvalent qui est largement démocratisé dans l'univers data science en général. Cette souplesse amène une grande variété d'approche pour résoudre un même problème, parfois même à l'intérieur d'une entreprise. Nous avons choisi d'utiliser un framework pour standardiser nos pratiques. Nous avons aussi construit des outils internes autour de Kedro pour compléter et mieux aligner ce framework avec nos besoins. Par exemple, des librairies qui regroupent des actions communes dans nos projets comme la mise en forme de séries temporelles, ou étendre le catalogue de format de données pour supporter les spécificités de nos clients, comme récupérer seulement un sous ensemble de données d'une de leur source à partir de la date du dernier traitement.
Référence : https://kedro.org/

Revoir la vidéo :

https://www.fieldbox.ai

A propos de l'orateur

Florian GAUDIN-DELRIEU

Machine Learning Engineer

Après avoir travaillé dans l'industrie en tant qu'ingénieur méthode pendant 5 ans, j'ai rejoins le monde de la data et de l'informatique. Tout d'abord data scientist pendant quelques années, je suis ensuite passé côté Machine Learning Engineering en créant des solutions pour aider mes collègues data scientists et standardiser nos méthodes de travail.

https://www.fieldbox.ai

S'inscrire !

Ticket

Organisation

Avec le soutien de

Cet événement a bénéficié d'une aide de l’État gérée par l'Agence Nationale de la Recherche au titre du Plan France 2030, portant la référence ANR-21-EXES-0004

Avec la participation de

Partenaire OR & ARGENT

Partenaire PLATINE