Keyrus
Amphi 3 - SESSION 3.3 - 07/02/2018 16h25 > 16h55


Modern Data Stack : DataOps VS FinOps - comment concilier les deux !



Introduction

Bam, plantage en production, les données n'ont pas chargé cette nuit !
Sans DataOps, comment faire pour savoir
- quelle table/script a planté ?
- quel impact sur le reste de la chaine ?
- qui a édité en dernier ce script ?
- est-ce que les hypothèses de modélisation (basé sur les choix métiers) sont en erreur ?
- est-ce que les garant de ces périmètres donnés a été prévenues ?
Mais à la fois, la DataOps, on se retrouve vite à devoir de rejouer les scripts sur toutes les données 3 fois (dév, préprod, prod) pour être sûr qu'il n'y a pas d'erreurs !
- Est ce que ne brûlerait pas du kérosène pour rien à tout rejouer, surtout qd on a de grande volumétrie de données ?
- Il y aurait-il un moyen d'être plus sobre tout en garantissant que cette chaine de valorisation de données soit bien testée, maîtrisée & résiliente ?

Méthodologie

Rappeler les enjeux autour
- du DataOps
- de la FinOps

Croiser avec des défis métiers rencontrés au quotidien
- Enjeux autour de l'orchestration / lineage
- Talend, Airflow, Dagster
- DBT / Dataform VS dépendances à la main (TOS / Airflow)
- Enjeux autour du lineage / dépendances des tâches / tables

Proposer des pistes pour concilier les deux approches !
- Volumétrie des jeux de données test
- Incrémental & défis à avoir en tête (rejeu historique)
- SCD2 : Slowly Changing Dimension
- défis ajout de colonne
- rejeu d'historique

Originalité / perspective

Fort de l'expérience terrain de nos consultants auprès de nos différents clients, nous proposons de faire un retour d'expérience autour de ces problématique DataOps & FinOps


Revoir le live :



Benoît DOMAS
Expert Data


Antoine GIRAUD
Consultant Sénior Data
S'inscrire !
Nos sponsors

Les stands partenaires

{\rtf1}