Modern data architecture and privacy aware secondary uses of data

Introduction

Dans le monde numÃ©rique d'aujourd'hui, les architectures de donnÃ©es modernes jouent un rÃ´le crucial dans la gestion, le stockage et l'analyse de volumes massifs d'informations. Ces architectures sont conÃ§ues pour Ãªtre Ã©volutives, flexibles et efficaces, permettant aux organisations de tirer des insights pertinents Ã partir de grandes quantitÃ©s de donnÃ©es. Cependant, avec l'augmentation des prÃ©occupations relatives Ã la vie privÃ©e des utilisateurs et la rÃ©glementation stricte comme le RGPD, la protection de la vie privÃ©e est devenue un aspect incontournable de ces architectures. Les solutions d'anonymisation et de chiffrement des donnÃ©es, ainsi que les politiques de gestion des donnÃ©es, doivent Ãªtre intÃ©grÃ©es pour assurer la confidentialitÃ© et la sÃ©curitÃ©. La place de la protection de la vie privÃ©e dans les architectures de donnÃ©es modernes n'est pas seulement une exigence lÃ©gale, mais aussi un impÃ©ratif Ã©thique, renforÃ§ant la confiance des utilisateurs et la responsabilitÃ© des entreprises. Ainsi, l'Ã©quilibre entre l'exploitation des donnÃ©es et la protection de la vie privÃ©e devient un pilier fondamental dans la conception et l'opÃ©ration des systÃ¨mes de donnÃ©es contemporains.

MÃ©thodologie

L'intÃ©gration d'une solution d'anonymisation des donnÃ©es dans une architecture de donnÃ©es moderne entraÃ®ne plusieurs modifications clÃ©s : En premier lieu, l'ajout d'une couche d'anonymisation pour transformer les donnÃ©es sensibles en un format anonyme. Notre module d'anonymisation prÃ©servant les formats, est capable de masquer ou de modifier les informations sensibles tout en conservant leur structure originale assurant la protection de la vie privÃ©e sans perturber la fonctionnalitÃ© des systÃ¨mes de donnÃ©es existants. Ce module permet par ailleurs, de gÃ©nÃ©rer des jeux de donnÃ©es spÃ©cifiques pour les diffÃ©rents usages secondaires de la donnÃ©es : e.g. Analytics, Machine Learning et Intelligence artificielle, partage de donnÃ©es, ... Notre mÃ©thode d'anonymisation par permutation permet de contrÃ´ler l'Ã©quilibre entre utilitÃ© et confidentialitÃ© en fonction des usages. Par ailleurs, le flux de donnÃ©es doit Ãªtre adaptÃ© pour inclure les Ã©tapes d'anonymisation. Les donnÃ©es sensibles sont d'abord acheminÃ©es vers les systÃ¨mes d'anonymisation avant d'Ãªtre stockÃ©es ou utilisÃ©es pour l'analyse. Pour minimiser l'impact sur le stockage nous proposons un systÃ¨me d'anonymisation variable des donnÃ©es oÃ¹ ne sont stockÃ©es qu'un version fortement anonymisÃ©e de la base originale ainsi qu'un ensemble de clÃ©s permettant de gÃ©nÃ©rer l'ensemble des jeux de donnÃ©es anonymisÃ©s pour les diffÃ©rents usages. Nous analyserons ensuite l'impact sur les performances de l'ajout d'Ã©tapes d'anonymisation. et nous expliquerons les amÃ©lioration qu'elle apporte Ã la conformitÃ© avec les rÃ©glementations sur la protection des donnÃ©es, comme le RGPD.

OriginalitÃ© / perspective

Notre mÃ©thode d'anonymisation se dÃ©marque par son efficacitÃ© Ã protÃ©ger la confidentialitÃ© des donnÃ©es tout en Ã©tant moins invasive et plus facile Ã intÃ©grer dans les environnements de donnÃ©es existants.
RÃ©fÃ©rences

[1] www.alterid.eu
[2] Ruiz, N. (2020) Privacy: A Composable Formulation of Privacy Guarantees for Data Publishing Based on Permutation. In: Domingo-Ferrer J.,
Muralidhar K. (eds) Privacy in Statistical Databases. PSD 2020. Lecture Notes in Computer Science, vol 12276. S.
[3] Matt Bornstein, Jennifer Li, and Martin Casado (2020). Emerging Architectures for Modern Data Infrastructure
[4] Joe Reis, Matt Housley (2022) Fundamentals of Data Engineering. O'Reilly Media, Inc.

Revoir le live :

Adil EL-GHALI

CTO

https://www.alterid.eu

S'inscrire !

Ticket

Nos sponsors

Les stands partenaires

{\rtf1}