Le statut vital est d'une importance capitale pour la recherche clinique hospitalière. Cependant, les systèmes d'information des hôpitaux n'enregistrent que les informations sur les décès à l'hôpital. Récemment, le gouvernement français a publié en open data les données des certificats de décès de plus de 25 millions de personnes depuis 1970. L'objectif de cette étude était de relier les certificats de décès français aux données hospitalières du CHU de Bordeaux pour compléter le statut vital.
Notre stratégie était composée d'un moteur de recherche pour réduire le nombre de comparaisons entre les données hospitalières et les certificats de décès, et d'algorithmes d'apprentissage pour prédire la probabilité d'appariement de chaque paire. Deux seuils supérieur et inférieur ont été définis pour classer chaque paire en tant que non-lien, statut indéterminé ou lien. Le processus global a été évalué en créant un fichier contenant 3 565 décès à l'hôpital et 15 000 personnes vivantes.
Le rappel et la précision de notre stratégie étaient respectivement de 97,5% et 99,97% pour le seuil supérieur et de 99,4% et 98,9% pour le seuil inférieur. Comparée à une approche déterministe basée sur une concordance exacte sur le nom, le prénom, la date de naissance et le sexe, l'approche proposée a amélioré le rappel d'au moins 6,2% sans diminuer la précision. Cette approche n'est pas spécifique aux données de santé et pourrait intéresser d'autres acteurs qui souhaitent lier des données nominatives à des certificats de décès pour identifier dans leur base les patients décédés.