Introduction
La pandémie de SARS-CoV-2 a exercé une pression considérable sur les systèmes de santé mondiaux, entraînant une augmentation des hospitalisations et des ajustements dans les structures de santé. Plusieurs algorithmes d'apprentissage ont été développés en France et dans le monde pour prédire le nombre de patients hospitalisés à court terme. Au CHU de Bordeaux, un modèle basé sur une régression linéaire pénalisée, utilisant des données épidémiques publiques et des données agrégées provenant de l'entrepôt de données de santé du CHU, a été mis en service pour prédire le nombre de patients hospitalisés pour COVID-19 à 14 jours. Bien que performant, ce modèle a présenté plusieurs jours de retard dans lâanticipation des changements de la dynamique épidémique.
Le reservoir computing est une approche qui exploite un réservoir de neurones récurrents artificiels non entraînés, agissant comme une mémoire et permettant dâapprendre et dâexploiter des combinaisons non linéaires entre les variables. Contrairement aux réseaux de neurones traditionnels, il simplifie l'entraînement en se concentrant sur l'ajustement des poids de sortie, offrant ainsi une efficacité en termes de temps de calcul. Bien que cette approche ait montré des résultats prometteurs dans la prédiction épidémique, elle a principalement été évaluée avec un nombre restreint de prédicteurs et sur des périodes courtes. Son application dans un contexte de grande dimension reste peu explorée, en particulier en raison du grand nombre d'hyperparamètres à optimiser.
Cette étude présente l'utilisation du reservoir computing pour prédire le nombre de patients atteints de la covid-19 hospitalisés à 14 jours au CHU de Bordeaux, en utilisant des données épidémiques publiques ainsi que des données de l'entrepôt de données du CHU, dans un contexte de grande dimension. Nous proposons un algorithme génétique pour optimiser les hyperparamètres.
Méthodologie
Cette étude repose sur des données agrégées relatives à la COVID-19 en France, couvrant la période de mai 2020 à janvier 2022. Ces données proviennent de diverses sources, telles que Santé Publique France (incluant les résultats PCR en Gironde, le nombre de patients vaccinés et les variants majoritaires), la National Oceanic and Atmospheric Administration (données météorologiques), ainsi que les données agrégées de l'entrepôt de données du CHU de Bordeaux (comportant les résultats RT-PCR, les hospitalisations, les sollicitations du SAMU et des urgences). Les données ont été enrichies par le calcul des dérivées première et seconde, soit 458 variables au total. Pour atténuer les fluctuations quotidiennes, un lissage par régression polynomiale locale a été appliquée sur une période de 21 jours, et les prédicteurs ont été mis à l'échelle entre -1 et 1.
Les hyperparamètres ont été optimisés de manière continue du 25 juin 2020 au 1er mars 2021. Ensuite, ils ont été soit i) définitivement fixés, soit ii) mis à jour chaque mois pour sâadapter aux évolutions de la dynamique épidémique de la covid-19. Lâoptimisation des hyperparamètres a été réalisée à lâaide dâun algorithme génétique où chaque « individu » représentait un ensemble d'hyperparamètres. Chaque génération de l'algorithme comprenait 100 individus, résultant du croisements entre les meilleurs individus de la génération précédente. Afin dâatteindre la convergence de lâalgorithme génétique, 32 générations dâindividus ont été évaluées avant mars 2021 pour la sélection des hyperparamètres, puis 12 nouvelles générations ont été générées chaque mois à partir des meilleurs individus des mois précédents.
Différentes méthodes de sélection de variables ont été évaluées, notamment la sélection basée sur les conseils d'experts épidémiologistes, la sélection par régression linéaire pénalisée, et la sélection via un algorithme génétique, avec l'introduction d'une indicatrice binaire pour chaque variable. Pour chaque méthode, les performances du modèle ont été évaluées avec une mise à jour mensuelle des hyperparamètres ou non, ainsi qu'avec un input scaling (gain propre au reservoir computing appliqué aux prédicteurs) pour chaque variable ou non. Les performances ont été évaluées à l'aide de quatre métriques : l'erreur absolue médiane, l'erreur relative médiane, l'erreur absolue médiane par rapport au modèle de base, et l'erreur relative médiane par rapport au modèle de base. Le modèle de base est un modèle utilisant le nombre actuel de patients hospitalisés comme valeur prédite à 14 jours. L'optimisation des hyperparamètres a été réalisée en se basant sur l'erreur relative médiane par rapport à ce modèle de référence.
Originalité / perspective
L'approche que nous avons développée démontre des performances intéressantes dans la prédiction des hospitalisations à 14 jours, avec une erreur absolue variant entre 13,79 et 9,33 hospitalisations selon les modèles. Ces résultats sont comparables aux performances de la régression pénalisée, qui était le meilleur modèle dans une étude antérieure avec une erreur absolue de 12,66 hospitalisations.
Les modèles les plus performants ont été ceux qui ont utilisé (i) une sélection de variables par algorithme génétique avec un input scaling commun pour toutes les variables et une mise à jour mensuelle des hyperparamètres (erreur absolue de 9,33), ainsi que (ii) une sélection de variables par un expert avec un input scaling spécifique par variable sans mise à jour mensuelle des hyperparamètres (erreur absolue de 9,35). En revanche, le modèle présentant les moins bonnes performances était celui avec une sélection de variables par un expert, un gain commun pour toutes les variables et sans mise à jour mensuelle des hyperparamètres (erreur absolue de 13,79).
Ce travail s'appuie sur des travaux existants liés à l'utilisation du reservoir computing pour la prédiction épidémique, ainsi que sur l'utilisation d'algorithmes génétiques pour l'optimisation des hyperparamètres. Il propose l'application de cette méthode dans un contexte de grande dimension et démontre que le reservoir computing améliore les prédictions par rapport à des approches plus classiques en épidémiologie, telles que la régression linéaire pénalisée, en exploitant efficacement diverses sources de données.
Les prochaines étapes de cette recherche incluent l'extension des comparaisons à d'autres algorithmes d'apprentissage machine et d'apprentissage profond, ainsi que l'évaluation de son applicabilité à d'autres épidémies. Avec le développement des entrepôts de données dans de nombreux CHU, notamment en Nouvelle-Aquitaine, le reservoir computing se positionne comme une approche de choix pour la surveillance et l'anticipation épidémique.
Références
Bala A, Ismail I, Ibrahim R, Sait SM. Applications of Metaheuristics in Reservoir Computing Techniques: A Review. IEEE Access 2018; 6: 58012â29.
Cramer EY, Ray EL, Lopez VK, et al. Evaluation of individual and ensemble probabilistic forecasts of COVID-19 mortality in the United States. Proc Natl Acad Sci U S A 2022; 119: e2113561119.
Ferté T, Jouhet V, Griffier R, et al. The benefit of augmenting open data with clinical data-warehouse EHR for forecasting SARS-CoV-2 hospitalizations in Bordeaux area, France. Jamia Open 2022; 5. DOI:10.1093/jamiaopen/ooac086.
Trouvain N, Pedrelli L, Dinh TT, Hinaut X. ReservoirPy: An Efficient and User-Friendly Library to Design Echo State Networks. In: FarkaÅ¡ I, Masulli P, Wermter S, eds. Artificial Neural Networks and Machine Learning â ICANN 2020. Cham: Springer International Publishing, 2020: 494â505