Introduction
La plateforme que nous avons développée est un outil d'analyse de données spécifiquement adapté aux attentes des agents des métiers de la maintenance dans le domaine ferroviaire, tant en termes de contenu mis à disposition que de mode d'utilisation. L'outil doit être simple à utiliser dans l'environnement technique au sein duquel les agents opèrent et doit permettre la mise en Åuvre d'algorithmes complexes de Machine Learning. Bien entendu son extension à d'autres domaines industriels est tout à fait cohérente, mais il nous a semblé utile de cibler un domaine initial bien défini (et que nous connaissons bien de par notre historique) plutôt que de chercher un système universel, dont on sait bien qu'il est difficile, voire impossible à atteindre. Pour obtenir une telle flexibilité dans le cadre d'une approche de gestion des données classique de type ETL (Extract, Transform, Load) la structuration des données permettant de réaliser la collecte est fondamentale. C'est le sujet que nous adressons ici. On pourra noter que d'un point de vue opérationnel, nous mettons en Åuvre notre approche dans le projet FerroNext initié par le Pôle d'Excellence Européen Ferrocampus.
Méthodologie
L'approche que nous prônons repose sur l'hypothèse (aujourd'hui largement admise) qu'un système de type jumeau numérique ne peut pas être un système monolithique. Il doit être ouvert relativement aux types et aux sources de données supportés, ainsi qu'aux types de stockage considérés.
La définition et la structuration du modèle de données étant un point clef de notre système, il est important de partir sur une base claire, la plus stable possible mais néanmoins ouverte sans quoi des adaptations ultérieures pourraient engendrer un coût important en termes de développement logiciel et de restructuration des données. C'est pourquoi, nous avons exploité les cas d'usage que nous avons déjà déployés auprès de nos clients en étudiant les modèles de données mis en place pour ces développements antérieurs et en avons extrait la forme la plus générique, adaptée aux enjeux et contraintes décrits plus haut.
Originalité / perspective
Nous constatons au travers du retour d'expérience sur les cas d'usage que nous avons développés qu'une plateforme telle que nous la décrivons doit
permettre une combinaison complexe des paradigmes de structuration et de stockage de données ainsi que des combinaisons de ces paradigmes (différentes sources de données â capteurs, saisies opérateurs, formulaires papier, etc. -, différents stockages - AWS, Azure, cloud/serveur propriétaire, etc. -) pour une même finalité d'analyse/prédiction. Enfin cette plateforme doit permettre d'agglomérer/utiliser des stockages/modules fonctionnels déjà présents chez les clients. A notre connaissance, peu ou pas d'autres architectures offrent une telle flexibilité. C'est en supportant ces caractéristiques que le système que nous avons mis en place se distingue de l'existant.
En termes de perspectives, nous avons identifié des enjeux importants qui constituent nos prochains axes de recherche : exhaustivité de la couverture des
types de données ; exhaustivité de la couverture des sources de données ; capacité à combiner/assembler des architectures différentes (stockage, serveurs,
etc.).
En conclusion, nous avons pu acquérir, dans le cadre d'une approche Agile expérimentale et grâce au retour d'expérience obtenu au travers des différents produits déjà développés, une bonne vision des enjeux de la strucuturation des données dans une plateforme data. La structure actuelle des données que nous avons définie est ainsi suffisamment ouverte pour évoluer dans la suite de nos travaux si le besoin s'en faisait sentir sans impact majeur sur ce qui a été réalisé à ce jour. Enfin, nous avons déjà pu évaluer et valider cet aspect de manière significative dans l'état actuel de nos développements.
Références
M. Sjarov et al., "The Digital Twin Concept in Industry â A Review and Systematization," 2020 25th IEEE International Conference on Emerging Technologies
and Factory Automation (ETFA), Vienna, Austria, 2020, pp. 1789-1796, doi: 10.1109/ETFA46521.2020.9212089.
B. R. Barricelli, E. Casiraghi and D. Fogli, "A Survey on Digital Twin: Definitions, Characteristics, Applications, and Design Implications," in IEEE Access, vol. 7, pp.
167653-167671, 2019, doi: 10.1109/ACCESS.2019.2953499.
P. S. Diouf, A. Boly and S. Ndiaye, "Variety of data in the ETL processes in the cloud: State of the art," 2018 IEEE International Conference on Innovative
Research and Development (ICIRD), Bangkok, Thailand, 2018, pp. 1-5, doi: 10.1109/ICIRD.2018.8376308.
Nwokeji, J.C., Aqlan, F., Anugu, A. and Olagunju, A., 2018, July. Big Data ETL Implementation Approaches: A Systematic Literature Review (P). In SEKE (pp. 714-
713)