Comment analyser efficacement des données de plus en plus dispersées ? La question prend de l’importance, alors que certains jeux de données ne peuvent plus être déplacés pour des contraintes de volumes, de privacy ou de coûts.
Pour illustrer la puissance de l’informatique distribuée à l’échelle planétaire, un exemple vaudra mieux qu’un long discours. Les hôpitaux du monde entier cherchent à réduire leurs coûts. Une des façons d’atteindre cet objectif est de faire un usage plus efficace des onéreux équipements de diagnostic médical, comme les scanners et les IRM. Quand un hôpital maximise l’utilisation de ces appareils, il améliore son ROI et réduit ses coûts en évitant l’acquisition d’appareils supplémentaires. Cela contribue ensuite à offrir des soins plus abordables.
Siemens Healthineers, la division santé de Siemens, a développé un programme d’analyse qui permet à ses clients de comparer l’utilisation qu’ils font de leurs appareils par rapport à ceux des hôpitaux du monde entier. L’objectif est d’aider les établissements à identifier les leviers d’amélioration pour tirer un plus grand bénéfice de leurs investissements.
Ce benchmarking mondial est alimenté par la technologie Dell World Wide Herd (WWH). Dell et Siemens ont collaboré pour déployer une solution capable d’analyser la donnée en périphérie et au sein de laquelle seule l’agrégation des résultats intermédiaires traverse les frontières.
Comment ça marche ?
Le concept WWH, conçu par Dell, consiste en un réseau mondial d’instances Hadoop qui fonctionne comme un unique cluster virtuel. Le WWH orchestre l’exécution de calculs distribués et parallèles à l’échelle mondiale, en envoyant l’analyse là où réside la donnée. Cette approche permet d’analyser des données géographiquement dispersées, sans être obligé de les centraliser en un lieu unique. Seuls les résultats de l’analyse locale sont partagés, en veillant au respect des règles de confidentialité.
Regardons de plus près comment le WWH fonctionne. Tout d’abord, il distribue le calcul sur un cluster virtuel en poussant l’analyse vers les nœuds virtuels en périphérique. Dans le cas de Siemens, chaque nœud est une instance cloud qui collecte et stocke localement les données des appareils médicaux Siemens installés dans les hôpitaux. Ensuite, le calcul se fait en temps-réel, directement à l’emplacement de la donnée.
Puis les résultats, traitées de manière à respecter la confidentialité des données à caractère personnelle, sont transférés et agrégés avec ceux des autres nœuds afin de mener cette fois une analyse globale des différents résultats. Dans le cas de Siemens, chaque nœud virtuel calcul un histogramme local qui est combiné à tous les histogrammes mondiaux pour réaliser un benchmarking global. L’administrateur d’un hôpital qui regarde l’histogramme global peut immédiatement obtenir des informations de valeur en le comparant aux performances de son propre établissement. Un WWH peut avoir de multiples configurations. Les nœuds virtuels peuvent être hébergés dans un environnement multicloud ou sur des passerelles physiques.
Un défi pour toutes les industries
Dans sa capacité à associer analyse distribuée et données distribuées, le WWH surmonte plusieurs défis informatiques actuels :
- Une explosion du nombre d’appareils connectés et des volumes de données qui défi la scalabilité des approches centralisées visant à stocker et analyser les données dans un unique endroit.
- Les contraintes de bande passante et de coûts qui complexifient le transfert des données dans un répertoire central.
- La sécurité des données en transit.
- Les problèmes de conformité qui limitent le déplacement des données à travers les frontières.
Face à ces défis, il est impossible de maintenir le statu quo. Nous devons amener la puissance de calcul à la donnée, et non plus l’inverse. Si l’on considère un monde qui comptera 200 milliards d’objets connectés en 2031 ainsi que l’évolution des réglementations, il est clair que l’avenir de nombreuses industries passera par là. La donnée sera intrinsèquement distribuée et fédérée avec une capacité de mouvement limitée.
Bien que l’exemple utilisée ici montre un cas d’usage spécifique dans le monde de la santé, l’approche WWH peut être appliquée à un large spectre d’industries. Le WWH peut être utilisé pour aider les entreprises à tirer de la valeur de n’importe quelles données dispersées sur l’internet des objets. Des renseignements très précieux peuvent être obtenus dès lors que le champ d’analyse transcende les barrières géographiques, politiques et organisationnelles, et peuvent être analysées comme un seul et unique jeu de données. C’est le World Wide Herd en action.