Salut les gens ! J’espère que tout le monde va bien et que vous gérez au mieux cette fin d’année … compliquée, dirons-nous. Aujourd’hui j’ai un sujet d’actualité pour vous : l’infrastructure d’hébergement HDS qui porte le projet Ouest DataHub HUGO, dont la presse s’est faite écho il y a quelques semaines. Et vous savez quoi, nous avons été choisis par le GCS HUGO pour concevoir et opérer ce nouveau client HDS. Je vous présente tout ça dans ce billet.

Un peu de politique

Comme en France, on ne sait visiblement pas faire simple en matière d’organisation, en santé en particulier ^^, je suis obligé de vous parler un peu du groupement de coopération sanitaire HUGO, à l’initiative de ce projet, avant de vous en dire plus sur ce qui nous intéresse plus précisément, la technologie.

La France s’est dotée il y plusieurs années déjà de réseaux inter-régionaux chargés de promouvoir et stimuler l’innovation et la recherche dans le monde de la santé, les GIRCI. Tel que présenté sur le site du ministère de la santé :

GIRCI : Groupement Inter-régional de Recherche Clinique et d’Innovation
Les 7 groupements inter-régionaux pour la recherche clinique et l’innovation (GIRCI) sont des « structures ombrelles » légères et fédératives. Elles orientent les porteurs de projets et appuient les actions de recherche appliquée en santé portées par les établissements de santé ou les structures de médecine de ville.

En particulier, le GIRCI GO est à l’oeuvre depuis plus de dix/quinze ans et regroupe les régions Pays de Loire, Bretagne et Centre-Val de Loire. Il est un sponsor d’un nombre important de projets de recherche en santé. De ce que j’ai compris (oui, c’est compliqué ^^), un autre groupement, le GCS HUGO va plus loin encore et organise, pilote, développe des projets concrets sur l’ensemble du périmètre de la Santé en général (en complément de l’innovation et la recherche clinique).

HUGO, acronyme de « Hôpitaux Universitaires du Grand Ouest », regroupe historiquement les CHU/CHR d’Angers, Brest, Nantes, Orléans, Rennes et Tours, rejoints plus récemment par le CH du Mans, de Vendée et l’ICO (Institut de Cancérologie de l’Ouest).

HUGO a été constitué il y a douze ans dans une logique de groupe public interrégional couvrant l’intégralité des missions hospitalo-universitaires (stratégie, soins, enseignement, recherche et innovation) pour les structurer, les renforcer et leur donner une visibilité nationale. Cette logique de coopération est ancrée dans une connaissance mutuelle des acteurs de terrain, et des habitudes anciennes de travail en commun. Avec la création du GCS en 2013, cette coopération permet la réalisation de projets collectifs, le portage juridique de partenariat, et consolide le développement des infrastructures d’intérêt commun.

Vous suivez toujours, ça va ? (Quand on vous dit que l’administration, c’est chaud et qu’on s’écoute parler souvent ^^) … Bon alors, on continue ….

Un projet multi-régional

Et c’est là que l’aventure Ouest DataHub HUGO démarre. Il faut savoir que plusieurs équipes dédiées travaillent déjà au sein de plusieurs CHU à extraire et valoriser “la donnée patient” et le patrimoine exceptionnel qu’elle représente au sein de nos établissements. Je n’en citerai qu’une seule, celle que je connais mieux, au sein du CHU de Nantes : la Clinique des Données, dirigée par Pierre-Antoine Gourraud, et son projet eHOP (voir ici https://www.chu-nantes.fr/clinique-des-donnees )

Or, vous le savez sans doute, analyser/trier/comprendre/extraire de la valeur de données brutes issues de nos dossiers patients internes réclame de la puissance. le GCS HUGO a donc décidé de se doter d’un outil informatique adapté et disponible pour l’ensemble de ses membres.

Appelé, Ouest DataHub, il s’articule autour d’une plateforme technique hébergée au CHU de Nantes, sur laquelle est construit un environnement logiciel complet, multi-tenant (plusieurs projets simultanés, isolés les uns des autres), permettant d’exploiter des données issues des différents hôpitaux via des algorithmes développés par les data scientists.

Décidée en début d’année 2020, la construction de cette plateforme technique a duré environ 6 mois, entre sa conception et sa mise en ordre de marche. Celle-ci est opérationnelle depuis le début de l’été. Quant à l’environnement logiciel HUGO, il est encore en phase projet active avec une cible d’hébergement d’un premier pilote en production au début de l’année prochaine.

Hébergement HDS

Qui dit données patient, dit forcément très haut niveau de sécurité, conformité de l’hébergeur à une certification HDS (Hébergement de Données de Santé). Pour votre information, aujourd’hui, la certification HDS est l’extension d’une certification plus générique qui parlera sans doute plus à ceux qui n’évoluent pas dans le monde de la santé : ISO 27001.

Le CHU de Nantes, agréé HDS depuis 2012, est désormais certifié ISO27001 depuis la fin Juin 2020 après plus de 18 mois de travail (bravo aux équipes concernées !). Le renouvellement HDS « mouture ISO » a eu lieu entre Juillet et Décembre 2020 pour une certification obtenue en cette toute fin d’année.

La plateforme technique

Capable d’absorber de grandes quantités de données (plusieurs dizaines de To) tout en offrant des capacités de compute importantes (CPU et vGPU), la plateforme est conçue sur des bases éprouvées, hautement disponibles et évolutives. La sécurité, comme tout projet HDS, se doit forcément d’être bâtie sur des fondations solides et maîtrisées par nos équipes d’hébergement. Enfin, la sécurité doit être très forte, vu le type de données travaillées. Des mécanismes de chiffrement et de protection avancées (IDS/IPS, micro-segmentation, SIEM intégré etc.) sont aussi à l’oeuvre.

Sans trop de surprise pour vous, si vous me suivez depuis longtemps, la base d’hébergement est fondée sur la technologie VMware et en particulier les composants sur lesquels nous avons capitalisé depuis des années maintenant : vSphere, VSAN, NSX-T Entreprise (pour ses fonctions IDS/IPS, notamment). Pour le SIEM nous utilisons la suite Elastic (Logstash, Elastic search, Kibana), ainsi que des briques open source pour la gestion des accès (SSH Portal, notamment, que je vous conseille fortement, au passage).

Le hardware est constitué d’un stretched cluster Dell EMC VxRail dont certains noeuds disposent de cartes d’accélération vGPU Nvidia Tesla v100. Pour l’instant, tous les noeuds n’en sont pas équipés mais à terme, ce sera très vraisemblablement le cas. Aujourd’hui le cluster regroupe 4 noeuds (2 par salle), mais il sera amené à grossir rapidement en fonction de l’arrivée des projets.

La plateforme logicielle « Ouest DataHub » de HUGO

Ouest DataHub est basé en grande partie sur les capacités multi-tenant et les fonctions de sécurité avancée de NSX-T. Chaque sous-projet a son propre environnement de travail (full Open Source évidemment, les data scientists sont tous barbus ^^) isolé des autres. Certaines ressources sont communes et allouées en temps partagé à chaque projet. C’est le cas de la machine de calcul vGPU, mais aussi d’autres ressources, comme la machine de déploiement, chargée de rapatrier, valider et distribuer les packages nécessaires au fonctionnement des projets (rpm Linux, ressources Open Source dédiées au machine learning, outils développés spécifiquement par les data scientists, etc).

Ici, CentOS règne en maître, comme le Langage R ou Spark (laissez, vous ne pouvez pas comprendre si vous n’êtes pas chercheur …). Je suis encore surpris qu’on ne nous ait pas demandé du full Debian, je vous l’avoue. Espérons que l’explosion en vol récente de CentOS ne pèse pas trop lourd, à terme, sur la sécurité ou la pérennité de l’environnement en cours de construction.

Vers l’infini …

Inutile de dire que nous sommes très fier de cette forme de consécration, en tant qu’hébergeur public, d’avoir été choisi par le GCS HUGO pour cette plateforme. Cela met en avant tous les efforts de la part de nos équipes d’architecture de d’exploitation, depuis plus de 10 ans maintenant, d’avoir réussi, malgré les contraintes humaines et budgétaires, à devenir un acteur majeur de l’hébergement HDS dans le grand ouest.

La donnée patient et son exploitation est un bien précieux de nos hôpitaux publics, il est finalement logique que celle-ci reste dans le domaine et soit opérée par les membres mêmes qui constituent le groupement HUGO !

Et maintenant, pourquoi pas proposer des services au reste de la France, vous en pensez quoi ? ^^

Je profite de ce sans doute dernier billet de l’année sur vBlog pour vous souhaiter, à toutes et à tous, une excellente future année 2021, avec l’espoir d’enfin venir en partie à bout de cette pandémie !

Pour en savoir plus :
Article de Ouest-France sur Ouest DataHub : à consulter ici
Un article intéressant sur le projet : chez TIC-Santé
L’annonce de Ouest Data Hub sur le site du GCS HUGO : ici
Les missions du GIRCI GO : https://www.girci-go.org/missions/
Les missions du GCS HUGO : https://www.chu-hugo.fr/accueil/missions/
Les GIRCI : sur le site du ministère de la santé