Premiers tests partiels de notre plan de secours informatique

Cela faisait plus de quatre ans que nous attendions de passer à l’acte. Après la construction de notre deuxième salle informatique, après des investissements très importants à tous les niveaux (stockage, virtualisation, réseau) pour nous donner les outils nécessaires à assurer une résilience suffisante, après un lobbying important de notre RSSI auprès de notre direction générale, après des semaines de discussion, de mise au point et d’optimisation de nos infrastructures … Enfin ! Les premiers test de plan de secours grandeur nature sur notre production ont commencé cette semaine.

A l’occasion, une grosse partie des équipes de MCO, de Support ainsi que des Applications et Projets ont été mobilisées. La première phase consistait à tester la tolérance aux pannes de notre réseau data-center (technologie Cisco Nexus composée de deux coeurs de réseau Nexus 7000, secondés par deux paires de Nexus 5000 pilotant eux-même l’ensemble des top-of-rack Nexus 2000 de nos deux salles). Durant cette étape, de nombreuses pannes ont été simulées avec succès en arrêtant certains composants (dont certains simultanéement), confirmant la parfaite résilience de nos équipements réseau. Les temps de commutation et bascule d’équipement étant, pour l’essentiel, invisible de nos serveurs et applications (sub-seconde dans la majorité des cas).

La seconde étape, plus massive encore, a eu lieu ce Samedi. L’objectif était de déménager l’ensemble de notre production informatique sur une seule de nos deux salles. En effet, en mode nomminal, nos deux datecenters se partagent la production de manière à peu près équitable (via nos géo-clusters applicatifs et VMWare). A cette occasion, nous avons éteint l’ensemble des ressource suivantes de notre première salle, provoquant la bascule de toutes les ressources associées sur la salle restante :
– Membres locaux de nos clusters physiques
– Tous les serveurs ESXi généralistes présent dans la salle (une trentaine)
– Tous les serveurs ESXi spécifiques hébergeant nos serveurs Citrix (environ 200 VMs et quelques 40 serveurs)
– Les ressources NAS de nos VNX Unified (via le logiciel EMC AFM… roots, mais fonctionnel 🙂 )

La partie la plus impressionnante a été la mise en maintenance de nos serveurs virtuels généralistes (TIER1 et TIER2). Ce ne sont pas moins de 300 VMs qui ont été migrées à cette occasion, venant charger toutes les machines d’une seule salle. Même si nous étions confiants dans les capacités de nos ensembles virtualisés à « assumer » ce déménagement et cette très grosse charge sur un nombre restreint de machines physiques, il est toujours bluffant de constater que plus de 500 VM se retrouvent hébergées par seulement une douzaine de machines (certes, ce sont de grosses configurations, mais tout de même …). Notre densité de VM par serveur est montée en flèche pour atteindre quasi 100 VM par ESXi.

Une fois toute notre production stabilisée sur notre deuxième salle, l’ensemble des équipes projets ont déroulé toute une série de tests fonctionnels et applicatifs permettant, au final, de confirmer que la partie la plus critique de notre système d’information continuait à fonctionner sans dégradation notable de performance. Il faut rappeler que nos engagements vis à vis de notre direction générale sont de pouvoir assurer 100% de la production de l’institution sur un seul DC tout en conservant au maximum le niveau de performance de chaque TIER.

La conslusion, en fin de journée a été sans appel : à l’exception de quelques problèmes techniques mineurs, la plupart liés à des défauts de configuration, tous les composants ont parfaitement joué leur rôle et ont permis de maintenir la qualité de service générale exigée par notre institution après la phase de migration.

Ceci étant, le travail n’est pas terminé, loin s’en faut. En effet, malgré tous ces tests et opérations déjà couronnés de succès, il nous reste encore à éprouver une partie sensible : le stockage. Prudence étant mère de sureté, notre RSSI souhaitait que nous nous approchions progressivement des conditions réelles de déclenchement d’un PSI. La prochaine opération, d’ici quelques semaines, sera certainement beaucoup plus orientée vers le stockage, donc, avec l’arrêt d’un de nos cluster VPlex, de certaines baies de stockage et peut-être même une coupure logique du FibreChannel intersite.

Notre ambition à terme est bien d’atteindre les objectifs posés il y a 5 ans par la direction générale : que notre institution dispose d’un plan de secours informatique viable, testé et entretenu régulièrement.

Premiers tests partiels de notre plan de secours informatique

Laisser un commentaire Annuler la réponse