Panne d'OVH

**Lazer** · le 5 juillet 2017

Vous avez peut être vu, ou été impacté par, la panne d'OVH la semaine dernière, sur les hébergements mutualisés.

Panne due à une baie de stockage EMC VNX 5400 remplie de SSD. Evidemment au bureau on chambre pas mal les collègues qui en installent

L'article le plus précis que j'ai vu jusqu'à présent sur le sujet : http://www.lemagit.fr/actualites/450421889/OVH-et-ses-clients-devront-tirer-les-lecons-de-la-panne-qui-a-plonge-dans-le-noir-50-000-sites-web

Perso j'y ai mes bases Domocharts et Teleinfo, que j'ai basculé en urgence sur mon serveur à la maison, mais dans la bataille, suite à leur restauration de données, j'ai perdu plusieurs heures de statistiques.

Comme je ne leur faisait pas confiance, je fais mon propre backup toutes les nuits... là où c'est bête, c'est que mon backup est à peine plus récent que le leur, de 1 heure seulement, donc je n'ai quasiment rien récupéré des données qu'il m'ont perdu.

Heureusement j'ai mis la boutique de madame sur une offre d'hébergement plus haut de gamme, qui sont sur des serveurs différents, et elle n'a pas été impacté, pendant le début des soldes ça aurait fait mal.
Par contre visiblement pas mal de sites marchants ont été impactés, ce n'est pas très sérieux de la part des gestionnaires de prendre des offres d'hébergement premier prix. L'article évoque bien ce problème.

**Nico** · le 5 juillet 2017

Et oui, à 5,00 € par mois, je ne vois pas trop ce qu'on peut espérer de plus... Mais bon, c'est une bonne claque. Chez nous je perds 24h de données, je ferme la boite, c'est pas compliqué...

**Lazer** · le 5 juillet 2017

Euh..... tu exagères là

Vous faites des backups toutes les heures sur support externe ?

On est bien d'accord qu'un snapshot toutes les heures sur le même support de stockage ne te protège absolument pas contre la panne qui vient de se produire.

Parce que bon, des infras, j'en vois tous les jours, des pertes de données majeures (genre celle que vient de subir OVH) ça arrive de temps en temps, et à chaque fois c'est 24H de données perdues (puisque les backups sont rarement fait plus de 1 fois par nuit... et encore quand ils sont faits), et plusieurs heures d'indisponibilité des salariés et des clients.

Et je n'ai jamais vu une boite fermer.... et pourtant le pire que j'ai vu, c'est une PME qui a perdu 6 mois de données !!! Ca leur a fait mal mais ils ont survécu.

Ca coute très cher, mais la plupart du temps tu peux reconstruire tes données critiques, ou te passer de celles qui sont non critiques.

Même les banques ne sont pas infaillibles, la probabilité est très très faible étant donné les architectures mises en oeuvre, mais le risque n'est jamais nul.

Et quand ça arrive, ils reconstruisent les données pour rattraper le temps perdu.

**Nico** · le 5 juillet 2017

Les serveurs critiques (BD et serveur de PROD de notre WMS), je suis en réplica 15 minutes dans une salle de secours à 300m de la salle principale. Et je confirme, 24h de données perdues, au niveau de la logistique, ce serait la fin. Par jour on traite des dizaines de milliers de ligne de commande, de mouvements dans tous les sens, de consommations par nomenclature, etc. Si je perds 24, il faudrait faire un inventaire globale de tous les sites, donc déjà 2 semaines de boulot... Ensuite il faudrait voir avec tous les clients pour récupérer toutes les commandes, réceptions, sorties etc pour "essayer" de les rejouer. Sauf qu'on livre pour beaucoup d'industriel des lignes de productions qui tournent 7 jours sur 7 et 24 heures sur 24, pour les plus critiques on à un délai de 4 heures entre la réception des lignes de commandes et la livraison sur chaine... Toutes ces lignes on les arrêtes de façon sûr sans l'IT, impossible de gérer ça manuellement.

Donc pour moi oui, on ferme.

**Lazer** · le 5 juillet 2017

Il vaut mieux que tu te dises que vous fermez, et que vous mettiez tout en œuvre pour que ça n'arrive pas, il est certain que c'est mieux ainsi

Mais crois moi, quand ça arrive, on trouve une solution, ça peut couter potentiellement très cher (x M€), mais je n'ai jamais vu personne fermer pour cela, et j'en ai vu des bien plus critiques...

Il faut comparer ce qui est comparable, et comme à chaque fois tu ramènes à ta propre expérience, ce qui n'a rien à voir avec les sites hébergés chez OVH (thème de la news concernant les hébergements chez OVH). Évidemment une petite boutique en ligne ne peut se permettre de dépenser des millions, et devra se contenter de ses 24h de données perdues. Mais une entreprise respectable si, elle ne peut pas fermer aussi "facilement" que ça, les enjeux sont énormes. Pour la direction, pour le personnel (bon ça OK en s'en fous ), pour les clients, et pour les banques (qui ont leur intérêts à préserver dans le financement des entreprises... en fin de compte je suppose que c'est elles qui ont le dernier mot dans ce genre de situation)

Pour la partie technique, oui la réplication entre baie est le seul moyen de se prémunir de la panne vécue chez OVH. C'est très bien ce que vous avez mis en place, c'est de plus en plus courant en entreprise, mais pour autant, la majorité des entreprises n'ont déjà pas une seule baie du niveau de la VNC5400 qui est une très belle machine.

Les backups quotidiens suffisent dans 99% des cas, et je le répète, quand ça arrive, on reconstruit les donnés, ça prend du temps, mais pas le choix....

Là où c'est grave, ce sont les entreprises qui ne font pas de backups....

On ne peut rien reprocher à OVH, ils font des backups, c'est du bon matos, la panne est ultra rare.

Si des gens ont perdu des données, comme le souligne l'article, c'est à eux même de s'en prendre.

**Nico** · le 5 juillet 2017

Ahh mais clairement, c'est ce que je dis, pour 5,00 € par mois, on a ce qu'on a.

Après oui bien sûr, la réplication 15min n'est pas une fin en soi, on pourrait tenter des réparations diverses et varier. Ce que je voulais dire, c'est que perdre 24 heures de données de façon irréversible, ce serait une catastrophe qu'une PME comme nous ne pourrions pas gérer, impossible. C'est pour ça qu'on fait tout pour que cela n'arrive pas. D'ailleurs sur la BD de PROD du WMS, j'ai une seconde sauvegarde en, logshipping (Ancien, mais hyper fiable) toutes les 15 minutes aussi...

le 5 juillet 2017

Vous battez pas. un bon crash ça génère du boulot et il y a rarement de coupable car de nos jours on sait bien diluer les responsabilités.

Donc c tout bénef pour les gens de la prod et de l'it qui vont justifier plus de budget...

No stress, have a beer

**Nico** · le 6 juillet 2017

Ahh mais t'inquiètes Chris, c'est un bon débat au contraire, cela ouvre les yeux.

Sinon lol, tu dois bosser dans un grand groupe pour diluer les responsabilités Moi mon bosse, c'est le PDG, donc c'est très très direct !

le 6 juillet 2017

J'ai bossé 12 ans dans un groupe de 300000 employés à une époque. Mais maintenant je suis une tpe à moi tout seul
J'aime bien les extrêmes...

Mais je vois souvent cette dilution via de la sous traitante a fond. Mais bon ça me génère du taf lorsqu'il faut intervenir sur des SI à la dérive.

**Nico** · le 6 juillet 2017

Bah voilà, il n'y a donc plus rien à diluer. Nous on reste une PME de 450 personnes, c'est différent.

**nasp** · le 6 juillet 2017

J'ai participé à la mise en place d'un plan de secours pour un opérateur de téléphonie mobile dont le logo est carré et rouge... La raison était simple : 24h d'indisponibilité du système informatique = perte de facturation de plusieurs M€/j... L'impératif était de remettre en service les serveurs de facturation et d'activation des cartes SIM en moins de 24h suivant le sinistre... ça a coûté une blinde mais ça a marché... Centre de secours à environ 40km du centre principal (obligatoire pour certaines activités)...

**Nico** · le 6 juillet 2017

Yes, mais l'avantage de ces mégas grosses boites, c'est que qques millions d'euros ils peuvent encore les assumer...

**kiwi** · le 7 juillet 2017

Hello,

Un joli post mortem avec du bon #shitHappends...

https://www.ovh.com/fr/blog/hebergements-web-post-mortem-incident-29-juin-2017/

Je n'aime pas taper sur les collègues / confrères / concurrents mais on voit parfaitement dans ce cas que le fait de faire du temporaire qui est devenu la production leur a porté préjudice.

Ceci dit a 5 Euroubles par mois on a ce qu'on as....

Perso je préfère payer une vm ou un serveur avec mon service de backup perso... (ou avoir mon infra chez moi, ce qui coute en elec un peu la meme chose).

/Xavier

**Lazer** · le 7 juillet 2017

Chouette, je vais avoir 2 mois d'hébergement offert.

Bon comme je pensais tout migrer sur mes serveurs @ home depuis que j'ai la fibre, c'est pas trop utile....

Je salut quand même l'effort de communication dans ce long billet.

**Nico** · le 7 juillet 2017

Yes, pas cool. Par contre lol, leur maitrise du Watercooling est moyenne tout de même

Je me rappelle de mon premier il y a plus de 15 ans, avec en guide de cache une boite à chaussure avec le matos dedans scotché au double face au dessus de la tour

**Lazer** · le 7 juillet 2017

moi mon record c'est une canalisation géante faite en carton d'emballage de racks 42U couchés et de ventilateurs de bureau, pour amener l'air climatisé des bureaux vers la salle machine

**Nico** · le 7 juillet 2017

**Lazer** · le 9 novembre 2017

Aller, re-panne majeure d'OVH ce matin.

http://www.lemonde.fr/pixels/article/2017/11/09/l-hebergeur-internet-ovh-touche-par-une-importante-panne_5212399_4408996.html

Mes sites perso ont été down pendant 3 ~~ans~~ heures, rien de bien méchant, mais apparemment pas mal de gros sites ont été touchés.

Le plus fun : Somfy Tahoma est hébergé chez OVH, donc pas d'ouverture des volets, pas d'alarme, pas de serrure connectée, etc.... gros LOL :2:

Qu'est ce que je suis content d'être sur une box domotique cloudless

Modifié le 9 novembre 2017 par Lazer

**i-magin** · le 9 novembre 2017

il y a 27 minutes, Lazer a dit :

Mes sites perso ont été down pendant 3 ans, rien de bien méchant, mais apparemment pas mal de gros sites ont été touchés.

Pxxxxx !

3 ans !

C'est une sacré panne

**Lazer** · le 9 novembre 2017

oup's, 3 heures

**yoim** · le 10 novembre 2017

J'ai juste été impacté au niveau des emails de mon coté. Une partie de nos emails sont sur des serveurs exchanges chez OVH. Je sais bien que ce type de panne peut arriver n'importe quand. Je pense quand même que OVH à une grosse part de responsabilité dans ce probleme. Coupure electrique ok, mais là les groupes electrogenes qui demarrent pas, c'est impossible dans ce metier. Dans n'importe quelle grosse boite tu as des process de test des groupes electrogenes tous les mois ... Sachant que avant que les groupes electrogenes prennent la releve, il y a toute la partie Onduleur qui va tenir 30 mn ... Faut arreter ... Là clairement ya des process qui ne sont pas respectés ou meme pas créé. Pour une boite qui se veut concurencer Google ou AWS, là on est vraiment très loin ... De plus le site OVH etait aussi down ainsi que le site travaux ... Je sais pas moi une boite comme OVH met son front sur le même reseau que les datacenters ... Ya un truc qui m'echappe.

Une fois j'ai testé leurs installations, j'avais mis qq données, rien de sensible pour tester. Au bout de 2 mois problème de disque, les tech m'ont changé le disque sans rien me demander ... depuis ce jour, 90% de mon infra est chez AWS.

Chez AWS il n'y a jamais ce type de probleme. En cas de soucis tu peux monter tes serveurs dans une autre region. Les details de la panne sont clairement definis ... Octave il est bien gentil et il fait du super boulot ... Belle réussite en prime. Mais je pense qu'il ne doit pas aller trop vite et subir ce type de panne. Aujourd'hui tu n'as pas le droit. C'est mon point de vue.

Le seul moyen de voir l'evolution de la panne, c'etait le flux twitter de Octave.

Clairement pas serieux. Une chose est sure, je ne mettrais jamais des données sensible chez eux. Encore moins des serveurs.

AWS powa !!

Modifié le 10 novembre 2017 par yoim

**Lazer** · le 10 novembre 2017

Pas complètement d'accord avec toi pour le coup, je trouve un peu trop facile de taper comme ça sur OVH, car les autres (AWS en tête) ne sont pas exempts de tout reproche, et ont aussi connu leurs pannes majeures. La dernière en date, c'était en mars 2017, donc pas si vieux (bon OK, OVH ils en sont déjà à 2 pannes en 2017, ça commence à faire beaucoup).

Pour le suivi des incidents hébergés sur leur propre infra, c''est clairement une anerie....

Et pour bosser aussi dans le milieu, que l'hébergeur soit petit ou gros, des pannes électriques, des onduleurs qui ne tiennent pas, et des groupes électrogènes qui ne démarrent pas, je l'ai déjà vu plusieurs fois.
Alors OK ce n'est pas normal, et cela résulte clairement d'une erreur humaine à la base (mauvais process de validation), mais voilà, le fait est là : ça arrive !

Donc c'est au client d'anticiper, c'est par pour rien qu'on parle de PCA et de PRA.

Bien sûr, pour l'immense majorité des sites Web, c'est overkill, mais tu remarqueras que lors de la dernière panne d'AWS, la boutique Amazon a continué à fonctionné, donc c'est qu'eux même sont conscient du risque de plantage de leur infra.

Tout est question de brousoufs, entre le manque à gagner/perte sèche en cas d'arrêt de prod, et le cout d'une solution PCA/PRA.

**yoim** · le 10 novembre 2017

AWS n'est pas un exemple ...

Quand ils ont crashé en 03/17 tu avais la possibilité de rebalancer ton infra complete en moins d'une heure sur une autre region. Tu avais accès a ta console et tu pouvais voir les regions impactés par le probleme ... Joindre le support technique ... Ce qui n'est pas du tout le cas d'ovh... Tu ne pouvais plus les joindres au telephone, tu n'avais plus accès a ton espace client, la seule info que tu avais c'est le twitter de Octave ... ??? C'est comme ci Jeff Bezos t'indiquais qu'ils ont eu un probleme de Groupe Electrogene qui ne demarre pas ... Jamais de la vie il ferait un truc pareil. Il a deja pris les devants et deja tester et simuler ce type de panne sur leur infra. AWS est visionnaire et leader sur le marché. C'est pas pour rien.

Ils ont un slogan chez AWS :

Design for failure ! ca veut tout dire.

**i-magin** · le 10 novembre 2017

Ce n'est pas parce que la bascule sur les groupes électrogènes ne s'est pas faite à cause du dysfonctionnement d'un automate, qu'ils n'ont jamais effectué des essais auparavant

Selon Octave Klaba, le dernier test date de mai 2017

J'ai lu rapidement ses propos et je trouve qu'il a le mérite d’expliquer clairement les points faibles de leur installation concernée

La presse évoque "deux arrivées EDF en rade et le non fonctionnement des groupes électrogènes", ce qui est très imprécis

On a vu que les groupes n'ont pas démarré en raison d'un défaut de l'automate Normal Secours Motorisé. En ce qui concerne l'alimentation par Electricité de Strasbourg, il s'agit d'une seule alimentation 20kVA composée de deux câbles

C'est un point faible qu'Octave Klaba va traiter, puisqu'il prévoit l'installation de 2 arrivées électriques indépendantes de 20KV

Plus globalement, O. Klaba dit clairement que les installations concernées ne répondent pas aux normes OVH :

"Même si l’incident de ce matin a été causé par un automate tiers, nous ne pouvons nous dédouaner de la responsabilité de la panne. A cause du déploiement initial basé sur les containers maritimes, nous avons un historique à rattraper sur SBG pour atteindre le même niveau de normes que sur les autres sites d’OVH".

Modifié le 10 novembre 2017 par i-magin

Connexion

Panne d'OVH

Messages recommandés

Lazer

Nico

Lazer

Nico

Lazer

Nico

Invité chris6783

Nico

Invité chris6783

Nico

nasp

Nico

kiwi

Lazer

Nico

Lazer

Nico

Lazer

i-magin

Lazer

yoim

Lazer

yoim

i-magin

Outils

Appli Mobile

Appli Tablette

Fibaro Finder

Documentation

Plus

Activité