Message de service (panne)

Bonjour à tous,

Depuis hier soir, vous avez peut-être rencontré des difficultés pour accéder à Cachem.fr (lenteurs et inaccessibilité du site). Après une rapide analyse lundi soir (23h40), la machine virtuelle sur laquelle nous hébergeons 3 sites Web avait un statut étrange : suspendu. Après un redémarrage, tout était de nouveau opérationnel… mais des ralentissements importants sont à nouveau apparus. Quelques heures plus tard vers 2h43, le site était de nouveau inaccessible (même statut). Une fois encore, un redémarrage a permis de retrouver un service « stable » à 7h02.

Les premières investigations n’ont rien fait apparaître de particulier. Certes, il y a quelques mises à jour à faire, mais aucune explication sur les pannes répétées. Il est donc décidé à 8h00 de démarrer la mise à jour des applications. Malheureusement, tout ne se passera pas comme voulu. À 8h45, les différents sites sont à nouveau hors ligne. Plus rien ne répond, la seule solution est de tout réinstaller (y compris le système d’exploitation Debian). Pour faire au plus vite, il est décidé de changer de serveur (et d’hébergeur) avec à la clé un retour de service pour Cachem à 12h26.

La bonne nouvelle : aucun fichier, article ou commentaire n’a disparu grâce aux sauvegardes régulières. Tout est opérationnel, même s’il y a encore quelques bugs d’affichage liés à des questions de sécurité. Cela n’empêche en rien la consultation d’article ou la navigation.

Pour le Forum NAS, ce sera un peu plus long avec un retour à la normale à 14h07. Cependant, quelques messages (au moins 1) publiés entre 8h13 et 8h45 sont malheureusement perdus à jamais. Tout le reste est bien présent (images et messages), même les plus vieux messages.

Tout est opérationnel, mais il faut rester vigilant. Un changement d’hébergeur n’est pas anodin. Si les sites sont bien en ligne à ce jour, cela ne veut pas dire qu’il ne va pas y avoir un souci dans les prochaines heures/prochains jours.

Les sauvegardes de fichiers et bases de données ont permis de restaurer (relativement) rapidement les différents sites sans trop de casse. Je vais revoir ma procédure de restauration d’un site Web afin de réduire le délai. Il y a moyen de gagner encore quelques minutes précieuses. Voilà, vous savez tout de l’incident qui a perturbé Cachem et le Forum NAS aujourd’hui. Je suis sincèrement désolé de la gêne occasionnée.

À bientôt.
FX

  1. « Voilà, vous savez tout de l’incident »

    Euh non il manque les détails techniques, quel été le problème exactement ? à part dire ça marchait pas j’ai reboot, on ne sait pas qu’est-ce qui a provoqué la panne

    1. Je n’en sais pas plus : rien dans les logs. La VM figeait… Je n’ai malheureusement pas plus d’élément à te donner.

      1. Pas de soucis, c’est que je suis curieux de voir comment une infra qui ronronne peut peter sans avoir fait de changements

  2. Bravo pour la rapidité… tout réinstaller…cela arrive jamais quand on a le temps ! Merci infiniment pour les explications et d’avoir mis sur pied rapidement Cachem !

  3. bravo fx étant un lecteur occasionnel je ne m’en suis pas rendu compte mais ça doit être galère ce genre de page donc bravo pour avoir réinstallé ça si vite

  4. Merci pour tout.

    Ça fait vraiment bizarre de ne pouvoir venir lire les informations sur ton site.

    Personnellement je suis devenu accro depuis très très longtemps, avant même le lancement du forum NAS.

  5. Bravo et merci pour cette efficacité.

    Et aussi pour la démonstration de l’intérêt de disposer d’une politique de sauvegarde à toutes épreuves !

  6. Heu….pourquoi ne pas faire un backup de la vm plutot que des sites et bdd?
    Retauration ultra simple : restaurztion de la vm….

    1. Parce que :

      • La VM n’est pas chez moi
      • Outil très limité par le fournisseur
      • Pas assez d’espace de stockage (mutualisé)

      Je suis d’accord avec toi, cela aurait été idéal… mais pas possible.
      L’avantage des fichiers + BdD sauvegardés quotidiennement, c’est que ça me rend également indépendant de l’hébergeur.

  7. Bonjour,

    Possible d’avoir plus de détails techniques svp ?
    – noms des hébergeurs anciens et nouveaux
    – type d’hébergement (vps, vm sur serveur dédié,…)
    – programmes utilisés (système, serveur web, dév du site)
    – procédures de sauvegarde/reprise

    Bien sûr sans vouloir dénigrer quelque fournisseurs que ce soit.
    Personne n’est à l’abri d’un problème plus ou moins aléatoire et donc difficile à diagnostiquer/dépanner.

    Sinon merci pour votre service.

    Comme quoi on pense sauvegarde mais il faut aussi penser reprise sur incident(s).

    1. – noms des hébergeurs anciens et nouveaux
      Ikoula vers O2switch
      – type d’hébergement (vps, vm sur serveur dédié,…)
      Ancienne offre : VPS Flex’Server 3
      Nouvelle offre : Mutualisée
      – programmes utilisés (système, serveur web, dév du site)
      Ancienne offre : Debian, Plesk, Nginx, Apache, PHP, MariaDB
      Nouvelle offre : CloudLinux, Cpanel, Apache, PHP, MariaDB
      – procédures de sauvegarde/reprise
      Sauvegarde des fichiers et bases de données (dump) quotidiennement sur mon NAS Synology.
      Restauration des fichiers par transfert FTP et réinjection de la base de données. S’il n’y avait pas près de 800000 fichiers, ce serait plus rapide. Donc, il y a un zip à faire avant transfert 😉

      Comme la VM (VPS Ikoula) était en carafe, j’ai ouvert un ticket. Comme le délai était tendu et que j’avais déjà un hébergement chez O2switch : j’ai fait au plus vite.
      Je n’ai pas terminé avec Ikoula, c’est juste que j’ai fait ce qui me semblait le mieux et le plus rapide sur le moment.

  8. L’ancien hébergement était ou ? A ce jour chez o2switch de ce que je vois, ils sont plutôt stables mais présentent parfois des 502 ou des 504 (Gateway Timeout). Ne serait-ce pas un tentative de DDOS ? Activer Cloudflare en front avec les règles WAF qui vont bien pourraient permettre de limiter pas mal d’attaques.

    En tout cas, merci pour le REX, c’est transparent <3

  9. Bravo pour le retour rapide.
    Si jamais tu as besoin d’aide pour la sécurisation ou autre, n’hésite pas, les sites Web à fort traffic et leur sécurisation c’est mon dada depuis 10 ans

  10. Salut Fx ! Cette panne m’a fendu le coeur. Je passe tous les jours pour me tenir informé et je fais très attention a tes tutos qui m’ont été indispensables pour débuter sur les nas et leurs utilisations. Par contre juste un commentaire…. Sait tu ce qui à pu endommager tes données hébergées ? Ce matin encore, j’ai obtenu une erreur 429 (rate-limit).

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.