Panne mondiale Facebook, Messenger, Instagram & WhatsApp
Su Panodyssey puoi leggere fino a 30 pubblicazioni al mese senza effettuare il login. Divertiti 29 articles da scoprire questo mese.
Per avere accesso illimitato ai contenuti, accedi o crea un account cliccando qui sotto: è gratis!
Accedi
Panne mondiale Facebook, Messenger, Instagram & WhatsApp
Ce lundi 4 octobre 2021 vers 15h30 UTC, Facebook, Messenger, Instagram et WhatsApp sont injoignables, une nouvelle panne mondiale pour 4 des applications les plus utiliser au monde.
Cette panne majeure semble également impacter Oculus
John Graham-Cumming CTO de CloudFlare nous apportent quelques éléments d'information sur cet incident via son compte Twitter
Entre 15:50 UTC et 15:52 UTC Facebook et les sites affiliés ont disparu d'Internet dans une rafale de mise à jour BGP. Voici à quoi ça ressemble sur @CloudFlare
Environ 5 minutes avant que les DNS de Facebook cessent de fonctionner, nous avons vu un grand nombre de modifications BGP (principalement des suppressions de routes) pour l'ASN de Facebook.
Au vu de ces informations, la cause probable de cet incident est sans doute une erreur dans la configuration des annonces BGP sur les routeurs de Facebook.
Le BGP est un protocole de routage qui permet entre autres de faire fonctionner Internet. Cet article n'a pas pour but de vous expliquer dans le détail ce protocole, mais vous pouvez en apprendre un peu plus en lisant Wikipedia et cet article.
Suite à cette probable erreur de configuration, Facebook n'existe plus sur le réseau Internet. Pour faire un parallèle, c'est un peu comme si vous enleviez votre nom de votre boîte aux lettres... Pour le facteur, le destinataire n'existe plus et il ne peut pas vous remettre votre courrier. Cet exemple est plus pertinent si vous habitez dans un immeuble, puisque si vous êtes dans une habitation de type maison, a priori à ce numéro de rue il n'y a que vous.
Sur le réseau Reddit, une personne au pseudo ramenporn va dans le même sens, expliquant que le peering avec les routeurs de Facebook sont tombé. Ce dernier se présente comme un employé de Facebook faisant partie de l'équipe d'investigation et de récupération. Quelques heures après ses posts, il a tous supprimé, y compris son compte.
This is a global outage for all FB-related services/infra (source: I'm currently on the recovery/investigation team).
Sources: Reddit
Il s'agit d'une panne globale pour tous les services / infrastructure liés à FB (source : je fais actuellement partie de l'équipe de récupération/enquête)
Will try to provide any important/interesting bits as I see them. There is a ton of stuff flying around right now and like 7 separate discussion channels and video calls.
Sources: Reddit
Je vais essayer de fournir des informations importantes / intéressantes au fur et à mesure que je les vois. Il y a une tonne de chose qui se passe en ce moment comme environ 7 canaux de discussions séparés et des visios conférences.
Sources: Reddit
As many of you know, DNS for FB services has been affected and this is likely a symptom of the actual issue, and that's that BGP peering with Facebook peering routers has gone down, very likely due to a configuration change that went into effect shortly before the outages happened (started roughly 1540 UTC). There are people now trying to gain access to the peering routers to implement fixes, but the people with physical access is separate from the people with knowledge of how to actually authenticate to the systems and people who know what to actually do, so there is now a logistical challenge with getting all that knowledge unified. Part of this is also due to lower staffing in data centers due to pandemic measures.
Sources: Reddit
Comme beaucoup d'entre vous le savent, les DNS pour les services FB ont été affectés et ceci est probablement un symptôme du problème actuel, à savoir que le peering BGP avec les routeurs de peering de Facebook sont tombés, et ce, très probablement en raison d'un changement de configuration qui est entré en vigueur peu de temps avant que les pannes se sont produites (ça a commencé à environ 15H40 UTC). Il y a maintenant des gens qui essaient d'accéder aux routeurs de peering pour mettre en œuvre des correctifs, mais les personnes ayant un accès physique sont distinctes de celles qui savent comment s'authentifier réellement auprès des systèmes et des personnes qui savent quoi faire réellement, il y a donc maintenant un défi logistique avec l'unification de toutes ces connaissances. Cela est également dû en partie à la diminution du personnel dans les centres de données en raison des mesures en cas de pandémie.
Mike Schroepfer, CTO de Facebook confirme sur Twitter que l'origine de cette panne est de type réseaux et que les équipes mettent toutes en oeuvre pour débugger et rétablir les services dès que possible.
D'après Sheera Frenkel, une journaliste américaine qui se serait entretenu avec une personne travaillant chez Facebook, même l'accès aux bâtiments / bureaux n'est plus possible car les badges ne permettent pas d'ouvrir les portes.
Cet incident n'est pas sans conséquence pour Cloud Flare qui héberge un serveur DNS gratuit qui est très utilisé. Ce dernier se voit surcharger de requête pour essayer de résoudre le domaine Facebook.com, ayant pour conséquence de surcharger le réseau de Cloud Flare.
Qu'est ce qu'un serveur DNS ? En deux mots, un DNS est un système de nom de domaine dont la fonction est de traduire des noms de domaine Internet en adresse ip. Je vous donne un exemple : c'est plus facile de taper Google.com dans votre navigateur que de retenir et taper l'une de ses adresses ip 172.217.18.206. C'est un peu comme sur votre téléphone portable, vous avez le prénom et le nom de votre correspondant, vous demander à votre téléphone d'appeler cette personne et votre téléphone va composer le numéro associé à votre correspondant ... Si vous voulez en savoir plus sur le DNS, regardez sur Wikipedia.
On notera la touche d'humour de Twitter "Bonjour littéralement tous le monde", pas certains que ça fasse sourire chez Facebook.
Vous pouvez aussi lire l'article du Parisien qui sera un peu moins technique et plus orienté grand public :)
[UPDATE 5/10/2021]
L'incident s'est terminée vers 0:00 UTC, et l'ensemble des services fonctionnent à nouveau. Un post officielle sur le blog tech de Facebook semble confirmer qu'un changement dans la configuration d'un routeur du backbone est l'origine de cette panne mondiale.
Our engineering teams have learned that configuration changes on the backbone routers that coordinate network traffic between our data centers caused issues that interrupted this communication. This disruption to network traffic had a cascading effect on the way our data centers communicate, bringing our services to a halt. Our services are now back online and we’re actively working to fully return them to regular operations. We want to make clear at this time we believe the root cause of this outage was a faulty configuration change. We also have no evidence that user data was compromised as a result of this downtime.
Nos équipes d'ingénieurs ont appris que les changements de configuration sur les routeurs backbone qui coordonnent le trafic réseau entre nos centres de données ont causé des problèmes qui ont interrompu cette communication. Cette perturbation du trafic réseau a eu un effet en cascade sur la façon dont nos centres de données communiquent, entraînant l'arrêt de nos services. Nos services sont maintenant de retour en ligne et nous travaillons activement à leur retour complet. Nous voulons préciser à ce stade que nous pensons que la cause première de cette panne était un changement de configuration défectueux. Nous n'avons également aucune preuve que les données des utilisateurs ont été compromises à la suite de ce temps d'arrêt.
Ces informations officielles tendent à crédibiliser les informations précédentes qui avaient été données sur Reddit par un utilisateur se présentant comme un membre de l'équipe Facebook en charge de la résolution du problème.
Facebook a depuis communiqué sur l'incident via son blog Tech
Sources :
- https://twitter.com/jgrahamc/status/1445065270272434176
- https://www.reddit.com/r/sysadmin/comments/q181fv/looks_like_facebook_is_down/
- https://news.ycombinator.com/item?id=28748203
- https://twitter.com/sheeraf/status/1445099150316503057
- https://twitter.com/schrep/status/1445114730151043073
- https://twitter.com/Twitter/status/1445078208190291973
- https://engineering.fb.com/2021/10/04/networking-traffic/outage/