Le 7 mars, le site officiel tailscale.com de Tailscale, un fabricant VPN bien connu basé sur WireGuard, a été interrompu pendant environ 90 minutes en raison de l'expiration de son certificat TLS .
Bien que l’impact ait été limité, l’incident a déclenché des discussions et des réflexions animées sur des forums tels que Hacker News.
Les internautes ont exprimé leurs opinions les uns après les autres. Smackeyacky a déploré : « Je l'ai dit une fois, et je le répète maintenant : l'expiration des certificats est devenue la première cause d'interruptions de service dans la nouvelle ère. »
Bradfitz, co-fondateur de Tailscale, a également répondu immédiatement sur Hacker News, présentant la cause de l'incident et le processus de réponse. Il s'est avéré qu'ils ont procédé à une migration de site Web à grande échelle en décembre de l'année dernière, qui impliquait la reconstruction de l'architecture sous-jacente, la résolution du nom de domaine et d'autres aspects. Afin de prendre en charge IPv6, ils ont également spécialement construit des serveurs proxy supplémentaires.
Mais ce qui est inattendu, c’est que ce changement apparemment inoffensif a en réalité planté les racines du désastre. Étant donné que le serveur proxy a mis fin à la connexion TLS et que la configuration DNS a été négligente, le système de surveillance n'a pas réussi à détecter l'avertissement indiquant que le certificat avait expiré à temps. Bradfitz a admis que cet incident a révélé que l'équipe avait encore beaucoup de marge d'amélioration dans la gestion du changement et l'évaluation des risques.
Croyez-vous à cette vague de « justifications » ? Voyons ce que disent les internautes.
j45 a soulevé une question : si IPv6 est si important, pourquoi avez-vous choisi un fournisseur qui ne le supportait pas du tout ? Bradfitz n'a pu que sourire amèrement et a déclaré qu'il n'y avait pas de consensus au sein de l'entreprise sur cette question.
lmeyerov a souligné que les scripts et documents clés ne devraient pas être placés sur la page marketing, ce qui équivaut à une « perte de réputation ».
Ce qui est encore plus intéressant, c’est que tout le monde a des suggestions sur les prochaines étapes de Tailscale. amluto leur a suggéré de passer à un proxy TCP afin de pouvoir utiliser pleinement la méthode d'authentification HTTP de Let's Encrypt. L'idée d'agwa est encore plus audacieuse : **Voulez-vous essayer de renouveler automatiquement le certificat chaque jour ? **Bien qu'il soit possible de prolonger le délai d'expiration en toute sécurité, le déploiement de mises à jour aussi fréquentes ne devrait pas être difficile, n'est-ce pas ?
Que de paroles et pas de pratique, comment Tailscale envisage-t-il de briser la situation ? Bradfitz a déclaré qu'en plus des améliorations de surveillance mentionnées précédemment, ils prévoient également de simplifier davantage la topologie du réseau et de réduire le recours à des solutions spéciales. Parallèlement, afin d'étouffer les problèmes dans l'œuf, des relances mensuelles devraient être mises en place à la manière des « anciens » et disposer d'un personnel dédié pour les surveiller afin d'éviter d'être « fini » à l'expiration du certificat.
Mais Bradfitz a également ajouté avec confiance : l’objectif de conception de Tailscale est de créer une architecture maillée flexible. Même si le plan de contrôle est occasionnellement ventilé, l'état de connexion de l'utilisateur ne sera pas affecté. Cet accident vient de confirmer leurs avantages.
La réponse de Tailscale peut cette fois être décrite comme un « manuel » dans le domaine des infrastructures. Ils n'ont pas hésité à s'attaquer aux choses insignifiantes ni à blâmer les autres, mais ont eu le courage d'assumer leurs responsabilités ; ils ne se sont pas précipités pour arranger les choses et faire les choses de façon superficielle, mais ont réfléchi profondément et touché l'essentiel. Cette attitude ouverte, honnête et tolérante mérite d’être apprise par chaque équipe technique.
Revenant sur cet incident, l'auteur estime que les problèmes exposés par Tailscale ne sont en aucun cas un cas isolé. À l’ère actuelle d’itération rapide, toute plate-forme connaîtra inévitablement des rebondissements d’une sorte ou d’une autre. Mais l’essentiel est de toujours être vigilant, respectueux du professionnalisme et attentif aux détails. Une mauvaise pensée peut être le point de départ d’une interruption d’activité et d’une atteinte à la réputation.
Le design « en disgrâce » mérite particulièrement d’être surveillé. Lorsqu'une page ou un service apparemment discret devient le « livre de vie ou de mort » de l'ensemble du système, nous devons y prêter une attention particulière. Doit-il être correctement découplé ? Cela nécessite-t-il une optimisation particulière ? Ce n’est qu’en prenant des précautions que nous pourrons réduire l’impact des événements « cygne noir ».
Pour les startups, la technologie est importante, mais elles doivent aussi prêter attention à la situation globale. **Quel est le véritable besoin ? Que peut-on simplifier ? **Les architectes doivent constamment se poser des questions comme celle-ci. Suivre aveuglément les soi-disant « meilleures pratiques » et créer un tas de trucs « d'or et de jade mais de mauvaises choses à l'intérieur », c'est mettre la charrue avant les bœufs.
Dans l’ensemble, la « porte de certificat » de Tailscale a tiré la sonnette d’alarme pour nous : la sécurité et la disponibilité sont le fondement de tout . Ce n'est que grâce à une conception soignée et une attitude rigoureuse que nous pourrons gagner la confiance des utilisateurs. Je pense que Tailscale peut tirer les leçons de cet incident, adopter une attitude plus mature et professionnelle, créer un service véritablement résilient et continuer à prospérer dans le domaine VPN.
Bien que Tailscale ait subi une interruption de service de 90 minutes en raison d'un certificat TLS expiré, cela n'a fait que mettre en évidence l'un de ses avantages : la plupart des utilisateurs ont été à peine affectés. L'architecture distribuée de Tailscale rend les connexions client indépendantes du fait qu'un nœud central soit toujours en ligne. Cette conception flexible est ce qui distingue Tailscale des VPN traditionnels. Une brève panne du service central n’annule pas la valeur de Tailscale, mais met en évidence sa bonne tolérance aux pannes.
Linus a pris sur lui d'empêcher les développeurs du noyau de remplacer les tabulations par des espaces. Son père est l'un des rares dirigeants capables d'écrire du code, son deuxième fils est directeur du département de technologie open source et son plus jeune fils est un noyau open source. contributeur. Robin Li : Le langage naturel deviendra un nouveau langage de programmation universel. Le modèle open source prendra de plus en plus de retard sur Huawei : il faudra 1 an pour migrer complètement 5 000 applications mobiles couramment utilisées vers Java, qui est le langage le plus enclin . vulnérabilités tierces. L'éditeur de texte riche Quill 2.0 a été publié avec des fonctionnalités, une fiabilité et des développeurs. L'expérience a été grandement améliorée. Bien que l'ouverture soit terminée, Meta Llama 3 a été officiellement publié. la source de Laoxiangji n'est pas le code, les raisons derrière cela sont très réconfortantes. Google a annoncé une restructuration à grande échelle.