Der Internet-Gigant Cloudflare berichtet, dass sein DNS-Auflösungsdienst 1.1.1.1 vor kurzem für einige seiner Kunden aufgrund einer Kombination aus Border Gateway Protocol (BGP)-Hijacking und einem Routenleck unerreichbar oder beeinträchtigt war.
Der Vorfall ereignete sich letzte Woche und betraf 300 Netzwerke in 70 Ländern. Trotz dieser Zahlen sagt das Unternehmen, dass die Auswirkungen "recht gering" waren und die Nutzer in einigen Ländern nicht einmal etwas davon bemerkten.
Details zum Vorfall
Laut Cloudflare begann Eletronet S.A. (AS267613) am 27. Juni um 18:51 UTC damit, die IP-Adresse 1.1.1.1/32 an seine Peers und Upstream-Provider zu melden.
Diese falsche Ankündigung wurde von mehreren Netzen akzeptiert, einschließlich eines Tier-1-Anbieters, der sie als Remote Triggered Blackhole (RTBH)-Route behandelte.
Der Hijack erfolgte, weil BGP-Routing die spezifischste Route bevorzugt. AS267613s Ankündigung von 1.1.1.1/32 war spezifischer als Cloudflare's 1.1.1.0/24, was dazu führte, dass Netzwerke den Verkehr fälschlicherweise zu AS267613 leiteten.
Infolgedessen wurde der für den DNS-Resolver 1.1.1.1 von Cloudflare bestimmte Datenverkehr blockiert/zurückgewiesen, so dass der Dienst für einige Benutzer nicht mehr verfügbar war.
Eine Minute später, um 18:52 UTC, ließ Nova Rede de Telecomunicações Ltda (AS262504) fälschlicherweise 1.1.1.0/24 zu AS1031 durchsickern, das es weiter verbreitete und das globale Routing beeinträchtigte.
Dieses Leck veränderte die normalen BGP-Routing-Pfade, so dass der für 1.1.1.1 bestimmte Datenverkehr fehlgeleitet wurde, was das Hijacking-Problem verschärfte und zusätzliche Erreichbarkeits- und Latenzprobleme verursachte.
Cloudflare erkannte die Probleme gegen 20:00 Uhr UTC und beendete den Hijack etwa zwei Stunden später. Das Routenleck wurde um 02:28 Uhr UTC behoben.
Aufwand für die Sanierung
Die erste Reaktion von Cloudflare bestand darin, sich mit den am Vorfall beteiligten Netzwerken in Verbindung zu setzen und gleichzeitig Peering-Sitzungen mit allen problematischen Netzwerken zu deaktivieren, um die Auswirkungen abzuschwächen und die weitere Verbreitung falscher Routen zu verhindern.
Das Unternehmen erklärt, dass die fehlerhaften Ankündigungen keinen Einfluss auf das interne Netzwerk-Routing hatten, da die Resource Public Key Infrastructure (RPKI) eingeführt wurde, die dazu führte, dass die ungültigen Routen automatisch zurückgewiesen wurden.
Zu den langfristigen Lösungen, die Cloudflare in seinem Postmortem-Beitrag vorstellte, gehören:
- Verbesserung der Leckerkennungssysteme für Strecken durch Einbeziehung weiterer Datenquellen und Integration von Echtzeitdatenpunkten.
- Förderung der Einführung einer Infrastruktur für öffentliche Schlüssel (RPKI) für die Überprüfung der Herkunft der Route (ROV).
- Förderung der Übernahme der MANRS-Grundsätze (Mutually Agreed Norms for Routing Security), die u. a. die Ablehnung ungültiger Präfixlängen und die Implementierung robuster Filtermechanismen vorsehen.
- Ermutigung der Netze, IPv4-Präfixe, die länger als /24 sind, in der Default-Free Zone (DFZ) abzulehnen.
- Befürwortung des Einsatzes von ASPA-Objekten (derzeit von der IETF ausgearbeitet), die zur Validierung des AS-Pfads in BGP-Ankündigungen verwendet werden.
- Untersuchung der Möglichkeiten zur Implementierung von RFC9234 und Discard Origin Authorization (DOA).