Globalna awaria AWS: techniczne post‑mortem, wzorce branżowe i wnioski dla architektury IT

Awaria AWS z 20 października 2025 – analiza największej katastrofy infrastruktury chmurowej w tym roku i wnioski dla architektury IT 

20 października 2025 r. świat przypomniał sobie, jak wielką część Internetu podtrzymuje pojedynczy filar: region US‑EAST‑1 platformy Amazon Web Services. Od wczesnych godzin porannych czasu wschodniego (ok. 03:11 ET) AWS raportował podwyższone błędy i opóźnienia w wielu usługach, a źródłem problemu okazały się błędy rozwiązywania nazw DNS dla punktów API usługi DynamoDB w regionie N. Virginia. Po kilku godzinach AWS ogłosił „pełne złagodzenie” problemu z DNS, jednak wtórne perturbacje (m.in. w EC2 odpowiedzialnym za uruchamianie instancji i w Network Load Balancer health checks) - wydłużyły skutki incydentu do godzin popołudniowych.  

Skala oddziaływania była totalna: niedostępne lub mocno ograniczone były usługi takich gigantów jak m.in. Snapchat, Reddit, Zoom, Signal, Fortnite, Venmo, a okresowo także Amazon.com, Prime Video, Alexa i Ring. W szczycie odnotowano miliony zgłoszeń w DownDetector, a analitycy mówili o szkodach idących w miliardy.  

Jak doszło do jednej z największych awarii w historii publicznej sieci? Poniżej przedstawiamy techniczny przebieg zdarzeń, analizę przyczynowo‑skutkową, przegląd analogicznych awarii w chmurze publicznej i - co najważniejsze - praktyczne wnioski architektoniczne z perspektywy inżynierów infrastruktury i sieci. 

Co dokładnie się wydarzyło - techniczne post‑mortem 

1) Punkt zapalny: DNS → DynamoDB w US‑EAST‑1 

AWS zidentyfikował „podwyższone błędy” w DynamoDB wynikające z problemu z rozwiązywaniem DNS do endpointów API w regionie N. Virginia. Gdy DNS nie może przetłumaczyć nazwy na adres IP, aplikacje traktują usługę jak niedostępną, mimo że same serwery mogą być zdrowe - to klasyczny „fail‑open na DNS”, który skutkuje obserwowalną niedostępnością łańcucha zależności.  

2) Kaskada zależności w kontrol‑ i data‑plane 

Zerwana łączność z DynamoDB dotknęła szereg usług zależnych (IAM aktualizacje, Global Tables, elementy Lambda, CloudTrail), a równolegle subsystem EC2 odpowiedzialny za uruchamianie instancji oraz health‑checki Network Load Balancerów były zdegradowane. To utrudniło auto‑skaling reaktywny aplikacji i wydłużyło odzyskiwanie sprawności. AWS celowo dławił (throttling) niektóre operacje (np. uruchamianie EC2, mapowania SQS→Lambda), by uniknąć przeciążenia podczas „rozplątywania” zaległych żądań.  

3) Oś czasu i przywracanie 

AWS zastosował pierwsze działania zaradcze po ok. 2 godzinach, raportując „znaczące oznaki odnowy”, a o 02:24 PDT (11:24 CET) ogłosił pełne złagodzenie błędu DNS. Pełny powrót usług do normalnej pracy AWS potwierdził o 15:01 PT (00:01 CET następnego dnia), przy czym część usług („Config”, „Redshift”, „Connect”) czyściła jeszcze zaległe komunikaty. 

4) Dlaczego awaria DNS w jednej strefie zainfekowała usługi wszędzie? 

Region US‑EAST‑1 to historycznie największy i najstarszy region AWS, który pełni rolę „nerwu” dla wielu funkcji kontrol‑plane o charakterze globalnym. Błąd w warstwie nazw (DNS) dla krytycznego komponentu (DynamoDB API) uderza więc nie tylko w lokalne workloady, ale też w globalne ścieżki zarządzania, co tłumaczy wpływ na usługi w innych regionach. 

Czy to się już zdarzało? Przegląd podobnych awarii w chmurach 

  • AWS, US‑EAST‑1 – 2017/2021/2023/2025: Region Virginia bywa „Achillesową piętą” globalnego ekosystemu ze względu na koncentrację usług i zależności kontrol‑plane; tegoroczna awaria znów to potwierdziła.  
  • Akamai, 2021 – DNS/edge: Błąd u dostawcy DNS/CDN wywołał globalne przerwy w największych serwisach - pokrewna dynamika single control point, massive blast radius.  
    Microsoft Azure – incydenty DNS i konfiguracji: W przeszłości Azure notował przestoje powiązane z DNS i BGP, co podkreśla, że żaden hyperscaler nie jest odporny na błędy w warstwie kontrolnej.  
  • CrowdStrike, 2024 (inny charakter): Choć to nie chmura IaaS, globalny „single‑update” pokazał, jak centralizacja i zależność łańcuchów dostaw potrafi zdestabilizować gospodarkę.  

Wniosek: Dzisiejsza chmura publiczna zapewnia rewelacyjną dostępność, ale incydenty – gdy już do nich dochodzi - mają ogromny promień rażenia z racji koncentracji ruchu i zależności. Eksperci stworzyli z resztą na to osobtny termin określając tę niebezpieczną sytuację mianem concentration risk.  

Czy takie awarie będą częstsze? 

Tempo wzrostu obciążeń (AI/LLM, intensywny edge, eksplozja nowych DC w Data Center Alley) wraz ze złożonością zmian operacyjnych zwiększa powierzchnię ryzyka błędów konfiguracyjnych i zatorów w kontrol‑plane. Nie oznacza to lawiny awarii co tydzień, ale ryzyko „rzadkich, lecz dużych” zdarzeń pozostaje, a niektórzy analitycy wskazują, że wraz z gwałtownym skalowaniem AI/akceleratorów może ono rosnąć. Dlatego właściwą odpowiedzią jest inżynieria odporności po stronie klienta (nie tylko poleganie na SLA dostawcy).  

Co mogło ograniczyć skutki: wzorce odporności 

  1. Wieloregionowość z rozproszoną niezależnością 
    Samo rozłożenie po AZ‑kach w US‑EAST‑1 nie wystarcza, gdy zależność dotyczy kontrol‑plane lub usług globalnych związaną z tym regionem. Potrzebny jest drugi region prymarny z niezależnym zestawem zasobów danych/sekretów, osobnymi ścieżkami CI/CD i routowalną zmianą DNS/traffic‑managera na poziomie organizacji.  
  2. Warm standby / active‑active między chmurami (multi‑cloud) - tam, gdzie to uzasadnione 
     W krytycznych przepływach (autoryzacja, koszyk, płatności, kluczowe API) uzasadniony bywa aktywny drugi tor w innej chmurze lub – najlepiej - on‑prem, aby odciąć concentration risk. Koszty i złożoność rosną - ale tak samo rośnie wartość RTO (Recovery Time Objective - Docelowy Czas Przywrócenia) i RPO (Recovery Point Objective - Docelowy Punkt Przywrócenia). 
  3. Odporne wzorce w kliencie: exponential backoff, circuit breakers, DNS caching z krótkim TTL i „fail‑closed” 
     Wiele wtórnych skutków wynikało z kaskad retry i zatorów. Dobrze zaprojektowane limity, budżety błędów i backpressure ograniczają falę wtórnych awarii.

Własna infrastruktura jako element strategii odporności (i kosztów): kiedy ma sens? 

W naszej analizie nie proponujemy „ucieczki z chmury”. Proponujemy świadomy miks: krytyczne komponenty i stabilne, przewidywalne obciążenia można trzymać we własnej infrastrukturze - jako drugi tor lub pierwszy wybór - redukując koncentrację ryzyka i TCO w horyzoncie 3-5 lat. 

Kluczowe plusy dobrze zaprojektowanego on‑prem: 

Skalowalność w górę i w dół – na Twoich warunkach 
 W chmurze skala „w górę” jest banalna - „w dół” bywa trudne przez commitmenty, rezerwacje i opłaty operacyjne. On‑prem pozwala na elastyczne „right‑sizing” klastrów (np. power‑save, hibernacja węzłów, elastyczne pule GPU/CPU), bez karnych kosztów za de‑prowizję. To krytyczne dla sezonowości (retail, media, eventy) i dla workloadów ML po szkoleniu modeli. (Mechanizmowo: HCI, vSphere/KVM, automatyka power profiles, bare‑metal pool). 

Bezpieczeństwo i suwerenność danych 
 Dla danych PII, medycznych, finansowych czy IP, lokalna kontrola domeny zaufania (własny KMS/HSM, segmentacja sieci, brak współdzielenia płaszczyzny zarządzania) upraszcza zgodność i inspekcję łańcucha zaufania — bez niejawnych zależności regionów/control‑plane. Incydent AWS pokazał, że globalne kontrol‑plane potrafi być wspólną zależnością wielu usług.  

Niższy koszt całkowity (TCO) dla przewidywalnych obciążeń 
 Przy stabilnym, wysokim i przewidywalnym użyciu (np. ERP, DWH z cyklem nocnym, render farmy, inference na krawędzi), koszt kapitałowy + amortyzacja + energia + wsparcie często wygrywają z ciągłym abonamentem na usługi zarządzalne i transfer. Dodatkowo usuwamy „podatki” za egress i niektóre zarządzane komponenty. 

Komfort operacyjny i przewidywalność 
 „Własność” kontrol‑plane eliminuje pewną klasę ryzyk: centralne awarie u dostawcy nie zatrzymują logistyki, CI/CD, czy mechanizmów autoskalowania - bo nie ma zależności transchmurowych w krytycznych ścieżkach. Incydent z 20.10 dobitnie to pokazał, że takie podejście jest niewrażliwe na takie awarie a podmiot posiadający własną infrastrukturę staje się jednym z nielicznych którzy nieprzerwanie dostarczają swoją wartość i usługi, gdy inni mają z tym problem. I – bez jakiejkolwiek możliwości wpływu na zainstniałą sytuację - czekają na naprawę awarii po stronie prowidera.  

Integracja z chmurą na Twoich zasadach 
 Nic nie stoi na przeszkodzie, by hybrydyzować: burst do chmury na piki, S3‑compatible obiekty on‑prem jako origin of truth, chmura jako DR (lub odwrotnie). Kluczem jest projekt ruchu (Anycast/DNS/GLB) i asymetria danych (np. read‑heavy offload do CDN/chmury, write‑primary lokalnie). 

Ważne natomiast by pamiętać, iż on‑prem wymaga dyscypliny operacyjnej (monitoring, capacity planning, lifecycle sprzętu). W zamian daje jednak przewidywalność kosztów i redukcję concentration risk, który właśnie zmaterializował się w AWS.  

Jak może pomóc Hardware Direct 

Jeśli rozważają Państwo włączenie własnej infrastruktury do strategii odporności (lub jej modernizację), zespół Hardware Direct projektuje, dostarcza i uruchamia fizyczną architekturę serwerową. Chętnie przygotujemy architekturę referencyjną i model TCO pod konkretny profil obciążeń - tak, by połączyć komfort chmury z kontrolą i odpornością własnego środowiska.