AWS-afbrydelsesanalyse – Lektioner i cloud-robusthed og GSLB's rolle

5. november 2025 | Miscelanea

On Oktober 20, 2025Amazon Web Services (AWS) — verdens største cloud-udbyder — led en større strømafbrydelse i dens US-EAST-1-region (Nordlige Virginia) der forstyrrede tjenester globalt i næsten 24 timer. Begivenheden understregede den kritiske afhængighed af moderne internetinfrastruktur af en enkelt cloududbyder og genoplivede diskussioner om robusthed, redundans og multi-cloud-strategier.

Hændelsesoversigt

Tilfælde: Øgede fejlrater og latenser
Region: US-ØST-1 (Nordlige Virginia)
Varighed: 19. oktober, 11:49 – 20. oktober, 3:01 (PDT)
Alvorlighed: forstyrret
Primær årsag: DNS-opløsningsfejl i DynamoDB-slutpunktet
Berørte tjenester: Over 140 AWS-tjenester, herunder EC2, Lambda, S3, DynamoDB, CloudWatch, Redshift og mere.

Tidslinje og rodårsagsanalyse

Nedbruddet begyndte sent Oktober 19, 2025, da ingeniører opdagede øgede fejlrater på tværs af flere AWS-tjenester. Indledende undersøgelser pegede på Amazon DynamoDB, en kernedatabasetjeneste, der driver adskillige interne og kundeapplikationer. 12:26 PDT, AWS identificerede, at problemet stammede fra en defekt DNS-opdatering hvilket forstyrrede endpoint-opløsningen – og ødelagde effektivt "telefonbogen", der dirigerer tjenester til deres destinationer.

DNS-fejlen udløste en kaskade af afhængige systemfejl:

  • EC2-instans lanceres stoppet på grund af DynamoDB-afhængigheder.
  • Sundhedstjek af netværksbelastningsbalancer mislykkedes, hvilket forårsagede tab af forbindelse på tværs af tjenester som Lambda, SQS og CloudWatch.
  • IAM-opdateringer og DynamoDB globale tabeller også oplevet forsinkelser på grund af afhængighed af den berørte region.

AWS-ingeniører anvendte afhjælpende foranstaltninger parallelt: tømning af DNS-cacher, begrænsning af opstart af EC2-instanser og gradvis gendannelse af netværksforbindelsen. 2:24 PDT, det primære DNS-problem blev løst, men problemer med netværket og EC2-undersystemet fortsatte ind i morgentimene. Netværksbelastningsbalanceringstilstandsundersystem blev fuldt ud restitueret af 9:38 PDT, med endelig normalisering af tjenesten kl. 3:01 PDT.

Virkningsomfang

Virkningen var omfattende og påvirkede både virksomhedstjenester og populære forbrugerplatforme verden over. 140 AWS-tjenester var svækkede, herunder:

  • Beregning og netværk: EC2, ECS, EKS, Elastisk belastningsbalancering
  • Data og lagring: DynamoDB, S3, RDS, Redshift, ElastiCache
  • Serverløs: Lambda, EventBridge, SQS, Step-funktioner
  • Sikkerhed og administration: IAM, AWS-organisationer, CloudTrail, konfiguration
  • Udvikler værktøjer: CodeBuild, Amplify, AppSync, CloudFormation

Nedbruddets rækkevidde nåede ud over AWS' kunder. Globale platforme som f.eks. Snapchat, Fortnite, Roblox, Coinbase, Venmo, Og endda Amazons egne Prime Video- og Ring-tjenester oplevede forstyrrelser. Finansielle institutioner som Lloyds og Halifax rapporterede loginproblemer, og offentlige portaler gik midlertidigt offline. Da AWS holdt ca. 33% af den globale markedsandel inden for cloud-infrastruktur, begivenhedens ringvirkninger var hidtil uset.

Lektioner i cloudafhængighed

Denne hændelse demonstrerer en central udfordring i moderne cloudarkitektur: afhængighed af én regionTrods AWS' design med flere tilgængelighedszoner forbliver mange globale systemer regionalt forankrede – især til USA-ØST-1, som er vært for adskillige kontrolplan- og globale API-slutpunkter.

Selvom der ikke var involveret et cyberangreb, afslørede hændelsen, hvordan en intern konfigurationsfejl i en enkelt grundlæggende tjeneste (i dette tilfælde DNS) kan sprede sig på tværs af afhængige systemer og lamme globale operationer.

RELIANOIDs perspektiv: Opnåelse af ægte høj tilgængelighed med GSLB

At RELIANOID, mener vi, at robusthed i cloud-miljøer skal gå ud over redundans inden for en enkelt udbyder. Global serverbelastningsbalancering (GSLB) Løsningen sikrer kontinuerlig tilgængelighed, selv når en større cloududbyder eller region oplever et nedbrud.

Hvordan RELIANOID GSLB hjælper med at forhindre sådanne afbrydelser

  • Multi-cloud og multi-regionskontinuitet: GSLB distribuerer intelligent trafik på tværs af uafhængige regioner eller udbydere (f.eks. AWS, Azure, GCP, on-premise), hvilket sikrer servicekontinuitet under regionale eller udbyderniveaufejl.
  • Sundhedsovervågning i realtid: Kontinuerlige slutpunktskontroller muliggør automatisk omdirigering af trafik til sunde noder, hvilket minimerer nedetid under hændelser som DNS- eller API-slutpunktsfejl.
  • Intelligent DNS-belastningsbalancering: RELIANOID's DNS-baserede GSLB løser dynamisk klientanmodninger til optimale datacentre, hvilket mindsker risici knyttet til DNS-fejlkonfiguration eller udbredelsesforsinkelser.
  • Problemfri failover og gendannelse: Med politikker som vægtet round robin, latensbaseret routing og geolokationsbevidsthed opretholder GSLB servicekonsistens og minimerer afbrydelser selv i komplekse implementeringer i flere regioner.

Implementering af GSLB som en del af en bredere strategi for høj tilgængelighed afkobler forretningskritiske applikationer fra de operationelle afhængigheder hos en enkelt udbyder. Uanset om et problem stammer fra DNS-løsning, netværkstilstandstjek eller interne API-fejl, leverer GSLB en transparent mekanisme til automatisk failover og kontinuerlig brugeroplevelse.

Konklusion

AWS US-EAST-1 nedbrud i oktober 2025 fungerer som en stærk påmindelse: Selv de mest avancerede cloudinfrastrukturer kan fejle. Ægte robusthed kræver arkitektonisk uafhængighed, proaktive failover-mekanismer og intelligent global load balancing.

RELIANOIDs GSLB leverer denne robusthed – og hjælper organisationer med at sikre oppetid, pålidelighed og tillid, uanset hvor den næste afbrydelse opstår.

Lær mere om GSLB og strategier med høj tilgængelighed.

Relaterede blogs

Skrevet af reluser | 18. februar 2026
Nedetid i den finansielle sektor er mere end blot en ulempe. Det er en dyr og omdømmeskadelig begivenhed, der truer kundernes tillid og institutionel stabilitet. Nylige undersøgelser anslår, at nedetid koster…
131 LikesComments Off om hvorfor finansielle institutioner skal beskytte sig mod nedetid
Skrevet af reluser | 03. februar 2026
At RELIANOID, forstår vi, at i dagens hyperforbundne verden er digitale forsyningskæder kun så sikre som deres svageste led. Fra lønsystemer og fildelingsplatforme til HR-værktøjer og…
222 LikesComments Off om hvordan RELIANOID Tager ekstreme foranstaltninger for at håndtere tredjepartsrisici
Indsendt af genbruger | 29. januar 2026
Det globale finansielle økosystem er fortsat under konstant pres fra cyberkriminelle, der aktivt undersøger svagheder i sektorens stærkt sammenkoblede infrastruktur. Finansielle institutioner er afhængige af store netværk af tredjeparts...
267 LikesComments Off om nye cybertrusler, der påvirker det nuværende finansielle økosystem