On Oktober 20, 2025Amazon Web Services (AWS) — verdens største cloud-udbyder — led en større strømafbrydelse i dens US-EAST-1-region (Nordlige Virginia) der forstyrrede tjenester globalt i næsten 24 timer. Begivenheden understregede den kritiske afhængighed af moderne internetinfrastruktur af en enkelt cloududbyder og genoplivede diskussioner om robusthed, redundans og multi-cloud-strategier.
Hændelsesoversigt
Tilfælde: Øgede fejlrater og latenser
Region: US-ØST-1 (Nordlige Virginia)
Varighed: 19. oktober, 11:49 – 20. oktober, 3:01 (PDT)
Alvorlighed: forstyrret
Primær årsag: DNS-opløsningsfejl i DynamoDB-slutpunktet
Berørte tjenester: Over 140 AWS-tjenester, herunder EC2, Lambda, S3, DynamoDB, CloudWatch, Redshift og mere.
Tidslinje og rodårsagsanalyse
Nedbruddet begyndte sent Oktober 19, 2025, da ingeniører opdagede øgede fejlrater på tværs af flere AWS-tjenester. Indledende undersøgelser pegede på Amazon DynamoDB, en kernedatabasetjeneste, der driver adskillige interne og kundeapplikationer. 12:26 PDT, AWS identificerede, at problemet stammede fra en defekt DNS-opdatering hvilket forstyrrede endpoint-opløsningen – og ødelagde effektivt "telefonbogen", der dirigerer tjenester til deres destinationer.
DNS-fejlen udløste en kaskade af afhængige systemfejl:
- EC2-instans lanceres stoppet på grund af DynamoDB-afhængigheder.
- Sundhedstjek af netværksbelastningsbalancer mislykkedes, hvilket forårsagede tab af forbindelse på tværs af tjenester som Lambda, SQS og CloudWatch.
- IAM-opdateringer og DynamoDB globale tabeller også oplevet forsinkelser på grund af afhængighed af den berørte region.
AWS-ingeniører anvendte afhjælpende foranstaltninger parallelt: tømning af DNS-cacher, begrænsning af opstart af EC2-instanser og gradvis gendannelse af netværksforbindelsen. 2:24 PDT, det primære DNS-problem blev løst, men problemer med netværket og EC2-undersystemet fortsatte ind i morgentimene. Netværksbelastningsbalanceringstilstandsundersystem blev fuldt ud restitueret af 9:38 PDT, med endelig normalisering af tjenesten kl. 3:01 PDT.
Virkningsomfang
Virkningen var omfattende og påvirkede både virksomhedstjenester og populære forbrugerplatforme verden over. 140 AWS-tjenester var svækkede, herunder:
- Beregning og netværk: EC2, ECS, EKS, Elastisk belastningsbalancering
- Data og lagring: DynamoDB, S3, RDS, Redshift, ElastiCache
- Serverløs: Lambda, EventBridge, SQS, Step-funktioner
- Sikkerhed og administration: IAM, AWS-organisationer, CloudTrail, konfiguration
- Udvikler værktøjer: CodeBuild, Amplify, AppSync, CloudFormation
Nedbruddets rækkevidde nåede ud over AWS' kunder. Globale platforme som f.eks. Snapchat, Fortnite, Roblox, Coinbase, Venmo, Og endda Amazons egne Prime Video- og Ring-tjenester oplevede forstyrrelser. Finansielle institutioner som Lloyds og Halifax rapporterede loginproblemer, og offentlige portaler gik midlertidigt offline. Da AWS holdt ca. 33% af den globale markedsandel inden for cloud-infrastruktur, begivenhedens ringvirkninger var hidtil uset.
Lektioner i cloudafhængighed
Denne hændelse demonstrerer en central udfordring i moderne cloudarkitektur: afhængighed af én regionTrods AWS' design med flere tilgængelighedszoner forbliver mange globale systemer regionalt forankrede – især til USA-ØST-1, som er vært for adskillige kontrolplan- og globale API-slutpunkter.
Selvom der ikke var involveret et cyberangreb, afslørede hændelsen, hvordan en intern konfigurationsfejl i en enkelt grundlæggende tjeneste (i dette tilfælde DNS) kan sprede sig på tværs af afhængige systemer og lamme globale operationer.
RELIANOIDs perspektiv: Opnåelse af ægte høj tilgængelighed med GSLB
At RELIANOID, mener vi, at robusthed i cloud-miljøer skal gå ud over redundans inden for en enkelt udbyder. Global serverbelastningsbalancering (GSLB) Løsningen sikrer kontinuerlig tilgængelighed, selv når en større cloududbyder eller region oplever et nedbrud.
Hvordan RELIANOID GSLB hjælper med at forhindre sådanne afbrydelser
- Multi-cloud og multi-regionskontinuitet: GSLB distribuerer intelligent trafik på tværs af uafhængige regioner eller udbydere (f.eks. AWS, Azure, GCP, on-premise), hvilket sikrer servicekontinuitet under regionale eller udbyderniveaufejl.
- Sundhedsovervågning i realtid: Kontinuerlige slutpunktskontroller muliggør automatisk omdirigering af trafik til sunde noder, hvilket minimerer nedetid under hændelser som DNS- eller API-slutpunktsfejl.
- Intelligent DNS-belastningsbalancering: RELIANOID's DNS-baserede GSLB løser dynamisk klientanmodninger til optimale datacentre, hvilket mindsker risici knyttet til DNS-fejlkonfiguration eller udbredelsesforsinkelser.
- Problemfri failover og gendannelse: Med politikker som vægtet round robin, latensbaseret routing og geolokationsbevidsthed opretholder GSLB servicekonsistens og minimerer afbrydelser selv i komplekse implementeringer i flere regioner.
Implementering af GSLB som en del af en bredere strategi for høj tilgængelighed afkobler forretningskritiske applikationer fra de operationelle afhængigheder hos en enkelt udbyder. Uanset om et problem stammer fra DNS-løsning, netværkstilstandstjek eller interne API-fejl, leverer GSLB en transparent mekanisme til automatisk failover og kontinuerlig brugeroplevelse.
Konklusion
AWS US-EAST-1 nedbrud i oktober 2025 fungerer som en stærk påmindelse: Selv de mest avancerede cloudinfrastrukturer kan fejle. Ægte robusthed kræver arkitektonisk uafhængighed, proaktive failover-mekanismer og intelligent global load balancing.
RELIANOIDs GSLB leverer denne robusthed – og hjælper organisationer med at sikre oppetid, pålidelighed og tillid, uanset hvor den næste afbrydelse opstår.
Lær mere om GSLB og strategier med høj tilgængelighed.