Canva udfald

20. januar 2025 | Miscelanea

Bag Canvas nedbrud i november 2024: Hvad gik galt, og hvad er det næste?

For nylig oplevede Canva et betydeligt strømafbrydelse, der afbrød adgangen til platformen i næsten en time, hvilket efterlod brugere verden over ude af stand til at få adgang til designværktøjet. Dette strømafbrydelse afbrød arbejdsgange for kreative fagfolk, marketingfolk og små virksomhedsejere, der er afhængige af Canva til opgaver som at oprette grafik til sociale medier, præsentationer og reklamematerialer, hvilket fremhæver den kritiske rolle, platformen spiller i den daglige drift. Fra kl. 9:08 UTC til kl. 10:00 UTC var canva.com fuldstændig utilgængelig, hvilket er en sjælden begivenhed for platformen. Denne blog dykker ned i de grundlæggende årsager til strømafbrydelsen, hvordan den udviklede sig, de øjeblikkelige skridt, der blev taget for at genoprette funktionaliteten, og de forebyggende foranstaltninger, Canva implementerer for at undgå lignende hændelser i fremtiden.

Nedbruddets anatomi

Nedbruddet skyldtes en sammenblanding af faktorer, herunder:

  • Et problem med softwareudrulningUdrulningen introducerede forbedringer af Canvas editor, herunder forbedret ydeevne for objektpaneler og yderligere funktioner til lagstyring. En uforudset fejl i implementeringspipelinen forårsagede dog kompatibilitetsproblemer med klientside-caching, hvilket bidrog til hændelsen.
  • Netværks ustabilitetCloudflare, Canvas CDN-udbyder, oplevede problemer med latenstid og pakketab på sin netværksrute mellem Singapore og Ashburn.
  • Et låseproblem i API-gatewayenEn telemetri-fejl i Canvas infrastruktur forværrede yderligere ydeevneudfordringerne.

Disse indbyrdes forbundne problemer overvældede i sidste ende Canvas API-gateway, en kritisk komponent, der håndterer godkendelse, autorisation og hastighedsbegrænsning for API-anmodninger, hvilket forårsagede en kaskadefejl, der gjorde webstedet utilgængeligt.

Hvordan hændelsen udspillede sig

Første implementering (8:47 UTC)
En ny version af Canvas editor er blevet lanceret, hvilket får klientenheder til at hente opdaterede statiske aktiver fra Cloudflares cachesystem. Blandt disse aktiver var en JavaScript-fil, der er nødvendig for at vise editorens objektpanel.

Netværkslatens opstår
Samtidig oplevede Cloudflares netværksrute fra Singapore til Ashburn en dramatisk stigning i latenstid, hvor tiden fra første byte steg med over 1700 %. Det tog op til 20 minutter at hente én kritisk JavaScript-fil, hvilket efterlod brugere i Asien ude af stand til at indlæse objektpanelet.

Overbelastning af cachestrøm
Cloudflares caching-system samlede over 270,000 anmodninger for den samme JavaScript-fil. Da filen endelig blev indlæst klokken 9:07 UTC, overvældede en "dordnende flok" på 1.5 millioner samtidige API-anmodninger Canvas API-gateway og tredoblede dens typiske spidsbelastning.

API-gateway-skjulning
Under den stigende trafik forringedes API-gatewayens ydeevne på grund af en telemetri-fejl, der forårsagede problemer med trådlåsning. Dette førte til overforbrug af hukommelse, hvilket udløste Linux Out-Of-Memory Killer og afsluttede alle opgaver, der kørte på gatewayen. Kl. 9:08 UTC var canva.com helt offline.

Afbødning af krisen

Canvas ingeniørteam reagerede med en række foranstaltninger:

  1. Skalering af API Gateway-opgaverDe første forsøg på at autoskalere opgaver mislykkedes, da nye opgaver blev overbelastet af vedvarende trafikstigninger.
  2. Blokering af trafik på CDN-niveauKl. 9:29 UTC blokerede Canva midlertidigt al trafik på CDN-laget for at stabilisere API-gatewayen.
  3. Gradvis genopretning af trafikCanva startede med australske brugere under strenge hastighedsgrænser og gendannede gradvist den globale adgang for at sikre systemstabilitet i hvert trin.

Klokken 10:00 UTC var platformen online igen.

Erfaringer og handlingsplan

For at forbedre pålideligheden og forhindre fremtidige afbrydelser har Canva skitseret øjeblikkelige og langsigtede foranstaltninger til at håndtere kritiske områder:

Med hensyn til hændelsesresponsCanva udvikler en omfattende kørselsvejledning til trafikstyring i nødsituationer og arbejder på at forbedre brugerkommunikationen ved at tilbyde tydeligere fejlsider under nedetid. For at styrke API Gateway-modstandsdygtighed, planlægger teamet at øge sin baselinekapacitet og hukommelsesallokering, implementere load-shedding-regler for bedre håndtering af trafikstigninger og udføre regelmæssig belastningstest for at simulere ekstreme scenarier.

For at adressere specifikke problemer som f.eks. telemetri-fejlCanva har installeret en programrettelse for at løse problemet med trådlåsning og forbedrer sine testprocesser for at undgå lignende komplikationer i fremtiden. opstillingsværnDer introduceres yderligere sikkerhedsforanstaltninger, herunder overvågning af sideindlæsninger, forlængelse af varigheden af ​​canary-udgivelser for bedre at kunne opdage problemer under gradvise udrulninger og tilføjelse af timeouts for anmodninger om aktiver for at undgå forlængede forsinkelser.

Endelig samarbejder Canva tæt med CloudFlare at forfine trafikrouting og caching-mekanismer, hvilket sikrer en mere gnidningsløs håndtering af situationer med høj efterspørgsel. Sammen har disse foranstaltninger til formål at styrke Canvas infrastruktur og forhindre lignende afbrydelser i at opstå igen.

En forpligtelse til gennemsigtighed

Dette strømafbrydelse markerer Canvas første offentligt delte hændelsesrapport, hvilket afspejler Canvas dedikation til gennemsigtighed og løbende forbedringer. I takt med at Canvas brugerbase vokser, vokser også Canvas engagement i at opbygge en robust infrastruktur, der understøtter Canvas mission om at give verden mulighed for at designe.

Canvas indsats for at analysere og håndtere nedbruddet understreger virksomhedens proaktive tilgang til at lære af udfordringer. Ved at implementere disse ændringer sigter Canva mod at sikre en mere robust og pålidelig platform for sine millioner af brugere verden over.

Udnyttelse af løsninger til at forhindre strømafbrydelser

Nedbrud som Canvas kan ofte afbødes eller endda helt forhindres med robuste løsninger, der er designet til at forbedre infrastrukturens robusthed. Værktøjer som f.eks. RELIANOID's højtydende proxyer og API Gateway-optimeringer tilbyder vigtige fordele, herunder realtidsbelastningsbalancering, avanceret trafikrouting og automatiserede failover-mekanismer. Ved at implementere banebrydende telemetrisystemer og hot-restart-funktioner sikrer sådanne værktøjer problemfri drift, selv under ekstreme forhold. Organisationer, der anvender disse løsninger, kan proaktivt håndtere flaskehalse i ydeevnen, forbedre hændelsesrespons og opretholde ensartet oppetid for kritiske applikationer. Kontakt os for mere information.

Relaterede blogs

Indsendt af genbruger | 30. marts 2026
Efterhånden som fartøjer bliver mere teknologisk avancerede – med digital navigation, IoT-systemer og miljømæssigt bæredygtige motorer – forbliver cybersikkerheden bag dem faretruende underudviklet. Et stigende antal stemmer fra branchen advarer om, at dette…
213 LikesComments Off om globalt overblik over maritim cybersikkerhed
Indsendt af genbruger | 26. marts 2026
I dagens digitale landskab er databrud mere end blot sikkerhedshændelser – de kan være katastrofale og føre til økonomisk ruin, tab af kundernes tillid og endda konkurs. Det nylige fald for…
270 LikesComments Off om hvorfor virksomheder skal tage databrud alvorligt
Indsendt af genbruger | 24. marts 2026
I en digital verden i konstant udvikling anvender virksomheder løbende cloudteknologier for at strømline driften, fremme innovation og forbinde sig med kunder over hele verden. Efterhånden som organisationer flytter mere af deres drift...
270 LikesComments Off Hvorfor er Cloud Security Posture Management (CSPM) vigtig for virksomheder?