Centric connect.engage.succeed

Alleen een typefout?

Geschreven door Marco Sombroek - 13 april 2017

Marco Sombroek
Op 28 februari lag het Amazon Web Services (AWS) S3 cloud storage systeem voor vijf uur plat. De oorzaak? Een typefout. Een medewerker wilde een klein aantal servers verwijderen, maar door het invoeren van een verkeerd getal, werd er een grotere set aan servers verwijderd dan de bedoeling was. Dit had tot gevolgd dat diverse Amerikaanse websites niet beschikbaar waren: Slack, Quora, Trello, Wix, Snap, Alexa, Medium, Netflix, Reddit, Buzzfeed, Expedia, Imgur, Yahoo webmail en Runkeeper.

Amazon heeft aangekondigd maatregelen te nemen om te voorkomen dat dit probleem zich nog eens voordoet. Zo is het straks niet meer mogelijk om de belangrijkste servers te beheren via de gebruikte beheertool. Daarnaast onderzoekt Amazon hoe ze het systeem in de toekomst sneller kunnen herstarten.

Ouderwetse typemachine

Continuïteit

De vraag is of de public cloud nou werkelijk zo veel beter is dan on-premise datacenters en hoe de continuïteit kan worden gegarandeerd bij uitval van een clouddienst en/of internetverbinding. In het geval van AWS deden de problemen zich voor bij een Cloud Service Provider (CSP). Maar ook een defecte kabel (bijvoorbeeld door graafwerkzaamheden) of een Distributed Denial-Of-Service (DDOS) aanval kunnen redenen zijn van onbereikbare clouddiensten. Voor de afnemer is het van belang te weten wat de zakelijke gevolgen kunnen zijn van een dergelijke uitval en hoe de kans hierop tot een minimum beperkt kan worden.

De afnemer moet zijn ICT-infrastructuur en toepassingen onder de loep nemen. Wanneer inzichtelijk is wat de gevolgen kunnen zijn door het wegvallen van een clouddienst, kunnen beleid, processen en procedures worden bepaald om de kritiekste toepassingen zo snel mogelijk te herstellen en daarmee de schade te beperken. Het identificeren en prioriteren van de Recovery Point Objective (het maximaal toelaatbare verlies aan data in minuten, uren of dagen) en Recovery Time Objective (de hersteltijd die nodig is om applicaties en data weer beschikbaar te hebben) kunnen helpen bij het bepalen van de CSP en clouddienst.

Mogelijke oplossingen

Disaster Recovery (DR) voor clouddiensten wordt Disaster Recovery as a Service (DRaaS) genoemd. Er zijn diverse vormen van DRaaS. In sommige gevallen gaat het om niets meer dan een backup naar de cloud, wat soms BaaS wordt genoemd. In dat geval bepaalt de klant waarvan een backup wordt gemaakt. De CSP verzorgt de restore van de data. De hoeveelheid data en de gebruikte bandbreedte kunnen ervoor zorgen dat het terugplaatsen van data zoveel tijd in beslag neemt, dat het verzenden van de data op een fysieke disk per koerier sneller is. De vastgestelde Recovery Time Objective bepaalt of deze vorm van DR acceptabel is of niet.

Hybride DR-oplossing

Cloud Computing is er in diverse vormen. Het verschil zit hem met name in welke laag wordt afgenomen van de CSP (zie figuur 1). Afhankelijk van de vorm van Cloud Computing is een hybride vorm van DR/High Availability (HA) een meer of minder geschikte vorm. De uitdaging ligt hem dan met name in het verschil in architectuur van de cloudomgeving ten opzichte van de on-premise omgeving. Daarom is deze vorm van DR het geschiktst voor Infrastructure as a Service (IaaS), waarbij de CSP de hardware, software, servers, opslag en andere onderdelen van de infrastructuur host. Door het gebruik van virtuele machines en virtuele netwerken is het eenvoudiger om een vergelijkbare situatie in te richten. De opgeslagen gegevens worden van on-premise gerepliceerd naar de cloud. De synchronisatie werkt beide kanten op, zodat tijdens een calamiteit, een failover kan plaatsvinden van on-premise naar de cloud of andersom.

Vormen van Cloud Computing
Figuur 1: vormen van Cloud Computing

Cloud naar cloud

In dit geval worden er diensten afgenomen bij twee verschillende CSP’s. Deze worden met elkaar verbonden als failover-omgevingen. In zeer bedrijfskritische situaties, waarbij downtime niet of nauwelijks mogelijk is, kan dit een oplossing zijn. Net als bij de hybride oplossing kan de door de CSP’s gebruikte technologie en architectuur zodanig van elkaar verschillen, dat dit diverse beperkingen met zich meebrengt. Om die reden past deze vorm van DR het beste bij een IaaS-oplossing.  Duidelijk moet zijn hoe de datareplicatie tussen de twee diensten plaatsvindt en of data die verloren is gegaan in de ene dienst, wel beschikbaar is in de andere dienst.

Regio’s

CSP’s als Amazon en Microsoft beschikken over diverse datacenters verspreid over verschillende regio’s. Een regio bevat één of meer datacenters bij elkaar in de buurt. Wanneer data gerepliceerd is tussen verschillende regio’s kan bij het uitvallen van een regio de data alsnog worden benaderd via andere regio’s in de wereld.

Uitwijken naar andere locatie

Wanneer de clouddienst niet bereikbaar is als gevolg van stroomuitval of een kabelbreuk, kan uitwijken naar een andere vestiging of werken vanuit huis een oplossing zijn. In principe moet dit worden gezien als een noodoplossing. De snelheid van het internet kan lager liggen dan op de hoofdlocatie, waardoor traagheid in de applicatie kan ontstaan.

Conclusie

Hoewel er diverse mogelijkheden zijn voor HA en DR in de cloud, blijkt uit het voorval bij AWS dat in de cloud net zo goed een uitval kan plaatsvinden als in een on-premise datacenter. Door het afnemen van een clouddienst, wordt ook het DR-proces uit handen gegeven aan de CSP. In het geval van de uitval van 28 februari spreekt AWS alleen over een typefout. Maar je kunt ook vraagtekens zetten bij het gebruik van regio’s door AWS. Wanneer deze methode goed was ingericht, zouden de getroffen websites via andere regio’s beschikbaar gesteld moeten worden. Kwaliteitsborging is dus essentieel. Het is van belang dat een goed gedefinieerde Service Level Agreement (SLA) wordt aangegaan met de CSP. Er moet vertrouwen zijn in de CSP dat deze binnen de afgesproken hersteltijd de applicaties en data weer beschikbaar heeft.

Marco Sombroek is Craft Expert van Team Cloud binnen Craft, hét groeiprogramma voor IT'ers (powered by Centric). Wil je zijn blog volgen? Schrijf je in voor de Craft-update.

Tags:Cloud

       
Schrijf een reactie
  • Captcha image