Push-Nachrichten von MacTechNews.de
Würden Sie gerne aktuelle Nachrichten aus der Apple-Welt direkt über Push-Nachrichten erhalten?

Weshalb die iCloud-Dienste am Dienstagabend ausfielen

Eine der am schnellsten wachsenden Sparten in Apples Angebotsportfolio ist die Webdienste-Sparte. Zu ihr gehören etwa die verschiedenen Online Stores, iCloud, Apple Pay, Karten, iMessage und vieles mehr. Der neuralgische Punkt dabei ist die Abhängigkeit von Servern in Rechenzentren. Wenn es dort Probleme gibt, kann ein ganzer Dienst für eine Weile zusammenbrechen.

Genau dies hatte sich am Dienstagabend ereignet. App Store, Mac App Store, Apple Music und diverse iCloud-Dienste versagten etwa eine halbe Stunde lang komplett ihren Dienst (MTN berichtete: ). Der Grund war ein schwerwiegender Ausfall der S3-Server von Amazon Web Services (AWS), auf die Apple bei diesen Diensten setzt. In einer schriftlichen Stellungnahme hat sich Amazon nun für den Vorfall entschuldigt und erklärt, wie es dazu kommen konnte.



Mitarbeiter-Fehler
Demzufolge war der Ausfall die Folge eines menschlichen Fehlers, nicht des Systems an sich. Im Abrechnungssystem von S3 war es zu Verzögerungen gekommen, weswegen ein Mitarbeiter eine Standardprozedur zur Kontrolle vornehmen wollte. Dabei sollten gewisse Subsysteme abgeschaltet werden, doch versehentlich fuhr er mehr Server herunter als geplant. Das beeinträchtigte weitere Subsysteme, darunter das Index-Subsystem, von dem viele andere Teile abhängen.

Als Reaktion mussten die Mitarbeiter einen Neustart des Gesamtsystems veranlassen, angeblich zum ersten Mal seit vielen Jahren. Dieser dauerte wegen des enormen Wachstums von AWS länger als erwartet. In dieser Zeit waren alle Dienste, die auf AWS-Servern beruhen, nicht mehr erreichbar. Das »Service Health Dashboard«, welches Kunden den Status der Server anzeigen sollte, gab keinerlei Hinweise auf dem Ausfall - weil auch dieses von den S3-Servern in den USA abhängig ist.

„Wir werden alles tun, um von diesem Vorfall zu lernen und die Verfügbarkeit noch weiter zu verbessern“, verspricht Amazon im Rahmen der Entschuldigung. Künftig soll das Abkoppeln von Servern und damit die Verringerung der Kapazität, langsamer vonstattengehen, damit Fehler dabei rechtzeitig erkannt werden können. Außerdem möchte der Konzern zusätzliche Sicherheitsmechanismen einbauen, um eine minimale Kapazität zu gewährleisten.

Lieber eigene Server?
Der Vorfall dürfte Apple darin bestärken, mehr auf eigene als auf fremde Server zu setzen. An vielen Orten baut der Konzern selbst Serverfarmen. In Europa sind beispielsweise Standorte in Dänemark und Irland geplant, wenngleich der Baubeginn auf der Insel immer wieder verzögert wurde (MTN berichtete: ).

Weiterführende Links:

Kommentare

chill
chill03.03.17 09:45
"Der Vorfall dürfte Apple darin bestärken, mehr auf eigene als auf fremde Server zu setzen"

Weil bei Apple ja alles 100% rund läuft. Selten so gelacht
MBP M1 256/16 Monterey 12.1 . iPhone 11 128 GB, iOs 15.2
+2
BlueVaraMike
BlueVaraMike03.03.17 09:46
Ich arbeite selbst in einem Rechenzentrum und trotz zahlreicher Workshops, Schulungen, Notfalltests usw. ist jede Situation anders, weil sehr komplex! Checklisten bei Notfallsituationen helfen, aber auch nur bedingt.
Meist liegt der Fehler wo ganz anders, als man zu Anfang vermutet hat.
Das kann so weit gehen, dass am Ende externer Support (zur selben Zeit in Japan!) gewisse Hard- und Softwaresituationen/Konstellationen nachstellt, um bei der Fehleranalyse zu helfen.
... und dann stellt sich heraus, dass bei einer nur ganz bestimmten Situation, der Microcode eines HD-Controllers zu "spinnen" angefangen hatte.
(hatten wir erst unlängst)
Es wurde extra ein Microcode Update gefertigt und eingespielt. Problem gelöst.

Deshalb ist Kommunikation intern, wie extern, sehr wichtig.

Deshalb liebe ich meinen Beruf, weil er eben oft auch sehr komplex ist.
😊
Do what you want, but harm no one!
+11
Jethro100003.03.17 09:54
BlueVaraMike
Ich arbeite selbst in einem Rechenzentrum und trotz zahlreicher Workshops, Schulungen, Notfalltests usw. ist jede Situation anders, weil sehr komplex! Checklisten bei Notfallsituationen helfen, aber auch nur bedingt.
Meist liegt der Fehler wo ganz anders, als man zu Anfang vermutet hat.
Das kann so weit gehen, dass am Ende externer Support (in Japan!) gewisse Hard- und Softwaresituationen/Konstellationen nachstellt, um bei der Fehleranalyse zu helfen.
... und dann stellt sich heraus, dass bei einer nur ganz bestimmten Situation, der Microcode eines HD-Controllers zu "spinnen" angefangen hatte.
(hatten wir erst unlängst)
Es wurde extra ein Microcode Update gefertigt und eingespielt. Problem gelöst.

Deshalb ist Kommunikation intern, wie extern, sehr wichtig.

Und (auch) deshalb liebe ich meinen Beruf, weil er eben oft sehr komplex ist.
😊

totally agree

Besser hätte ich es auch nicht kommentieren können und deshalb liebe ich auch meinen Job
+1
BlueVaraMike
BlueVaraMike03.03.17 09:59
Danke, und wenn man noch bedenkt, wie schnell alles wächst in diesem Bereich, dann versteht man auch, wie lange es oft dauert, Maschinen und deren Services neu zu starten.
😊

Ich glaube, näher gehe ich jetzt nicht ins Detail, denn das darf ich nicht.
(Du bestmmt auch nicht)
Do what you want, but harm no one!
0
tranquillity
tranquillity03.03.17 10:15
Hier etwas zu den wirtschaftlichen Folgen: (zeit.de)
+1
BlueVaraMike
BlueVaraMike03.03.17 10:55
Und genau deshalb ist es auch unverantwortlich, hier immer nur einer Person die Verantwortung bei solchen Problmen zu überlassen.
Do what you want, but harm no one!
0
kommunikatio
kommunikatio03.03.17 10:59
Eigene Apple-Server bedeuten eigene Apple-Fehler. Will man das?
Außerdem zeigt der Vorfall wie schnell es "unbeabsichtigt" zu großen Vorfällen kommen kann. In diesem Fall in einem eher unkritischen System.
Es gibt keinen tieferen Sinn.
+3
chill
chill03.03.17 11:09
So viele Leute die nix über ihren Beruf sagen oder dürfen. Ich gehöre auch dazu.
MBP M1 256/16 Monterey 12.1 . iPhone 11 128 GB, iOs 15.2
0

Kommentieren

Sie müssen sich einloggen, um die News kommentieren zu können.