Gestörte Anmeldung an Cloud-Diensten: Microsoft legt erste Analyse vor

Gestörte Anmeldung an Cloud-Diensten: Microsoft legt erste Analyse vor

Am Montagabend kam es weltweit zu Störungen bei der Anmeldung an Cloud-Diensten von Microsoft. Davon betroffen waren viele geschäftlich genutzte Dienste wie Microsoft Teams oder SharePoint. Europäische Kunden hatten Glück im Unglück, dass die Störung in den Abendstunden auftrat und bis zum Dienstagmorgen weitgehend behoben war. Die Störung betraf allerdings auch die Dienste, die mit persönlichen Microsoft-Konten verknüpft sind, sodass beispielsweise einige Gamer während des Ausfalls keinen Zugang zu Xbox Live hatten.

Nun hat Microsoft eine erste Analyse zu diesem Vorfall veröffentlicht (via ZDnet). Demnach kam es beim routinemäßigen Austausch der Schlüssel, mit denen die Anmeldung abgesichert wird, zu einem Fehler, der dazu führte, dass ein eigentlich noch gültiger Schlüssel als ungültig markiert bzw. gelöscht wurde.

Microsofts Azure Active Directory Authentifizierung basiert auf OpenID. Die zugehörigen Schlüssel werden turnusmäßig durchrotiert, ungültig gewordene Schlüssel werden anschließend gelöscht, um Missbrauch vorzubeugen und die Systeme sauber zu halten. Einer dieser Schlüssel, dessen Verfallsdatum erreicht war, sollte allerdings erhalten bleiben, weil er Teil eines komplexen Migrationsprojekts war. Die routinemäßige Löschung aber ignorierte die entsprechende Kennzeichnung und löschte den Schlüssel.

Der Fehler passierte am Montagabend um 20 Uhr deutscher Zeit. Da die Authentifizierung über viele Server verteilt ist, welche sich die zentral hinterlegten Schlüsseldaten in regelmäßigen Abständen abholen, trat die Störung nicht auf einen Schlag auf, sondern begann sich langsam auszuwachsen. Nach kurzer Zeit registrierten die Techniker den schnellen Anstieg der gescheiterten Anmeldungen und realisierten, dass es sich um einen Fehler handeln muss. Nachdem der fälschlicherweise gelöschte Schlüssel als Ursache identifiziert war, wurde ein Rollback auf den vorherigen Zustand eingeleitet der kurz nach 22 Uhr abgeschlossen war. Bis die Daten auf allen Servern wieder synchron waren, vergingen allerdings weitere 12 Stunden, weil teilweise ein manueller Refresh durchgeführt werden musste.

Den letzten Ausfall dieser Art gab es im September 2020. Seither hat Microsoft eine Reihe von Maßnahmen vorbereitet, um sich gegen künftige Fälle dieser Art abzusichern, schreibt man in der Analyse. Die bereits in der Umsetzung befindlichen Maßnahmen würden auch eine Störung wie diese in Zukunft verhindern helfen, heißt es.

Artikel im Forum diskutieren (0)

Über den Autor
Martin Geuß
  • Martin Geuß auf Facebook
  • Martin Geuß auf Twitter
Ich bin Martin Geuß, und wie unschwer zu erkennen ist, fühle ich mich in der Windows-Welt zu Hause. Seit mehr als zwölf Jahren lasse ich die Welt an dem teilhaben, was mir zu Windows und anderen Microsoft-Produkten durch den Kopf geht, und manchmal ist das sogar interessant. Das wichtigste Motto meiner Arbeit lautet: Von mir - für Euch!
Nach oben