Am Puls von Microsoft

Microsoft 365: Falsche Konfiguration führte zu Ausfall von Teams und weiteren Diensten

Microsoft 365: Falsche Konfiguration führte zu Ausfall von Teams und weiteren Diensten

In der letzten Woche kam es zu einem Ausfall von Microsoft Teams und weiteren Diensten, die zum Microsoft 365 Ökosystem gehörten. Teams war am stärksten betroffen und in manchen Regionen kaum noch nutzbar. Insgesamt fünf Stunden dauerte die Störung, die „hausgemacht“ war, wie Microsoft nun erklärt.

In der hiesigen Region dürfte der Ausfall weniger scherwiegende Folgen gehabt haben, da er am 21. Juli gegen 3 Uhr morgens begann und nach etwa fünf Stunden wieder behoben war. Dementsprechend war der asiatische Raum laut Microsofts Aufarbeitung (via Bleepingcomputer) am stärksten betroffen.

Auslöser war eine Fehlkonfiguration im Enterprise Configuration Service (ECS). Solche Konfigurationsänderungen werden von einem Server zum nächsten über die gesamte Infrastruktur verteilt. Bei Fehlern, die idealerweise nie passieren, sich aber eben dennoch nicht vermeiden lassen, wird man so immerhin aufmerksam, bevor es zu einem generellen Blackout kommt.

In Microsofts Stellungnahme heißt es:

‎Eine Bereitstellung im ECS-Dienst enthielt einen Codefehler, der die Abwärtskompatibilität mit Diensten beeinträchtigte, die ECS nutzen. Das Endergebnis war, dass für Dienste, die ECS verwenden, falsche Konfigurationen an alle seine Partner weitergegeben wurden.‎

‎Dies führte dazu, dass nachgelagerte Dienste eine Statusmeldung „200“ erhielten (was darauf hinweist, dass die Anfrage erfolgreich war), aber tatsächlich ein fehlerhaftes JSON-Objekt enthielt.‎

‎Das Ausmaß der Auswirkungen hing davon ab, wie einzelne Microsoft-Dienste die von ECS bereitgestellte fehlerhafte Konfiguration verwenden. Die Auswirkungen führten zu abstürzenden Diensten wie Teams, während andere Dienste nur begrenzte bis gar keine Auswirkungen hatten.‎

Neben Teams waren auch noch Dienste wie Exchange Online, Windows 365 und Office Online betroffen. Aus seinen Telemetriedaten hat Microsoft herausgelesen, dass etwa 300.000 Teams-Anrufe aufgrund der Störung unterbrochen wurden oder nicht stattfinden konnten.

Es dürfte also „menschliches Versagen“ gewesen sein. Microsoft schreibt zwar, dass man Vorkehrungen treffen werde, um eine Wiederholung zu vermeiden, weil man das nach einer solchen Störung logischerweise sagen muss, aber letztlich lassen sich solche Vorfälle niemals ausschließen. Vielleicht habe ich in diesem Punkt mehr Verständnis als andere, weil ich selbst jahrelang an solchen sensiblen Schaltstellen gearbeitet habe, wo ein kleines Missgeschick fatale Auswirkungen haben kann – und mir ist mehr als eines passiert.

Über den Autor

Martin Geuß

Martin Geuß

Ich bin Martin Geuß, und wie unschwer zu erkennen ist, fühle ich mich in der Windows-Welt zuhause. Seit 15 Jahren lasse ich die Welt an dem teilhaben, was mir zu Windows und anderen Microsoft-Produkten durch den Kopf geht, und manchmal ist das sogar interessant. Das wichtigste Motto meiner Arbeit lautet: Von mir - für Euch!

Anzeige