Die Störung betraf eine der kritischsten Sicherheitsfunktionen in der Microsoft-Cloud-Infrastruktur: das Einrichten von Multi-Faktor-Authentifizierung und der Zugriff auf das MySignIn-Portal. Der Fehlercode MO1329260 wurde in der Admin-Konsole dokumentiert, wodurch Administratoren und Benutzer identifizieren konnten, ob ihre Organisation betroffen war.
Microsoft reagierte schnell und schaltete betroffene Systeme auf alternative, funktionierende Infrastruktur um. Dies ist eine bewährte Best-Practice bei Cloudanbietern, um Ausfallzeiten zu minimieren. Das Unternehmen überwachte anschließend die Service-Telemetrie kontinuierlich, um sicherzustellen, dass alle Systeme wieder vollständig hergestellt waren.
Die Ursache ließ nicht lange auf sich warten: Microsoft identifizierte eine kürzliche Cache-Konfigurationsänderung als Auslöser. Während der automatischen Umschaltung erlebte der MySignIn-Dienst extreme CPU- und Speicherauslastung, insbesondere weil der europäische Datenverkehr zu diesem Zeitpunkt Spitzenwerte erreichte. Dies führte dazu, dass der Service das Anfragevolumen nicht mehr verarbeiten konnte — ein klassisches Szenario bei Infrastruktur-Engpässen in Cloud-Umgebungen.
Für deutsche Organisationen unterstreicht dieser Vorfall, wie wichtig redundante Systeme und Disaster-Recovery-Pläne sind. Das BSI und der Bundesbeauftragte für Datenschutz (BfDI) betonen regelmäßig, dass Unternehmen ihre IT-Systeme mit ausreichender Ausfallsicherheit gestalten müssen. Der Ausfallfall zeigt auch die Risiken von zentralisierten Cloud-Abhängigkeiten: Wenn ein kritischer Service bei Microsoft ausfällt, können deutsche Unternehmen und Behörden nicht auf lokale Alternativen ausweichen.
Microsoft bestätigte später, dass alle Mitigationsmaßnahmen rückgängig gemacht wurden und der Datenverkehr zur ursprünglichen Infrastruktur zurück migriert wurde. Dies war der sichere Weg, um die Stabilität wiederherzustellen. Dass der Konzern zeitgleich mit anderen Service-Unterbrechungen wie Teams-Free-Ausfällen und Outlook-Problemen kämpfte, illustriert, dass auch bei großen Tech-Anbietern Fehler in Konfigurationen zu Kettenreaktionen führen können.
