Microsoft在星期一晚上遇到了一次重大停机,这影响了Microsoft 365及其相关的服务,例如Microsoft Outlook。该公司的官方健康状况页面说,用户“可能无法访问多个Microsoft 365服务”。
公司的Azure状态页是用于管理Office 365中身份的内置解决方案,它揭示了Azure Active Directory的问题。
中断影响了用户近5个小时。稍后,在其Twitter帐户的更新中,微软通过一条推文说:“我们已确定最近的更改似乎是问题的根源。我们正在回滚更改以减轻影响”。
即使回滚后,问题也没有得到解决,因为Microsoft在继续调查此问题的同时不得不将站点流量重新路由到备用基础结构。Microsoft还声称现有的Microsoft 365会话正在运行,因此用户无需关闭这些会话。
似乎是代码更改引起了问题。微软在给遭受停机影响的微软管理员的电子邮件更新中说:“代码问题导致我们的基础架构的一部分遇到延迟的身份验证请求处理,这阻止了用户访问多个M365服务。”
后来,Azure的“公共状态”库在更新中提到:“我们已将根本原因和扩展影响确定为三个独立且无关的问题的组合。
服务更新中的代码缺陷。
Azure AD安全部署系统中的工具错误影响了区域范围。
Azure AD的回滚机制中的代码缺陷,导致还原服务更新的延迟。
我们的监控会在产生初步影响的一分钟内自动检测到该问题,我们的工程团队会立即介入以进行故障排除。影响因区域负载模式而异,我们立即扩大服务范围,以帮助处理由于该问题而导致的身份验证重试而导致的数量增加。成功回滚后,于9月29日UTC确认了对大多数客户的完全恢复。我们的工程师正在参与并监视系统,以确保该系统在正常参数范围内继续运行。”
该系统现在似乎可以完全正常运行,没有任何问题。