GitHub 的一次深夜中断与恢复

2024-08-15 GitHub 服务中断运维安全微软

对于全球的开发者而言，GitHub 是托管代码、协作开发的核心平台。然而，就在不久前的一个晚上，这项由微软运营的服务经历了一次罕见的长时间中断，影响了众多用户。我的理解是，这次事件并非源于外部攻击，而是与平台自身的一次内部更新直接相关。

中断的发生与初步响应

根据监测数据，中断始于美国东部时间晚上7点刚过，用户报告服务问题的数量急剧上升。大约11分钟后，GitHub 官方状态页面发布了第一条警报，确认他们正在调查关于多项服务可用性下降的报告。这标志着一次计划外服务中断的开始。

中断原因的初步指向

在中断发生约半小时后，官方状态页面更新了一条关键信息，为这次故障提供了可能的解释。他们指出，问题可能源于一次“数据库基础设施相关的更改”。这意味着，一次旨在维护或升级系统的内部操作，意外地导致了服务的大范围瘫痪。随后，团队明确表示正在努力回滚这项更改。

服务的逐步恢复过程

回滚操作启动后，服务状况开始改善。从晚上7点45分到8点26分，状态页面持续更新了恢复进展。最终，GitHub 确认已完全撤销引发问题的数据库变更，并成功减轻了影响。到晚上8点30分，官方宣布此次事件已完全解决，所有服务恢复正常运行。

事件背景与未解疑问

这次中断发生在一个值得注意的背景之下。大约两周前，微软旗下的 Microsoft 365 等服务也曾遭遇长达数小时的中断，那次事件的起因被确认为分布式拒绝服务攻击及其防御系统的连锁反应。相比之下，本次 GitHub 中断的根源似乎在于内部操作。不过，截至目前，关于那项具体的数据库变更究竟出了什么问题，尚未有更详细的公开说明。

结语

这次事件提醒我们，即使是全球最核心的开发者基础设施，其稳定运行也依赖于复杂系统内部每一次变更的精确性。从发现问题、定位原因到执行回滚恢复，GitHub 团队在数小时内完成了应对。虽然具体的技术细节尚未披露，但事件本身凸显了在持续迭代的云服务中，运维安全与变更管理所面临的持续挑战。