Cloudflare 在为期两天的故障后所有服务均已恢复至运行状态。

省流助手:

Cloudflare 三个核心机房之一的 PDX-04 机房由于电路故障下线。

在 PDX-04 机房中,其中一家电力公司断电,机房电力由其他线路和发电机同时供电。

随后由于变压器出现接地故障跳闸,机房的供电被切断,服务器由 UPS 供电。

跳闸导致门禁系统失效,维修人员无法进入机房,随后 UPS 电池耗尽,整个数据中心停电。

由于部分核心服务只在 PDX-04 机房上运行,从而导致 Cloudflare 多个服务出现故障。

虽然我们尚未得到官方确认,但员工告诉我们,有三件事阻碍了发电机重新上线。首先,由于接地故障导致电路跳闸,因此需要对它们进行物理访问并手动重新启动。其次,Flexential 的门禁系统没有备用电池供电,因此处于离线状态。第三,现场的夜班人员不包括经验丰富的操作或电气专家——夜班人员包括保安和一名只上岗一周的无人陪伴的技术人员。

详情请看:Cloudflare 的 Control Plane 和 Analytics 中断的事后分析

via 自留地
 
 
Back to Top
OKHK