服务器之家:专注于服务器技术及软件下载分享
分类导航

云服务器|WEB服务器|FTP服务器|邮件服务器|虚拟主机|服务器安全|DNS服务器|服务器知识|Nginx|IIS|Tomcat|

服务器之家 - 服务器技术 - 云服务器 - 因服务器过热,AWS日本区一小部分EC2停机

因服务器过热,AWS日本区一小部分EC2停机

2022-07-12 16:09未知服务器之家 云服务器

AWS近日披露了关于《Amazon EC2 以及 Amazon EBS 在东京区域 (AP-NORTHEAST-1) 的服务事件》的说明,以下为披露的原文,供各位参考。 针对在东京区域 (AP-NORTHEAST-1) 的服务中断事件,我们在这里提供更多信息。从 2019 年 8 月 23 日 11:36 AM C

AWS近日披露了关于《Amazon EC2 以及 Amazon EBS 在东京区域 (AP-NORTHEAST-1) 的服务事件》的说明,以下为披露的原文,供各位参考。

 

 

针对在东京区域 (AP-NORTHEAST-1) 的服务中断事件,我们在这里提供更多信息。从 2019 年 8 月 23 日 11:36 AM CST (中国标准时间)开始,一小部分的 EC2 服务器在东京 (AP-NORTHEAST-1) 区域中单一可用区 (Availability Zone) 由于服务器过热造成停机。这导致在该可用区中受到影响的 EC2 实例与 EBS 卷效能降低。造成服务器过热的原因是控制系统故障,造成受影响的可用区的部分冷却系统失效。

 

受到影响的冷却系统已经在 2:21 PM CST (中国标准时间)修复,服务器温度也恢复到正常状态。在温度恢复正常后,EC2 实例的电源供应也已恢复。

 

在 5:30 PM CST (中国标准时间) ,大部分受影响的 EC2 实例与 EBS 卷都恢复正常工作,但仍有一小部分的实例与卷因为过热与断电暂时无法修复,因为底层硬件的故障,其中有些实例与卷需要更多的时间进行修复。

 

除了 EC2 实例与 EBS 卷受到影响外,在 12:21 PM CST (中国标准时间) EC2 RunInstances API 也受到了影响。在受影响的可用区中,尝试启动新的 EC2 实例和和尝试使用 RunInstances API 的 "idempotency token" 功能 (一个允许用户启动新的实例时重试而不会产生多余的实例的功能)时,也有发生错误。其他没有调用 "idempotency token"的 API 则可正常运作。

 

这个事件也导致透过 "idempotency token" 使用 Auto Scaling 时,无法启动新实例。

 

后台团队已经于 1:51 PM CST (中国标准时间) 修复了 “idempotency token” 与 Auto Scaling 相关的问题。并且于 3:05 PM CST(中国标准时间)在受影响的可用区中,修复了EC2 控制面板的子系统,开启新实例的功能已经可以正常工作。但在本事件中受到影响的卷所建立的新快照 (Snapshot) 依旧有一定的错误率。

 

本次事件是由于数据中心负责控制和优化冷却的控制系统故障所造成,这个控制系统在多个主机都有部署以实现高可用性,本控制系统中包含了允许与风扇、冷却器和温度传感器等硬件组件相互传递信号的第三方的程序,该程序可以直接或透过 Programmable Logic Controllers (PLC) 来与实际的硬件组件沟通。

 

在这事件发生前,数据中心的控制系统正在为了其中一台失效的控制主机进行备份处理,在备份处理中,控制系统要彼此互相交换信号 (例如:冷却装置与温度传感器交换信号)以保持最新的信息。由于该第三方程序中的一个错误,导致控制系统与组件过度的进行信息交换而造成控制系统无法回应。

 

我们的数据中心被设计成一旦控制系统发生错误,冷却系统就会自动进入最冷的模式,直到控制系统恢复正常为止,这样的设计对于我们大部分的数据中心都是有效的,但有一小部分的数据中心,由于冷却系统无法正确进入安全降温模式,而造成系统关机。

 

 

我们的数据中心加入了安全防护设计,在控制系统故障时,可以略过控制系统,直接进入净空模式将数据中心中的热空气迅速排出,但控制中心的团队在启动净空模式时发生了故障,所以数据中心的温度才会持续攀升,而服务器在到达温度上限后也开始自动关机了。

 

由于数据中心的控制系统故障,维运团队无法得知数据中心冷却系统的即时信息,在进行故障排除时,团队必须要对所有组件进行逐一的人工检查,才能让控制系统进入最冷模式,在这故障排除的过程中,发现控制空调组件的 PLC 控制器无法回应,控制器需要进行重置,是 PLC 控制器的错误造成了预设的冷却模式与净空模式无法正确动作,在 PLC 控制器被重置之后,该可用区数据中心的冷却系统就可以正常工作了,而数据中心的过高的温度也开始慢慢降低。

 

我们仍在与第三方供应商合作以了解导致控制系统和受影响的 PLC 无响应的错误和后续交互。 在此期间,我们已禁用在我们的控制系统上触发此错误的故障转移模式,以确保我们不会再次出现此问题。

 

 我们还培训了我们的本地运营团队,以便在发生这种情况时快速识别和修复这种情况,并且我们相信,如果再次发生类似情况,无论什么原因,我们可以在客户受影响之前重置系统。 最后,我们正在努力修改我们控制受影响的空气处理单元的方式,以确保“清除模式”能够完全绕过PLC控制器。

 

这是我们在最新的数据中心设计中开始使用的一种方法,即使 PLC 无响应,我们也会更加确信“清除模式”将起作用。

 

在这次事件中,EC2 实例以及 EBS 储存在同一区域的其它的可用区没有受到影响。同时在多个可用区上充分执行他们的应用程序的客户,在这次的事件中依然可以维持服务可用。对于需要绝对高可用的客户,我们持续建议您使用高可用性的架构设计。任何与应用程序相关的元件都应该采用这种容错设计。

延伸 · 阅读

精彩推荐
  • 云服务器阿里云服务器进入黑洞应该怎么办?

    阿里云服务器进入黑洞应该怎么办?

    今天遇到一个客户,他服务器被DDos进到了阿里云黑洞。黑洞是什么?云服务器遭受 DDOS 攻击,进入黑洞了,该怎么办?下面赵一八笔记慢慢道来。...

    赵一八笔记9192021-07-23
  • 云服务器云服务器适合用来做哪些业务?

    云服务器适合用来做哪些业务?

    云服务器相对物理服务器来说,拥有诸多优势,其中最明显的优势在于可以随意选配,基于大规模分布式云计算系统,通过虚拟化技术整合服务器资源,你...

    IT16810082022-02-12
  • 云服务器公有云和私有云的区别 如何搭建云存储

    公有云和私有云的区别 如何搭建云存储

    名字的改变不会改变其本质,它仍然是一种能提供更好服务的存储架构技术。我们不得不承认的是,不管选择的是哪个品牌的产品,企业都会受益于所选择...

    比特网7432019-06-16
  • 云服务器云服务器使用CDN与高防ip有什么区别?

    云服务器使用CDN与高防ip有什么区别?

    云服务器的使用或多或少难以避免被攻击,那么我们要怎么来提前进行预防,那么,在安全防护上,云服务器使用CDN与高防IP有什么区别呢?...

    服务器之家3492020-09-12
  • 云服务器微软收购Movere,加大Azure云迁移能力

    微软收购Movere,加大Azure云迁移能力

    微软在上个礼拜宣布,为了进一步增强Azure的迁移能力,已收购云迁移服务公司Movere。虽然双方没有公布交易细节,但是有一点可以确定,Azure将因此获得更...

    未知2022022-07-12
  • 云服务器云服务器有什么优势?

    云服务器有什么优势?

    云计算的快速发展,源于云计算的扩展性强,易用性,而且价格相对于物理服务器更加优惠。所有越来越受到青睐。那现在服务器之家小编给大家讲述一下...

    服务器之家11092021-03-30
  • 云服务器VPS跟云服务器的区别是什么?

    VPS跟云服务器的区别是什么?

    云计算、云服务的迅速崛起,不少网站站长从VPS服务器转向云服务器,他们选择的原因是什么呢?看中了云服务器的哪些优点?二者的区别又是什么呢?...

    服务器之家11972021-07-29
  • 云服务器云服务器哪家好?根据需求选配置才最好

    云服务器哪家好?根据需求选配置才最好

    面对云服务器哪家好这个问题,我们可以通过分析来判断哪家云服务器比较好,服务器之家认为根据自身需求去匹配和选择更适合自己、更实惠的云服务器...

    服务器之家3632020-11-19