中国微企网
电源问题和软件错误只会使AWS变得更糟AWS面临着IaaS领域日益激烈的竞争
发布日期: 2022-12-27 14:02:54 来源: 城市网

亚马逊网络服务????在整个大西洋中部地区遭受强烈风暴袭击后,周末发生了长时间停电,人们重新将注意力集中在云计算的风险以及用户如何最大程度地降低这些风险上。在蓬勃发展的基础设施即服务(IaaS)领域竞争日趋激烈之际,它也已经从亚马逊获得了希望,例如Google(例如6月份推出其Compute Engine)的公司希望抢占先机。

6月29日席卷中大西洋地区的风暴对弗吉尼亚州造成了特别严重的打击,使数十万人丧生。风暴还切断了Amazon Web Services之一的电源?(AWS)东海岸的10个数据中心,这种情况因弗吉尼亚工厂的备用电源问题以及恢复工作期间出现的意外软件问题而更加恶化。

数据中心的中断淘汰了诸如Amazon的Elastic Compute Cloud(EC2)之类的技术;中断了诸如Netflix,Instagram和Pinterest等备受瞩目的网站;并影响了在亚马逊计算云上运营其全部或部分业务的其他公司。中断发生于美国东部时间6月29日下午,影响了诸如EC2,弹性块存储(EBS)和关系数据库服务(RDS)之类的服务。


(资料图片仅供参考)

但是,根据亚马逊7月2日的分析,由于电源问题和软件错误,断电造成的情况变得更加严重。虽然AWS中有几个数据中心???美国东部1地区出现电力波动,两个数据中心遭受了巨大的电压尖峰袭击。一个数据中心按计划切换为发电机电源,但是在第二个数据中心中获取和保持备用电源仍存在问题。结果,6月29日晚上超过一个小时,用户无法在EC2中创建新实例。

亚马逊官员表示,断电影响了大约7%的EC2实例和EBS数量,尽管他们承认“这对许多客户产生了重大影响。”

使问题复杂化的是AWS所谓的“控制平面”的问题。这给试图响应服务中断并在云环境中管理其资源的客户带来了问题。在中断期间,有大量来自客户的重新启动请求,这导致了服务器启动过程中的瓶颈。此外,弹性负载平衡器(ELB)也会出现问题,这种负载平衡器用于在这种情况下将流量切换到其他未受影响的区域。恢复供电后,大量ELB处于触发我们以前未见过的错误的状态。该错误导致ELB控制平面尝试将这些ELB缩放为更大的ELB实例大小。

结果是大量的请求,再加上客户启动了新的EC2实例,所有这些都共同创建了ELB控制平面积压工作,并且很快,这些请求开始花费很长时间才能完成。亚马逊说。

问题也到达了AWS吗????受影响的数据中心中的关系数据库服务(RDS),直到EBS恢复后才能恢复。此外,另一个软件错误意味着没有自动故障转移到不受影响的区域。

AWS官员已承诺解决这些问题,包括增加现场工程人员的数量,以确保如果再次出现停电,他们可以在不间断之前手动切换到发电机的电源(如有必要)。电源(UPSes)没电了,从而改善了恢复过程并处理了阻塞,这些阻塞迫使对控制平面的评估和故障转移是手动完成的,而不是自动完成的。

对于AWS(IaaS的先驱者)而言,正确实现这一点至关重要。该公司去年遭受了一次大的服务中断,最近几个月已经经历了小规模的中断,其他Web公司正在寻求采取行动,随着企业看到不必投资的优势,该行动正在迅速被采用。建立自己的基础架构需要大量资金。相反,他们实际上可以在其他服务器和存储阵列上的云中运行业务,并把钱花在其他地方,包括产品开发和雇用员工。

Google是推广其云服务的最新网络公司之一。今年6月,该公司推出了Compute Engine这项云服务,目前仅在有限的预览中提供。谷歌高管在其谷歌I / O开发者大会上表示,该公司在其数据中心内拥有托管应用程序的强大计算能力。

停机还产生了许多博客和文章?这里找到了几种方法?概述了AWS客户如何在服务中断时避免将来出现问题的方法。

本文由用户上传,如有侵权请联系删除!

标签: 数据中心 服务中断 软件错误

资讯播报
精彩推送