导读 摘要 在项目管理工具Trello、新闻网站Business In内幕和图像大手笔GIFY等服务中断数小时后,亚马逊网络服务(AmazonWebServices)周二的中...
摘要 在项目管理工具Trello、新闻网站Business In内幕和图像大手笔GIFY等服务中断数小时后,亚马逊网络服务(AmazonWebServices)周二的中断是由最简单的错误造成的:一个错误。2月28日,亚马逊广受欢迎的网络托管和存储平台S3因该公司所谓的“高错误率”而崩溃,但根据最新信息,亚马逊的一名员工意外输入了错误的命令,导致大量服务器离线。3月1日,AWS网站上的一篇文章解释 在项目管理工具Trello、新闻网站Business In内幕和图像大手笔GIFY等服务中断数小时后,亚马逊网络服务(AmazonWebServices)周二的中断是由最简单的错误造成的:一个错误。
2月28日,亚马逊广受欢迎的网络托管和存储平台S3因该公司所谓的“高错误率”而崩溃,但根据最新信息,亚马逊的一名员工意外输入了错误的命令,导致大量服务器离线。
3月1日,AWS网站上的一篇文章解释道:“一名经授权的S3团队成员使用已建立的游戏手册,执行了一个命令,该命令旨在为S3计费过程中使用的S3子系统中的一个删除少量服务器。”“不幸的是,命令的一个输入输入不正确,大量服务器被移除。”
被移除的服务器支持两个其他S3子系统,包括索引子系统,该索引子系统管理该区域中所有S3对象的元数据和位置信息,并且对于处理GET、列表、PUT和DELETE请求以及放置子系统是必需的,其依赖于索引系统来分配新的存储。
从本质上讲,随着这些系统重新启动,恢复运行所需的时间比预期的要长,整个东部地区的网络就会陷入停滞。
亚马逊表示,由于这一事件,它将对其运营做出若干更改,这包括限制占用服务器的工具的容量以及提高关键S3子系统的恢复时间。
该公司表示:“我们对该工具进行了修改,以更慢地去除产能,并增加了保护措施,以防止在任何子系统低于其最低要求的容量水平时,产能被移除。”“这将防止不正确的输入在将来触发类似事件。我们也在审核我们的其他操作工具,以确保我们有类似的安全检查。
亚马逊对这次故障给用户带来的不便表示歉意,并补充道:“我们将尽一切努力从这次事件中吸取教训,并利用它进一步提高我们的可用性。”