谷歌现在已经向客户提供了6月2日星期日所谓的“灾难性故障”的全面技术细分, 中断了长达四个半小时的服务。网络问题影响了YouTube,Gmail和Google Cloud用户,例如Snapchat和Vimeo。

本周早些时候,谷歌的工程副总裁 Benjamin Treynor Sloss向客户道歉,承认它已经“远远超过公司预期从配置事故引发的情况中恢复”,这导致YouTube流量下降10%,而且谷歌云存储流量的百分比下降。该事件还影响了超过10亿Gmail用户中的1%。
该公司现已对发生故障,谁受到影响,以及为什么Google工程师在几分钟内检测到的配置错误导致数小时中断,主要影响北美用户的技术细分。
“客户可能会遇到更多延迟,间歇性错误以及连接丢失到我们的实例 - central1,us-east1,us-east4,us-west2,northamerica-northeast1和southamerica-east1。我们在west1中的Google Cloud实例,谷歌在其技术报告中称,并且所有欧洲地区和亚洲地区都没有出现区域网络拥堵。
在这些地区发生事件时受影响的Google云平台服务包括Google Compute Engine,App Engine,云端点,云互连,云VPN,云控制台,Stackdriver指标,Cloud Pub / Sub,Bigquery,区域Cloud Spanner实例以及云存储区域桶。这些地区的G Suite服务也受到影响。
谷歌再次向客户道歉,并称其采取“立即措施”来提升性能和可用性。
受影响的大牌客户包括Snapchat,Vimeo,Shopify,Discord和Pokemon GO。
简单的解释是,针对一个区域中的一小组服务器的配置更改被错误地应用于跨多个相邻区域的大量服务器。这导致受影响地区的可用容量不到一半。
谷歌现在表示其自动化软件中的软件错误也在起作用:
“两个通常良性的错误配置和一个特定的软件错误,结合起来中断:首先,受影响区域中的网络控制平面作业及其支持基础架构被配置为在面对维护事件时停止。
“其次,运行网络控制平面的集群管理软件的多个实例被标记为有资格包含在特定的,相对罕见的维护事件类型中。
“第三,启动维护事件的软件有一个特定的错误,允许它同时解决多个独立的软件集群,即使这些集群位于不同的物理位置,也是如此。”
至于减少的网络容量,谷歌表示其保护网络可用性的方法在这种情况下不利于它,“导致我们的服务和用户观察到的网络容量显着减少,以及一些谷歌云区域无法访问”。
正如Sloss的帐户中首次披露的那样,Google工程师在“开始后两分钟”检测到失败并发起了响应。然而,新报告称调试“因使用现在拥挤的网络而竞争工具失败而受到严重阻碍”。
尽管谷歌拥有庞大的资源和备份计划,其中包括“工程师前往安全设施以抵御灾难性最严重的故障”,但这种情况仍然存在。
此外,谷歌通信工具的损坏使工程师无法识别对客户的影响,从而妨碍他们与客户准确沟通的能力。
谷歌现已暂停其数据中心自动化软件,该软件负责在维护工作期间重新安排工作。在确保它不会同时在多个物理位置取消计划作业之后,它将重新启用此软件。
谷歌还计划审查其应急响应工具和程序,以确保他们能够胜任类似网络故障的任务,并且仍然能够准确地与客户沟通。它指出,验尸仍处于“相对早期阶段”,未来可能会发现进一步的行动。
“Google的应急响应工具和程序将进行审核,更新和测试,以确保它们对此类网络故障具有鲁棒性,包括我们与客户群进行通信的工具。此外,我们还将持续的灾难恢复测试机制扩展到包括这个和其他类似的灾难性失败,“谷歌说。
至于影响,最糟糕的服务影响是美国西部地区的谷歌云存储,其中桶的错误率为96.2%,其次是南美东部,其中错误率为79.3%。
谷歌云互联受到严重影响,受影响地区的报告丢包率从10%到100%不等。

