HackerNews 02月08日
Cloudflare 封堵网络钓鱼 URL 时操作失误引发大规模故障
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cloudflare的R2对象存储平台因员工在处理网络钓鱼URL时操作失误,意外关闭了整个R2网关服务,导致大规模故障。此次事故持续59分钟,不仅影响了R2存储本身,还波及Stream、Images、Cache Reserve等多个服务,造成视频上传失败、图像无法下载、源请求增加等问题。Cloudflare承认人为错误及防护措施不足是关键原因,并已采取紧急修复措施,未来还将加强账户配置和访问控制。

🛑 **人为失误引发故障**: Cloudflare员工在处理网络钓鱼URL时,错误地关闭了整个R2网关服务,而非特定端点,这是导致此次大规模故障的直接原因。

💥 **多项服务受到影响**: 故障持续59分钟,影响了包括Stream(视频上传和流媒体传输)、Images(图像上传/下载)、Cache Reserve等关键服务,导致服务完全或部分瘫痪。

🛡️ **即时修复与未来改进**: Cloudflare已采取措施,如移除滥用审查界面中关闭系统的能力,并限制内部账户的服务禁用。未来还将改进账户配置、加强访问控制,并实施高风险操作的双人审批流程。

HackerNews 编译,转载请注明出处:

Cloudflare 在其 R2 对象存储平台中试图封堵一个网络钓鱼 URL 时出现失误,引发了一场大规模故障,导致多个服务在近一个小时内瘫痪。

Cloudflare R2 是一种类似于亚马逊 S3 的对象存储服务,旨在提供可扩展、耐用且低成本的数据存储。它提供免费的数据检索、S3 兼容性、跨多个地点的数据复制以及 Cloudflare 服务集成。

故障发生在昨天,当时一名员工响应了一起关于 Cloudflare R2 平台中网络钓鱼 URL 的滥用报告。然而,该员工并未封堵特定端点,而是错误地关闭了整个 R2 网关服务。

Cloudflare 在事后分析中解释道:“在一次常规的滥用补救过程中,由于处理投诉时的失误,意外禁用了 R2 网关服务,而非与报告相关的特定端点/存储桶。” “这是多个系统级控制(首先是)和操作员培训的失败。”

该事件持续了 59 分钟,从世界协调时 08:10 到 09:09,除了 R2 对象存储本身外,还影响了以下服务:

还有一些间接影响的服务出现了部分故障,例如 Durable Objects,由于恢复后的重新连接,其错误率增加了 0.09%;Cache Purge 错误增加了 1.8%(HTTP 5xx),延迟飙升了 10 倍;Workers & Pages 的部署失败率为 0.002%,仅影响具有 R2 绑定的项目。

Cloudflare 指出,人为错误以及缺乏诸如高影响操作的验证检查等防护措施是此次事件的关键原因。

这家互联网巨头现已实施了即时修复措施,例如在滥用审查界面中移除关闭系统的能力,以及在管理 API 中对内部账户的服务禁用进行限制。

未来还将实施的额外措施包括改进账户配置、更严格的访问控制,以及对高风险操作的双人审批流程。

2024 年 11 月,Cloudflare 曾经历另一次长达 3.5 小时的显著故障,导致服务中 55% 的日志不可逆丢失。

那次事件是由 Cloudflare 日志处理管道中的一个关键组件被错误配置引发的级联故障。

 


消息来源:Bleeping Computer, 编译:zhongx; 

本文由 HackerNews.cc 翻译整理,封面来源于网络;  

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cloudflare R2对象存储 故障 人为失误 网络安全
相关文章