HackerNews 03月26日
Cloudflare R2 服务故障由密码轮换错误引发
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cloudflare的R2对象存储及相关服务出现故障,全球部分写入和读取请求失败,此次故障由凭证轮换操作失误引发,虽未致数据丢失,但部分服务降级。Cloudflare采取措施防止类似事件再次发生。

🌐Cloudflare R2服务出现1小时7分钟故障,全球100%写入请求和35%读取请求失败。

🚫故障原因是凭证轮换操作失误,新凭证错部署,旧凭证删除后生产服务无有效凭证。

📋Cloudflare采取改进凭证记录验证、强制自动化部署等措施防止类似事件再发生。

💪此前R2服务2月也曾因人为错误故障1小时,促使Cloudflare计划实施额外措施。

HackerNews 编译,转载请注明出处:

Cloudflare宣布,其R2对象存储及相关服务出现了一次持续1小时7分钟的故障,导致全球100%的写入请求和35%的读取请求失败。

Cloudflare R2是一种可扩展的、与S3兼容的对象存储服务,具有免费的数据检索、多区域复制以及与Cloudflare的紧密集成等特点。

此次故障发生在UTC时间21:38至22:45之间,据称是由一次凭证轮换操作导致R2网关(API前端)失去对后端存储的认证访问权限所引发的。

具体而言,新凭证被错误地部署到了开发环境而非生产环境,而当旧凭证被删除后,生产服务便失去了有效的凭证。

问题的根源在于遗漏了一个命令行标志’–env production’,这导致新凭证被部署到了生产R2网关工作程序而非生产工作程序。

R2网关工作程序认证示意图(图片来源:Cloudflare)

由于问题的性质以及Cloudflare服务的工作方式,这一错误配置并未立即显现,导致修复工作进一步延迟。

“R2可用性指标的下降是逐渐的,并非立即显而易见,因为之前凭证删除到存储基础设施的传播存在延迟,”Cloudflare在其事件报告中解释道。

“这导致我们最初发现问题存在延迟。在更新旧凭证集后,我们不应依赖可用性指标,而应明确验证R2网关服务用于认证R2存储基础设施的令牌。”

尽管此次事件未导致客户数据丢失或损坏,但仍造成了部分或全部服务降级,影响了以下服务:

为防止类似事件在未来再次发生,Cloudflare改进了凭证日志记录和验证,并强制使用自动化部署工具,以避免人为错误。

公司还正在更新标准操作程序(SOP),要求对凭证轮换等高影响操作进行双重验证,并计划增强健康检查,以便更快地发现根本原因。

Cloudflare的R2服务在2月也曾因人为错误导致1小时的故障。

当时,一名操作员在处理有关服务中钓鱼URL的滥用报告时,关闭了整个R2网关服务,而不是仅阻止特定端点。

由于缺乏对高影响操作的安全保障和验证检查,导致了此次故障,促使Cloudflare计划并实施额外措施,以改进账户配置、更严格的访问控制以及对高风险操作的两方批准流程。

 


消息来源:Bleeping Computer 

本文由 HackerNews.cc 翻译整理,封面来源于网络;  

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cloudflare R2 服务故障 凭证轮换 防范措施
相关文章