ShowMeAI 04月09日 18:02
AI电力紧缩时代即将到来:能源!能源!还是TM的能源!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了AI的能源需求,包括LLM的训练与推理能耗,以及数据中心的建设与发展情况。还提到了能源短缺、新型能源研究、社会代价等问题,数据主要指向美国。

🎯AI能源需求分为训练和推理两类,训练耗能巨大,推理累积能耗可观

💻数据中心规模扩大、能耗增加,将成为未来主流,大型科技公司投资建设

🌍美国新项目获电力供应需等待4年,企业研究新型清洁能源,电价上涨

💧数据中心耗水大户,选址受多种因素影响,部分公司放弃碳中和承诺

原创 南乔River 2024-10-15 00:01 北京

与LLM能源需求最密切的40个/组关键数据

ShowMeAI

专业◎洞察◎清晰◎实用

用知识加速每一次技术进步!

推荐语

本期日报的主题是「AI与能源


这真的是一个,,很复杂的话题 🙍‍

资料又多又杂,千头万绪,看到想吐

直到!Latent Space「GPU泡沫破裂」长文刷屏


我第一反应竟然是算耗能数据?!

灵光一闪😉,把之前的工作推翻重来

整理了40个/组 LLM 能耗核心数据 📊


再多的泡沫,再大的牛皮

终归要回到现实世界

希望这些数据,能帮你更快更准确地捕获真相


注意!本文数据主要指向美国

想要了解数据更多计算细节,或是全球报告&分析,请拉至文末获取相关链接。

公众号菜单栏底部有星球入口
添加南乔 (AhaNanQiao) 好友进社群!


 

能耗单位科普

太瓦 TW = 1000 GW吉瓦 GW = 1000 MW兆瓦 MW = 1000 kW
千瓦 kW = 1000 W

kW是电功率单位,kWh是电能单位。

1kWh (千瓦时) 就是功率为1kW的设备在1小时内生产或消耗的电能,也就是我们通常说的1度电。

X条暴论 | 电力紧缩,数据中心建设热潮,算力降价,AI超级大国…

6个月内,数据中心建设延期这类新闻将频繁出现。主要原因不外乎液冷系统不完善集群规模不足电力供应不足

最晚明年 (2025年),电力短缺就会戳破泡沫,展露出无情的现实:数据中心根本找不到足够的电力,来支撑所有芯片运转。

美国新项目 (包括数据中心) 需要排队等待电力供应,等待时间预计为 4 年

 

挡住 Transformer (大模型) 前路的,恰恰也是 transformers (电力系统变压器)。

这个地狱笑话来自 Elon Musk:My not-that-funny joke is that you need transformers to run transformers...


2025年是数据中心建设之年。

这将刺激实体经济,集中体现在钢铁、能源、运输和建筑等行业。也将加速能源革命,缩短技术突破和商业应用的周期,例如太阳能、电能、核能。

总电力需求达到 GW 级别的超大规模数据中心 (园区) 将很快出现,最迟不晚于2025年初。


随着新的数据中心陆续投入使用,训练和推理的服务价格必然走低。量变引发质变,加速AI应用的真正爆发。


解决这轮电力短缺需要什么?

需要低廉的电力成本、需要稳定可靠的能源供应链、需要低碳高效的发电结构… 总之,需要一个真正的AI超级大国 (AI Superpower)。

各国际机构和研究组织纷纷警告 LLM 能源需求爆发

EPOCH AI

4.1x/year

将近几年大模型训练的计算量进行拟合,可得年均增长约为 4-5 倍。

预测未来几年也将按此态势增长。


11万亿次/秒,60,000年

iPhone 12 每秒可执行约11万亿次浮点运算。

假设用它来训练 GPT-4,耗时将高达 60,000 年


Goldman Sachs (高盛)

200% VS  0%

2015年-2019年,美国数据中心工作负载激增近 200%;但整体能耗基本没变,稳定在年耗电量约 200 太瓦时。

即数据中心的效率提升抵消了规模扩张的影响。

0.5%

过去20年间,美国发电量也基本保持平稳,年均增长率不足0.5%



3% VS 8%

2022年,美国数据中心耗电量占全美电力需求3%2030年,这一数据预计将提升至 8%

20%

数据中心承担了几乎所有的云计算和web服务任务,AI只占数据中心能耗需求的一小部分。这一比例正在增长,预计2030年将增长至 20%


Uptime Institute

PUE (电源使用效率) 是衡量数据中心性能的重要指标。PUE值越低,数据中心的效率就越高


2.5 → 1.5

近年来,数据中心 PUE 平均呈现显著下降趋势,从2007年 2.5 降至现在 1.5超大规模运营商表现更为出色,Meta 为1.09,Google 为 1.1。


Bloomberg (彭博社)

350 TWh

全球数据中心能耗,从2012年约 100 TWh 增长到2024年约 350 TWh,这一增长曲线令人瞩目。

其中,AI年度用电量约为 9TWh 到 15TWh,占数据中心总电力消耗的4%


semianalysis

4.5%

2030年,全球数据中心耗电量将占全球发电量的4.5%


国际能源署 (IEA)

730万台H100

IEA 最新报告《Electricity 2024 report》预测:2026年,AI数据中心电力需求将达 90 太瓦时,相当于 730 万台 H100 GPU 的用电量。

 

粗略估算,2021年至2024年底,英伟达一家公司的出货量,就相当于 500 多万台 H100 GPU的电力需求。

LLM 真的是能源吞噬怪?为什么AI这么耗能?

LLM Training and Inference

人工智能 (AI) 的能源需求主要分为两类:Training (训练)Inference (推理)

Training (训练) 是指首次构建模型或更新模型。通常只需进行一次,但耗能巨大

Inference (推理) 是使用已有模型。每次操作能耗较低,但大规模应用时累积的能源消耗仍然相当可观。


10^8

单次 training 与 单次 inference 操作,能耗比的数量级可能高达 亿 级别 (10^8)。


Training (训练)

粗略地理解,LLM 训练能耗大致如下:

中等规模 LLM:11,000 kWh 到 52,000 kWh

较复杂的图像生成模型:40,000 kWh 到 60,000 kWh

大规模 LLM (Llama,ChatGPT):5,000,000 kWh 以上


Inference (推理)

推理操作的任务类型显著影响能耗水平

0.002Wh VS 0.007Wh

分类和识别 (categorization and recognition) 操作,单次耗能约 0.002Wh生成 (generation) 操作,单次耗能约 0.007 Wh前者更省电


0.047Wh  VS  2.9 Wh

文本生成 (text generation) 操作,单次耗能0.047Wh图像生成 (image generation) 操作,单次耗能上限是 2.9 Wh;显然生成图像更费电

具体来说,在消费级 GPU 上运行Stable Diffusion 1.5,每生成一张图像约需 0.09 Wh


 

3Wh

而使用更大规模LLM,能耗将显著提升。

以 ChatGPT 文本生成 (text generation) 为例,单次耗能在 2.9Wh 到 4.0 Wh 之间。

谷歌公布的数据表明,Google LLM 单次交互耗能也是 3Wh。

普通用户使用AI产生的能耗,看起来「就也还好」?

7.5Wh

以 Midjourney 为例。

假定生成一组4张图像需要 60s,且整个过程都使用顶级 GPU 全功率运行 (450W)

那么每组图的能耗上限是 7.5Wh,每张子图的能耗上限是 1.88Wh


2400次调用

摄影师驱车15英里进行一次专业拍摄。

往返油耗对应的能量,足以调用 Midjourney 2400 次 (按照每次 7.5Wh 计算)。

此外最简单的 10W 小环形灯,工作 45 min 能耗也相当于调用一次 Midjourney。


每分钟拍5张照片?

比较极致节能的情况:一次出行,一辆车,一个环形灯,连续拍摄8小时,总共耗能18.1kWh。

即便如此,摄影师也需要保持每分钟拍摄5张照片的速度,才能在能源效率上与 Midjourney 打平。

AI生成图像有着压倒性的能效优势。


3Wh VS 0.3Wh

LLM (大语言模型) 交互耗能是标准搜索的10倍:LLM 单次交互消耗3Wh ,普通搜索仅需 0.3Wh


10次点击

只要 LLM 的一次响应能节省10次搜索点击,就已经达到了能源平衡。

也就是说,只要使用得当,LLM就能大幅提高效率,同时降低能耗。

也因此,LLM 已经并将继续改变信息检索方式,由传统的遍历式搜索发展到一次性查找。


但是!

Google (及其为代表的传统搜索引擎公司) 并不能保证每次 LLM 交互价值是传统搜索的 10 倍。

Google 每秒发生 10 万次搜索任务,如果每次都使用 LLM,那这简直就是一场能源灾难。

所以,从能源角度看,大公司盲目将服务切到 LLM 模式,是非常不负责任的能源浪费。


打游戏 VS AI画图

商用GPU 最大功耗 180W 到 350W ,相当于每小时耗电 0.18kWh 到 0.35kWh

一小时内,用 200W 的GPU连续不停地生成Stable Diffusion 图像,耗能与高设置下玩视频游戏堪堪相等。

2018年研究显示,PC游戏年耗电量达75TWh。


看流媒体 VS AI聊天

观看 Netflix 视频每小时耗电 0.08kWh 到 0.8kWh

一小时内,使用 ChatGPT 聊天娱乐并保持每2分钟生成一个回复 (单次消耗3Wh) 的速度,耗能也低于观看流媒体视频。


一些让你更有实感的耗电数据:


普通用户使用AI所产生的能耗,看起来「就也还好」?

相比于「经常开着流媒体当背景音」这些行为,AI耗能并不算奢侈。

2025年是数据中心之年,超大型数据园区是未来趋势

数据中心是一个容纳计算机或其他IT设备的空间。

它既可以是仅有一台服务器的壁橱,也可以是办公楼里几个房间,还可以是专门用来存放计算设备的大型独立建筑,最后就是我们现在常说的 Data Center。

大型数据中心和数据园区将成为未来的主流。


10MW - 100MW - 1000MW

随着时间推移,数据中心规模不断扩大、能耗持续增加。

10年前,几乎所有数据中心的用电量都低于10MW

而现在,一个大型数据中心的用电量可达100MW或更高,相当于 75,000 户普通家庭的用电量。

更甚至,一些公司正在建设的超大规模数据中心 (园区),总电力需求将达到 GW (1000MW) 级别。


数万台计算设备

一个大型现代数据中心,有数万台单独的计算设备。

数据中心内部由多条走廊组成,每条走廊里排列着数十或数百个机架;每个机架可以同时容纳几十台计算设备,以及运行它们所需的其他设备。


巨大的电力需求

单台机架式服务器的能耗只有几百瓦特,大约是吹风机功率的1/5,并不算高。

但是当数万台集中在一起时,就会产生巨大的电力需求。


数据中心将同时产生大量热能,因此需要一整套冷却系统

即使是相对较小的数据中心,也配备有巨大的空气管道、大容量冷却设备和大型冷却塔。


每分钟34万立方米

数据中心冷却器的冷却能力,是普通家用空调的数千倍

移除 100MW 功率所需的最小空气流量大约是每分钟 1200万立方英尺 (34万立方米)。

大型科技公司争先下场,高额投资在全球建设数据中心

AWS 亚马逊

2024年上半年,AWS宣布了总值 500 亿美元的新数据中心建设项目,计划新建216栋建筑。

从长远来看,AWS 承诺在未来15年内投入1000 至 1500 亿美元

最新的投资计划包括:印第安纳州、密西西比州、沙特阿拉伯各地、宾夕法尼亚州、日本…


Microsoft 微软

Microsoft 目前拥有5GW 的能源容量。

据报道将在2024年将新数据中心建设规模翻倍

最新的投资计划包括:威斯康星州、印第安纳州、乔治亚州、法国、德国、英国、瑞典、西班牙、马来西亚、印度尼西亚、肯尼亚、墨西哥…


Google 谷歌

长期以来,GCP (Google Cloud Platform) 一直标榜自己更适合AI公司。是时候接受市场的检验了。

最新的投资计划包括:印第安纳州、密苏里州、爱荷华州、芬兰…

此外,Google还面临着在部分站点扩展其自有 TPU集群的额外挑战。


Meta

Meta不经营云业务,但为了支持 Llama 和内部AI 计划,一直在扩大数据中心容量。

据批露,GPU 总量已达 60 万个 H100 等效单位,其中包括35万个H100 GPUs。

最新的投资计划包括:爱达荷州、德克萨斯州、爱荷华州、怀俄明州…

还建立了两个专门用于Llama 3 训练的 24,000 GPU 集群。

社会代价:先污染,再治理???

电力短缺

等4年

企业和政府纷纷下场。

然而,现有电力基础设施难以满足如此庞大的用电需求

美国新项目 (包括数据中心) 获得所需的电力供应,需要的等待时间长达4年


找电

当前情况下,从现有基础设施中榨取尽可能多的电力,似乎成了最高效的解法。

极限一点的操作,甚至包括延长某些电厂的使用年限。


研究新型清洁能源

企业积极投资核聚变等新能源研究。


电价上涨

AI行业的巨大电力需求,迫使电力公司大规模建设新的基础设施。

这些成本最终将以电价上涨的形式转嫁给所有消费者。这是实实在在的经济负担。


水资源短缺

25.5万升

一个小型 1MW 数据中心每年的用水量。

数据中心是耗水大户。


5.13亿立方米

2018年美国数据中心的用水量。

根据弗吉尼亚理工大学的研究,数据中心跻身美国商业用水行业前十


数据中心常常位于缺水地区

数据中心的选址需要满足:电力便宜、低碳、太阳能/风能丰富… 而这些地区往往水资源匮乏。


放弃碳中和承诺

碳中和向AI发展让步

微软已放弃了碳中和计划。

谷歌也在最新报告中表示「从2023年开始不再维持运营碳中和状态」。

Meta碳排放一直在上升,但公司选择「数据作弊」隐藏了这一事实。

Further Reading

报告

Goldman Sachs | AI is poised to drive 160% increase in data center power demand → https://www.goldmansachs.com/insights/articles/AI-poised-to-drive-160-increase-in-power-demand

IEA | Electricity 2024 → https://www.iea.org/reports/electricity-2024


机构

Sequoia | AI is Now Shovel Ready → https://www.sequoiacap.com/article/ai-data-center-buildout

Bloomberg | AI Is Already Wreaking Havoc on Global Power Systems → https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids


长文

GioCities | Is AI eating all the energy? → https://blog.giovanh.com/blog/2024/08/18/is-ai-eating-all-the-energy-part-1-of-2 , https://blog.giovanh.com/blog/2024/09/09/is-ai-eating-all-the-energy-part-2-of-2

Construction Physics | How to Build an AI Data Center → https://www.construction-physics.com/p/how-to-build-an-ai-data-center


全球

Goldman Sachs | Generational Growth — AI/data centers' global power surge and the sustainability impact → https://www.goldmansachs.com/insights/goldman-sachs-research/gs-sustain-generational-growth-ai-data-centers-global-power

semianalysis | AI Datacenter Energy Dilemma - Race for AI Datacenter Space → https://www.semianalysis.com/p/ai-datacenter-energy-dilemma-race


相关

Latent Space | $2 H100s: How the GPU Bubble Burst → https://www.latent.space/p/gpu-bubble

⋙ 中文翻译版 2美元/小时出租H100:GPU泡沫破灭前夜


播客

硅谷101 | 科技巨头们开始抢电?聊聊AI用电荒和核聚变创业热 → https://www.xiaoyuzhoufm.com/episode/663035780571efa80f856420

⋙ ShowMeAI要点整理 播客笔记

     THE   END     

转载原创文章请添加微信 AhaNanQiao

↓ 分享·收藏·在看·点赞

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI能源需求 数据中心 能源短缺 新型能源 碳中和
相关文章