原创 南乔River 2024-10-15 00:01 北京
与LLM能源需求最密切的40个/组关键数据
ShowMeAI
专业◎洞察◎清晰◎实用
用知识加速每一次技术进步!
推荐语
本期日报的主题是「AI与能源」
这真的是一个,,很复杂的话题 🙍
资料又多又杂,千头万绪,看到想吐
直到!Latent Space「GPU泡沫破裂」长文刷屏
我第一反应竟然是算耗能数据?!
灵光一闪😉,把之前的工作推翻重来
整理了40个/组 LLM 能耗核心数据 📊
再多的泡沫,再大的牛皮
终归要回到现实世界
希望这些数据,能帮你更快更准确地捕获真相
注意!本文数据主要指向美国。
想要了解数据更多计算细节,或是全球报告&分析,请拉至文末获取相关链接。
公众号菜单栏底部有星球入口
添加南乔 (AhaNanQiao) 好友进社群!
能耗单位科普
太瓦 TW = 1000 GW吉瓦 GW = 1000 MW兆瓦 MW = 1000 kW
千瓦 kW = 1000 WkW是电功率单位,kWh是电能单位。
1kWh (千瓦时) 就是功率为1kW的设备在1小时内生产或消耗的电能,也就是我们通常说的1度电。
X条暴论 | 电力紧缩,数据中心建设热潮,算力降价,AI超级大国…
6个月内,数据中心建设延期这类新闻将频繁出现。主要原因不外乎液冷系统不完善、集群规模不足、电力供应不足。
最晚明年 (2025年),电力短缺就会戳破泡沫,展露出无情的现实:数据中心根本找不到足够的电力,来支撑所有芯片运转。
美国新项目 (包括数据中心) 需要排队等待电力供应,等待时间预计为 4 年。
挡住 Transformer (大模型) 前路的,恰恰也是 transformers (电力系统变压器)。
这个地狱笑话来自 Elon Musk:My not-that-funny joke is that you need transformers to run transformers...
2025年是数据中心建设之年。
这将刺激实体经济,集中体现在钢铁、能源、运输和建筑等行业。也将加速能源革命,缩短技术突破和商业应用的周期,例如太阳能、电能、核能。
总电力需求达到 GW 级别的超大规模数据中心 (园区) 将很快出现,最迟不晚于2025年初。
随着新的数据中心陆续投入使用,训练和推理的服务价格必然走低。量变引发质变,加速AI应用的真正爆发。
解决这轮电力短缺需要什么?
需要低廉的电力成本、需要稳定可靠的能源供应链、需要低碳高效的发电结构… 总之,需要一个真正的AI超级大国 (AI Superpower)。
各国际机构和研究组织纷纷警告 LLM 能源需求爆发
EPOCH AI
4.1x/year
将近几年大模型训练的计算量进行拟合,可得年均增长约为 4-5 倍。
预测未来几年也将按此态势增长。
11万亿次/秒,60,000年
iPhone 12 每秒可执行约11万亿次浮点运算。
假设用它来训练 GPT-4,耗时将高达 60,000 年。
Goldman Sachs (高盛)
200% VS 0%
2015年-2019年,美国数据中心工作负载激增近 200%;但整体能耗基本没变,稳定在年耗电量约 200 太瓦时。
即数据中心的效率提升抵消了规模扩张的影响。
0.5%
过去20年间,美国发电量也基本保持平稳,年均增长率不足0.5%
3% VS 8%
2022年,美国数据中心耗电量占全美电力需求的 3%;2030年,这一数据预计将提升至 8%
20%
数据中心承担了几乎所有的云计算和web服务任务,AI只占数据中心能耗需求的一小部分。这一比例正在增长,预计2030年将增长至 20%
Uptime Institute
PUE (电源使用效率) 是衡量数据中心性能的重要指标。PUE值越低,数据中心的效率就越高。
2.5 → 1.5
近年来,数据中心 PUE 平均呈现显著下降趋势,从2007年 2.5 降至现在 1.5;超大规模运营商表现更为出色,Meta 为1.09,Google 为 1.1。
Bloomberg (彭博社)
350 TWh
全球数据中心能耗,从2012年约 100 TWh 增长到2024年约 350 TWh,这一增长曲线令人瞩目。
其中,AI年度用电量约为 9TWh 到 15TWh,占数据中心总电力消耗的4%
semianalysis
4.5%
2030年,全球数据中心耗电量将占全球发电量的4.5%
国际能源署 (IEA)
730万台H100
IEA 最新报告《Electricity 2024 report》预测:2026年,AI数据中心电力需求将达 90 太瓦时,相当于 730 万台 H100 GPU 的用电量。
粗略估算,2021年至2024年底,英伟达一家公司的出货量,就相当于 500 多万台 H100 GPU的电力需求。
LLM 真的是能源吞噬怪?为什么AI这么耗能?
LLM Training and Inference
人工智能 (AI) 的能源需求主要分为两类:Training (训练) 和Inference (推理) 。
Training (训练) 是指首次构建模型或更新模型。通常只需进行一次,但耗能巨大。
Inference (推理) 是使用已有模型。每次操作能耗较低,但大规模应用时累积的能源消耗仍然相当可观。
10^8
单次 training 与 单次 inference 操作,能耗比的数量级可能高达 亿 级别 (10^8)。
Training (训练)
粗略地理解,LLM 训练能耗大致如下:
中等规模 LLM:11,000 kWh 到 52,000 kWh
较复杂的图像生成模型:40,000 kWh 到 60,000 kWh
大规模 LLM (Llama,ChatGPT):5,000,000 kWh 以上
Inference (推理)
推理操作的任务类型显著影响能耗水平
0.002Wh VS 0.007Wh
分类和识别 (categorization and recognition) 操作,单次耗能约 0.002Wh;生成 (generation) 操作,单次耗能约 0.007 Wh;前者更省电。
0.047Wh VS 2.9 Wh
文本生成 (text generation) 操作,单次耗能0.047Wh;图像生成 (image generation) 操作,单次耗能上限是 2.9 Wh;显然生成图像更费电。
具体来说,在消费级 GPU 上运行Stable Diffusion 1.5,每生成一张图像约需 0.09 Wh
3Wh
而使用更大规模LLM,能耗将显著提升。
以 ChatGPT 文本生成 (text generation) 为例,单次耗能在 2.9Wh 到 4.0 Wh 之间。
谷歌公布的数据表明,Google LLM 单次交互耗能也是 3Wh。
普通用户使用AI产生的能耗,看起来「就也还好」?
7.5Wh
以 Midjourney 为例。
假定生成一组4张图像需要 60s,且整个过程都使用顶级 GPU 全功率运行 (450W) 。
那么每组图的能耗上限是 7.5Wh,每张子图的能耗上限是 1.88Wh
2400次调用
摄影师驱车15英里进行一次专业拍摄。
往返油耗对应的能量,足以调用 Midjourney 2400 次 (按照每次 7.5Wh 计算)。
此外最简单的 10W 小环形灯,工作 45 min 能耗也相当于调用一次 Midjourney。
每分钟拍5张照片?
比较极致节能的情况:一次出行,一辆车,一个环形灯,连续拍摄8小时,总共耗能18.1kWh。
即便如此,摄影师也需要保持每分钟拍摄5张照片的速度,才能在能源效率上与 Midjourney 打平。
AI生成图像有着压倒性的能效优势。
3Wh VS 0.3Wh
LLM (大语言模型) 交互耗能是标准搜索的10倍:LLM 单次交互消耗3Wh ,普通搜索仅需 0.3Wh 。
10次点击
只要 LLM 的一次响应能节省10次搜索点击,就已经达到了能源平衡。
也就是说,只要使用得当,LLM就能大幅提高效率,同时降低能耗。
也因此,LLM 已经并将继续改变信息检索方式,由传统的遍历式搜索发展到一次性查找。
但是!
Google (及其为代表的传统搜索引擎公司) 并不能保证每次 LLM 交互价值是传统搜索的 10 倍。
Google 每秒发生 10 万次搜索任务,如果每次都使用 LLM,那这简直就是一场能源灾难。
所以,从能源角度看,大公司盲目将服务切到 LLM 模式,是非常不负责任的能源浪费。
打游戏 VS AI画图
商用GPU 最大功耗 180W 到 350W ,相当于每小时耗电 0.18kWh 到 0.35kWh
一小时内,用 200W 的GPU连续不停地生成Stable Diffusion 图像,耗能与高设置下玩视频游戏堪堪相等。
2018年研究显示,PC游戏年耗电量达75TWh。
看流媒体 VS AI聊天
观看 Netflix 视频,每小时耗电 0.08kWh 到 0.8kWh
一小时内,使用 ChatGPT 聊天娱乐并保持每2分钟生成一个回复 (单次消耗3Wh) 的速度,耗能也低于观看流媒体视频。
一些让你更有实感的耗电数据:
笔记本电脑每小时耗电约 0.03kWh
中央空调每小时耗电约 0.50kWh 到 3.75kWh
手机电池容量约 0.010kWh
电梯每小时耗电约 6kWh
电子广告牌每小时耗电约 18kWh
普通用户使用AI所产生的能耗,看起来「就也还好」?
相比于「经常开着流媒体当背景音」这些行为,AI耗能并不算奢侈。
2025年是数据中心之年,超大型数据园区是未来趋势
数据中心是一个容纳计算机或其他IT设备的空间。
它既可以是仅有一台服务器的壁橱,也可以是办公楼里几个房间,还可以是专门用来存放计算设备的大型独立建筑,最后就是我们现在常说的 Data Center。
大型数据中心和数据园区将成为未来的主流。
10MW - 100MW - 1000MW
随着时间推移,数据中心规模不断扩大、能耗持续增加。
10年前,几乎所有数据中心的用电量都低于10MW。
而现在,一个大型数据中心的用电量可达100MW或更高,相当于 75,000 户普通家庭的用电量。
更甚至,一些公司正在建设的超大规模数据中心 (园区),总电力需求将达到 GW (1000MW) 级别。
数万台计算设备
一个大型现代数据中心,有数万台单独的计算设备。
数据中心内部由多条走廊组成,每条走廊里排列着数十或数百个机架;每个机架可以同时容纳几十台计算设备,以及运行它们所需的其他设备。
巨大的电力需求
单台机架式服务器的能耗只有几百瓦特,大约是吹风机功率的1/5,并不算高。
但是当数万台集中在一起时,就会产生巨大的电力需求。
数据中心将同时产生大量热能,因此需要一整套冷却系统。
即使是相对较小的数据中心,也配备有巨大的空气管道、大容量冷却设备和大型冷却塔。
每分钟34万立方米
数据中心冷却器的冷却能力,是普通家用空调的数千倍。
移除 100MW 功率所需的最小空气流量大约是每分钟 1200万立方英尺 (34万立方米)。
大型科技公司争先下场,高额投资在全球建设数据中心
AWS 亚马逊
2024年上半年,AWS宣布了总值 500 亿美元的新数据中心建设项目,计划新建216栋建筑。
从长远来看,AWS 承诺在未来15年内投入1000 至 1500 亿美元。
最新的投资计划包括:印第安纳州、密西西比州、沙特阿拉伯各地、宾夕法尼亚州、日本…
Microsoft 微软
Microsoft 目前拥有5GW 的能源容量。
据报道将在2024年将新数据中心建设规模翻倍。
最新的投资计划包括:威斯康星州、印第安纳州、乔治亚州、法国、德国、英国、瑞典、西班牙、马来西亚、印度尼西亚、肯尼亚、墨西哥…
Google 谷歌
长期以来,GCP (Google Cloud Platform) 一直标榜自己更适合AI公司。是时候接受市场的检验了。
最新的投资计划包括:印第安纳州、密苏里州、爱荷华州、芬兰…
此外,Google还面临着在部分站点扩展其自有 TPU集群的额外挑战。
Meta
Meta不经营云业务,但为了支持 Llama 和内部AI 计划,一直在扩大数据中心容量。
据批露,GPU 总量已达 60 万个 H100 等效单位,其中包括35万个H100 GPUs。
最新的投资计划包括:爱达荷州、德克萨斯州、爱荷华州、怀俄明州…
还建立了两个专门用于Llama 3 训练的 24,000 GPU 集群。
社会代价:先污染,再治理???
电力短缺
等4年
企业和政府纷纷下场。
然而,现有电力基础设施难以满足如此庞大的用电需求。
美国新项目 (包括数据中心) 获得所需的电力供应,需要的等待时间长达4年。
找电
当前情况下,从现有基础设施中榨取尽可能多的电力,似乎成了最高效的解法。
极限一点的操作,甚至包括延长某些电厂的使用年限。
研究新型清洁能源
企业积极投资核聚变等新能源研究。
电价上涨
AI行业的巨大电力需求,迫使电力公司大规模建设新的基础设施。
这些成本最终将以电价上涨的形式转嫁给所有消费者。这是实实在在的经济负担。
水资源短缺
25.5万升
一个小型 1MW 数据中心每年的用水量。
数据中心是耗水大户。
5.13亿立方米
2018年美国数据中心的用水量。
根据弗吉尼亚理工大学的研究,数据中心跻身美国商业用水行业前十。
数据中心常常位于缺水地区
数据中心的选址需要满足:电力便宜、低碳、太阳能/风能丰富… 而这些地区往往水资源匮乏。
放弃碳中和承诺
碳中和向AI发展让步
微软已放弃了碳中和计划。
谷歌也在最新报告中表示「从2023年开始不再维持运营碳中和状态」。
Meta碳排放一直在上升,但公司选择「数据作弊」隐藏了这一事实。
Further Reading
报告
Goldman Sachs | AI is poised to drive 160% increase in data center power demand → https://www.goldmansachs.com/insights/articles/AI-poised-to-drive-160-increase-in-power-demand
IEA | Electricity 2024 → https://www.iea.org/reports/electricity-2024
机构
Sequoia | AI is Now Shovel Ready → https://www.sequoiacap.com/article/ai-data-center-buildout
Bloomberg | AI Is Already Wreaking Havoc on Global Power Systems → https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids
长文
GioCities | Is AI eating all the energy? → https://blog.giovanh.com/blog/2024/08/18/is-ai-eating-all-the-energy-part-1-of-2 , https://blog.giovanh.com/blog/2024/09/09/is-ai-eating-all-the-energy-part-2-of-2
Construction Physics | How to Build an AI Data Center → https://www.construction-physics.com/p/how-to-build-an-ai-data-center
全球
Goldman Sachs | Generational Growth — AI/data centers' global power surge and the sustainability impact → https://www.goldmansachs.com/insights/goldman-sachs-research/gs-sustain-generational-growth-ai-data-centers-global-power
semianalysis | AI Datacenter Energy Dilemma - Race for AI Datacenter Space → https://www.semianalysis.com/p/ai-datacenter-energy-dilemma-race
相关
Latent Space | $2 H100s: How the GPU Bubble Burst → https://www.latent.space/p/gpu-bubble
⋙ 中文翻译版 2美元/小时出租H100:GPU泡沫破灭前夜
播客
硅谷101 | 科技巨头们开始抢电?聊聊AI用电荒和核聚变创业热 → https://www.xiaoyuzhoufm.com/episode/663035780571efa80f856420
⋙ ShowMeAI要点整理 播客笔记
THE END
转载原创文章请添加微信 AhaNanQiao
↓ 分享·收藏·在看·点赞