交易所DEX+

2025 年度報告

資料中心能耗暴增並非因運算，而是源於記憶體資料移動的高成本，突顯AI處理器架構的關鍵瓶頸，促使產業重新審視硬體方向... The post AI處理器架構如何影響能源效率 appeared first on 電子工程專輯.資料中心能耗暴增並非因運算，而是源於記憶體資料移動的高成本，突顯AI處理器架構的關鍵瓶頸，促使產業重新審視硬體方向... The post AI處理器架構如何影響能源效率 appeared first on 電子工程專輯.

AI處理器架構如何影響能源效率

作者：Eettaiwan

來源：Eettaiwan

2025/12/31 11:00

從2005年到2017年——也就是人工智慧(AI)大規模爆發前的時期——即使雲端服務需求呈現爆炸性成長，美國資料中心的總耗電量仍維持驚人地穩定。當時，Facebook等社群網路、Netflix串流、即時協作工具、線上商務以及行動應用生態系都以史無前例的速度擴張。然而，伺服器效率的持續提升使整體能源消耗基本保持平坦。

2017年起，AI深刻改變了這條能耗曲線。深度學習的加速採用，引發資料中心設計的轉變。各種設施開始大量部署高功耗的加速器，主要是GPU，原因在於其能以極高速處理巨量張量運算。當AI訓練與推論工作負載在各產業迅速擴張後，能源需求隨之劇增。

到了2023年，美國資料中心的整體用電量比十年前翻倍；估計已有約4.4%的美國電力被資料中心機櫃、冷卻系統與供電基礎設施消耗。

根據Berkeley Lab的報告，資料中心的負載在過去十年已成長3倍，並預測到2028年還會再增加2到3倍。該報告估計，單是AI工作負載，在2028年每年消耗的電量就可能相當於美國22%家庭的總用電量——等同供應數千萬戶家庭的規模。

美國資料中心總耗電量從2014年到2028年間增加了10倍。

(來源：2024 U.S. Data Center Energy Usage Report, Berkeley Lab)

這樣的能耗走勢引發一個重要問題：究竟是什麼讓現代AI處理器如此消耗能源？不論是半導體物理、平行運算結構、記憶體頻寬瓶頸，或資料移動的低效率，都使得理解背後原因成為急迫課題。分析當今AI硬體的架構基礎，可能是找出改善策略的關鍵，以確保運算能力的進步不至於以犠牲永續能源為代價。

是什麼推升了AI處理器能耗？

相較於傳統軟體系統逐時脈、逐分支的序列式執行不同，大型語言模型(LLM)需要對多維張量進行大規模平行處理。巨量的矩陣資料(往往達數GB)必須以極高速從記憶體取出、進行乘法與累加運算後再寫回。在最先進的模型中，這些運算涉及數千億到數兆個參數，而每個參數在訓練期間都需被反覆運算。

為了訓練如此規模的模型，需要將龐大資料集持續餵入成排運作多週甚至數月的GPU伺服器。這種極端的運算強度伴隨巨大能源消耗。例如，OpenAI GPT-4的訓練據估計耗用了約50GWh電力，粗略相當於供應整個舊金山市3天的用電量。

這種前期極高的能耗與資本投入，決定了尖端AI的經濟模型——模型開發者必須先承擔高昂的訓練成本，再期望透過模型推論的普及使用回收投資。

而在推論階段，也就是使用者與模型互動以生成答案、摘要、圖片或決策時的運行效率，正是企業能否從AI獲利的關鍵。微軟Azure研究員Esha Choukse於MIT Technology Review發表的一則文章「We did the math on AI’s energy footprint. Here’s the story you haven’t heard.」中指出，「企業要從模型上賺錢——只有靠推論。」

的確，產業專家普遍認為，推論(而非訓練)正逐漸成為AI總能源消耗的主導因素。原因在於即時AI服務量的爆炸式成長——每天數以百萬計的聊天會話、持續的內容生成流程、嵌入生產力工具的AI助手以及不斷擴張的推薦與排序系統。這些工作負載全天候在全球數千個資料中心運作。

因此，目前估計約有80–90%的AI運算週期用於推論。隨著模型不斷擴大、使用者需求加速、應用場景多樣化，這種不平衡只會持續擴大。因此，挑戰已不只是降低訓練成本，而是從根本上重新思考支撐大規模推論的處理器架構與記憶體系統。

深入半導體工程：AI處理器能耗的根本原因

為了理解現代AI處理器的能源消耗，必須從兩個核心面向著手：資料處理與資料移動。簡單來說，就是比較在晶片上「運算資料」與在晶片與其記憶體階層之間「搬運資料」的差異。

乍看之下，運算面似乎較易理解。在AI加速器中，大型數位邏輯陣列——包括乘法器、加法器、累加器、啟動函數單元，均以協同方式執行每秒上千兆次的運算(以petaFLOPS為級距)，業界主要廠商更正推進至exaflop級的AI訓練系統。

然而，真正的工程挑戰並不在算術本身。能耗主要來自於資料移動。每當處理器需從快取或DRAM取回張量、在運算叢集間搬移啟動或在多裝置間同步梯度時，其耗能遠高於執行底層的數學運算。

美國史丹佛大學教授Mark Horowitz在2014年的經典分析清楚量化了這種失衡。基本布林(Boolean)運算僅需皮焦耳(pJ)等級的能量。一個32位元整數加法約需0.1pJ，而32位元乘法約需3pJ。

相較之下，記憶體運作的能耗高得多。讀寫暫存器內單一位元約需6pJ，而從DRAM存取64bit則可高達約2nJ，能耗差距接近一萬倍。

在大規模運算中，這種差距更加明顯。記憶體請求越往外層移動——從L1到L2、L2到L3、L3到HBM，再到DRAM——每位元的能耗就越高。對仰賴海量且高頻寬張量乘法的AI工作負載而言，記憶體傳輸的累積能耗遠遠超過算術本身。

從傳統的序列式指令處理，轉向今日高度平行、以記憶體為主的張量運算後，資料移動而非運算本身已成為AI處理器的主要耗能來源。這項核心事實影響所有現代AI硬體的架構決策，包括封裝內的超大容量HBM堆疊，以及如NVLink、Infinity Fabric、PCIe Gen5/Gen6等複雜的互連結構。

當代的運算馬力：CPU vs. GPU

為了理解上述工程原理如何影響實際硬體，可以比較現代運算中兩大主要處理器類型：

CPU：長期以來負責一般用途的軟體執行引擎
GPU：主導今日AI訓練與推論的超大規模平行加速器

諸如AMD Ryzen Threadripper PRO 9995WX(96核心、192執行緒)等旗艦級CPU，在滿載時耗電約350W。這類晶片的設計重點在於多樣性——分支邏輯、快取一致性、系統層次控制等，而非純粹的張量吞吐量。

相較之下，AI處理器屬於完全不同的等級。Nvidia最新B300加速器單顆耗電約1.4kW。一整台Nvidia DGX B300機櫃單元包含8顆加速器及支援基礎設施，總功耗可達14kW。即使在最保守的比較下，這代表單顆晶片耗電增加約4倍；若比較完整伺服器配置，差距更可能放大到40倍以上。

然而，這些原始功耗數字僅是其中的一部份。真正的能耗飆升來自資料中心部署的大量AI伺服器，成千上萬顆GPU日以繼夜地運行。但在這些驚人的數字背後，還隱藏著一個更具決定性的業界真相——它很少被公開討論，且廠商幾乎從不揭露。

不能說的業界祕密

據我所知，沒有任何主流GPU或AI加速器廠商會公佈其處理器的「實際運算效率」，也就是在AI工作負載下的實際吞吐量與晶片峰值FLOPS之間的比率。廠商對此的理由是，效率高度依賴軟體工作負載；記憶體存取模式、模型架構、快取大小、平行策略與核心(kernel)實作等都會影響利用率。這確實正確，尤其LLM對記憶體頻寬的極端需求常使利用率大幅下降。

然而，即便考量到這些複雜因素，廠商仍不會提供任何範圍、估算或典型情況的參考值。結果就是：理論效能被大力宣傳，而實際效能卻高度不透明。

實際情況是系統架構師普遍明白但鮮少被公開講明，而這其實非常簡單：「現代GPU在AI工作負載的實際利用率往往極低——通常遠低於10%。」

一顆標榜峰值運算力達1-petaFLOP的AI處理器，在執行如GPT-4等前沿模型時，實際可達到的有效吞吐量可能只有約100-teraFLOPS。剩下的900-teraFLOPS並非只是未使用，而是以熱能形式被浪費，並需用更大型的冷卻系統來處理，進一步增加整體能耗。

換句話說，今日AI處理器的大部份矽晶在多數時間其實處於閒置狀態，被記憶體依賴、同步障礙或頻寬瓶頸所阻，而非被算術運算能力限制。

這種結構性低效率正是先前描述的不平衡所造成：算術便宜，但資料移動極度昂貴。隨著模型規模擴大、記憶體佔用膨脹，這個問題只會更嚴重。

沒有從根本重新設計處理器架構——尤其是記憶體階層——AI系統的能源曲線將持續以不可持續的方式攀升。

重新思考AI處理器設計

上述分析導向一個清楚的結論：AI處理器的架構必須從根本重新思考。CPU與GPU各自在其領域表現卓越——CPU擅長通用且控制密集的運算；GPU則擅長超大規模平行數值運算。然而，它們都不是為現代大規模AI所施加的龐大資料移動需求而設計。

階層式記憶體快取是傳統CPU設計的基石，最初目的只是彌補高速運算單元與低速外部記憶體之間的延遲差距。它們從未被設計用來支援主導當今AI工作負載的TB級張量運算。

GPU雖然也採用某種快取階層，並搭配超寬的運算陣列，但底層架構的不匹配依然存在。其運算單元產生的資料需求遠超出任何現實可行的快取供給能力。

因此，即使是最先進的AI加速器，其實效能也低得令人尷尬。理論上的petaFLOP能力大多無法實際發揮——原因不是運算困難，而是資料無法以足夠快、足夠近的方式送達運算單元。

未來的突破不是在傳統設計上再貼一層增補程式，而是需要一種全新類型的AI導向處理器架構，其核心設計理念必須將「資料移動」視為首要限制，而非附屬考量。此類架構必須基於一個簡單事實：運算便宜，但資料移動更昂貴好幾個數量級。

未來的處理器並不會以乘法器陣列大小或峰值FLOPS決定，更重要的是其資料傳輸路徑的效率定義。

(原文參考：The role of AI processor architecture in power consumption efficiency，by Lauro Rizzatti)

The post AI處理器架構如何影響能源效率 appeared first on 電子工程專輯.

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。