從2005年到2017年——也就是人工智慧(AI)大規模爆發前的時期——即使雲端服務需求呈現爆炸性成長,美國資料中心的總耗電量仍維持驚人地穩定。當時,Facebook等社群網路、Netflix串流、即時協作工具、線上商務以及行動應用生態系都以史無前例的速度擴張。然而,伺服器效率的持續提升使整體能源消耗基本保持平坦。
2017年起,AI深刻改變了這條能耗曲線。深度學習的加速採用,引發資料中心設計的轉變。各種設施開始大量部署高功耗的加速器,主要是GPU,原因在於其能以極高速處理巨量張量運算。當AI訓練與推論工作負載在各產業迅速擴張後,能源需求隨之劇增。
到了2023年,美國資料中心的整體用電量比十年前翻倍;估計已有約4.4%的美國電力被資料中心機櫃、冷卻系統與供電基礎設施消耗。
根據Berkeley Lab的報告,資料中心的負載在過去十年已成長3倍,並預測到2028年還會再增加2到3倍。該報告估計,單是AI工作負載,在2028年每年消耗的電量就可能相當於美國22%家庭的總用電量——等同供應數千萬戶家庭的規模。
美國資料中心總耗電量從2014年到2028年間增加了10倍。
(來源:2024 U.S. Data Center Energy Usage Report, Berkeley Lab)
這樣的能耗走勢引發一個重要問題:究竟是什麼讓現代AI處理器如此消耗能源?不論是半導體物理、平行運算結構、記憶體頻寬瓶頸,或資料移動的低效率,都使得理解背後原因成為急迫課題。分析當今AI硬體的架構基礎,可能是找出改善策略的關鍵,以確保運算能力的進步不至於以犠牲永續能源為代價。
是什麼推升了AI處理器能耗?
相較於傳統軟體系統逐時脈、逐分支的序列式執行不同,大型語言模型(LLM)需要對多維張量進行大規模平行處理。巨量的矩陣資料(往往達數GB)必須以極高速從記憶體取出、進行乘法與累加運算後再寫回。在最先進的模型中,這些運算涉及數千億到數兆個參數,而每個參數在訓練期間都需被反覆運算。
為了訓練如此規模的模型,需要將龐大資料集持續餵入成排運作多週甚至數月的GPU伺服器。這種極端的運算強度伴隨巨大能源消耗。例如,OpenAI GPT-4的訓練據估計耗用了約50GWh電力,粗略相當於供應整個舊金山市3天的用電量。
這種前期極高的能耗與資本投入,決定了尖端AI的經濟模型——模型開發者必須先承擔高昂的訓練成本,再期望透過模型推論的普及使用回收投資。
而在推論階段,也就是使用者與模型互動以生成答案、摘要、圖片或決策時的運行效率,正是企業能否從AI獲利的關鍵。微軟Azure研究員Esha Choukse於MIT Technology Review發表的一則文章「We did the math on AI’s energy footprint. Here’s the story you haven’t heard.」中指出,「企業要從模型上賺錢——只有靠推論。」
的確,產業專家普遍認為,推論(而非訓練)正逐漸成為AI總能源消耗的主導因素。原因在於即時AI服務量的爆炸式成長——每天數以百萬計的聊天會話、持續的內容生成流程、嵌入生產力工具的AI助手以及不斷擴張的推薦與排序系統。這些工作負載全天候在全球數千個資料中心運作。
因此,目前估計約有80–90%的AI運算週期用於推論。隨著模型不斷擴大、使用者需求加速、應用場景多樣化,這種不平衡只會持續擴大。因此,挑戰已不只是降低訓練成本,而是從根本上重新思考支撐大規模推論的處理器架構與記憶體系統。
深入半導體工程:AI處理器能耗的根本原因
為了理解現代AI處理器的能源消耗,必須從兩個核心面向著手:資料處理與資料移動。簡單來說,就是比較在晶片上「運算資料」與在晶片與其記憶體階層之間「搬運資料」的差異。
乍看之下,運算面似乎較易理解。在AI加速器中,大型數位邏輯陣列——包括乘法器、加法器、累加器、啟動函數單元,均以協同方式執行每秒上千兆次的運算(以petaFLOPS為級距),業界主要廠商更正推進至exaflop級的AI訓練系統。
然而,真正的工程挑戰並不在算術本身。能耗主要來自於資料移動。每當處理器需從快取或DRAM取回張量、在運算叢集間搬移啟動或在多裝置間同步梯度時,其耗能遠高於執行底層的數學運算。
美國史丹佛大學教授Mark Horowitz在2014年的經典分析清楚量化了這種失衡。基本布林(Boolean)運算僅需皮焦耳(pJ)等級的能量。一個32位元整數加法約需0.1pJ,而32位元乘法約需3pJ。
相較之下,記憶體運作的能耗高得多。讀寫暫存器內單一位元約需6pJ,而從DRAM存取64bit則可高達約2nJ,能耗差距接近一萬倍。
在大規模運算中,這種差距更加明顯。記憶體請求越往外層移動——從L1到L2、L2到L3、L3到HBM,再到DRAM——每位元的能耗就越高。對仰賴海量且高頻寬張量乘法的AI工作負載而言,記憶體傳輸的累積能耗遠遠超過算術本身。
從傳統的序列式指令處理,轉向今日高度平行、以記憶體為主的張量運算後,資料移動而非運算本身已成為AI處理器的主要耗能來源。這項核心事實影響所有現代AI硬體的架構決策,包括封裝內的超大容量HBM堆疊,以及如NVLink、Infinity Fabric、PCIe Gen5/Gen6等複雜的互連結構。
當代的運算馬力:CPU vs. GPU
為了理解上述工程原理如何影響實際硬體,可以比較現代運算中兩大主要處理器類型:
諸如AMD Ryzen Threadripper PRO 9995WX(96核心、192執行緒)等旗艦級CPU,在滿載時耗電約350W。這類晶片的設計重點在於多樣性——分支邏輯、快取一致性、系統層次控制等,而非純粹的張量吞吐量。
相較之下,AI處理器屬於完全不同的等級。Nvidia最新B300加速器單顆耗電約1.4kW。一整台Nvidia DGX B300機櫃單元包含8顆加速器及支援基礎設施,總功耗可達14kW。即使在最保守的比較下,這代表單顆晶片耗電增加約4倍;若比較完整伺服器配置,差距更可能放大到40倍以上。
然而,這些原始功耗數字僅是其中的一部份。真正的能耗飆升來自資料中心部署的大量AI伺服器,成千上萬顆GPU日以繼夜地運行。但在這些驚人的數字背後,還隱藏著一個更具決定性的業界真相——它很少被公開討論,且廠商幾乎從不揭露。
不能說的業界祕密
據我所知,沒有任何主流GPU或AI加速器廠商會公佈其處理器的「實際運算效率」,也就是在AI工作負載下的實際吞吐量與晶片峰值FLOPS之間的比率。廠商對此的理由是,效率高度依賴軟體工作負載;記憶體存取模式、模型架構、快取大小、平行策略與核心(kernel)實作等都會影響利用率。這確實正確,尤其LLM對記憶體頻寬的極端需求常使利用率大幅下降。
然而,即便考量到這些複雜因素,廠商仍不會提供任何範圍、估算或典型情況的參考值。結果就是:理論效能被大力宣傳,而實際效能卻高度不透明。
實際情況是系統架構師普遍明白但鮮少被公開講明,而這其實非常簡單:「現代GPU在AI工作負載的實際利用率往往極低——通常遠低於10%。」
一顆標榜峰值運算力達1-petaFLOP的AI處理器,在執行如GPT-4等前沿模型時,實際可達到的有效吞吐量可能只有約100-teraFLOPS。剩下的900-teraFLOPS並非只是未使用,而是以熱能形式被浪費,並需用更大型的冷卻系統來處理,進一步增加整體能耗。
換句話說,今日AI處理器的大部份矽晶在多數時間其實處於閒置狀態,被記憶體依賴、同步障礙或頻寬瓶頸所阻,而非被算術運算能力限制。
這種結構性低效率正是先前描述的不平衡所造成:算術便宜,但資料移動極度昂貴。隨著模型規模擴大、記憶體佔用膨脹,這個問題只會更嚴重。
沒有從根本重新設計處理器架構——尤其是記憶體階層——AI系統的能源曲線將持續以不可持續的方式攀升。
重新思考AI處理器設計
上述分析導向一個清楚的結論:AI處理器的架構必須從根本重新思考。CPU與GPU各自在其領域表現卓越——CPU擅長通用且控制密集的運算;GPU則擅長超大規模平行數值運算。然而,它們都不是為現代大規模AI所施加的龐大資料移動需求而設計。
階層式記憶體快取是傳統CPU設計的基石,最初目的只是彌補高速運算單元與低速外部記憶體之間的延遲差距。它們從未被設計用來支援主導當今AI工作負載的TB級張量運算。
GPU雖然也採用某種快取階層,並搭配超寬的運算陣列,但底層架構的不匹配依然存在。其運算單元產生的資料需求遠超出任何現實可行的快取供給能力。
因此,即使是最先進的AI加速器,其實效能也低得令人尷尬。理論上的petaFLOP能力大多無法實際發揮——原因不是運算困難,而是資料無法以足夠快、足夠近的方式送達運算單元。
未來的突破不是在傳統設計上再貼一層增補程式,而是需要一種全新類型的AI導向處理器架構,其核心設計理念必須將「資料移動」視為首要限制,而非附屬考量。此類架構必須基於一個簡單事實:運算便宜,但資料移動更昂貴好幾個數量級。
未來的處理器並不會以乘法器陣列大小或峰值FLOPS決定,更重要的是其資料傳輸路徑的效率定義。
(原文參考:The role of AI processor architecture in power consumption efficiency,by Lauro Rizzatti)
The post AI處理器架構如何影響能源效率 appeared first on 電子工程專輯.


