亞馬遜近期接連出現多起系統故障,公司高層坦言,自 2025 年第三季以來,內部已出現「事故增加的趨勢」。根據《 […]亞馬遜近期接連出現多起系統故障,公司高層坦言,自 2025 年第三季以來,內部已出現「事故增加的趨勢」。根據《 […]

亞馬遜 AI 開發工具引發系統事故,數百萬筆訂單流失,公司啟動 90 天安全整改

2026/03/11 14:14
閱讀時長 6 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 [email protected] 聯絡我們。
Amazon

亞馬遜電子商務服務資深副總裁 Dave Treadwell 在週二發給員工的內部訊息中指出,過去幾週內公司發生了「數起重大事故」,其中至少一起與 AI 編碼助手 Amazon Q 有關,而其他事件則揭示了控制系統與審核流程上的深層問題。

AI 加速開發也放大風險

隨著生成式 AI 被廣泛導入軟體開發流程,工程師現在能夠比以往產生更多程式碼。包括 Claude Code、Amazon Q 以及 Amazon Kiro 等 AI 開發工具,都被用於提升開發效率。

然而,程式碼數量的快速增加也讓傳統的軟體審查流程面臨壓力。當大量新程式碼進入既有審查機制時,系統風險也隨之放大。

Treadwell 在內部文件中指出,一些事故源於所謂的 「高爆炸半徑(high blast radius)變更」——即某些軟體更新在缺乏足夠安全防護的情況下被廣泛部署,導致問題迅速擴散。

此外,部分事件甚至需要數小時才能修復資料錯誤,而有些事故則是因為基本的安全機制被忽略,例如原本應該由兩人共同批准的程式碼變更流程。

重大事故造成大量訂單流失

內部文件顯示,近期最嚴重的兩起事故發生在 3 月初。

3 月 2 日,亞馬遜多個市場的顧客在購物車中看到錯誤的配送時間,導致約 12 萬筆訂單流失,並產生 160 萬次網站錯誤。內部調查顯示,AI 工具 Amazon Q 是觸發該事件的重要因素之一。

另一場事故發生在 3 月 5 日,亞馬遜北美市場的訂單量一度暴跌 99%,造成 630 萬筆訂單流失。調查指出,問題與一次未遵循正式變更審批流程的系統更新有關。

文件顯示,當時的系統變更並未經過自動化部署驗證,且單一授權人員就能執行高影響範圍的配置修改,缺乏必要的安全防護。

不過亞馬遜發言人表示,在近期檢討的事故中,只有一起與 AI 工具有關,且沒有任何事件涉及 AI 自動生成的程式碼。

推出 90 天安全整改計畫

為降低系統風險,亞馬遜已啟動為期 90 天的安全整改計畫,並對現有的工程管理政策進行補充。

新措施將針對約 335 個「Tier-1 系統」,這些系統直接影響消費者體驗,例如訂單處理、商品資訊與價格系統等。

根據新規定:

  • 所有程式碼變更必須經過 至少兩名工程師審查
  • 工程師必須使用公司內部的 變更文件與審批工具
  • 變更流程必須遵循亞馬遜中央可靠性工程標準
  • 各部門主管需審查所有生產環境的程式碼修改活動

亞馬遜也通知所有 Tier-1 系統的負責人,以及總監與副總裁級管理層,要求對相關系統進行全面稽核。

Treadwell 表示,公司將在關鍵系統的程式碼變更流程中引入「可控摩擦(controlled friction)」,讓工程師在進行高影響操作前必須經過更多安全檢查。

AI 與規則系統結合

在技術策略上,亞馬遜計畫同時採用 AI 驅動的「代理式(agentic)」工具 與基於規則的「確定性(deterministic)」系統。

這種組合旨在解決生成式 AI 的核心問題——AI 模型本身並非完全可預測,同一問題可能產生不同答案,因此在需要高度準確性的企業系統中仍需搭配嚴格的規則機制。

亞馬遜表示,未來將加強控制平面的安全設計,避免 AI 自動化工具在缺乏足夠防護的情況下放大系統風險。

外媒此前也曾報導,亞馬遜內部正在檢討去年 12 月一次長達 13 小時的 AWS 服務中斷事件,當時公司的 AI 開發工具 Kiro 也被認為是部分原因之一。

參考來源

Source

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。