Anthropic 宣布收購 Vercept,為 Claude 注入高精度視覺能力,大幅升級電腦操作自動化能力。
為了讓AI真正做到「像人類一樣操作電腦」,單靠強大的邏輯推理大腦是不夠的,它還需要一雙能精準看懂螢幕的「眼睛」。Anthropic宣佈收購AI新創公司Vercept,目的為其Claude模型的「Computer Use」 (電腦操作)功能補齊最關鍵的視覺辨識弱項,正式向「無API自動化」的終極代理願景邁進。
自從Anthropic在2024年10月隨著Claude 3.5 Sonnet推出「Computer Use」功能後,便在開發者社群引發了巨大迴響。這項功能賦予Claude像人類一樣「看著螢幕、移動滑鼠、敲擊鍵盤、跨軟體操作」的核心能力,被視為Anthropic進軍AI代理 (AI Agent)領域的關鍵里程碑。
不過,在實際應用中,Claude在面對複雜、動態的使用者介面 (UI)時,仍時常面臨視覺定位不夠精準的挑戰。
收購Vercept:從「懂邏輯」到「看得懂UI」
這正是Anthropic決定將Vercept納入麾下的核心原因。
Vercept是一家專注於打造「視覺優先」 (Vision first)AI智慧體的新創公司。他們的核心技術在於極高精準度的UI識別與空間推理能力。
過去,傳統AI自動化多半仰賴底層的API串接,或是透過HTML語法來抓取網頁元素。但Vercept的技術作法主打「無API自動化」,也就是讓AI完全透過視覺像素分析理解螢幕畫面——它能精準辨識出哪個是可點擊的按鈕、哪個是輸入框、下拉式選單在哪裡,甚至能理解視窗之間的層級疊加關係。
將這項技術整合進Claude後,代表未來的Computer Use功能將不再容易出現「點錯位置」,或是「找不到按鈕」的窘境。
市場競爭分析:AI戰場轉向「GUI介面控制權」
Anthropic這次的收購動作,無疑將進一步加劇科技巨頭在「代理式AI」 (Agentic AI)賽道的軍備競賽。當大語言模型的文字生成能力逐漸走向同質化,下一個決勝點已經轉移到了「誰能最好地控制使用者的電腦與手機介面」。
目前的市場競爭格局已經非常明確:
• Anthropic (Claude):挾帶著領先業界推出的Computer Use功能,加上現在Vercept的視覺空間推理技術加持,Anthropic正在企業級的桌面端自動化工作流中建立極高的技術護城河。
• OpenAI:先前積極推動代號為「Operator」的AI代理工具,並且推出通用型ChatGPT Agent代理功能,同樣主打能接管使用者的電腦瀏覽器來執行複雜任務,預計將直接與 Claude 的 Computer Use 展開正面對決。
• Google:內部代號「Project Jarvis」的專案,後續也推出名為Computer Use的模型,讓Gemini具備接管Google Chrome瀏覽器的能力,幫助使用者自動完成購物、訂票等網頁端任務。
• 新創勢力:正如Perplexity近期發表的「Perplexity Computer」,透過統籌調用多個模型(包含視覺與文字)來自動完成任務,顯示出「跨模型協作的自動化」也是另一條突圍路徑。而字節跳動 (ByteDance) 與中興合作推出的「豆包AI手機」,其以軟體操作介面識別、模擬人類操作流程的AI代理模式,同樣吸引不少人關注。
分析觀點
Anthropic收購Vercept的戰略意義在於:解放傳統軟體的自動化限制。
在企業環境中,有太多老舊的ERP系統、內部特製軟體或是安全性極高的應用程式,根本沒有提供API可讓外部程式串接。如果Claude能夠擁有一雙像人類一樣精準的「眼睛」,直接透過視覺來操作這些老舊軟體,那將釋放出極其龐大的企業生產力價值。
AI已經證明自己能寫出好文章、好程式碼;現在,Anthropic正準備讓Claude成為一個能真正坐在電腦前,幫你把所有繁雜點擊工作都處理妥當的「全職數位員工」。這場介面控制權的爭奪戰,才剛剛進入最精彩的階段。


