OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?
關于 OpenAI 推出「智能體(Agent)」的傳聞早已甚囂塵上。去年 11 月起,就不斷有爆料消息指出,OpenAI 將在 2025 年 1 月上線首個智能體,稍早前還被海外科技媒體 The Information 把范圍縮小到了本月底。
而現(xiàn)在,OpenAI 終于按下了智能體時代的啟動鍵——發(fā)布了旗下首個智能體 Operator。北京時間 1 月 24 日凌晨,OpenAI 的直播活動吸引了全球科技圈的目光。這場直播的主角,正是萬眾矚目的 Operator。
作為真·智能體,Operator 能夠模擬人類在電腦上的操作行為,通過點擊、滾動、輸入等操作直接與網頁進行交互,完成各種任務。簡單來說,Operator 就像一個擁有「自主意識」的數字員工,可以像人類一樣瀏覽網頁、填寫表格、訂購商品以及預訂餐廳等,由此也就可以代替我們進行一些繁瑣甚至復雜的操作。
Operator 起始頁面,圖/ OpenAI
在此之前,OpenAI 已經邁出一步推出了「Tasks(任務)」功能,嘗試將 ChatGPT 從一個完全被動的 AI 聊天機器人,開始轉變成主動執(zhí)行任務的 AI 數字助手。而 Operator 的出現(xiàn),則標志著 OpenAI 正式邁入了智能體時代,實現(xiàn)從「被動處理信息」到「主動完成任務」的進化——這是通往通用人工智能(AGI)的關鍵一步。
當ChatGPT 學會了「網上沖浪」
首先要說明的是,Operator 目前處于研究預覽階段,僅面向美國的 ChatGPT Pro(200 美元/月)用戶,Plus 用戶也不能體驗。不也同于 Claude 的 Computer Us 以及智譜的 GLM-PC 智能體都直接操作用戶的電腦,Operator 是在云端打開一個「瀏覽器」進行操作。
左邊是對話,右邊是云端的瀏覽器,圖/ OpenAI
但要真正明白 Operator 的意義,還是回到實際場景中,在 OpenAI 的現(xiàn)場演示中,看看 AI 是如何像一個經驗豐富的「網上沖浪老手」一樣,在數字世界里自由穿梭,完成各種任務。
比如在 OpenAI 的現(xiàn)場演示中,就要求 Operator 在 Beretta(餐廳)訂一桌今晚 7 點兩人的位置。這個指令對于我們人類來說,只需要在美食預訂網站上進行幾次搜索和篩選就能完成,但對于 AI 來說,卻是一項不小的挑戰(zhàn)。
而輸入餐廳預訂要求后,Operator 會在初步分析需求后直接打開一個云端的瀏覽器后臺,開始分步驟搜索餐廳、查看并開始預訂。當然,用戶也可以透過窗口直接觀察到 Operator 的每一步點擊、滑動和輸入,就像人類一樣操作。
通過快照可以回看到 AI 的每一步思考和操作,圖/ OpenAI
Operator 的表現(xiàn)確實令人驚艷。它迅速啟動了內置的瀏覽器,然后開始「觀察」屏幕上的內容,通過分析網頁的結構和元素,找到了搜索框和各種篩選選項。整個過程行云流水,就像真的有一個人在處理一切。
有意思的是,開始 Operator 發(fā)現(xiàn) Beretta 今晚 7 點沒有位置后,還會重新檢索一個接近用戶要求的「預訂」,最終告知并主動詢問用戶是否選擇「今晚 7 : 45」這個時間進行預訂。
AI 檢索后推薦了一個接近的時間,圖/ OpenAI
同樣地,當「今晚 7 : 45」的機會被其他人搶到后,Operator 回過頭來又能提供「今晚 6 : 15」和「今晚 8 : 15」兩個預訂時間供用戶選擇。
不僅如此,在購買一組雜貨的任務中也可以看出,Operator 可以連續(xù)執(zhí)行任務,通過不斷搜索商品、添加到購物車。而最終結算前,Operator 也會要求用戶接管控制,進行最終的確認和付款(可以登錄賬戶并保留登入狀態(tài)),用戶也可以臨時進行添加或者修改。
購買雜物(2x 播放),圖/ OpenAI
再結合 OpenAI 此前推出的「Tasks」功能,完全可以想象以后讓 Operator 定期補充購買日用品的景象。
而從官方演示以及少數用戶分享的測試來看,在購物、訂票等場景中,Operator 展現(xiàn)出了很強的適應性和通用性,能夠出色地完成各種不同的任務。
另外正如前文所述,用戶可以觀察 Operator 的每一步操作,當然也可以選擇不看,繼續(xù)讓 Operator 同時執(zhí)行另一個任務,或者干脆忙自己的工作,Operator 向你發(fā)送提醒后再進行確認即可。
同時運行多個任務,圖/ YouTube
不管是官方演示還是油管博主的測試,都說明了這一點。但 Operator 到底是如何做到這一切的呢?
基于 GPT-4o 打造“CUA”是關鍵
Operator 之所以能夠像人類一樣操作電腦,離不開 OpenAI 為其量身打造的「計算機使用智能體(CUA)」。CUA 基于 GPT-4o 的視覺能力以及高級推理技術打造,讓 AI「看懂」和「操作」電腦界面,或者說讓 AI 和人類一樣有了與圖形用戶界面(GUI)交互的能力。
CUA 首先要做的就是「看懂」屏幕上的內容。它通過分析屏幕截圖,理解圖像、文字等多種信息,識別出網頁上的各種元素,例如按鈕、鏈接、文本框等等。這個過程就像我們人類用眼睛觀察世界一樣。
甚至知道等一下,圖/ OpenAI
然后,CUA 會根據用戶的指令和「看到」的內容進行推理和判斷,決定下一步要執(zhí)行什么操作。例如,當用戶要求預訂餐廳時,CUA 會推理出需要先訪問餐廳預訂網站,然后在搜索框中輸入關鍵詞。這個過程就像我們人類在思考問題一樣。
同時,CUA 會執(zhí)行相應的操作,例如鼠標移動、點擊、鍵盤輸入等等。這些操作都非常精準,就像我們通過鼠標、鍵盤操作電腦一樣。也因為這種通用的交互能力,Operator 不需要網站提供 API 接口,幾乎可以適用于任何網頁。
為了讓操作更加智能和連貫,CUA 還通過一個迭代循環(huán)進行操作,不斷地「觀察」、「思考」和「行動」,直至任務完成。遇到挑戰(zhàn)或犯錯誤,Operator 可以利用其推理能力進行自我糾正。而當遇到困難或者需要用戶操作時,Operator 也會將控制權交還給用戶。
而且 OpenAI 很巧妙地選擇了在云端運行瀏覽器,而不像 Claude Computer Us 以及智譜的 GLM-PC 智能體直接操作用戶電腦,容易產生「占用」「隱私」「環(huán)境」的問題。
Claude Computer Use,圖/ Anthropic
前兩個很容易理解。「占用」意味著在智能體操作電腦的時候,用戶無法同時進行其他操作,只能等待智能體。「隱私」問題可想而知,畢竟在用戶電腦中通常存有大量私密的文件和信息。
「環(huán)境」則是指用戶實際使用的電腦通常運行環(huán)境復雜,不僅是可能遭遇各種系統(tǒng)和軟件 Bug,甚至單單啟動軟件都可能遭遇權限等問題,不管在 Windows、macOS 還是 Linux 下。
相比之下,OpenAI 似乎想避免「步子邁大扯到蛋」,把使用場景限定在最通用的「瀏覽器」上,同時通過云端運行來確保統(tǒng)一、隱私、可后臺運行的操作環(huán)境。
盡管 OpenAI 不是第一個打造真·智能體的大模型廠商,但這些技術與產品設計的結合,不僅實現(xiàn)了 AI 從「被動處理信息」到「主動完成任務」的跨越,讓 Operator 能夠完成各種任務,也讓 Operator 在一定程度上超越了 Claude Computer Us 或是智譜的 GLM-PC,更適合主流大眾使用。
AI 改變世界,智能體改變 AI
過去一年,智能體幾乎成了 AI 行業(yè)的共識。但實際上很多廠商宣傳的「智能體」只是對上下文進行了簡單的定制,例如角色扮演類的「智能體」只是預設了一段人物設定文本,然后將問題進行拆分執(zhí)行。
本質上仍然是軟件模塊,而非真正能夠自主行動的智能體。
而真正的智能體作為大模型時代的應用或者說交互窗口,應該能夠像人類一樣進行操作和行動,例如操作電腦、執(zhí)行任務等,直接替代人類執(zhí)行所有不必要的操作。
圖/智譜
這一點非常重要,可以區(qū)分概念炒作和真正的技術突破,也能讓我們看清 Claude Computer Use、榮耀 YOYO 智能體以及今天 OpenAI Operator 的價值。
不過也要明白,Operator 以及其他類似的「真·智能體」仍然處于早期的摸索階段。核心還是「通用性」的挑戰(zhàn),即便到了今天 OpenAI 的 Operator,智能體還是沒有實現(xiàn)真正和人類一樣的通用化交互能力,還不支持任意網站和任意程序。
YOYO 智能體自動訂購的咖啡,圖/雷科技
而互聯(lián)網是一個充滿變化的世界,面對數不清的網站和交互設計,如何讓智能體始終保持適應性,是一個需要長期解決的問題。
盡管如此,但依舊能夠看到智能體作為「AI 應用」的巨大價值,可以將我們從繁瑣重復的操作中解放出來,讓我們有更多的時間和精力去從事更有創(chuàng)造性和更有意義的工作。更重要的是極大地提高了交互效率,降低了交互門檻。
舉一個非常實際的例子,最近短視頻和社交平臺上都在流行大學生過年回家給老人卸載流氓應用、關閉廣告設置,一個關鍵原因在于智能手機對于老一輩來說交互門檻還是高了。
與此相對的是,大模型帶來了前所未有的自然語言交互能力,而智能體則在嘗試更進一步解放人類的雙手和大腦。
原文標題 : OpenAI首個智能體面世!ChatGPT劇變,AGI時代真來了?

請輸入評論內容...
請輸入評論/評論長度6~500個字