亚洲精品鲁一鲁一区二区三区,午夜三级韩国理论av,欧美成人乱码一区二区三区

OpenAI首個智能體面世！ChatGPT劇變，AGI時代真來了？

2025-01-26 10:39

AI 改變世界，智能體改變 AI。

關于 OpenAI 推出「智能體（Agent）」的傳聞早已甚囂塵上。去年 11 月起，就不斷有爆料消息指出，OpenAI 將在 2025 年 1 月上線首個智能體，稍早前還被海外科技媒體 The Information 把范圍縮小到了本月底。

而現(xiàn)在，OpenAI 終于按下了智能體時代的啟動鍵——發(fā)布了旗下首個智能體 Operator。北京時間 1 月 24 日凌晨，OpenAI 的直播活動吸引了全球科技圈的目光。這場直播的主角，正是萬眾矚目的 Operator。

作為真·智能體，Operator 能夠模擬人類在電腦上的操作行為，通過點擊、滾動、輸入等操作直接與網頁進行交互，完成各種任務。簡單來說，Operator 就像一個擁有「自主意識」的數字員工，可以像人類一樣瀏覽網頁、填寫表格、訂購商品以及預訂餐廳等，由此也就可以代替我們進行一些繁瑣甚至復雜的操作。

Operator 起始頁面，圖/ OpenAI

在此之前，OpenAI 已經邁出一步推出了「Tasks（任務）」功能，嘗試將 ChatGPT 從一個完全被動的 AI 聊天機器人，開始轉變成主動執(zhí)行任務的 AI 數字助手。而 Operator 的出現(xiàn)，則標志著 OpenAI 正式邁入了智能體時代，實現(xiàn)從「被動處理信息」到「主動完成任務」的進化——這是通往通用人工智能（AGI）的關鍵一步。

當ChatGPT 學會了「網上沖浪」

首先要說明的是，Operator 目前處于研究預覽階段，僅面向美國的 ChatGPT Pro（200 美元/月）用戶，Plus 用戶也不能體驗。不也同于 Claude 的 Computer Us 以及智譜的 GLM-PC 智能體都直接操作用戶的電腦，Operator 是在云端打開一個「瀏覽器」進行操作。

Introduction to Operator & Agents.gif

左邊是對話，右邊是云端的瀏覽器，圖/ OpenAI

但要真正明白 Operator 的意義，還是回到實際場景中，在 OpenAI 的現(xiàn)場演示中，看看 AI 是如何像一個經驗豐富的「網上沖浪老手」一樣，在數字世界里自由穿梭，完成各種任務。

比如在 OpenAI 的現(xiàn)場演示中，就要求 Operator 在 Beretta（餐廳）訂一桌今晚 7 點兩人的位置。這個指令對于我們人類來說，只需要在美食預訂網站上進行幾次搜索和篩選就能完成，但對于 AI 來說，卻是一項不小的挑戰(zhàn)。

而輸入餐廳預訂要求后，Operator 會在初步分析需求后直接打開一個云端的瀏覽器后臺，開始分步驟搜索餐廳、查看并開始預訂。當然，用戶也可以透過窗口直接觀察到 Operator 的每一步點擊、滑動和輸入，就像人類一樣操作。

通過快照可以回看到 AI 的每一步思考和操作，圖/ OpenAI

Operator 的表現(xiàn)確實令人驚艷。它迅速啟動了內置的瀏覽器，然后開始「觀察」屏幕上的內容，通過分析網頁的結構和元素，找到了搜索框和各種篩選選項。整個過程行云流水，就像真的有一個人在處理一切。

有意思的是，開始 Operator 發(fā)現(xiàn) Beretta 今晚 7 點沒有位置后，還會重新檢索一個接近用戶要求的「預訂」，最終告知并主動詢問用戶是否選擇「今晚 7 : 45」這個時間進行預訂。

AI 檢索后推薦了一個接近的時間，圖/ OpenAI

同樣地，當「今晚 7 : 45」的機會被其他人搶到后，Operator 回過頭來又能提供「今晚 6 : 15」和「今晚 8 : 15」兩個預訂時間供用戶選擇。

不僅如此，在購買一組雜貨的任務中也可以看出，Operator 可以連續(xù)執(zhí)行任務，通過不斷搜索商品、添加到購物車。而最終結算前，Operator 也會要求用戶接管控制，進行最終的確認和付款（可以登錄賬戶并保留登入狀態(tài)），用戶也可以臨時進行添加或者修改。

視頻播放.gif

購買雜物（2x 播放），圖/ OpenAI

再結合 OpenAI 此前推出的「Tasks」功能，完全可以想象以后讓 Operator 定期補充購買日用品的景象。

而從官方演示以及少數用戶分享的測試來看，在購物、訂票等場景中，Operator 展現(xiàn)出了很強的適應性和通用性，能夠出色地完成各種不同的任務。

另外正如前文所述，用戶可以觀察 Operator 的每一步操作，當然也可以選擇不看，繼續(xù)讓 Operator 同時執(zhí)行另一個任務，或者干脆忙自己的工作，Operator 向你發(fā)送提醒后再進行確認即可。

同時運行多個任務，圖/ YouTube

不管是官方演示還是油管博主的測試，都說明了這一點。但 Operator 到底是如何做到這一切的呢？

基于 GPT-4o 打造“CUA”是關鍵

Operator 之所以能夠像人類一樣操作電腦，離不開 OpenAI 為其量身打造的「計算機使用智能體（CUA）」。CUA 基于 GPT-4o 的視覺能力以及高級推理技術打造，讓 AI「看懂」和「操作」電腦界面，或者說讓 AI 和人類一樣有了與圖形用戶界面（GUI）交互的能力。

CUA 首先要做的就是「看懂」屏幕上的內容。它通過分析屏幕截圖，理解圖像、文字等多種信息，識別出網頁上的各種元素，例如按鈕、鏈接、文本框等等。這個過程就像我們人類用眼睛觀察世界一樣。

甚至知道等一下，圖/ OpenAI

然后，CUA 會根據用戶的指令和「看到」的內容進行推理和判斷，決定下一步要執(zhí)行什么操作。例如，當用戶要求預訂餐廳時，CUA 會推理出需要先訪問餐廳預訂網站，然后在搜索框中輸入關鍵詞。這個過程就像我們人類在思考問題一樣。

同時，CUA 會執(zhí)行相應的操作，例如鼠標移動、點擊、鍵盤輸入等等。這些操作都非常精準，就像我們通過鼠標、鍵盤操作電腦一樣。也因為這種通用的交互能力，Operator 不需要網站提供 API 接口，幾乎可以適用于任何網頁。

為了讓操作更加智能和連貫，CUA 還通過一個迭代循環(huán)進行操作，不斷地「觀察」、「思考」和「行動」，直至任務完成。遇到挑戰(zhàn)或犯錯誤，Operator 可以利用其推理能力進行自我糾正。而當遇到困難或者需要用戶操作時，Operator 也會將控制權交還給用戶。

而且 OpenAI 很巧妙地選擇了在云端運行瀏覽器，而不像 Claude Computer Us 以及智譜的 GLM-PC 智能體直接操作用戶電腦，容易產生「占用」「隱私」「環(huán)境」的問題。

Claude Computer Use，圖/ Anthropic

前兩個很容易理解。「占用」意味著在智能體操作電腦的時候，用戶無法同時進行其他操作，只能等待智能體。「隱私」問題可想而知，畢竟在用戶電腦中通常存有大量私密的文件和信息。

「環(huán)境」則是指用戶實際使用的電腦通常運行環(huán)境復雜，不僅是可能遭遇各種系統(tǒng)和軟件 Bug，甚至單單啟動軟件都可能遭遇權限等問題，不管在 Windows、macOS 還是 Linux 下。

相比之下，OpenAI 似乎想避免「步子邁大扯到蛋」，把使用場景限定在最通用的「瀏覽器」上，同時通過云端運行來確保統(tǒng)一、隱私、可后臺運行的操作環(huán)境。

盡管 OpenAI 不是第一個打造真·智能體的大模型廠商，但這些技術與產品設計的結合，不僅實現(xiàn)了 AI 從「被動處理信息」到「主動完成任務」的跨越，讓 Operator 能夠完成各種任務，也讓 Operator 在一定程度上超越了 Claude Computer Us 或是智譜的 GLM-PC，更適合主流大眾使用。

AI 改變世界，智能體改變 AI

過去一年，智能體幾乎成了 AI 行業(yè)的共識。但實際上很多廠商宣傳的「智能體」只是對上下文進行了簡單的定制，例如角色扮演類的「智能體」只是預設了一段人物設定文本，然后將問題進行拆分執(zhí)行。

本質上仍然是軟件模塊，而非真正能夠自主行動的智能體。

而真正的智能體作為大模型時代的應用或者說交互窗口，應該能夠像人類一樣進行操作和行動，例如操作電腦、執(zhí)行任務等，直接替代人類執(zhí)行所有不必要的操作。