大模型走到AI戰(zhàn)略分岔口,字節(jié)們面臨偏航危機
“不少AI企業(yè)追求“大而全”,面臨商業(yè)上的挑戰(zhàn)和市場規(guī)模的限制。盡管深度推理具有長遠價值,但敢于投入和堅持的企業(yè)為數不多。 ”
@科技新知 原創(chuàng)
作者丨林書 編輯丨蕨影
最近,字節(jié)在AI方面又搞了個大新聞。
一個字節(jié)的實習生,因為對團隊資源分配不滿,用惡意代碼把模型訓練過程給投了“毒”,字節(jié)這邊損失不小。
盡管“資源分配問題”這個說法還沒完全坐實,但既然一個實習生,都能隨便對訓練中的模型下毒手了,那至少說明,字節(jié)對文本模型的訓練方面重視度不夠,因此才會出現“把關不嚴”的情況。
與文本大模型相比,字節(jié)在視頻方向上可謂打得火熱,推出了兩款最新的視頻模型PixelDance1和Seaweed2。
這種資源上的傾斜,反映的是國內大廠在當下LLM發(fā)展岔路上的關鍵分歧:算力資源有限的情況下,未來的大模型到底是要往視頻方向沖,還是繼續(xù)在文本上發(fā)力?
這樣的分歧,在OpenAI推出了能搞深度推理的o1模型后,顯得愈發(fā)棘手和關鍵。
01.
AI視頻硬傷,遭遇市場冷眼
在這樣的關鍵抉擇上,百度CEO李彥宏前兩天放了個大招,直接撂話說“百度不碰Sora類的視頻生成”。
原因就在于,在百度看來,現在的視頻大模型還不成氣候,離能真正進行商用還早著呢。用李彥宏的話來說,“10年、20年都可能拿不到業(yè)務收益”。
而這樣的判斷,也并非空穴來風。
據SimilarWeb統(tǒng)計,位居全球前列的AI視頻生成企業(yè)Luma AI網站在9月的總訪問量僅為1181萬次,環(huán)比下跌38.49%。
同樣地,身為AI視頻生成領域的“老大哥”的Runway在9月流量僅755.8萬次,不及ChatGPT的1/400;
用戶不買賬,首先得從產品上找原因。
以國內AI視頻生成模型為例,盡管從今年2月Sora出現后,國內的大廠如快手、字節(jié)、智譜清言等,都推出了各自的視頻模型,但平心而論,目前所有的視頻模型都存在兩個難以掩蓋的短板:
其一,是難以做到成本、質量二者兼具。
圖源:可靈
以快手的可靈為例,雖然其生成的效果,在國內視頻模型中已算翹楚,但從成本上來說,其生成一個5秒的視頻,需消耗10個靈感值(1靈感值=1元),生成時間大約為2~5分鐘。
按照這樣的成本估算,如果要生成一分鐘的短視頻,用戶至少要花費十余元,等上半個小時左右。
而且,這還沒算上由于AI理解不準確,需要重新生成的情況,實際成本只會更高。
圖源:可靈
相較之下,身為國內“AI六小虎”之一的智譜清言,雖然開放了可免費使用的視頻模型“清影”,但其生成效果實在不敢恭維,其生成的畫面有一股濃濃的“90年代3D動畫”的感覺。
況且,雖然免費了,但其生成時長還是沒打下來,用戶生成一個5秒的片段,照樣要等3~5分鐘。
圖源:智譜清言
AI視頻生成的另一大短板,便是那股始終揮之不去的“AI”味。
這幾乎是所有視頻模型的通病。
無論人物或物體的外觀,看起來多么真實、多么形似,可觀眾總覺得哪兒不對勁兒。有一種活生生的“恐怖谷”效應,看著就覺得渾身不自在。
說白了,這就是一種技術不到位的表現。
因為大多數AI視頻生成算法,背后雖然在很努力地模仿現實世界的物理規(guī)則,模仿人和動物的運動方式,但仍無法完全理解數據背后的語義和情感。因此生成的內容,在某些細節(jié)上顯得缺乏“靈性”。
圖源:可靈
而這明顯的“AI”味,也成了當下大眾對AI作品懷有偏見的重要原因。
由于上述短板的存在,目前火爆于各大視頻平臺的AI視頻,大都以“玩梗”“搞笑”為主,因為只有這類“不正經”的視頻,才不會對生成的成本、效果有太高要求。
更悲哀的是,當下的AI視頻賽道雖未大火,但早早面臨“未火先卷”的情況,多家AI視頻生成廠商都對功能進行密集迭代,但大多是“錦上添花”而缺乏躍進式體驗升級。
以快手的可靈為例,其推出的運鏡控制、高清生成、圖生視頻等功能,國內的各大視頻生成類AI,例如智譜的清影、字節(jié)的即夢也都有。
圖源:可靈
而這種同質化的、聊勝于無的功能,并未能給用戶體驗帶來大幅度的改善。
說到底,視頻生成類賽道的內卷,本質上是現在的LLM遇到瓶頸后,一種為了延續(xù)“AI故事”的無奈之舉,但悲哀的是,這樣的故事目前還沒有一個大廠能講好。
02.
數據枯竭下,深度推理或是救星
在各種訓練數據行將耗盡的當下,LLM的scaling law的神話該怎樣繼續(xù)?
在OpenAI 的o1模型發(fā)布后,人們意識到,這個問題的答案,就是強化學習。
對此,月之暗面的CEO楊植麟分析道:決定這一代AI技術的上限,核心是文本模型能力的上限。
從技術上來看,楊植麟此言非虛。
因為即使在多模態(tài)任務中,文本層面的理解和推理也是必不可少的。以Sora為例,其訓練數據包含了大量“視頻-文本對”,每個視頻片段都有對應的詳細文本描述,這種配對方式,讓模型能夠建立文本語義和視覺表現之間的映射。
同時,倘若視頻模型要想取得更大進展,例如發(fā)展出完整的敘事結構,就要求文本模型有執(zhí)行復雜邏輯推理的能力。
如果文本模型無法規(guī)劃復雜敘事,視頻模型也難以突破這個上限。
因此,LLM未來的方向實際上已十分明了:文本模型決定了多模態(tài)的上限,而深度推理又決定了當前文本模型的上限。
正因如此,在o1推出后,國內的諸多大廠如字節(jié)、智譜清言、月之暗面等,都紛紛在自家的大模型中開通了“深度搜索”功能,這算是深度推理功能的聯網版本。
但從實際表現來看,并非所有廠商都在這方面表現得盡如人意。
在這里,我們以一個較為考驗深度推理和分析能力的問題,來對字節(jié)、智譜清言、月之暗面各自的大模型進行一番對比。
這個問題是:分析近三年全球智能手機市場的發(fā)展趨勢,包括各大品牌的市占率變化、技術創(chuàng)新,以及消費者偏好的變化。
圖源:豆包首先測評的,是字節(jié)的豆包大模型。
可以看到,雖然在整體的水準上,確實有一些切中要害的關鍵點,但在進行回答時,整體的內容、結構顯得十分臃腫、凌亂,并沒有做太多結構化、精細化的處理,使用戶在閱讀時,仍感到很大的閱讀負擔和壓力。
圖源:智譜清言
接下來測評的,是智譜清言的智譜AI。
可以看到,與豆包相比,智譜AI在進行深度推理時,結構明顯比豆包更清晰、更有條理,且針對蘋果、三星、vivo等不同的品牌,具體列出了不同的市場表現、市場份額。
但從整體上來看,每一部分的總結與分析,仍顯得過于簡略。
圖源:KIMI
最后登場的,是月之暗面的kimi。
在開啟深度搜索功能后,Kimi在信息的分析、總結上,表現出了更加細致、深入的特點,不僅以不同的年份,詳細展示了不同品牌在市場中的份額變化,以凸顯趨勢,且在對技術創(chuàng)新方面進行分析時,十分具體、細致地展示了不同年份中,不同品牌推出的具體技術。
綜合來看,Kimi在進行復雜問題分析時,其推理的深度、精細度,要顯著優(yōu)于豆包、智譜AI。
由此可見,目前在“深度推理”這一頗為考驗LLM“內功”的分水嶺上,國內廠商已經顯示出了顯著的差距。
03.
追求大而全,陷入戰(zhàn)略困境
如前所述,自從OpenAI推出o1后,當下大模型的發(fā)展,已經到了一個進行戰(zhàn)略選擇的分岔口。
而在這關鍵的戰(zhàn)略分叉點上,國內的部分大廠如字節(jié),由于自身布局于短視頻業(yè)務的巨大慣性,并未在深度推理方向進行深耕,只是靠著低價競爭,以及“多而不精”的龐雜功能,才硬擠上國內大模型排行榜的頭部。
圖源:豆包
據火山引擎總裁譚待介紹,“豆包主力模型在企業(yè)市場的定價只有0.0008元/千Tokens,比行業(yè)便宜99.3%。”
但一味地降價追求“性價比”,某種程度上透露出的是自身模型缺乏核心競爭力的表現。
與字節(jié)類似,“AI六小虎”之一的智譜清言,也走上了一條追求“大而全”的路線。簡言之,目前的智譜,也成了那種“繪畫、視頻、搜索都要一攬子拿下”的AI企業(yè)。
圖源:智譜清言
但實際上,這種“大而全”的追求,反映的是一種商業(yè)上的“困獸猶斗”。
這是因為,目前國內企業(yè)主對軟件購買意愿偏低,To B端大模型給企業(yè)帶來的價值仍處在割裂狀態(tài),2023年國內大模型市場規(guī)模僅有50億元,2024年也僅增加到120億元。
在B端市場狹窄、C端又尚未打開的情況下,任何做大模型的企業(yè),唯有不停地融資、燒錢,橫向地擴展用戶,才能讓自己的模型活下來。
但這種跑馬圈地的邏輯,本質上仍是互聯網時代的思維,這并不能真正地“救活”AI。因為與互聯網不同,AI產品的邊界,并不是由用戶數決定,而是由實打實的技術力決定。
一個有些反直覺的現實是:與視頻生成這類耀眼的、更容易令人遐想聯翩的技術相比,真正能在C端帶來突破的,也許是深度推理這類既難啃又不性感的技術。
原因就在于,視頻生成主要服務創(chuàng)意表達,應用場景相對固定,用戶群體、變現模式都較為單一,其價值體現在內容產出,ROI相對直觀。
從本質上來說,它更像是一個效率工具,而不是一個能帶來顛覆性改變的技術。
相較之下,深度推理則屬于基礎認知能力,可以賦能各類應用,其突破可帶來各方向的普遍提升,且其能力可以遷移復用,更易于產生協同效應。
更重要的是,隨著這項技術的發(fā)展,它對用戶的理解會越來越深入,提供的建議會越來越個性化和精準。
這種持續(xù)學習和進化的特性,讓其很難被簡單的工具或服務所替代,這正是某些短命的“爆款應用”所需要吸取的教訓。
可惜的是,在這條難而正確的道路上,真正敢于堅持并做出成就的企業(yè),目前仍屈指可數。
原文標題 : 大模型走到AI戰(zhàn)略分岔口,字節(jié)們面臨偏航危機

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月8日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數會2025(第六屆)機器人及智能工廠展
-
7月31日免費預約>> OFweek 2025具身智能機器人產業(yè)技術創(chuàng)新應用論壇
-
免費參會立即報名>> 7月30日- 8月1日 2025全數會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題