欢乐颂第二季,择天记,小说阅读网免费小说

AI“百模大戰(zhàn)”打響誰能稱王？

Apr 2023

《科創(chuàng)板日報(bào)》4月28日訊 (記者張洋洋） “根據(jù)現(xiàn)在的反饋，任務(wù)性能測試上，包括ChatGPT在內(nèi)，沒有一個(gè)大模型能夠全部達(dá)標(biāo)。”這基本上是業(yè)內(nèi)對雨后春筍般不斷涌現(xiàn)的人工智能大模型的共識(shí)。

ChatGPT推出后，基于大語言模型技術(shù)的同類型產(chǎn)品還在加快涌現(xiàn)。進(jìn)入4月以來，從互聯(lián)網(wǎng)大廠，到A股上市公司，以及一眾創(chuàng)業(yè)公司，再加上高?？蒲性盒＃枷群蟀l(fā)布各自的大模型，總數(shù)已經(jīng)超過30家。

短短數(shù)月，多個(gè)模型競相涌現(xiàn)，各家模型實(shí)力究竟如何？國內(nèi)大模型是否過剩了？行業(yè)終局，究竟是百花齊放，還是贏家通吃？在這場技術(shù)變革的討論聲中，大模型帶來的新能力里，哪些是最為關(guān)鍵的，最有可能帶來長期影響的？

▍AI大模型如雨后春筍任務(wù)性能測試還未有“滿分答卷”

據(jù)民生證券的統(tǒng)計(jì)，國內(nèi)已有超30個(gè)大模型亮相，行業(yè)儼然一副“百模大戰(zhàn)”的場景。

根據(jù)《科創(chuàng)板日報(bào)》記者約訪的人工智能行業(yè)人士反饋來看，業(yè)內(nèi)目前還沒有就具體模型給出直接的評判定論，但他們提供了一些維度，供外界做參考。

思必馳聯(lián)合創(chuàng)始人兼首席科學(xué)家、上海交通大學(xué)教授俞凱在接受《科創(chuàng)板日報(bào)》記者采訪時(shí)表示，一個(gè)必須要承認(rèn)的事實(shí)是，現(xiàn)在的大模型，只有ChatGPT通過了通用性測試（用戶破億），國內(nèi)大模型與之對比，均還存在差距。

俞凱告訴記者，衡量一個(gè)大模型實(shí)力，第一是可以基于任務(wù)的性能測試，即通過定義任務(wù)集的方式，去比較所有大模型在每個(gè)任務(wù)上面的完成度。這種性能測試與人類能力對齊，包括理解能力、推理能力、判斷能力等。根據(jù)現(xiàn)在的反饋，任務(wù)性能測試上，包括ChatGPT在內(nèi)，沒有一個(gè)大模型能夠全部達(dá)標(biāo)。

第二，從安全性角度去判斷，這一點(diǎn)更多的體現(xiàn)為大模型與人類價(jià)值觀的耦合程度。

第三，是模型運(yùn)行角度，從工程特性去判斷?！斑@是一個(gè)特別重要的能力。”俞凱強(qiáng)調(diào)，如該大模型能夠接收多大的文本、回答反應(yīng)的速度、運(yùn)行的性能等。

俞凱所言，側(cè)重于技術(shù)指標(biāo)。當(dāng)然，也有從資源稟賦層面作出判斷的。

大模型領(lǐng)域資深行業(yè)人士王鈞（化名）則告訴記者，做大模型對團(tuán)隊(duì)要求非常高，資金、技術(shù)、工程、產(chǎn)品、商業(yè)化等多個(gè)方面都不能有短板，最終考驗(yàn)的是：核心成員對大方向、大節(jié)奏有沒有真正想清楚，能不能獲取足夠多的資源和支持，能否吸引各方面的關(guān)鍵人才加盟，吸引了一群不同背景的牛人之后，能不能磨合好。

“其中最稀缺的是核心算法研究和平臺(tái)工程的技術(shù)人才，這方面整個(gè)華人圈子人數(shù)都不多?！?/span>王鈞強(qiáng)調(diào)。

人才之爭，這在大模型市場的起勢階段已有十分鮮明的寫照。

“先發(fā)制人”的百度，派出的掌舵者是CTO王海峰，創(chuàng)業(yè)者團(tuán)隊(duì)中，瀾舟科技的周明，銜遠(yuǎn)科技的周伯文等，他們在人工智能行業(yè)的影響力已經(jīng)無需多言。此前，高調(diào)官宣人工智能創(chuàng)業(yè)的王慧文，入局的第一步就是在其個(gè)人社交媒體平臺(tái)發(fā)英雄帖，重金（新公司75%的股份）招聘頂級研發(fā)人才。

“判斷做得好不好的標(biāo)準(zhǔn)，不能看各公司自己的宣傳，一些業(yè)界公認(rèn)的評測基準(zhǔn)當(dāng)然也可以作為參考，但最重要的還是用戶的認(rèn)可，用戶尤其是高頻或者付費(fèi)用戶最多的才是最好的。”王鈞稱。

▍逼近了AGI核心產(chǎn)業(yè)應(yīng)用“泛化性”才是關(guān)鍵

囿于各種商業(yè)原因，對于各公司大模型實(shí)際的數(shù)據(jù)、測試反饋指標(biāo)、投入的資源情況，乃至用戶數(shù)據(jù)等，外界很難全然知曉，那么對其實(shí)力情況，也很難去做全然科學(xué)的判斷。

但記者注意到，受訪者們均提到了一個(gè)顯性的評測角度，那就是“用戶反饋”，如回答的反應(yīng)速度、準(zhǔn)確性、可用性、上下文連貫邏輯等。這也是為何，每逢一個(gè)大模型新品推出，用戶第一時(shí)間會(huì)去關(guān)注回答是否會(huì)“翻車”。

就國內(nèi)當(dāng)下幾個(gè)代表性大模型，《科創(chuàng)板日報(bào)》記者此前均有過實(shí)際體驗(yàn)，結(jié)合多位用戶的使用反饋，目前大模型整體呈現(xiàn)如下特征：

ChatGPT-4是一個(gè)多模態(tài)大型語言模型，支持圖像和文本輸入，以文本形式輸出，在“模擬人類”的文本輸出方面，以及用戶規(guī)模上，綜合實(shí)力領(lǐng)先。

相比之下，國內(nèi)大模型種類多樣，能力各有千秋，目前更注重探索產(chǎn)業(yè)應(yīng)用，用于解決產(chǎn)業(yè)技術(shù)壁壘問題。

在中文語義方面，國內(nèi)包括文心一言、千義通問等各模型理解能力有高有低，并未明顯拉開距離。在對刁鉆中文語句的理解方面，因國內(nèi)大模型的訓(xùn)練數(shù)據(jù)主要來自中文語料庫，相比于ChatGPT主要來自英文語料庫，國產(chǎn)大模型因而會(huì)更勝一籌。

但也有個(gè)例。復(fù)旦大學(xué)邱錫鵬教授團(tuán)隊(duì)發(fā)布國內(nèi)首個(gè)類ChatGPT模型MOSS，其英文回答水平比中文高，原因在于，英文作為科研主流語言，在學(xué)術(shù)界和工業(yè)界中得到廣泛應(yīng)用，積累了大量高質(zhì)量的語料數(shù)據(jù)，且相較中文數(shù)據(jù)，英文數(shù)據(jù)開源程度高。

另外，MOSS在設(shè)計(jì)時(shí)考慮了人類的倫理道德準(zhǔn)則，不會(huì)產(chǎn)生有偏見或可能有害的回答，這在一定程度會(huì)避免一些潛在的法律風(fēng)險(xiǎn)和商業(yè)倫理問題。這一點(diǎn)上，ChatGPT則沒有明確地處理。

大模型測評聲仍在此起彼伏。但俞凱坦言，目前去評判各模型能力如何以及好壞，其實(shí)不是合適的時(shí)間點(diǎn)。

在他看來，現(xiàn)在已經(jīng)面世的大模型，變革在于，基本都已實(shí)現(xiàn)思維鏈的涌現(xiàn)能力，逼近了AGI（通用人工智能）最核心的部分，業(yè)界現(xiàn)在更關(guān)注大模型是否有足夠的“泛化性”，即廣泛使用，但從產(chǎn)業(yè)角度而言，國內(nèi)大模型的用戶量級也還未達(dá)到泛在化。

“在未達(dá)到廣泛的通用性之前，以通用性的標(biāo)準(zhǔn)去做評判，還是需要慎重?！庇釀P強(qiáng)調(diào)。

▍大模型并未過剩先發(fā)者未必就是"王者"

多個(gè)模型短期內(nèi)同時(shí)涌向市場，也有觀點(diǎn)提出，現(xiàn)在需要這么多大模型嗎？換句話說，大模型現(xiàn)在過剩了嗎？

行業(yè)普遍認(rèn)為，盡管現(xiàn)在這么多大模型出現(xiàn)，但還遠(yuǎn)達(dá)不到過剩的程度。

王鈞認(rèn)為，大模型對廠商的技術(shù)、資金、實(shí)力要求，目前只能說現(xiàn)在的產(chǎn)品剛剛能夠用得上。

俞凱表示，未來的行業(yè)AI應(yīng)用范式將從一個(gè)通用模型變成一簇通用模型，大模型會(huì)分化，如按照領(lǐng)域區(qū)分，按功能區(qū)分，結(jié)合具體行業(yè)具體場景。現(xiàn)在來看，非常專業(yè)的精深大模型還沒出來，這些會(huì)在今后不斷涌現(xiàn)。

達(dá)觀數(shù)據(jù)創(chuàng)始人兼CEO陳運(yùn)文在接受《科創(chuàng)板日報(bào)》記者采訪時(shí)也表示，大模型賽道目前國內(nèi)是處于探索趕超階段，技術(shù)本身也還不成熟，未來還有很大的成長空間，“就像現(xiàn)在的飲料品牌一樣，如果拉長時(shí)間線來看，今天的大模型數(shù)量其實(shí)并不多。”

那么在未來，行業(yè)的終局，究竟是百花齊放，還是贏家通吃？

俞凱和陳運(yùn)文均表示，未來將會(huì)是百花齊放的狀態(tài)，原因就在于現(xiàn)在正處于起步階段，未來大模型在每個(gè)行業(yè)里面生長出來的產(chǎn)品形態(tài)都會(huì)不一樣，而面向不同的行業(yè)，也將會(huì)出現(xiàn)垂直行業(yè)的應(yīng)用模型。

王鈞則表示，大模型的高門檻決定了這是少數(shù)玩家才能做的事情，未來不會(huì)是百花齊放的姿態(tài)，但究竟會(huì)不會(huì)像搜索引擎一樣一家獨(dú)大，還是操作系統(tǒng)只有兩三家的局面，亦或是云計(jì)算多家發(fā)展的格局，“現(xiàn)在沒法判斷，還是有些變量?！?

多位資深業(yè)內(nèi)人士告訴《科創(chuàng)板日報(bào)》記者，在人工智能大模型上，OpenAI只是暫時(shí)一個(gè)暫時(shí)領(lǐng)先的“先發(fā)者”，微軟綁定OpenAI后確實(shí)取得了一定的競爭優(yōu)勢，但要看到谷歌、亞馬遜、Meta等也正在奮起直追。未來到底哪家公司能夠攜AI大模型取得類似蘋果今天一樣的全球市場地位，目前還極難判斷。先發(fā)者并不是最后王者的案例太多太多，以中國互聯(lián)網(wǎng)發(fā)展為例，最先出發(fā)的是新浪、搜狐、網(wǎng)易，但后面真正切得大蛋糕的卻是騰訊、阿里和字節(jié)等。

▍要更多地關(guān)注和深入思考AI的應(yīng)用場景

無論是詫異ChatGPT的驚人表現(xiàn)，還是對“百模大戰(zhàn)”的思考，今日種種關(guān)于大模型的討論，本質(zhì)無外乎這場技術(shù)革命給人類帶來的機(jī)會(huì)和挑戰(zhàn)。

但在網(wǎng)易有道CEO、計(jì)算機(jī)科學(xué)博士周楓看來，在這場技術(shù)風(fēng)潮討論中，還有一個(gè)問題沒有被充分討論，那就是大模型帶來的新能力中，哪些是最為關(guān)鍵的，最有可能帶來長期影響的。

周楓認(rèn)為，與之前眾多的自然語言處理技術(shù)相比，大語言模型至少具有三項(xiàng)根本性新能力：涌現(xiàn)能力、作為基座模型支持多元應(yīng)用的能力、支持對話作為統(tǒng)一入口的能力。

周楓表示，涌現(xiàn)能力之所以重要，不僅因?yàn)樗鼈兪谴竽Ｐ统霈F(xiàn)后才有的新能力，而且由大模型涌現(xiàn)出來的，多數(shù)是非常重要的能力。例如，常識(shí)推理能力一直是AI領(lǐng)域的重大難題，而大模型的出現(xiàn)使得常識(shí)推理取得了重大進(jìn)展。再比如，一旦‘推理‘能力涌現(xiàn)，“思維鏈提示”策略就可以用來解決多步推理的難題?！耙虼耍楷F(xiàn)能力的出現(xiàn)，是大模型帶來的一項(xiàng)根本性變化”。

在基座模型方面，周楓說到，大型模型不僅可以縮短每個(gè)具體應(yīng)用的開發(fā)周期，減少所需人力投入，也可以基于大模型的推理、常識(shí)和寫作能力，獲得更好的應(yīng)用效果。因此，大模型可以成為AI應(yīng)用開發(fā)的大一統(tǒng)基座模型，這是一個(gè)一舉多得、全新的范式，值得大力推廣。

本輪讓大語言模型真正火爆的契機(jī)，是基于對話聊天的ChatGPT。周楓表示，雖然之前的聊天機(jī)器人存在各種問題，但大型語言模型的出現(xiàn)再次讓聊天機(jī)器人這種交互模式可以重新想像。未來或?qū)⒂楷F(xiàn)出很多類似的以對話形態(tài)讓助手完成各種具體工作的項(xiàng)目。

“這三項(xiàng)能力在學(xué)術(shù)界已經(jīng)被廣泛討論，甚至被視為常識(shí)，但是在產(chǎn)業(yè)界和產(chǎn)品團(tuán)隊(duì)中卻缺乏足夠的關(guān)注?！敝軛鞣Q，“這些大模型技術(shù)的特點(diǎn)已經(jīng)改變了我們對業(yè)務(wù)和產(chǎn)品規(guī)劃的思考方式，也會(huì)改變很多產(chǎn)品的經(jīng)濟(jì)模型。因此，產(chǎn)品經(jīng)理和業(yè)務(wù)負(fù)責(zé)人需要更多地關(guān)注和深入思考這些新能力的應(yīng)用場景?！?/span>

俞凱也認(rèn)為，在這場技術(shù)變革，除了技術(shù)層面的參數(shù)量級，資源層面的算法、算力、數(shù)據(jù)、人才資金等的討論，更需要關(guān)注的是，除大語言模型之外，其他與人工智能體系相關(guān)的東西。

這些就包括對語言的理解，對對話式人工智能的理解，以及對多模態(tài)人工智能的理解等。這些不僅是單獨(dú)算法的問題，還關(guān)涉業(yè)務(wù)，訓(xùn)練策略，以及對人工智能技術(shù)歷程的理解。

AI“百模大戰(zhàn)”打響 誰能稱王？

AI“百模大戰(zhàn)”打響誰能稱王？