開源中國董事長馬越
(相關(guān)資料圖)
出品 | 搜狐科技
作者 | 梁昌均
“谷歌在人工智能方面并沒有護(hù)城河,OpenAI也沒有。”這是不久前谷歌內(nèi)部一份研究給出的判斷,理由則是開源的AI模型正在與它們有力競爭。
開源的力量終于在激烈的百模大戰(zhàn)中涌現(xiàn),并越發(fā)不可忽視。Meta開源的LLaMA 2引起轟動(dòng),智源、智譜、百川等先后開源,阿里也在上周打響國內(nèi)大廠大模型開源的第一槍。
在頭部AI開源社區(qū)HuggingFace中,已有超過27萬個(gè)開源模型,其中對(duì)話和文本生成模型接近2萬個(gè),不少都是今年新增的大模型。
在開源中國董事長馬越看來,開源本身是一種研發(fā)模式,也是一種競爭策略,是否開源跟產(chǎn)品研發(fā)能力有關(guān),也是一件特別市場化的事。因此Meta、阿里云等開源模型,更多是市場競爭策略的選擇。
不過,馬越對(duì)搜狐科技強(qiáng)調(diào),絕對(duì)領(lǐng)先的技術(shù)不太可能會(huì)開源,因?yàn)殚]源的商業(yè)變現(xiàn)反射弧相對(duì)更短、更直接?!癘penAI從GPT-3絕對(duì)領(lǐng)先后不再開源,如果持續(xù)一騎絕塵大概率今后還是不會(huì)開源?!?/p>
馬越認(rèn)為,國內(nèi)先天性投入較差,說幾個(gè)月、半年追上OpenAI不太可能,反倒可能是半年之后它把我們拋得更遠(yuǎn)。但幸虧有開源,為很多追趕者提供了超越的可能,且從中也一定會(huì)誕生類似ChatGPT的殺手級(jí)應(yīng)用。
在他看來,AI大模型的關(guān)鍵是要有人用,沒需求、沒反饋,就無法迭代,不能閉門造車。“不要為了模型而模型,不要去追逐富人的游戲,要從現(xiàn)在的用戶去倒推,從能夠創(chuàng)造的商業(yè)價(jià)值去倒逼技術(shù)選擇?!?/p>
同時(shí),馬越認(rèn)為,國內(nèi)巨頭在大模型上不可能齊頭并進(jìn),只會(huì)有一兩個(gè)領(lǐng)先,且會(huì)選擇掙錢更快的方式?!叭绻]源能讓大家以很低的成本用起來,就沒必要去開源。”
但開源也存在風(fēng)險(xiǎn),如果是好的模型開源,能夠推動(dòng)AI普惠,降低個(gè)人和組織去賦能千行百業(yè)的成本。如果技術(shù)和產(chǎn)品本身沒有競爭力,開源也不是靈丹妙藥,反倒會(huì)更快“見光死”。
“開源本身也會(huì)形成競爭,如果用戶都不下載使用,那也沒意義。開源模型好不好絕不是靠權(quán)威來背書,而是要靠大眾點(diǎn)評(píng),關(guān)鍵是看可持續(xù)增長的用戶量和使用量。”馬越表示。
在互聯(lián)網(wǎng)時(shí)代,開源的力量不容小覷,相關(guān)的開源軟件都是服務(wù)器和移動(dòng)端操作系統(tǒng)的市場主力。馬越就此給出論斷:未來AI大模型開源的市場份額會(huì)更大,閉源只會(huì)為少量用戶服務(wù),但因它的商業(yè)反射弧快,變現(xiàn)效率高,會(huì)吃掉大部分利潤。
面對(duì)當(dāng)前正酣的百模大戰(zhàn),馬越認(rèn)為這是熱度剛開始時(shí)的正常競爭,就像當(dāng)年的“百團(tuán)大戰(zhàn)”?!暗ㄓ么竽P妥詈髸?huì)是贏者通吃,只有少量幾家能夠勝出?!?/p>
對(duì)垂直模型來說,則需要類似HuggingFace的分發(fā)平臺(tái)?!按竽P烷_源是為愛發(fā)電,通過開源相當(dāng)于節(jié)約了90%的成本,這是成本最低的方式?!?/p>
馬越還認(rèn)為,AI和開源是相互成就的乘法關(guān)系,會(huì)讓對(duì)方加速發(fā)展?!安豢块_源,大模型沒法傳播落地;沒有大模型,開源也不能在互聯(lián)網(wǎng)時(shí)代的未來實(shí)現(xiàn)新高峰的增長?!?/p>
談及這些年國內(nèi)開源生態(tài)的發(fā)展,馬越則用“超出預(yù)期”來形容。十六年前,他回國成立了國內(nèi)第一家開源技術(shù)服務(wù)公司,打造了國內(nèi)最早的開源社區(qū),并帶領(lǐng)Gitee成為全球第二大代碼托管平臺(tái)。
馬越回憶到,2007年剛回國時(shí),沒多少人理解開源的概念,但現(xiàn)在中國已是全球第二大開源生態(tài)貢獻(xiàn)國,有了開源基金會(huì)和國際通用的開源協(xié)議,開源還被寫入十四五規(guī)劃。他認(rèn)為,開源能夠驅(qū)動(dòng)自主創(chuàng)新、提高創(chuàng)新速度。
開源中國最近也完成一輪7.75億元的融資,20多家股東中有一半是國資,百度、華為、聯(lián)想也有投資。馬越表示,開源中國重組為中立平臺(tái)后,新使命是打造中國版的HuggingFace,希望借此早點(diǎn)結(jié)束百模大戰(zhàn),讓千行百業(yè)都能用上大模型。
以下是對(duì)話實(shí)錄(經(jīng)編輯整理)
搜狐科技:AI涉及很多要素,AI開源開的到底是什么?這塊誰做得比較領(lǐng)先?
馬越:當(dāng)前需要多關(guān)注HuggingFace,這是AI領(lǐng)域的GitHub。開源除了代碼,還有模型、數(shù)據(jù)集等,每家企業(yè)可能不一樣。好的開源模型能夠推動(dòng)AI普惠,極大降低個(gè)人和組織去賦能千行百業(yè)的成本。
搜狐科技:阿里、智譜、百川等先后開源自己的模型,怎么看這些企業(yè)開源的行為?
馬越:OpenAI遙遙領(lǐng)先,其它企業(yè)不開源的話其實(shí)很難有建樹,拿著模型也沒多大意義,還不如開源。通過開源免費(fèi)先把用戶獲取過來是個(gè)極好的做法,也十分重要,否則很難在百模大戰(zhàn)中上桌。如果靠開源靠免費(fèi),還是吸引不來用戶,只能說明產(chǎn)品競爭力實(shí)在不行,被淘汰了也能更早地發(fā)現(xiàn)問題,反過來也能印證開源行為的價(jià)值。
企業(yè)開源也會(huì)面臨商業(yè)回報(bào)的問題,反射弧長,變現(xiàn)效率低,前期研發(fā)成本打水漂。但換個(gè)思路來看,開源的目的是更好地獲得用戶,塑造口碑和品牌,獲得用戶反饋,也可以看作是市場營銷的行為。
搜狐科技:阿里打響國內(nèi)大廠大模型開源第一槍,未來會(huì)有更多大廠開源嗎?
馬越:國內(nèi)這幾家巨頭不可能齊頭并進(jìn),以后只會(huì)有一兩個(gè)遙遙領(lǐng)先,且一定會(huì)選擇掙錢更快的方式。如果閉源就能讓大家以很低的成本就用起來,何必開源?但如果閉源沒有好的商業(yè)回報(bào),自身也沒那么強(qiáng),不開源的話很難坐上牌桌。
大模型關(guān)鍵是要有人用,沒需求,沒反饋,就無法迭代,閉門造車有什么用?ChatGPT沒有開源,但短短幾個(gè)月就有上億人用,它何必開源呢?這是個(gè)市場博弈問題,市場競爭、用戶受益壓倒一切,不是為了開源而開源,它只是手段。
搜狐科技:OpenAI最初開源,但在GPT-3之后不再開源,又有消息稱在開發(fā)開源模型,怎么看這種搖擺?
馬越:開源本身是一種研發(fā)模式,也是個(gè)競爭策略,本質(zhì)上是個(gè)方法論。是否開源跟產(chǎn)品研發(fā)的能力進(jìn)度有關(guān),也是一件特別市場化的事。GPT-3之后的版本非常厲害,不需要開源,后面很多追趕者卻需要用開源的方式去追趕。所以絕對(duì)領(lǐng)先的技術(shù)不太可能會(huì)開源,因?yàn)殚]源的商業(yè)變現(xiàn)反射弧相對(duì)更短、更直接。
搜狐科技:開源的大模型能追上Open AI嗎?從中會(huì)誕生出類似ChatGPT的殺手級(jí)應(yīng)用?
馬越:開源模型一定會(huì)誕生類似ChatGPT這樣的應(yīng)用。垂直場景商機(jī)無限,就看誰能應(yīng)用。不要為了模型而模型,不要去追逐富人的游戲,要從現(xiàn)在的用戶去倒推,從能夠創(chuàng)造的商業(yè)價(jià)值去倒逼技術(shù)選擇。
OpenAI做了好幾年,燒了很多錢,相比之下國內(nèi)先天性的投入較差,幾個(gè)月、半年追上不太可能,更大可能是半年之后它把我們拋得更遠(yuǎn)。我甚至覺得可能永遠(yuǎn)跟不上它的腳步,因?yàn)樗鼪]有算力卡脖子等問題,還在加速度成長。但幸虧有開源,提供了競爭的可能。
搜狐科技:楊立昆認(rèn)為,Meta開源LLaMA2會(huì)改變大模型行業(yè)的競爭格局,您怎么看?
馬越:看看歷史就很清楚。開源的安卓能占有移動(dòng)操作系統(tǒng)80%的市場份額,但利潤可能只有百分之二三十,大頭讓份額只有20%左右的iOS拿走。開源也差不多,它在策略上是讓閉源無法通吃,未來大多數(shù)人和企業(yè)會(huì)使用開源模型,市場份額會(huì)更大。閉源只為少量用戶服務(wù),但反射弧快,變現(xiàn)效率高,會(huì)吃掉大部分利潤。
搜狐科技:國內(nèi)已進(jìn)入百模大戰(zhàn),您怎么看這股熱潮?這些大模型都能活下去嗎?
馬越:很多人起哄、追熱點(diǎn),反正人口多、場景多、不缺錢,這是無序盲目的競爭,很多投資人哪怕知道只會(huì)贏一兩家,也不敢錯(cuò)過,有些創(chuàng)業(yè)者可能也抱著投機(jī)心態(tài)。它會(huì)持續(xù)一段時(shí)間,如同當(dāng)年的“百團(tuán)大戰(zhàn)”。
但通用模型是大廠的游戲,最后只有少數(shù)幾家巨頭能勝出,其它家可能都會(huì)消失,我不太相信會(huì)有多少純創(chuàng)業(yè)公司能做出殺手級(jí)的通用模型。垂直模型則需要類似HuggingFace的分發(fā)平臺(tái),市場化自由競爭。
目前看,大模型開源就是為愛發(fā)電,通過在已經(jīng)用數(shù)據(jù)集訓(xùn)練過的開源模型上推理和調(diào)優(yōu)比從頭訓(xùn)練一個(gè)模型可以節(jié)約90%的成本,這是使用門檻最低的方式。
搜狐科技:開源對(duì)AI的落地應(yīng)用會(huì)有什么樣的作用?怎么看兩者之間的關(guān)系?
馬越:開源第一波浪潮是從互聯(lián)網(wǎng)開始,開源的操作系統(tǒng)、數(shù)據(jù)庫等基礎(chǔ)設(shè)施給了互聯(lián)網(wǎng)公司野蠻生長的機(jī)會(huì),互聯(lián)網(wǎng)使得獲取開源項(xiàng)目更加容易,它們是相輔相成的乘法關(guān)系。
AI類似互聯(lián)網(wǎng),跟開源也是相互成就的乘法關(guān)系,會(huì)讓對(duì)方加速發(fā)展。不靠開源,大模型沒法很好地傳播落地;沒有大模型,開源也不能在互聯(lián)網(wǎng)時(shí)代的未來實(shí)現(xiàn)新高峰的增長。
搜狐科技:過去國內(nèi)比較依賴國外開源軟件,現(xiàn)在強(qiáng)調(diào)自主創(chuàng)新,開源如何推動(dòng)創(chuàng)新?
馬越:開源可以讓我們站在巨人的肩膀上,是驅(qū)動(dòng)生產(chǎn)力發(fā)展的一個(gè)不可避免的方式,也能驅(qū)動(dòng)自主創(chuàng)新,提高創(chuàng)新的速度。現(xiàn)在有人指出我們應(yīng)該在什么地方上投入,我覺得那就利用好開源的方法論。但現(xiàn)在想要薅羊毛的太多了,最大問題是不敬畏專業(yè),開源是個(gè)專業(yè)的事,代碼托管平臺(tái)技術(shù)含量很高,不是誰都能干,也不是一蹴而就。
搜狐科技:開源越來越受重視,開源中國希望起到什么樣的作用或達(dá)成什么目標(biāo)?
馬越:新使命是要把軟件產(chǎn)品研發(fā)平臺(tái)升級(jí)為AI工程平臺(tái),幫助軟件工程師升級(jí)為AI工程師,打造中國版的HuggingFace。我們是中立第三方,以開發(fā)者利益出發(fā),做這件事比大廠合適。我們希望借此讓百模大戰(zhàn)早點(diǎn)結(jié)束,讓每家企業(yè)、每個(gè)人都能用上大模型,未來將是千模甚至是萬模大戰(zhàn)。我們目前引進(jìn)的7000多個(gè)模型會(huì)在今年底隨著新平臺(tái)上線,但要先解決算力問題。
搜狐科技:開源中國如何商業(yè)化?在獲得融資后,接下來的重點(diǎn)規(guī)劃是什么?
搜狐科技:開源中國現(xiàn)在是徹底商業(yè)化的軟件工具廠商,已經(jīng)實(shí)現(xiàn)盈虧平衡。接下來會(huì)加大信創(chuàng)產(chǎn)品線的開發(fā),并擁抱人工智能。未來我們希望作為一家高科技公司在科創(chuàng)板上市,成為國內(nèi)軟件工程和AI工程的第一股。


