AI大模型開源困難:都是因為壟斷、圍墻與算力之殤
一、目前大模型開源的現(xiàn)狀如何?
二、國內大廠為何不愿意開源大模型?原因主要有幾點:
1. 算力限制。
目前的算力水平不足以支撐大規(guī)模模型的訓練,也不支持大模型的部署和遷移。在一些廠商看來,大模型開源后,這些算法不能再被重用,這樣自然就失去了開源的意義。所以他們更愿意專注于訓練工具鏈的建設,或者更直接一點,他們認為大模型的技術門檻并沒有那么高。
2. 難以評估大模型的價值。
由于大模型開源之后,很多企業(yè)會把它直接用于自己現(xiàn)有產品的升級、改進和完善。在這個過程中,企業(yè)很難評估自己投入和產出之間的比例是多少。
3. 缺乏開源社區(qū)。
由于大模型開源目前還處在早期階段,大型企業(yè)與開源社區(qū)之間還沒有形成良好的協(xié)作機制,這使得許多人不愿將自己多年的研究成果貢獻出來,很難真正推動技術快速落地。
三、國內大模型開源開放需要注意哪些問題?
針對以上三點,我們可以看出目前國內大廠不愿開源大模型的主要原因在于缺乏相關生態(tài)系統(tǒng)和行業(yè)共識。目前來看,國內大廠們在大模型開源方面還是處于觀望狀態(tài),他們并沒有真正地去做這件事情。
所以對于我們來說,應該從三個方面去思考如何讓大模型能夠更加順利地實現(xiàn)落地。
首先是構建生態(tài)體系,也就是我們所說的「開源+合作」模式。這種模式既有自上而下的官方推動、也有自下而上的企業(yè)推動。這種模式能夠為大廠提供更為廣闊、真實的應用場景和市場反饋,讓他們更容易地了解到開源開放對自身技術創(chuàng)新帶來的價值和意義。比如騰訊開源了 TencentAI、百度開源了 BERT、微軟開源了 BERT等一系列大模型后帶來的技術創(chuàng)新、企業(yè)競爭力以及商業(yè)價值,都是顯著的。
其次是從行業(yè)共識出發(fā),讓更多人參與到大模型這個「偉大”嘗試中來,以更快地推動大模型在產業(yè)中落地。這其中包括但不限于行業(yè)聯(lián)盟、行業(yè)組織形式。比如微軟最近發(fā)起了一個名為「 Build with Babylon」的項目,其目標就是讓人們可以在更廣泛的領域和應用中使用大模型技術。此外還有阿里牽頭發(fā)起的”阿里巴巴 AI算法開放平臺「 AliMAGA」也正在積極推進中,致力于提供能夠被廣泛使用、可規(guī)?;敵霾⑶乙子诶斫夂褪褂玫哪P烷_發(fā)工具鏈以及行業(yè)解決方案。最后是從產品形態(tài)出發(fā),為開發(fā)者打造更友好、便捷、高效、通用的大模型開發(fā)環(huán)境。比如 Google所開源出來的 Meltdown語言特性分析器(MLF)和 Transformer解碼器(DQN)等工具模塊都是較為優(yōu)秀、易用且通用化程度很高的工具包。
圖注:Pathways架構
本質上,大、通用且高效的大模型路線無疑具有很強的吸引力。隨著稀疏動態(tài)結構的加持,計算代價將不會那么大,但是模型參數(shù)一定會越來越大,這可能會為大模型打開一個新的天地,使其規(guī)模達到十萬億甚至百萬億。
張家興認為,稀疏動態(tài)結構將是解決大模型尺寸與算力代價之間矛盾的最終途徑。他也補充說,在當前這種模型結構還未普及的情況下,再盲目將模型繼續(xù)做大確實意義不大。目前國內在這個方向上的嘗試還比較少,還沒有比谷歌做得更徹底。
在當前大模型技術尚不普及的情況下,盲目將模型繼續(xù)做大可能并不可行。OpenAI已經因此招致了很多批評,但也是一些機構拒絕慷慨的理由。Meta AI負責人 Joelle Pineau曾表示:“單靠自家團隊解決不了全部問題,比如文本生成過程中可能產生的倫理偏見和惡意詞句。如果做足功課就可以在負責任的情況下讓大模型變得可以公開訪問?!彼J為,只有做足功課才能在防范濫用風險的同時保持開放獲取和足夠的透明度。
但是,把一個萬億規(guī)模的大模型開源出來,會引發(fā)很多問題。比如如何在防止濫用風險和提高穩(wěn)健性、減少偏見和毒性之間取得平衡?Stability AI雖然享受了開源帶來的好處,但最近也遭遇了一些開源帶來的反噬,在版權歸屬等方面引起了爭議。你覺得大模型開源會給人類帶來怎樣機會和挑戰(zhàn)?