亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

AIGC行業(yè)資訊2年前 (2023)發(fā)布 管理員
2.8K 0

大模型時代到來,以數(shù)據(jù)為中心的 AI 開發(fā)模式加速走向臺前,數(shù)據(jù)的價值從未向今天這樣被充分挖掘——

大模型從訓練到部署應用迭代,AIGC 眾多垂直場景落地,通用智能、具身智能等前沿領域探索,都與高質量、專業(yè)化的場景數(shù)據(jù)密不可分。

作為底層基礎服務,數(shù)據(jù)標注也從未像今天這樣受到關注,但與此同時機遇與挑戰(zhàn)隨之而來。

數(shù)據(jù)標注要求從客觀到主觀,標準如何統(tǒng)一?標注人才要求又有什么樣的新變化?

大模型公司 /AI 企業(yè)涌入賽道,專業(yè)數(shù)據(jù)服務廠商如何自處?

合成數(shù)據(jù)作為新興賽道,又有怎樣的增長空間?

帶著這些問題,量子位智庫《中國 AIGC 數(shù)據(jù)標注產業(yè)全景報告》由此而來,并嘗試解答。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

報告中,量子位智庫將從我國數(shù)據(jù)標注行業(yè)現(xiàn)狀、四大關鍵變化、三大影響要素、行業(yè)發(fā)展及市場規(guī)模等多角度、多方向地全面立體描繪中國數(shù)據(jù)標注產業(yè)全景。

核心觀點如下:

數(shù)據(jù)標注服務貫穿大模型全生命周期,上下游合作關系更為緊密耦合;

大模型范式涌入數(shù)據(jù)標注,自動化標注效率進一步提升;

標注人才高學歷多領域成硬指標,缺口或達百萬

產業(yè)鏈重構,專業(yè)數(shù)據(jù)服務商更多機會將在垂直領域,幫助企業(yè)私有化部署

傳統(tǒng)依靠渠道人力等因素聚合飛輪效應已失效,數(shù)據(jù)標注朝著知識密集型轉移;

國內市場規(guī)模將達百億量級,合成數(shù)據(jù)增速最高。

大模型時代下的數(shù)據(jù)標注

數(shù)據(jù)標注,是將原始數(shù)據(jù)進行加工處理,比如分類、拉框、注釋、標記等操作,轉換成機器可識別信息的過程。

國內數(shù)據(jù)標注廠商,廣義也被叫做基礎數(shù)據(jù)服務商,通常需要完成數(shù)據(jù)集結構 / 流程設計、數(shù)據(jù)處理、數(shù)據(jù)質檢等工作,為下游客戶提供訓練數(shù)據(jù)集、定制化服務。這也是本次主要研究對象。

大模型時代到來,數(shù)據(jù)標注受到前所未有的關注。

上市公司股價狂飆,創(chuàng)業(yè)代表公司融資加速。

國內唯一一家 AI 數(shù)據(jù)上市公司海天瑞聲受到 ChatGPT 熱潮,今年 2 月以來股價曾一度狂飆。創(chuàng)業(yè)公司也同樣融資進展頻頻,包括像星塵數(shù)據(jù)、標貝科技、整數(shù)智能、柏川數(shù)據(jù)、曼孚科技、愷望數(shù)據(jù)等代表公司均獲得新融資。

大模型數(shù)據(jù)解決方案多處開花,以一站式、定制化服務為主

圍繞大模型開發(fā)全生命周期 ( 包括預訓練、監(jiān)督微調、RLHF、基準測試等 ) ,專業(yè)數(shù)據(jù)服務商、大模型企業(yè)、AI 公司等各方都拿出相關數(shù)據(jù)解決方案。

大模型范式涌入數(shù)據(jù)標注,自動化標注?檻大幅降低

以「Segment Anything」為代表的圖像分割模型開源,可通過提示詞對圖像或視頻中任意對象進行分割,并可擴展到任何新任務和新領域,被稱為是 CV 領域的「GPT-3」時刻,大大降低了圖像領域的標注門檻。

智能駕駛新感知范式,BEV+Transformer 是機遇也是挑戰(zhàn)

作為最具代表性應用場景,智能駕駛迎來新感知范式——

以 BEV+Transformer 為代表的四維感知替代掉 2D+CNN 為代表的二維感知方案,給數(shù)據(jù)服務廠商帶來更多機遇與挑戰(zhàn),包括不限于標注場景難度大、數(shù)據(jù)量產能力要求高等。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

四大關鍵變化需求變化:與行業(yè)場景強相關,高質量數(shù)據(jù)需求長期且持續(xù)

大模型時代的到來,正加速推動人工智能開發(fā)從以模型為中心朝著以數(shù)據(jù)為中心的方向轉變。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

圖源 :Data-centric AI: Perspectives and Challenges

大模型作為以數(shù)據(jù)為中心的產物,數(shù)據(jù)數(shù)量和質量很大程度決定著大模型能力的上限。尤其像訓練流程中的后兩個階段,直接決定了大模型性能好壞——

需要專業(yè)人士生成數(shù)據(jù)或對數(shù)據(jù)進行改寫或排序,最終形成符合人類標準 ( 比如專業(yè)邏輯、核心價值觀等 ) 高質量數(shù)據(jù)。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

處理流程側變化:標準從客觀到主觀,高學歷多領域成人才硬指標

從數(shù)據(jù)流程上來看,傳統(tǒng)數(shù)據(jù)標注是以目標任務為導向,通過拉框、描點、轉寫等方式進行人工或自動化標注,評價標準主要以準確率和效率為指標。

而大模型數(shù)據(jù)標注,則是按照階段來劃分,通常對自然語言要求很高,需要更專業(yè)的人才參與,標注要求偏主觀,難以形成統(tǒng)一的標準。

數(shù)據(jù)標注從勞動密集朝著知識密集型轉變。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

其中像百度在??趯榇竽P徒ㄔO的數(shù)據(jù)標注基地,本科比例 100%,培訓專業(yè)人才已達 1000 人。未來五年,數(shù)據(jù)標注相關專業(yè)人才缺口將達百萬量級。

業(yè)務變化:合成數(shù)據(jù)新衍生賽道,潛在市場空間巨大

合成數(shù)據(jù)作為新衍生賽道,正受到廣泛關注。所謂合成數(shù)據(jù),即是用 AI 生成數(shù)據(jù)而非真實產生,能夠替代真實數(shù)據(jù)來訓練、測試和驗證大模型。OpenAI CEO Sam Altman 曾方言:

未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)。

除了能降本增效外,它可以補充更多邊緣、長尾場景數(shù)據(jù),能有效解決大模型時代下的 ” 數(shù)據(jù)鴻溝 “,并自然規(guī)避掉數(shù)據(jù)隱私安全、合規(guī)等方面問題。

像在數(shù)據(jù)增強、模型驗證、可解釋 AI 等領域,以及自動駕駛、機器人生物醫(yī)藥等領域都有相關應用。

量子位智庫預計,合成數(shù)據(jù)將成為未來增速最快賽道,年增?率可達 45%。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

供應鏈變化:產業(yè)鏈重新洗牌,大模型公司 /AI 企業(yè)涌入

大模型公司 /AI 企業(yè)自建數(shù)據(jù)處理管線,并對外輸出大模型數(shù)據(jù)解決方案,產業(yè)鏈重新洗牌。

部分廠商還具備云服務能力,可與數(shù)據(jù)服務打包輸出,能有效建立起客戶之間的口碑和信任。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

三大影響因素:以技術 + 場景聚合的飛輪效應

一看技術能力

作為 AI 底層服務,數(shù)據(jù)標注最本質的就是為下游客戶降本增效。而技術是降本增效的最優(yōu)解決路徑,持續(xù)迭代技術能力的企業(yè)將有機會脫穎而出。

包括不限于以下幾點:數(shù)據(jù)閉環(huán)工具鏈的智能化水平、對大模型 /AI 算法的理解、數(shù)據(jù)工程化能力、基礎設施建設等。

二看場景資源

場景資源能力主要包括數(shù)據(jù)和人才兩個層面:高質量的場景數(shù)據(jù)以及場景人才(領域專家、深度用戶等)

這與行業(yè)持續(xù)多年的深耕不無關系——企業(yè)懂得行業(yè) know-how,能夠根據(jù)客戶需求,快速找到并利用與場景最為貼合的數(shù)據(jù)和人才資源。

三看飛輪效應

數(shù)據(jù)標注仍具有飛輪效應。以往靠銷售渠道、人力成本等驅動因素,服務商實現(xiàn)業(yè)務量增長,進而贏得市場獲得口碑,獲得新客戶也會越來越容易。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

如今在技術和場景資源能力雙重驅動下,數(shù)據(jù)處理能力越強,大模型標注經驗越豐富,落地案例越來越多,數(shù)據(jù)處理的可擴展性和靈活性也越高。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

這樣一來,新創(chuàng)業(yè)公司入局門檻將進一步提高,專業(yè)數(shù)據(jù)服務提供商更多機會將在垂直場景,幫助企業(yè)完成私有化部署。

國內基礎數(shù)據(jù)服務百億市場規(guī)模

數(shù)據(jù)標注行業(yè)傳統(tǒng)依靠渠道、人力等形成的低成本優(yōu)勢將被重塑,數(shù)據(jù)需求方將更看重數(shù)據(jù)質量、場景多樣性和可擴展性?;谝陨显颍孔游恢菐鞂臄?shù)據(jù)基礎設施、場景資源兩個方面來分析國內市場分布及現(xiàn)狀。

第一象限:有技術有場景的明星公司

該象限存在兩種情況:

第一種是模型層公司本身有大模型技術范式以及場景落地經驗積累,可快速輸出數(shù)據(jù)解決方案,與云服務打包輸出建立信任 ;

第二種則是主要以技術驅動的明星企業(yè),大部分擁有數(shù)據(jù)閉環(huán)工具鏈,再結合幾年來行業(yè)經驗,在大模型浪潮下易受到企業(yè)用戶?睞。

第二象限:有強技術支撐的創(chuàng)業(yè)新勢力

該象限主要聚焦在近兩年創(chuàng)立的創(chuàng)業(yè)公司,主要以自動駕駛場景作為切入點,再覆蓋 到 AIGC 及其他領域。他們飽受資本市場認可,以愷望數(shù)據(jù)為例,一年半時間就是完成了三輪融資。

第三象限:包括中小團隊、企業(yè)自建數(shù)據(jù)管線等。

第四象限:場景壁壘更為深厚的行業(yè)玩家

該象限著更為深厚的行業(yè)數(shù)據(jù)壁壘,可為下游用戶提供高質量數(shù)據(jù)集或擁有大模型數(shù)據(jù)標注團隊, 以海天瑞聲為例,不僅是 LIama2 的唯一中國伙伴,還發(fā)布超大規(guī)模中文多輪對話數(shù)據(jù)集 DOTS-NLP-216,合作企業(yè)超 810 家,覆蓋全球近 200 個主要語種及方言,有近 20 年行業(yè)深耕。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

量子位智庫認為,數(shù)據(jù)標注處于重新洗牌的時期,更高質量、專業(yè)化的數(shù)據(jù)標注成為剛需。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

未來五年,國內 AI 基礎數(shù)據(jù)服務將達到百億規(guī)模,年復合增長率在 27% 左右。

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位

以下為我國值得關注的仿生機器人行業(yè)代表機構 TOP20:

中國AIGC數(shù)據(jù)標注全景報告:百億市場規(guī)模,百萬就業(yè)缺口-量子位
? 版權聲明

相關文章