亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

大模型訓(xùn)練將耗盡人類語言?AIGC暴露潛在瓶頸 合成數(shù)據(jù)成“救星”

AIGC行業(yè)資訊2年前 (2023)更新 管理員
2.1K 0
大模型訓(xùn)練將耗盡人類語言?AIGC暴露潛在瓶頸 合成數(shù)據(jù)成“救星”

《科創(chuàng)板日報(bào)》3月8日訊(編輯 宋子喬) 中國證監(jiān)會(huì)科技監(jiān)管局局長姚前日前在《中國金融》雜志撰文稱,建議重點(diǎn)發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴(kuò)容”,助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。

那么,究竟什么是合成數(shù)據(jù)?它又為什么可以為數(shù)據(jù)要素市場“增量擴(kuò)容”呢?

其實(shí),從字面上并不難理解,“合成數(shù)據(jù)”是運(yùn)用計(jì)算機(jī)模擬生成的人造數(shù)據(jù),它的用途——就是用來模擬現(xiàn)實(shí)世界的觀察與觀測。簡言之,合成數(shù)據(jù)是計(jì)算機(jī)“舉一反三”制造的模擬數(shù)據(jù),為訓(xùn)練、測試、驗(yàn)證AI模型和算法而生,相當(dāng)于為AI模型打造一片“題?!?。

ChatGPT為代表的AIGC應(yīng)用基于大模型,即由龐大數(shù)據(jù)集訓(xùn)練而成。OpenAI透露,ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬億個(gè)單詞,大概是1351萬本牛津詞典所包含的單詞數(shù)量。隨著AIGC應(yīng)用端不斷豐富,更智能的工具需要更多的數(shù)據(jù)進(jìn)行訓(xùn)練。

來自阿伯丁大學(xué)、麻省理工大學(xué)、圖賓根大學(xué)的Pablo Villalobos等6位計(jì)算機(jī)科學(xué)家就預(yù)測,到2026年,ChatGPT等大型語言模型的訓(xùn)練就將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù),屆時(shí)將沒有新的訓(xùn)練數(shù)據(jù)可供使用。

人工智能新時(shí)代的發(fā)展離不開可靠、海量的數(shù)據(jù)。而真實(shí)世界的數(shù)據(jù)總歸是有限的,其收集和處理是個(gè)昂貴且緩慢的過程,合成數(shù)據(jù)或成破解難題的最佳選擇。

▌面對(duì)潛在數(shù)據(jù)瓶頸 合成數(shù)據(jù)成真實(shí)數(shù)據(jù)“平替”

作為真實(shí)數(shù)據(jù)的“廉價(jià)替代品”,如果處理得當(dāng),合成數(shù)據(jù)可以高效、廉價(jià)的方式并在不侵犯隱私的情況下獲取大量訓(xùn)練數(shù)據(jù)。MIT科技評(píng)論將AI合成數(shù)據(jù)列為2022年10大突破性技術(shù)之一;Gartner也預(yù)測稱,到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù),成為訓(xùn)練AI的主要數(shù)據(jù)來源。

與真實(shí)數(shù)據(jù)相比,合成數(shù)據(jù)主要具有三大優(yōu)勢:

節(jié)省成本:合成數(shù)據(jù)可大大節(jié)省數(shù)據(jù)采集成本,且比“真實(shí)”數(shù)據(jù)獲取更快。比如,基于同一個(gè)人的不同發(fā)型、眼鏡、頭部姿勢等來訓(xùn)練模型的識(shí)別能力,還能進(jìn)一步改變膚色、種族特征、骨骼結(jié)構(gòu)、雀斑等特征創(chuàng)造出不同的面孔,實(shí)現(xiàn)“一魚多吃”。

保護(hù)隱私:合成數(shù)據(jù)是虛擬的,故不涉及個(gè)人隱私和公共權(quán)益,且數(shù)據(jù)可信度及質(zhì)量較高,更適合在全球作為數(shù)據(jù)產(chǎn)品進(jìn)行流通,更容易成為數(shù)據(jù)市場交易的對(duì)象。從某種程度上來說,這為數(shù)據(jù)交易所的發(fā)展提供了契機(jī)。

確保數(shù)據(jù)多樣性、公平性:理論上合成數(shù)據(jù)可以涵蓋所有數(shù)據(jù),包括現(xiàn)實(shí)世界中難以采集或幾乎不存在于現(xiàn)實(shí)中的極端案例,最大化地提高模型的精準(zhǔn)度,糾正歷史數(shù)據(jù)中的偏見、消除算法歧視。

不過,高質(zhì)量的合成數(shù)據(jù)雖然可以化身“虛擬教練”替代真實(shí)數(shù)據(jù),但畢竟與真實(shí)數(shù)據(jù)存在偏差,且計(jì)算機(jī)可能會(huì)生成不合邏輯的、非自然的數(shù)據(jù)。另外,合成數(shù)據(jù)仍然涉及隱私泄露問題,已經(jīng)有最新研究結(jié)果表明,可以通過合成的數(shù)據(jù)反向推斷出原始訓(xùn)練樣本。

▌合成數(shù)據(jù)產(chǎn)業(yè)將成數(shù)據(jù)要素新賽道?

合成數(shù)據(jù)對(duì)人工智能的巨大助力有望促使其成為數(shù)據(jù)要素新賽道。自動(dòng)駕駛、醫(yī)療保健等行業(yè)已經(jīng)率先使用該技術(shù)。

對(duì)于自動(dòng)駕駛來說,讓汽車通過實(shí)際道路測試來窮盡其在道路上可能遇到的每一個(gè)場景是不現(xiàn)實(shí)的,故大量的合成數(shù)據(jù)可以用于模擬各種駕駛場景,從而提高算法的魯棒性。在這種情況下,合成數(shù)據(jù)可能占據(jù)訓(xùn)練數(shù)據(jù)的很大一部分,甚至高達(dá)90%以上。

科技巨頭們也已經(jīng)在多個(gè)場景探索合成數(shù)據(jù)的應(yīng)用。

英偉達(dá)元宇宙平臺(tái)Omniverse擁有合成數(shù)據(jù)能力omniverse replicator;亞馬遜使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問題;微軟的Azure云服務(wù)推出了airSIM平臺(tái),可以創(chuàng)建高保真的的3D虛擬環(huán)境來訓(xùn)練、測試AI驅(qū)動(dòng)的自主飛行器……

國內(nèi),騰訊、阿里巴巴、百度走在前列。騰訊自動(dòng)駕駛實(shí)驗(yàn)室開發(fā)的自動(dòng)駕駛仿真系統(tǒng)TADSim可以自動(dòng)生成無需標(biāo)注的各種交通場景數(shù)據(jù);阿里巴巴自研的語音合成技術(shù)KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上;百度也發(fā)布了多個(gè)數(shù)據(jù)合成與半自動(dòng)標(biāo)注工具。

? 版權(quán)聲明

相關(guān)文章