大模型訓(xùn)練將耗盡人類語言？AIGC暴露潛在瓶頸合成數(shù)據(jù)成“救星”

AIGC行業(yè)資訊2年前 (2023)更新管理員

《科創(chuàng)板日報(bào)》3月8日訊(編輯宋子喬) 中國證監(jiān)會(huì)科技監(jiān)管局局長姚前日前在《中國金融》雜志撰文稱，建議重點(diǎn)發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴(kuò)容”，助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。

那么，究竟什么是合成數(shù)據(jù)？它又為什么可以為數(shù)據(jù)要素市場“增量擴(kuò)容”呢？

其實(shí)，從字面上并不難理解，“合成數(shù)據(jù)”是運(yùn)用計(jì)算機(jī)模擬生成的人造數(shù)據(jù)，它的用途——就是用來模擬現(xiàn)實(shí)世界的觀察與觀測。簡言之，合成數(shù)據(jù)是計(jì)算機(jī)“舉一反三”制造的模擬數(shù)據(jù)，為訓(xùn)練、測試、驗(yàn)證AI模型和算法而生，相當(dāng)于為AI模型打造一片“題?！?。

以ChatGPT為代表的AIGC應(yīng)用基于大模型，即由龐大數(shù)據(jù)集訓(xùn)練而成。OpenAI透露，ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬億個(gè)單詞，大概是1351萬本牛津詞典所包含的單詞數(shù)量。隨著AIGC應(yīng)用端不斷豐富，更智能的工具需要更多的數(shù)據(jù)進(jìn)行訓(xùn)練。

來自阿伯丁大學(xué)、麻省理工大學(xué)、圖賓根大學(xué)的Pablo Villalobos等6位計(jì)算機(jī)科學(xué)家就預(yù)測，到2026年，ChatGPT等大型語言模型的訓(xùn)練就將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù)，屆時(shí)將沒有新的訓(xùn)練數(shù)據(jù)可供使用。

人工智能新時(shí)代的發(fā)展離不開可靠、海量的數(shù)據(jù)。而真實(shí)世界的數(shù)據(jù)總歸是有限的，其收集和處理是個(gè)昂貴且緩慢的過程，合成數(shù)據(jù)或成破解難題的最佳選擇。

▌面對(duì)潛在數(shù)據(jù)瓶頸合成數(shù)據(jù)成真實(shí)數(shù)據(jù)“平替”

作為真實(shí)數(shù)據(jù)的“廉價(jià)替代品”，如果處理得當(dāng)，合成數(shù)據(jù)可以高效、廉價(jià)的方式并在不侵犯隱私的情況下獲取大量訓(xùn)練數(shù)據(jù)。MIT科技評(píng)論將AI合成數(shù)據(jù)列為2022年10大突破性技術(shù)之一；Gartner也預(yù)測稱，到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù)，成為訓(xùn)練AI的主要數(shù)據(jù)來源。

與真實(shí)數(shù)據(jù)相比，合成數(shù)據(jù)主要具有三大優(yōu)勢：

節(jié)省成本：合成數(shù)據(jù)可大大節(jié)省數(shù)據(jù)采集成本，且比“真實(shí)”數(shù)據(jù)獲取更快。比如，基于同一個(gè)人的不同發(fā)型、眼鏡、頭部姿勢等來訓(xùn)練模型的識(shí)別能力，還能進(jìn)一步改變膚色、種族特征、骨骼結(jié)構(gòu)、雀斑等特征創(chuàng)造出不同的面孔，實(shí)現(xiàn)“一魚多吃”。

保護(hù)隱私：合成數(shù)據(jù)是虛擬的，故不涉及個(gè)人隱私和公共權(quán)益，且數(shù)據(jù)可信度及質(zhì)量較高，更適合在全球作為數(shù)據(jù)產(chǎn)品進(jìn)行流通，更容易成為數(shù)據(jù)市場交易的對(duì)象。從某種程度上來說，這為數(shù)據(jù)交易所的發(fā)展提供了契機(jī)。

確保數(shù)據(jù)多樣性、公平性：理論上合成數(shù)據(jù)可以涵蓋所有數(shù)據(jù)，包括現(xiàn)實(shí)世界中難以采集或幾乎不存在于現(xiàn)實(shí)中的極端案例，最大化地提高模型的精準(zhǔn)度，糾正歷史數(shù)據(jù)中的偏見、消除算法歧視。

不過，高質(zhì)量的合成數(shù)據(jù)雖然可以化身“虛擬教練”替代真實(shí)數(shù)據(jù)，但畢竟與真實(shí)數(shù)據(jù)存在偏差，且計(jì)算機(jī)可能會(huì)生成不合邏輯的、非自然的數(shù)據(jù)。另外，合成數(shù)據(jù)仍然涉及隱私泄露問題，已經(jīng)有最新研究結(jié)果表明，可以通過合成的數(shù)據(jù)反向推斷出原始訓(xùn)練樣本。

▌合成數(shù)據(jù)產(chǎn)業(yè)將成數(shù)據(jù)要素新賽道？

合成數(shù)據(jù)對(duì)人工智能的巨大助力有望促使其成為數(shù)據(jù)要素新賽道。自動(dòng)駕駛、醫(yī)療保健等行業(yè)已經(jīng)率先使用該技術(shù)。

對(duì)于自動(dòng)駕駛來說，讓汽車通過實(shí)際道路測試來窮盡其在道路上可能遇到的每一個(gè)場景是不現(xiàn)實(shí)的，故大量的合成數(shù)據(jù)可以用于模擬各種駕駛場景，從而提高算法的魯棒性。在這種情況下，合成數(shù)據(jù)可能占據(jù)訓(xùn)練數(shù)據(jù)的很大一部分，甚至高達(dá)90%以上。

科技巨頭們也已經(jīng)在多個(gè)場景探索合成數(shù)據(jù)的應(yīng)用。

如英偉達(dá)的元宇宙平臺(tái)Omniverse擁有合成數(shù)據(jù)能力omniverse replicator；亞馬遜使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa，以避免用戶隱私問題；微軟的Azure云服務(wù)推出了airSIM平臺(tái)，可以創(chuàng)建高保真的的3D虛擬環(huán)境來訓(xùn)練、測試AI驅(qū)動(dòng)的自主飛行器……

國內(nèi)，騰訊、阿里巴巴、百度走在前列。騰訊自動(dòng)駕駛實(shí)驗(yàn)室開發(fā)的自動(dòng)駕駛仿真系統(tǒng)TADSim可以自動(dòng)生成無需標(biāo)注的各種交通場景數(shù)據(jù)；阿里巴巴自研的語音合成技術(shù)KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上；百度也發(fā)布了多個(gè)數(shù)據(jù)合成與半自動(dòng)標(biāo)注工具。

# AIGC行業(yè)資訊 # ChatGPT專欄 # AI # AIGC # AI模型 # ChatGPT # GPT # OpenAI # TTS # 亞馬遜 # 人工智能 # 元宇宙 # 大數(shù)據(jù)# 大模型 # 宇宙 # 微軟 # 未來發(fā)展 # 英偉達(dá)# 音頻

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問請聯(lián)系AIGC工具導(dǎo)航或點(diǎn)擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

大模型訓(xùn)練將耗盡人類語言？AIGC暴露潛在瓶頸合成數(shù)據(jù)成“救星”

大逃殺：被AIGC和ChatGPT替代的工作都有哪些？附表

程京德：論“創(chuàng)造/創(chuàng)作/創(chuàng)新”及 AIGC 工具的“創(chuàng)造性”

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

熱門文章

熱門網(wǎng)址

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

大模型訓(xùn)練將耗盡人類語言？AIGC暴露潛在瓶頸 合成數(shù)據(jù)成“救星”

大逃殺：被AIGC和ChatGPT替代的工作都有哪些？附表

程京德：論“創(chuàng)造/創(chuàng)作/創(chuàng)新”及 AIGC 工具的“創(chuàng)造性”

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

熱門文章

熱門網(wǎng)址

大模型訓(xùn)練將耗盡人類語言？AIGC暴露潛在瓶頸合成數(shù)據(jù)成“救星”