2022年度十大AI技術(shù)盤點(diǎn)：AIGC風(fēng)暴來襲，自動(dòng)駕駛后會(huì)無期？

AI應(yīng)用信息2年前 (2023)發(fā)布

翻譯 & 整理：楊陽

“科學(xué)不能告訴我們應(yīng)該做什么，只能告訴我們能做什么?！?/p>

——讓-保羅·薩特《存在與虛無》

這一年，AI又有哪些前沿技術(shù)突破呢？通過匯總梳理2022年10大AI技術(shù)，AI科技大本營發(fā)現(xiàn)，這些突破主要集中在圖像、視頻和語音語義領(lǐng)域。從具體技術(shù)來看，雖然有像擴(kuò)散模型等最新的模型范式，但GAN仍然占據(jù)著重要的地位。而卷積和神經(jīng)網(wǎng)絡(luò)，以及強(qiáng)化學(xué)習(xí)等深度學(xué)習(xí)算法，是被期待獲得更多突破的領(lǐng)域。

然而，略微遺憾的是，前些年被寄予厚望的自動(dòng)駕駛在這一年似乎沒有顯著進(jìn)展，盡管Waymo和Cuise在鳳凰城和舊金山開啟了服務(wù)，但如何解決安全問題仍然是一大難題。對(duì)此，它們希望通過傳統(tǒng)攝像技術(shù)附加3D點(diǎn)云同時(shí)實(shí)現(xiàn)物體和距離的雙重感知保障，但是否有效還需驗(yàn)證。

整體上，當(dāng)下的AI仍處于技術(shù)革新的驗(yàn)證階段，離真正落地產(chǎn)業(yè)化看似還有一些距離。但大模型、多模態(tài)掀起的AIGC風(fēng)暴，已經(jīng)席卷了整個(gè)世界。

傅立葉卷積：實(shí)現(xiàn)在線圖片修復(fù)

你是否有過這樣的經(jīng)歷，當(dāng)和朋友拍了一張非常棒的照片后，突然身后有不適合的場景，比如有人在你身后搶拍。不論是不合適的人還是有一個(gè)垃圾桶，如果你在自拍之前沒有避開，那這張照片似乎就毀了。

然而，如果有AI來輔助，你的這張照片很可能重新煥發(fā)生機(jī)。一項(xiàng)通過使用傅立葉卷積的掩模繪畫技術(shù)可以自動(dòng)刪除圖像中不需要的人或物，而且可以直接在Intasgram上修改后發(fā)帖。只需要點(diǎn)擊一下，就可以像專業(yè)的PS設(shè)計(jì)師一樣隨時(shí)改圖。

“選中—?jiǎng)h除”，效果堪比PS

論文地址：https://arxiv.org/pdf/2109.07161.pdf

你想看看二十年后的自己長什么樣嗎？一項(xiàng)基于GAN的面部編輯技術(shù)，可以讓你看到未來的自己。對(duì)于大部分圖像設(shè)計(jì)師來說，進(jìn)行面部“改良”并不是什么難事，但大多時(shí)候需要消耗很長的時(shí)間，少說也需要幾個(gè)小時(shí)，多則數(shù)百上千小時(shí)。但如果你使用AI工具，這項(xiàng)工作很可能在幾分鐘之內(nèi)就能完成。

除了可以預(yù)測未來容貌，或者讓自己看起來更年輕，這項(xiàng)技術(shù)也可以添加各類表情，包括微笑。目前這項(xiàng)技術(shù)主要應(yīng)用于圖片，也可以用于視頻，包括應(yīng)用在電影行業(yè)中。

論文地址：https://arxiv.org/abs/2201.08361

神經(jīng)網(wǎng)絡(luò)渲染：拍照生成虛擬3D圖像和視頻

當(dāng)你在玩游戲的時(shí)候，有沒有想過各個(gè)場景中的物體是怎么做出來的？確實(shí)可能是插畫師畫的。但如果有一臺(tái)相機(jī)，可以從不同角度拍攝幾張照片，通過神經(jīng)網(wǎng)絡(luò)的渲染，就可以在虛擬空間中生成逼真的物體、人物，或者是場景的3D圖像。

盡管目前這項(xiàng)技術(shù)還面臨著諸如場景融合等方面的挑戰(zhàn)，但從現(xiàn)實(shí)世界取材，生成虛擬3D世界的趨勢已經(jīng)勢不可擋。

論文地址：https://arxiv.org/pdf/2201.02533.pdf

DALL·E2：文本生成圖片火爆一整年

文本生成圖像這一年的火爆無需贅言，掀起這一趨勢的非DALL·E2莫屬。在DALL·E生成圖形的基礎(chǔ)上，升級(jí)版的DALL·E2學(xué)會(huì)了圖像修復(fù)的新技能。在一項(xiàng)對(duì)DALL·E2的測試中，它甚至可以理解場景中圖像之間的相互關(guān)系，包括水可以反射影像，準(zhǔn)確將不同方位的物體在水中實(shí)現(xiàn)位置精確的投影。

DALL·E2在水中反射火烈鳥

DALL·E2 擴(kuò)散模型是一種從隨機(jī)噪聲開始學(xué)習(xí)并不斷迭代，通過更改噪聲以返回到圖像的模型。相較GAN，通過擴(kuò)散模型，文本生成圖像得以更加快速地實(shí)現(xiàn)。

論文地址：https://cdn.OpenAI.com/papers/dall-e-2.pdf

SpeechPainter：用AI進(jìn)行語音和語法的修復(fù)

AI不僅可以修復(fù)圖像，也可以修復(fù)語音。一款名為SpeechPainter的語音修復(fù)工具可以根據(jù)用戶定義的修復(fù)目標(biāo)進(jìn)行音頻的修復(fù)。具體來說，它不僅可以合成語音中的空白音軌，還可以糾正錯(cuò)誤的語法表達(dá)和不標(biāo)準(zhǔn)的發(fā)音。

基于感知器IO的SpeechPainter模型

通過GAN的生成器和辨別器，一方面訓(xùn)練生成新的數(shù)據(jù)，輸入音軌；判別器則對(duì)訓(xùn)練集中生成的樣本進(jìn)行真?zhèn)蔚呐袆e。

論文地址：https://arxiv.org/pdf/2202.07273.pdf

ChatGPT：壓軸出場，驚艷四方

前些天，AI的網(wǎng)絡(luò)世界中充斥著ChatGPT。其實(shí)AI語音并不稀奇了，ChatGPT憑什么火爆網(wǎng)絡(luò)？首先，是因?yàn)樗?a class="external" href="http://www.xmqqs.cn/tag/2639" title="查看與大模型相關(guān)的文章" target="_blank">大模型屬性，與它的前一代 GPT-3相比，ChatGPT理論上更擅長交談；其次，“強(qiáng)化學(xué)習(xí)”是給ChatGPT賦予魔力的關(guān)鍵所在。最后，是算法的再訓(xùn)練。

基于以上特性，ChatGPT被寄予邁向?qū)υ捠紸I的第一步。不過，它確實(shí)有超越以往AI語音助手的更加強(qiáng)大的理解能力，甚至可以“自我”糾錯(cuò)。這讓人產(chǎn)生錯(cuò)覺，懷疑它是否有意識(shí)，或者哪怕是高級(jí)智能，但實(shí)際上它還僅僅是算法而已。

官網(wǎng)博客地址：https://openai.com/blog/chatgpt/

語言翻譯：如何將一個(gè)模型擴(kuò)展到數(shù)百種語言？

像ChatGPT一樣的語言模型確實(shí)很炫酷，但它們也有一個(gè)共同的問題——只適用于英語。而只要不是英語世界的人，就無法通過這些語言模型來做任何操作。然而，目前世界上已經(jīng)查明的語言種類一共有5671種，如果每種語言都做一個(gè)模型顯然是不現(xiàn)實(shí)的。

Meta AI的語言模型“不讓任何語言掉隊(duì)”可以通過一個(gè)模型翻譯數(shù)百種不同的語言，目前已經(jīng)可以翻譯200種語言。如何僅通過少量的數(shù)據(jù)來提升低資源語言的性能？通過稀疏門控專家混合網(wǎng)絡(luò) (MoE)可以實(shí)現(xiàn)跨語言遷移和干擾之間的更為優(yōu)化的權(quán)衡。

相關(guān)閱讀地址：https://www.louisbouchard.ai/no-language-left-behind/

自動(dòng)駕駛：結(jié)合激光雷達(dá)和攝像頭進(jìn)行3D物體檢測

圖像和語言太“鬧騰”，終于輪到自動(dòng)駕駛了。實(shí)際上，自動(dòng)駕駛這兩年的熱度驟降，離成為人工智能的皇冠似乎越來越遠(yuǎn)，甚至有知名的從業(yè)者非常悲觀，認(rèn)為現(xiàn)有的技術(shù)不可能實(shí)現(xiàn)真正意義上的自動(dòng)駕駛。

能否實(shí)現(xiàn)自動(dòng)駕駛更加準(zhǔn)確的視覺識(shí)別，決定了它的安全程度。特斯拉只使用攝像頭來探尋外界，但大多數(shù)自動(dòng)駕駛，比如Waymo，會(huì)同時(shí)使用攝像頭和3D雷達(dá)傳感器。這些雷達(dá)傳感器的作用路徑很容易理解，它們不像攝像頭一樣產(chǎn)生圖像，而是通過點(diǎn)云。

和攝像頭呈現(xiàn)圖像作用機(jī)制不同，雷達(dá)傳感器主要通過計(jì)算脈沖激光投射到物體上的傳播時(shí)間來測算物體之間的距離。通過傳統(tǒng)攝像頭和雷達(dá)傳感器的結(jié)合，同時(shí)顯示物體信息和距離信息，可以讓自動(dòng)駕駛更加安全。

論文地址：https://openaccess.theCVf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

人工智能多面手Gato，為什么說它很厲害？

Gato是Deepmind創(chuàng)建的多模態(tài)代理，它可以控制機(jī)械臂，代玩Atari游戲，標(biāo)注圖片標(biāo)題，以及和人聊天，可以說是AI模型界的變形金剛。

相較于其他AI模型，Gato不僅精通某個(gè)領(lǐng)域，它還接受了604項(xiàng)具有不同模式、觀察和動(dòng)作規(guī)范的任務(wù)訓(xùn)練，使其成為完美的多面手。Gato的精進(jìn)似乎預(yù)示著通用人工智能 (AGI) 的到來。

論文地址：https://storage.Googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

“看到”聲音：觀察不可察覺的高頻振動(dòng)

你沒有看錯(cuò)，這項(xiàng)AI技術(shù)就是要讓你“看到”聲音?？突仿〈髮W(xué)的博士后研究員發(fā)明了一種讓人們看到聲音的方法。通過一種新型的攝像系統(tǒng)和成像設(shè)備，能夠讓我們看到肉眼所看不到的聲音。

該系統(tǒng)的工作原理是分析使用卷簾快門和全局快門拍攝的圖像的斑點(diǎn)圖案的差異。算法計(jì)算兩個(gè)視頻流中斑點(diǎn)模式的差異，并將這些差異轉(zhuǎn)換為振動(dòng)以重建聲音。通過更好地觀察到不可察覺的高頻振動(dòng)，為計(jì)算機(jī)視覺開辟了新的應(yīng)用。

論文地址：https://www.louisbouchard.ai/cvpr-2022-best-paper/

1、https://github.com/louisfb01/best_AI_papers_2022

2、https://www.louisbouchard.ai/lama/

3、https://www.louisbouchard.ai/stitch-it-in-time/

4、https://www.louisbouchard.ai/neroic/

5、https://www.louisbouchard.ai/speech-inpainting-with-ai/

6、https://www.louisbouchard.ai/waymo-lidar/

7、https://www.louisbouchard.ai/deepmind-gato/

8、https://www.louisbouchard.ai/no-language-left-behind/

9、https://www.louisbouchard.ai/cvpr-2022-best-paper/

10、https://www.louisbouchard.ai/chatgpt/

未來智能實(shí)驗(yàn)室的主要工作包括：建立AI智能系統(tǒng)智商評(píng)測體系，開展世界人工智能智商評(píng)測；開展互聯(lián)網(wǎng)（城市）大腦研究計(jì)劃，構(gòu)建互聯(lián)網(wǎng)（城市）大腦技術(shù)和企業(yè)圖譜，為提升企業(yè)，行業(yè)與城市的智能水平服務(wù)。每日推薦范圍未來科技發(fā)展趨勢的學(xué)習(xí)型文章。目前線上平臺(tái)已收藏上千篇精華前沿科技文章和報(bào)告。

# AI應(yīng)用信息 # AI # AIGC # AI工具 # AI技術(shù)# AI模型 # ChatGPT # CV # GAN # Google # GPT # Meta # OpenAI # 人工智能 # 發(fā)展趨勢 # 圖片 # 大模型 # 強(qiáng)化學(xué)習(xí)# 感知器 # 深度學(xué)習(xí)# 特斯拉

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問請聯(lián)系AIGC工具導(dǎo)航或點(diǎn)擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

2022年度十大AI技術(shù)盤點(diǎn)：AIGC風(fēng)暴來襲，自動(dòng)駕駛后會(huì)無期？

中金 | 元宇宙系列之AI+數(shù)字原生：AIGC涌內(nèi)容生成之浪，NLP筑智能交互之基

網(wǎng)信辦發(fā)布！我國首個(gè)AIGC監(jiān)管文件或?qū)⒊鰻t | 瀟湘晨報(bào)網(wǎng)

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

熱門文章

熱門網(wǎng)址

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

2022年度十大AI技術(shù)盤點(diǎn)：AIGC風(fēng)暴來襲，自動(dòng)駕駛后會(huì)無期？

中金 | 元宇宙系列之AI+數(shù)字原生：AIGC涌內(nèi)容生成之浪，NLP筑智能交互之基

網(wǎng)信辦發(fā)布！我國首個(gè)AIGC監(jiān)管文件或?qū)⒊鰻t | 瀟湘晨報(bào)網(wǎng)

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

熱門文章

熱門網(wǎng)址

2022年度十大AI技術(shù)盤點(diǎn)：AIGC風(fēng)暴來襲，自動(dòng)駕駛后會(huì)無期？

中金 | 元宇宙系列之AI+數(shù)字原生：AIGC涌內(nèi)容生成之浪，NLP筑智能交互之基

網(wǎng)信辦發(fā)布！我國首個(gè)AIGC監(jiān)管文件或?qū)⒊鰻t | 瀟湘晨報(bào)網(wǎng)