什么？“音生圖”模型來了；AI新?lián)Q臉方法：高雅實(shí)用；AI程序員靠譜！

AIGC行業(yè)資訊3年前 (2023)更新管理員

AIGC（AI Generated Content）即人工智能生成內(nèi)容。近期爆火的 AI 聊天機(jī)器人 ChatGPT，以及 Dall·E 2、Stable Diffusion 等文生圖模型，都屬于 AIGC 的典型案例，它們通過借鑒現(xiàn)有的、人類創(chuàng)造的內(nèi)容來快速完成內(nèi)容創(chuàng)作。

“新晉流量”ChatGPT的背后，AIGC是“曇花一現(xiàn)”？還是將引領(lǐng)人工智能進(jìn)入新的時代？「AIGC 周報」將從【技術(shù)前瞻】【企業(yè)動態(tài)】【政策法規(guī)】【專家觀點(diǎn)】帶你快速跟進(jìn) AIGC 世界。

01 技術(shù)前瞻

WavBriVL：“音生圖”多模態(tài)模型

聲音和視覺在許多領(lǐng)域影響著人們的核心認(rèn)知，如感覺、信息處理和交流，聲音和視覺密切相關(guān)。但現(xiàn)有的大多數(shù)方法只有單一的認(rèn)知能力，有些方法只研究文本視覺、文本語音等。如今，研究人員已經(jīng)逐漸意識到，在某些情況下，大規(guī)?；ヂ?lián)網(wǎng)數(shù)據(jù)上的自監(jiān)督預(yù)訓(xùn)練優(yōu)于高質(zhì)量/人工標(biāo)記的數(shù)據(jù)集，多模態(tài)/大模型比單模態(tài)或雙模態(tài)/小模型更好。

悟道·文瀾 BriVL 是首個公開的中文通用圖文預(yù)訓(xùn)練模型，是一個類似于 CLIP 的文生圖模型。該研究提出了一種基于 BriVL、具有魯棒性的音頻表示學(xué)習(xí)方法——WavBriVL。這一方法將音頻、圖像和文本投射到共享的嵌入式空間中，從而實(shí)現(xiàn)多模態(tài)應(yīng)用。

據(jù)介紹，WavBriVL 可以輸出相對相關(guān)的音頻表示，且可以用于解決多模式任務(wù)，如音頻生成圖像。下圖展示了分別使用 Wav2CLIP 和 WavBriVL-x 從 AudioSet 中的 5 個音頻生成的圖像。在未來的工作中，團(tuán)隊(duì)將探索利用跨模態(tài)（音頻到圖像）生成功能的可解釋機(jī)器學(xué)習(xí)方法，并考慮嘗試微軟的文本語音融合模型 SpeechLM 和 Diffusion 模型，作為這項(xiàng)工作的下一個版本。

什么？“音生圖”模型來了；AI新?lián)Q臉方法：高雅實(shí)用；AI程序員靠譜！

論文鏈接：

https://arxiv.org/abs/2303.04585

AI換臉新方法：更高雅、更實(shí)用

近來，StyleGAN 模型使得基于風(fēng)格轉(zhuǎn)移的人臉交換方法得到了廣泛的研究。然而，這些研究需要單獨(dú)的人臉分割和混合模塊才能成功完成人臉交換，且這些工作在高維語義空間上對特征的選取較為魯莽，降低了人臉交換的質(zhì)量、可推廣性和實(shí)用性。

該研究提出了一種新穎的、端到端的綜合框架，用于通過自適應(yīng)延遲呈現(xiàn)學(xué)習(xí)（ALL）優(yōu)雅地生成高分辨率和高質(zhì)量的人臉交換。實(shí)驗(yàn)結(jié)果表明，與基準(zhǔn)和最先進(jìn)的 AI 換臉方法相比，使用這一框架生成的圖像在裸眼效果和定量度量方面得到了改進(jìn)。如下圖所示，左邊的人臉作為輸入，中間的作為目標(biāo)框架，右邊的是最終被轉(zhuǎn)換后的人臉。

論文鏈接：

https://arxiv.org/abs/2303.04186

Visual ChatGPT：可以圖文互動的ChatGPT

ChatGPT 吸引了跨領(lǐng)域的興趣，因?yàn)樗峁┝艘粋€語言界面，具有卓越的對話能力和跨領(lǐng)域的推理能力。然而，由于 ChatGPT 是用文本語言訓(xùn)練的，目前還不能處理或生成視覺世界的圖像。同時，視覺基礎(chǔ)模型，如 Visual Transformers 或 Stable Diffusion，雖然表現(xiàn)出了強(qiáng)大的視覺理解和生成能力，但只是特定任務(wù)的專家，有一個固定的輸入和輸出。

該研究提出了一個名為 Visual ChatGPT 的系統(tǒng)，其中包含不同的視覺基礎(chǔ)模型，以使用戶能夠通過以下方式與 ChatGPT 互動：

（1）不僅發(fā)送和接收語言，而且還發(fā)送和接收圖像；

（2）提供復(fù)雜的視覺問題或編輯指令，這需要多個 AI 模型的多步驟協(xié)作。

（3）提供反饋并要求糾正結(jié)果。

通過設(shè)計(jì)一系列的提示，將視覺模型信息注入到 ChatGPT，考慮到多輸入/輸出的模型和需要視覺反饋的模型。實(shí)驗(yàn)表明，Visual ChatGPT 為研究 ChatGPT 在視覺基礎(chǔ)模型幫助下的視覺作用打開了大門。

論文鏈接：

https://arxiv.org/abs/2303.04671

從Copilot到Pilot，AI程序員靠譜嗎？

Copilot/Codex（Github/OpenAI）和 AlphaCode（DeepMind）等大型代碼語言模型的引入和成功表明，AI 支持的編程時代已經(jīng)到來。現(xiàn)在，這些大模型在編程方面的表現(xiàn)超過人類平均水平是可能的。然而，軟件工程遠(yuǎn)不僅僅是解決編程競賽的問題。從代碼完成到 AI 支持的軟件工程將需要一個 AI 系統(tǒng)，能夠理解如何避免代碼異味（如重復(fù)的代碼或過大的類），遵循語言習(xí)慣，并最終提出合理的軟件設(shè)計(jì)。

該研究探討了像 Copilot 這樣的 AI 支持的代碼完成工具目前的局限性。在大多數(shù)測試場景中，Copilot 沒有遵循語言習(xí)語，也沒有避免代碼異味。然后，改研究也進(jìn)行了額外的調(diào)查，通過引入軟件抽象層次結(jié)構(gòu)的分類法來確定 Copilot 等 AI 支持的代碼完成工具的邊界，其中代碼編譯和語法檢查等“基本編程功能”處于最低抽象級別，軟件架構(gòu)分析和設(shè)計(jì)處于最抽象的層次。最后，該研究討論了 AI 支持的代碼完成工具在未來需要面臨的挑戰(zhàn)。

論文鏈接：

https://arxiv.org/abs/2303.04142

02 企業(yè)動態(tài)

微軟：Bing活躍用戶突破1億，感謝AI聊天和Edge瀏覽器

微軟在發(fā)布的博客中寫道：“我們很高興地與大家分享，經(jīng)過多年的穩(wěn)步發(fā)展，加上數(shù)百萬 new Bing 預(yù)覽用戶的推動，我們的 Bing 每日活躍用戶已突破 1 億?！?/p>

此外，微軟還表示，在新 Bing 預(yù)覽版的數(shù)百萬活躍用戶中，有大約三分之一是 Bing 的新用戶。他們將這種增長歸功于他們“對搜索的重新定義”，即將搜索 + 答案 + 聊天 + 創(chuàng)造（Search + Answers + Chat + Creation）整合起來。一個月前，微軟使用 OpenAI 的大型語言模型在“有限預(yù)覽”中推出了 Bing 聊天機(jī)器人，并對該機(jī)器人的行為進(jìn)行了多項(xiàng)更改，以應(yīng)對其有時奇怪且具有威脅性的對話。

參考鏈接：

https://blogs.bing.com/search/march_2023/The-New-Bing-and-Edge-%E2%80%93-Momentum-from-Our-First-Month/

微軟：可以在Azure OpenAI服務(wù)中使用ChatGPT

微軟宣布，可以在基于云計(jì)算的操作系統(tǒng) Azure 上的 OpenAI 服務(wù)中使用 ChatGPT。通過 Azure OpenAI 服務(wù)，超過 1000 名客戶正在應(yīng)用最先進(jìn)的 AI 模型—包括 DALL-E 2、GPT-3.5、Codex 以及其他由 Azure 獨(dú)特的超級計(jì)算和企業(yè)能力支持的大型語言模型。開發(fā)者可以將定制的 AI 驅(qū)動的體驗(yàn)直接整合到他們自己的應(yīng)用程序中，包括增強(qiáng)現(xiàn)有的機(jī)器人來處理突發(fā)問題，以實(shí)現(xiàn)更快的客戶支持解決方案，創(chuàng)建具有個性化優(yōu)惠的新廣告副本等。

參考鏈接：

https://azure.microsoft.com/zh-cn/blog/chatgpt-is-now-available-in-azure-openai-service/

蘋果用戶可在Apple Watch上和ChatGPT互動

近日，蘋果公司批準(zhǔn)通過了適用于 Apple Watch 的應(yīng)用程序 watchGPT 上線，watchGPT 目前在 App Store 上的售價為 3.99 美元或者 4.99 歐元。蘋果方面介紹，用戶可以直接在 Apple Watch 上和 ChatGPT 互動，無需鍵入即可快速獲得問題的答案或生成相關(guān)消息，用戶還可以通過短信、電子郵件或社交媒體向他人分享與 ChatGPT 互動的記錄等。

參考鏈接：

https://9to5mac.com/2023/03/08/apple-watch-gets-chatgpt-watchgpt/

Salesforce 啟動迄今為止規(guī)模最大的 AIGC 風(fēng)投基金

云計(jì)算巨頭 Salesforce 的風(fēng)險投資部門正在啟動一項(xiàng) 2.5 億美元的基金，這是迄今為止規(guī)模最大的 AIGC 風(fēng)投基金。Salesforce 服務(wù)云首席執(zhí)行官 Clara Shih 表示，該基金將專注于“培育下一代生成 AI 初創(chuàng)公司”。

同時 Salesforce 表示，將發(fā)布 Einstein GPT，將 OpenAI 的生成式 AI 技術(shù)添加到其自身的 AI 產(chǎn)品 Einstein 平臺上。該服務(wù)可以在銷售、服務(wù)、營銷、商業(yè)和 IT 互動中提供 AI 創(chuàng)建的內(nèi)容，從而幫助銷售人員、客服代理和營銷人員完成工作。

參考鏈接：

https://www.salesforce.com/products/einstein/overview/?d=cta-jumbotron-2-ungated-einstein-gpt

AIGC獨(dú)角獸Stability AI醞釀新一輪融資，估值或達(dá)近40億美元

據(jù) Bloomberg 報道， AI 文生圖模型 Stable Diffusion 的母公司、英國開源人工智能企業(yè) Stability AI 正尋求以近 40 億美元的估值籌集資金。據(jù)悉，該公司尚未就是否啟動新一輪融資做出最終決定，估值仍可能發(fā)生變化。Stability AI 在去年 10 月宣布獲得 1.01 億美元融資，由 Coatue Management、Lightspeed Venture Partners 和 O’Shaughnessy Ventures LLC 投資，當(dāng)時對 Stability AI 的估值約 10 億美元。

參考鏈接：

https://www.bloomberg.com/news/articles/2023-03-03/openai-rival-stable-diffusion-maker-seeks-to-raise-funds-at-4-billion-valuation

03 政策法規(guī)

證監(jiān)會科技監(jiān)管局局長姚前：建議重點(diǎn)發(fā)展基于 AIGC 技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)

中國證監(jiān)會科技監(jiān)管局局長姚前在《中國金融》雜志撰文稱，建議重點(diǎn)發(fā)展基于 AIGC 技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴(kuò)容”，助力打造面向 AI 未來發(fā)展的數(shù)據(jù)優(yōu)勢。在強(qiáng)化數(shù)據(jù)要素優(yōu)質(zhì)供給方面，應(yīng)統(tǒng)籌兼顧自立自強(qiáng)和對外開放?？煽紤]對 Wikipedia、Reddit 等特定數(shù)據(jù)源建立過濾后的境內(nèi)鏡像站點(diǎn)，供國內(nèi)數(shù)據(jù)處理者使用。

04 專家觀點(diǎn)

現(xiàn)代語言學(xué)之父諾姆·喬姆斯基：ChatGPT 并非真正的智慧

人腦不像 ChatGPT 及其同類產(chǎn)品那樣，是一個笨拙的模式匹配統(tǒng)計(jì)引擎，吞噬數(shù)百 TB 的數(shù)據(jù)并推斷出最可能的對話響應(yīng)或最可能的科學(xué)問題答案。相反，人的大腦是一個非常高效甚至優(yōu)雅的系統(tǒng)，只需要少量信息即可運(yùn)作；它不尋求推斷數(shù)據(jù)點(diǎn)之間的直接相關(guān)性，而是尋求解釋。

實(shí)際上，此類程序停留在認(rèn)知進(jìn)化的前人類或非人類階段。他們最深的缺陷是缺乏任何情報最關(guān)鍵的能力：不僅可以說出情況是什么、已經(jīng)發(fā)生了什么以及將要發(fā)生什么——這是描述和預(yù)測——而且還可以說出什么不是這種情況以及可能發(fā)生什么事實(shí)并非如此。這些是解釋的成分，是真正智慧的標(biāo)志。

參考鏈接：

https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

浙商證券：AI 行業(yè)發(fā)展提速，人形機(jī)器人商業(yè)化未來可期

近日，浙商證券在研報中指出，ChatGPT 作為 AIGC 領(lǐng)域的頂尖模型，有望對現(xiàn)有生產(chǎn)力工具進(jìn)行變革，其商業(yè)化有望加速推動語言 AI 及 AI 領(lǐng)域整體的顯著進(jìn)步。人機(jī)交互系統(tǒng)作為人形機(jī)器人的“大腦”，語音語義分析作為人機(jī)交互核心途徑，可幫助機(jī)器人具備聽、說、理解和思考的能力。伴隨人機(jī)交互技術(shù)逐漸成熟，人形機(jī)器人商業(yè)化未來可期。核心零部件占比工業(yè)機(jī)器人成本約 70%，人形機(jī)器人相較于傳統(tǒng)工業(yè)機(jī)器人，自由度大幅提升，預(yù)計(jì)將使用比工業(yè)機(jī)器人更多的減速器與電機(jī)，核心零部件（減速器、伺服電機(jī)等）需求有望大幅提升。

# AIGC行業(yè)資訊 # ChatGPT專欄 # AI # AIGC # AI聊天 # ChatGPT # Diffusion # GPT # OpenAI # 云計(jì)算 # 人工智能 # 大模型 # 開發(fā)者 # 微軟 # 操作系統(tǒng)# 文生圖 # 機(jī)器人 # 機(jī)器學(xué)習(xí)# 瀏覽器 # 程序員 # 聊天機(jī)器人 # 蘋果

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問請聯(lián)系AIGC工具導(dǎo)航或點(diǎn)擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

什么？“音生圖”模型來了；AI新?lián)Q臉方法：高雅實(shí)用；AI程序員靠譜！

AIGC發(fā)展史：從模仿到創(chuàng)造，AI的創(chuàng)造性探索

AIGC工具導(dǎo)航參與的首屆TopAIGC+Web3創(chuàng)新大會即將開幕！

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

一鍵AI寫小說工具

AI一鍵生成立體圖

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

什么？“音生圖”模型來了；AI新?lián)Q臉方法：高雅實(shí)用；AI程序員靠譜！

AIGC發(fā)展史：從模仿到創(chuàng)造，AI的創(chuàng)造性探索

AIGC工具導(dǎo)航參與的首屆TopAIGC+Web3創(chuàng)新大會即將開幕！

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

一鍵AI寫小說工具

AI一鍵生成立體圖

什么？“音生圖”模型來了；AI新?lián)Q臉方法：高雅實(shí)用；AI程序員靠譜！

AIGC工具導(dǎo)航參與的首屆TopAIGC+Web3創(chuàng)新大會即將開幕！