PixVerse 實測效果已超過 Pika，抖音經(jīng)驗讓我們有足夠優(yōu)勢

AI應(yīng)用信息2年前 (2024)發(fā)布 XIAOT

今年 4 月宣布創(chuàng)辦愛詩科技，加入視頻生成賽道后，王長虎就消失在輿論場中了。他在抖音的職業(yè)經(jīng)歷，讓愛詩科技在視頻生成的牌桌上擁有一席重要位置。

2017 年，王長虎加入字節(jié)跳動開始擔(dān)任 AI Lab 總監(jiān)，在這個崗位上，他為抖音和 TikTok 從 0-1 構(gòu)建了視頻 AI能力。用王長虎本人的話說，為抖音所做的工作，讓他的團隊涉獵了幾乎所有與視頻智能相關(guān)的領(lǐng)域，包括且不限于數(shù)據(jù)處理、內(nèi)容生成、安全問題處理、視頻內(nèi)容精準(zhǔn)理解以及全方位廣告場景。

近期，王長虎接受了機器之心的獨家專訪。在采訪中，王長虎詳細介紹了抖音的視頻智能化經(jīng)驗是如何被他復(fù)用到視頻生成領(lǐng)域的，所積累的這些經(jīng)驗為他的新公司構(gòu)建了數(shù)據(jù)、算法以及工程上的競爭優(yōu)勢。

愛詩科技在近期上線的視頻生成工具 PixVerse，能夠生成免費 4K 分辨率的高清視頻，在光影細節(jié)和運動準(zhǔn)確性等方面取得了進展。王長虎告訴機器之心，PixVerse 的性能在某些方面已經(jīng)達到了 Pika 的水平，甚至在多項評測中超越了它們。

創(chuàng)作者用PixVerse創(chuàng)作的短片

自媒體 KOL 歸藏在一次對比評測中，從物品特寫、寫實風(fēng)景、寫實人像、皮克斯 2.5D 風(fēng)格、 2D 動畫風(fēng)格五種風(fēng)格對 PixVerse、Pika 以及 Runway 三大模型進行比較，為這三者評分 74.5 分、 73.5 分、 64.5 分，PixVerse 位居第一。

歸藏認為，“PixVerse 的模型是這三者最為平衡的，可以有比較強的運動幅度，同時可以維持較好的一致性。Pika 在動漫和 2.5D 風(fēng)格上的優(yōu)勢巨大，但圖像質(zhì)量以及一致性相對差一些?！?/section>

PixVerse、Runway 以及 Pika的對比?

王長虎認為，目前視頻生成領(lǐng)域存在的兩個最關(guān)鍵的技術(shù)問題是準(zhǔn)確性和一致性，而在這兩個核心維度上，Pika 和 Runway 還有提升空間?！霸谀壳暗膶崪y中，PixVerse 歡迎投資人和同行以及用戶來進行隨機大樣本量的對比，對比越多，越能發(fā)現(xiàn)我們的優(yōu)勢”。

王長虎表示，視頻生成技術(shù)上的累進和商業(yè)化的運行已經(jīng)可以同步開展。愛詩科技內(nèi)部正在大量孵化基于視頻生成技術(shù)的輕量應(yīng)用，這些應(yīng)用將面向使用抖音、快手等短視頻平臺的 C 端視頻消費者，借助這些應(yīng)用擴充產(chǎn)品影響力。

“產(chǎn)品效果超越 Pika”

機器之心：能否請您介紹下目前公司最新的情況？

王長虎：我們核心團隊成員從 2017 年開始參與抖音從零到一的發(fā)展，負責(zé)抖音背后的視頻人工智能能力構(gòu)建，在視頻 AI 領(lǐng)域積累了很多獨特的實戰(zhàn)經(jīng)驗。隨著 AI 時代的到來，我們認識到 AI 視頻生成的巨大潛力，而我們的經(jīng)驗讓我們有信心（比別人）做得更快更好。

2023 年 4 月份，我們獲得首輪數(shù)千萬人民幣的融資，6 月份核心團隊基本成型。我們只用了 3-4 個月的時間就實現(xiàn)了重大進展，在某些方面超越了全球最大的競爭對手像 Pika 這樣的公司。之前在抖音積累的視頻處理經(jīng)驗，被成功應(yīng)用在目前我們的 AI 視頻生成項目上。

整體上，我們的產(chǎn)品發(fā)展分為兩個階段：

第一階段：TO 創(chuàng)作者，提供更好的視頻生成服務(wù)，更好地理解創(chuàng)作者動機。同時，也支持直接面向用戶，接受用戶反饋進行迭代。我們目前已經(jīng)推出的產(chǎn)品 PixVerse，用戶已經(jīng)可以在網(wǎng)頁端和 Discord 社區(qū)使用，利用文字或者圖片生成 4K 高清視頻。

在第二階段，我們希望直接面向消費者，不僅僅是提供工具，而是要打通創(chuàng)作和消費的整個流程，直接提供 AI 原生的可消費內(nèi)容。

機器之心：橫向?qū)Ρ龋壳?，PixVerse 在哪些方面做得比較好？

王長虎：目前，我們認為在視頻生成領(lǐng)域最關(guān)鍵的兩個問題是準(zhǔn)確性和一致性。準(zhǔn)確性要求每一幀都能精確地反映用戶需求，一致性要求在時間軸上，視頻中物體的運動符合客觀規(guī)律。

只有在這兩方面上實現(xiàn)進步，讓 AI 生成的視頻準(zhǔn)確反映用戶需求，并且保證動態(tài)內(nèi)容符合規(guī)律，運動具有連貫性，這樣的視頻才能應(yīng)用于實際場景。就目前而言，我們發(fā)現(xiàn)在這兩個核心維度上，Pika 和 Runway 各有明顯的不足。

目前，在這兩方面，我們已經(jīng)取得了重大進展。我們已經(jīng)可以生成 4K 高清的動態(tài)視頻，并且在可用性上實現(xiàn)了提升。

舉個例子，這是我們海外的一些創(chuàng)作者所實現(xiàn)的效果，一位創(chuàng)作者利用 PixVerse 制作的宣傳片，其中每個素材都運用了我們的技術(shù)。

此外，我們還能制作一些基于電影、游戲素材的創(chuàng)新場景，比如鋼鐵俠在黃浦江游泳、讓《原神》角色在其他游戲場景里跳舞等等。

prompt：wonder woman walking in the rain_神奇女俠在雨中行走

機器之心：你提到說在效果上已經(jīng) “超過了 Pika 和 Runway”，這個標(biāo)準(zhǔn)是什么？我們可以怎么感受到？

王長虎：我們可以用同一個 Prompt，對比一下 PixVerse 和 Pika 1.0、Runway 的效果。

比如，柯基跳舞的 Prompt（a corgi is dancing_一只柯基在跳舞）

在 Pika 1.0 的表現(xiàn)里，柯基主體非常精確且吸引人，但是它只進行了微小幅度的運動。觀察它的畫面，雖然每一幀單獨看起來都不錯，但當(dāng)它們連在一起時，就不再呈現(xiàn)出視頻的信息量。而Runway在柯基的表現(xiàn)上很好，但是基本沒有跳舞的動作。

這本質(zhì)上，是剛才我提到的 “運動一致性” 的問題，因為現(xiàn)在對于要讓一個物體在時間軸上去做運動，本身是一個非常難的技術(shù)。

總之，整個行業(yè)在模型視頻生成方面面臨的最基礎(chǔ)問題，就是準(zhǔn)確率和運動一致性。如果我們制作的視頻素材既不準(zhǔn)確又缺乏一致性，就無法在任何場景中有效使用。因此，我認為這是全球這個行業(yè)首要解決的問題。在這方面，我們技術(shù)上可能走在了前列。

我們歡迎對我們的模型進行實時測試，事實上，測試的案例越多，我們的優(yōu)勢就越明顯?，F(xiàn)在視頻生成領(lǐng)域還沒有形成統(tǒng)一的競爭格局，我們認為在這個方向上，我們有機會在全球范圍內(nèi)取得領(lǐng)先地位。

機器之心：你們內(nèi)部視頻生成內(nèi)容評價的標(biāo)準(zhǔn)是什么？

王長虎：目前我們內(nèi)部已有一個評估標(biāo)準(zhǔn)，可以用于評估視頻生成產(chǎn)品準(zhǔn)確性和一致性。目前整個行業(yè)缺乏一個明確的判斷標(biāo)準(zhǔn)，所以我們也在不斷完善過程中，未來可能會發(fā)布出來。

我們將評估標(biāo)準(zhǔn)分為三個部分：主體動作風(fēng)格、一致性（包括主體和背景），以及主體運動的合理性。我們還考慮了運鏡技巧、創(chuàng)新瓶頸，以及豐富性，后者主要涉及畫質(zhì)和幀率。這些都是比較客觀的維度。我們還評估信息量，即單位時間內(nèi)的信息量。很多同行在研發(fā)時缺乏這樣的邏輯。我們有一套體系來支持我們的迭代進程。

在效果評定上，除了主觀與客觀的標(biāo)準(zhǔn)，我們還采用盲測的方法做測試。向多個模型輸入隨機 Prompt，抹去水印，讓足夠樣本的人做效果排序，來判斷誰更優(yōu)秀。

機器之心：你認為這種評估方式相對客觀嗎？

王長虎：是的，這種方法相對客觀。雖然圖片生成和視頻生成的效果判斷比較主觀，但我們之所以能在市場上迅速崛起，是因為我們使用的模型和整個系統(tǒng)支持我們從數(shù)據(jù)角度快速作出評估。

機器之心：你們最近進行的盲測評估結(jié)果如何？

王長虎：根據(jù)我們最近的評估結(jié)果，我們的性能在某些方面已經(jīng)達到了 Pika 平臺的水平，甚至在多項評測中超越了它們。我們的產(chǎn)品在視覺效果、分辨率、畫質(zhì)上明顯優(yōu)于競品。此外，在模型準(zhǔn)確性、一致性和豐富性方面，我們的表現(xiàn)也更好。

通常情況下，如果有投資人或同行要進行測試，我們會建議他們出至少 20 個問題，以確保樣本量足夠大。我們會根據(jù)他們認為重要的方面來進行測試。在所有這些測試中，我們通常可以明顯地看出我們的產(chǎn)品比競品更優(yōu)秀，這是肉眼可見的。

但最終判斷哪個產(chǎn)品更好，很多時候并不僅僅是基于技術(shù)性的因素，而是主觀上的偏好。如果大家普遍認為某個產(chǎn)品好，那么這個產(chǎn)品就被視為更優(yōu)秀。

# AI應(yīng)用信息 # AI # AI 生成 # PixVerse # prompt # TikTok # 人工智能 # 創(chuàng)新 # 圖片 # 圖片生成 # 大模型 # 抖音 # 數(shù)據(jù)處理 # 文字 # 網(wǎng)頁 # 視頻 # 視頻生成

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問請聯(lián)系AIGC工具導(dǎo)航或點擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

PixVerse 實測效果已超過 Pika，抖音經(jīng)驗讓我們有足夠優(yōu)勢

使用FlashInfo Salesforce數(shù)據(jù)豐富功能改進您的Salesforce數(shù)據(jù)

Pixso榮獲IXDC十大杰出品牌

相關(guān)文章

領(lǐng)新人體驗大禮包

一鍵AI寫小說工具

AI一鍵生成立體圖