亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

PixVerse 實測效果已超過 Pika,抖音經(jīng)驗讓我們有足夠優(yōu)勢

AI應(yīng)用信息2年前 (2024)發(fā)布 XIAOT
127 0
今年 4 月宣布創(chuàng)辦愛詩科技,加入視頻生成賽道后,王長虎就消失在輿論場中了。他在抖音的職業(yè)經(jīng)歷,讓愛詩科技在視頻生成的牌桌上擁有一席重要位置。
2017 年,王長虎加入字節(jié)跳動開始擔(dān)任 AI Lab 總監(jiān),在這個崗位上,他為抖音TikTok 從 0-1 構(gòu)建了視頻AI能力。用王長虎本人的話說,為抖音所做的工作,讓他的團隊涉獵了幾乎所有與視頻智能相關(guān)的領(lǐng)域,包括且不限于數(shù)據(jù)處理、內(nèi)容生成、安全問題處理、視頻內(nèi)容精準(zhǔn)理解以及全方位廣告場景。
近期,王長虎接受了機器之心的獨家專訪。在采訪中,王長虎詳細介紹了抖音的視頻智能化經(jīng)驗是如何被他復(fù)用到視頻生成領(lǐng)域的,所積累的這些經(jīng)驗為他的新公司構(gòu)建了數(shù)據(jù)、算法以及工程上的競爭優(yōu)勢。
愛詩科技在近期上線的視頻生成工具 PixVerse,能夠生成免費 4K 分辨率的高清視頻,在光影細節(jié)和運動準(zhǔn)確性等方面取得了進展。王長虎告訴機器之心,PixVerse 的性能在某些方面已經(jīng)達到了 Pika 的水平,甚至在多項評測中超越了它們。
閑人一坤
,贊3203
創(chuàng)作者用PixVerse創(chuàng)作的短片
自媒體 KOL 歸藏在一次對比評測中,從物品特寫、寫實風(fēng)景、寫實人像、皮克斯 2.5D 風(fēng)格、 2D 動畫風(fēng)格五種風(fēng)格對 PixVerse、Pika 以及 Runway 三大模型進行比較,為這三者評分 74.5 分、 73.5 分、 64.5 分,PixVerse 位居第一。
歸藏認為,“PixVerse 的模型是這三者最為平衡的,可以有比較強的運動幅度,同時可以維持較好的一致性。Pika 在動漫和 2.5D 風(fēng)格上的優(yōu)勢巨大,但圖像質(zhì)量以及一致性相對差一些?!?/section>
PixVerse、Runway 以及 Pika的對比?
王長虎認為,目前視頻生成領(lǐng)域存在的兩個最關(guān)鍵的技術(shù)問題是準(zhǔn)確性和一致性,而在這兩個核心維度上,Pika 和 Runway 還有提升空間?!霸谀壳暗膶崪y中,PixVerse 歡迎投資人和同行以及用戶來進行隨機大樣本量的對比,對比越多,越能發(fā)現(xiàn)我們的優(yōu)勢”。
王長虎表示,視頻生成技術(shù)上的累進和商業(yè)化的運行已經(jīng)可以同步開展。愛詩科技內(nèi)部正在大量孵化基于視頻生成技術(shù)的輕量應(yīng)用,這些應(yīng)用將面向使用抖音、快手等短視頻平臺的 C 端視頻消費者,借助這些應(yīng)用擴充產(chǎn)品影響力。
“產(chǎn)品效果超越 Pika”
機器之心:能否請您介紹下目前公司最新的情況?
王長虎:我們核心團隊成員從 2017 年開始參與抖音從零到一的發(fā)展,負責(zé)抖音背后的視頻人工智能能力構(gòu)建,在視頻 AI 領(lǐng)域積累了很多獨特的實戰(zhàn)經(jīng)驗。隨著 AI 時代的到來,我們認識到 AI 視頻生成的巨大潛力,而我們的經(jīng)驗讓我們有信心(比別人)做得更快更好。
2023 年 4 月份,我們獲得首輪數(shù)千萬人民幣的融資,6 月份核心團隊基本成型。我們只用了 3-4 個月的時間就實現(xiàn)了重大進展,在某些方面超越了全球最大的競爭對手像 Pika 這樣的公司。之前在抖音積累的視頻處理經(jīng)驗,被成功應(yīng)用在目前我們的 AI 視頻生成項目上。
整體上,我們的產(chǎn)品發(fā)展分為兩個階段:
第一階段:TO 創(chuàng)作者,提供更好的視頻生成服務(wù),更好地理解創(chuàng)作者動機。同時,也支持直接面向用戶,接受用戶反饋進行迭代。我們目前已經(jīng)推出的產(chǎn)品 PixVerse,用戶已經(jīng)可以在網(wǎng)頁端和 Discord 社區(qū)使用,利用文字或者圖片生成 4K 高清視頻。
在第二階段,我們希望直接面向消費者,不僅僅是提供工具,而是要打通創(chuàng)作和消費的整個流程,直接提供 AI 原生的可消費內(nèi)容。
機器之心:橫向?qū)Ρ龋壳?,PixVerse 在哪些方面做得比較好?
王長虎:目前,我們認為在視頻生成領(lǐng)域最關(guān)鍵的兩個問題是準(zhǔn)確性和一致性。準(zhǔn)確性要求每一幀都能精確地反映用戶需求,一致性要求在時間軸上,視頻中物體的運動符合客觀規(guī)律。
只有在這兩方面上實現(xiàn)進步,讓 AI 生成的視頻準(zhǔn)確反映用戶需求,并且保證動態(tài)內(nèi)容符合規(guī)律,運動具有連貫性,這樣的視頻才能應(yīng)用于實際場景。就目前而言,我們發(fā)現(xiàn)在這兩個核心維度上,Pika 和 Runway 各有明顯的不足。
目前,在這兩方面,我們已經(jīng)取得了重大進展。我們已經(jīng)可以生成 4K 高清的動態(tài)視頻,并且在可用性上實現(xiàn)了提升。
舉個例子,這是我們海外的一些創(chuàng)作者所實現(xiàn)的效果,一位創(chuàng)作者利用 PixVerse 制作的宣傳片,其中每個素材都運用了我們的技術(shù)。
此外,我們還能制作一些基于電影、游戲素材的創(chuàng)新場景,比如鋼鐵俠在黃浦江游泳、讓《原神》角色在其他游戲場景里跳舞等等。
prompt:wonder woman walking in the rain_神奇女俠在雨中行走
機器之心:你提到說在效果上已經(jīng) “超過了 Pika 和 Runway”,這個標(biāo)準(zhǔn)是什么?我們可以怎么感受到?
王長虎:我們可以用同一個 Prompt,對比一下 PixVerse 和 Pika 1.0、Runway 的效果。
比如,柯基跳舞的 Prompt(a corgi is dancing_一只柯基在跳舞)
在 Pika 1.0 的表現(xiàn)里,柯基主體非常精確且吸引人,但是它只進行了微小幅度的運動。觀察它的畫面,雖然每一幀單獨看起來都不錯,但當(dāng)它們連在一起時,就不再呈現(xiàn)出視頻的信息量。而Runway在柯基的表現(xiàn)上很好,但是基本沒有跳舞的動作。
這本質(zhì)上,是剛才我提到的 “運動一致性” 的問題,因為現(xiàn)在對于要讓一個物體在時間軸上去做運動,本身是一個非常難的技術(shù)。
總之,整個行業(yè)在模型視頻生成方面面臨的最基礎(chǔ)問題,就是準(zhǔn)確率和運動一致性。如果我們制作的視頻素材既不準(zhǔn)確又缺乏一致性,就無法在任何場景中有效使用。因此,我認為這是全球這個行業(yè)首要解決的問題。在這方面,我們技術(shù)上可能走在了前列。
我們歡迎對我們的模型進行實時測試,事實上,測試的案例越多,我們的優(yōu)勢就越明顯?,F(xiàn)在視頻生成領(lǐng)域還沒有形成統(tǒng)一的競爭格局,我們認為在這個方向上,我們有機會在全球范圍內(nèi)取得領(lǐng)先地位。
機器之心:你們內(nèi)部視頻生成內(nèi)容評價的標(biāo)準(zhǔn)是什么?
王長虎:目前我們內(nèi)部已有一個評估標(biāo)準(zhǔn),可以用于評估視頻生成產(chǎn)品準(zhǔn)確性和一致性。目前整個行業(yè)缺乏一個明確的判斷標(biāo)準(zhǔn),所以我們也在不斷完善過程中,未來可能會發(fā)布出來。
我們將評估標(biāo)準(zhǔn)分為三個部分:主體動作風(fēng)格、一致性(包括主體和背景),以及主體運動的合理性。我們還考慮了運鏡技巧、創(chuàng)新瓶頸,以及豐富性,后者主要涉及畫質(zhì)和幀率。這些都是比較客觀的維度。我們還評估信息量,即單位時間內(nèi)的信息量。很多同行在研發(fā)時缺乏這樣的邏輯。我們有一套體系來支持我們的迭代進程。
在效果評定上,除了主觀與客觀的標(biāo)準(zhǔn),我們還采用盲測的方法做測試。向多個模型輸入隨機 Prompt,抹去水印,讓足夠樣本的人做效果排序,來判斷誰更優(yōu)秀。
機器之心:你認為這種評估方式相對客觀嗎?
王長虎:是的,這種方法相對客觀。雖然圖片生成和視頻生成的效果判斷比較主觀,但我們之所以能在市場上迅速崛起,是因為我們使用的模型和整個系統(tǒng)支持我們從數(shù)據(jù)角度快速作出評估。
機器之心:你們最近進行的盲測評估結(jié)果如何?
王長虎:根據(jù)我們最近的評估結(jié)果,我們的性能在某些方面已經(jīng)達到了 Pika 平臺的水平,甚至在多項評測中超越了它們。我們的產(chǎn)品在視覺效果、分辨率、畫質(zhì)上明顯優(yōu)于競品。此外,在模型準(zhǔn)確性、一致性和豐富性方面,我們的表現(xiàn)也更好。
通常情況下,如果有投資人或同行要進行測試,我們會建議他們出至少 20 個問題,以確保樣本量足夠大。我們會根據(jù)他們認為重要的方面來進行測試。在所有這些測試中,我們通常可以明顯地看出我們的產(chǎn)品比競品更優(yōu)秀,這是肉眼可見的。
但最終判斷哪個產(chǎn)品更好,很多時候并不僅僅是基于技術(shù)性的因素,而是主觀上的偏好。如果大家普遍認為某個產(chǎn)品好,那么這個產(chǎn)品就被視為更優(yōu)秀。
? 版權(quán)聲明

相關(guān)文章