我國自研視頻大模型全球上線

記者8月3日獲悉，亮相2024中關(guān)村論壇年會的人工智能視頻大模型Vidu日前宣布在全球正式上線。Vidu開放文生視頻、圖生視頻兩大核心功能，提供4秒和8秒兩種時長選擇，分辨率最高達1080P。

Vidu是北京生數(shù)科技有限公司（以下簡稱“生數(shù)科技”）聯(lián)合清華大學(xué)發(fā)布的自研長時長、高一致性、高動態(tài)性視頻大模型。據(jù)介紹，此次面向全球上線，Vidu在基礎(chǔ)功能外新增動漫風格、角色一致性等功能。生數(shù)科技有關(guān)負責人表示，Vidu實現(xiàn)了業(yè)界最快實測推理速度，僅需30秒就能生成一段4秒片段。目前Vidu無需申請，用戶直接使用郵箱注冊即可上手體驗。

今年初，文生視頻大模型 sora在全球引發(fā)廣泛關(guān)注。目前業(yè)界對視頻模型的評價主要圍繞三大核心維度：語義理解準確性、畫面美觀性、主體動態(tài)一致性。Vidu較好平衡了這三方面的表現(xiàn)。它能準確理解并生成提示詞中的文字，包括字母、數(shù)字等，并能生成文字特效。對第一人稱、延時攝影等鏡頭語言，Vidu也能精準表達，用戶只需細化提示詞，即可大幅提升視頻可控性。同時，Vidu支持大幅度、精準的動作生成，保持高流暢、高動態(tài)的畫面效果。

此外，Vidu在構(gòu)圖、敘事和光影等方面，能達到接近電影級效果。Vidu還能生成影視級特效畫面，如煙霧、炫光效果、CG（計算機圖形學(xué)）特效等。