快手可靈大模型已開放圖生視頻，并支持視頻續(xù)寫

AIGC行業(yè)資訊1年前 (2024)發(fā)布 zhang

日前快手可靈大模型發(fā)布重磅更新，正式開放 ” 圖生視頻 ” 功能，可支持將靜態(tài)圖像轉(zhuǎn)化為 5 秒時長的視頻，并且用戶可通過提示詞控制圖像中的運動效果。此次更新同時還推出了視頻續(xù)寫功能，支持對生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫，最長可生成是時長約 3 分鐘的視頻內(nèi)容。

據(jù)了解，快手可靈大模型的 ” 圖生視頻 ” 功能可根據(jù)用戶上傳的圖片進行深度解析，賦予其 5 秒的鮮活生命力。得益于其基礎(chǔ)模型架構(gòu)中的 3D 時空聯(lián)合注意力機制，可靈在構(gòu)建復(fù)雜時空運動方面具備更為出色的能力，在轉(zhuǎn)換靜態(tài)圖像為動態(tài)視頻時可細膩而準確地實現(xiàn)大幅度的運動場景。

同時可靈大模型還具備提示詞融合技術(shù)，并深化了對圖像語義和用戶指令的理解整合，能夠根據(jù)用戶提供的不同文本指令變換視頻中的動態(tài)表現(xiàn)。通過文本與圖像意義的緊密聯(lián)動，可靈大模型將按需定制的視覺敘事能力提升到了新的高度。此外其還支持不同風(fēng)格的圖像輸入，不論自然寫實、還是風(fēng)格化圖像都能處理，同時可兼容各種長寬比的輸入。

此次可靈大模型更新的重點之一便是視頻續(xù)寫功能，可支持對生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫。據(jù)快手方面介紹，用戶可先通過 ” 文生視頻 ” 和 ” 圖生視頻 ” 兩種模式生成約 5 秒鐘視頻，然后再使用視頻續(xù)寫功能，每次續(xù)寫都能將視頻延續(xù)約 5 秒，最終可實現(xiàn)長達 3 分鐘的視頻。

更為重要的是，視頻續(xù)寫功能與文本控制機制還進行了深度融合，這也就意味著每一段續(xù)寫都能融入用戶的創(chuàng)意和想法，通過添加不同提示詞實現(xiàn)轉(zhuǎn)換和場景過渡，進而確保新生成的部分與原視頻間的連貫性及合理性，從而提升視頻的生動性。

快手方面此前在 6 月 6 日正式發(fā)布旗下可靈視頻生成大模型，率先開放的是 ” 文生視頻 ” 能力，不但效果對標 sora、且在快影 App 同步開放邀測體驗，目前累計已有約 14 萬人排隊申請。

此外，基于可靈大模型的更多應(yīng)用也已經(jīng)或即將落地，例如基于肢體驅(qū)動的 “AI 舞王 ” 已在快手和快影 App 落地，用戶只需上傳一張全身或半身照片即可體驗 ” 一鍵跳舞 “。而 “AI 唱跳 ” 也即將上線，僅需一張照片即可同時驅(qū)動表情和肢體動作，生成一段唱跳視頻。

公開資料顯示，可靈大模型為快手 AI 團隊自研，其基于類 Sora 技術(shù)路線、并結(jié)合了多項自研創(chuàng)新技術(shù)，能夠生成 1080P 分辨率、時長 2 分鐘（幀率 30fps）的視頻，且支持自由寬高比。

目前，快手方面已在 AI 領(lǐng)域展開全面布局，并先后發(fā)布了 1750 億參數(shù)規(guī)模的通用大語言模型 ” 快意 ” 和文生圖大模型 ” 可圖 “，同時還推出了 Direct-a-Video、Video-LaViT、I2V-Adapter、UNIAA 等視頻關(guān)鍵技術(shù)。