每日經(jīng)濟(jì)新聞 2025-04-16 18:18:10
4月15日,可靈AI正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型??伸`AI的這次更新聚焦“多模態(tài)編輯功能”,該功能可實(shí)現(xiàn)替換畫面主體等元素,還可隨意增刪元素。記者實(shí)測發(fā)現(xiàn),2.0大師版對提示詞語義理解更準(zhǔn)確,表述中的細(xì)節(jié)都會在畫面中呈現(xiàn)。專家盤和林表示,可靈商業(yè)化仍有開發(fā)空間。
每經(jīng)記者|王郁彪 每經(jīng)編輯|文多
“我見過你們不會相信的東西:戰(zhàn)艦群在獵戶星座上沿燃燒,C射線在唐豪瑟之門處的黑暗中閃耀。這些時刻都將隨著時間消逝,就像雨中的眼淚。”
這是著名科幻電影《銀翼殺手》的臺詞,被奉為影史經(jīng)典時刻。遺憾的是,電影并未呈現(xiàn)這段描述中的畫面,但43年后,可靈把它“拍”出來了。
4月15日,可靈AI正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。除模型基礎(chǔ)質(zhì)量和模型效果提升外,可靈AI的這次更新還聚焦“多模態(tài)編輯功能”。
《每日經(jīng)濟(jì)新聞》記者實(shí)測后發(fā)現(xiàn),可靈2.0大師版對提示詞的語義理解更加準(zhǔn)確,表述中的細(xì)節(jié)都會在畫面中呈現(xiàn)。而多模態(tài)編輯功能,可以實(shí)現(xiàn)替換畫面主體等元素,還可隨意增刪元素,無需重新描述生成。
除了功能“上新”,快手高級副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤透露,截至目前,可靈全球用戶規(guī)模突破2200萬??焓智安痪冒l(fā)布的年度業(yè)績公告中披露,自開始商業(yè)化至今年2月,可靈AI累計(jì)收入超1億元。
這場關(guān)于AI的“豪賭”,不僅在快手發(fā)生。技術(shù)更迭、版本推新,誰能搶先在AI市場擁有“話語權(quán)”,誰就有機(jī)會先拿到下一賽段的門票。
所謂的“多模態(tài)編輯功能”,簡單來說就是輸入關(guān)鍵詞時,還可在文本描述中插入圖片、視頻,或者引入其他模態(tài)的信息——如聲音、運(yùn)動軌跡等。在視頻生成后,可以直接二次編輯處理,包括替換、增刪畫面內(nèi)的元素。
記者實(shí)測該功能后發(fā)現(xiàn),視頻生成后的畫面中,無論是主體還是涉及的其他元素,都可以通過上傳圖片、文字描述等方式直接編輯替換。目前,“多模態(tài)編輯功能”只能在可靈1.6模型下生成,2.0大師版還不支持。
不過,記者注意到,在替換相關(guān)元素后,也存在部分原細(xì)節(jié)丟失的情況。如,“熊貓彈吉他”視頻中,太陽被替換為月亮后,原描述中的“戴墨鏡”、“吐氣”等要求并未表現(xiàn)(如下圖)。
此外,記者也實(shí)測了可靈2.0大師版。如基于同一提示詞,無論是主體的生成、主體間的關(guān)聯(lián)邏輯、描述中的細(xì)節(jié)元素捕捉和動態(tài)效果呈現(xiàn),2.0版本對語義的理解較于此前的1.6模型都更加準(zhǔn)確。
可靈2.0大師版生成的圖片
可靈1.6模型生成的圖片
同時,記者也測試了可靈2.0大師版圖生視頻的功能。記者先是上傳一幅油畫圖片,并描述畫面轉(zhuǎn)動態(tài)的要求后,其生成后的效果也與1.6模型生成后的效果有著較明顯差距。
首先是畫面風(fēng)格。1.6模型生成的視頻,在原油畫風(fēng)格上未有任何改變,但2.0大師版生產(chǎn)的動態(tài)畫面,則從原油畫風(fēng)格變成了較寫實(shí)的風(fēng)格。其次是動作幅度,2.0大師版生成的畫面中,無論是主體的動作還是其他元素,動作幅度明顯更大。最后是細(xì)節(jié)呈現(xiàn)。1.6模型生成的畫面中,部分元素有扭曲變形現(xiàn)象,2.0大師版則未出現(xiàn)。
可靈2.0大師版生成的圖片
可靈1.6模型生成的圖片
在發(fā)布可靈2.0大師版時,蓋坤表示,文字在表達(dá)影像信息時不完備。因此,2.0新模型采用了Multi-modal Visual Language(簡稱MVL)交互理念。
記者了解到,MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從基礎(chǔ)方向以及精細(xì)控制兩個層面,精準(zhǔn)實(shí)現(xiàn)創(chuàng)意表達(dá)。
在這個交互理念下,用戶可以結(jié)合圖像參考、視頻片段等多模態(tài)信息,將包含身份、外觀、風(fēng)格、場景、動作、表情、運(yùn)鏡等多個維度的復(fù)雜創(chuàng)意傳達(dá)給AI。
在這個升級邏輯下,圖片質(zhì)量會對視頻的生成效果產(chǎn)生重要影響。因此,快手的圖像生成大模型“可圖”也迎來了2.0升級??焓指笨偛?、可靈AI負(fù)責(zé)人張迪介紹,當(dāng)前,圖生視頻約占到可靈AI視頻創(chuàng)作量的85%。
4月16日,工業(yè)和信息化部信息通信經(jīng)濟(jì)專家委員會委員盤和林在接受《每日經(jīng)濟(jì)新聞》記者微信采訪時表示,視頻生成賽道的最終受益者,可能還是內(nèi)容創(chuàng)作平臺。因?yàn)?,這些平臺具備兩樣?xùn)|西:其一是最相關(guān)的用戶群體,視頻生成未來可能更多還是為短視頻自媒體服務(wù);其二是最大規(guī)模的用戶受眾,生成式AI帶來的內(nèi)容創(chuàng)作升級,會進(jìn)一步影響創(chuàng)作者和觀看者。
記者注意到,除了C端(消費(fèi)者)訂閱用戶,可靈AI也面向B端(商家)提供API(應(yīng)用程序接口)接入等服務(wù)。目前,可靈AI已與小米、亞馬遜云科技、阿里云、“Freepik”、藍(lán)色光標(biāo)等建立了合作。
在商業(yè)化上,可靈的確具備一定的優(yōu)勢??伸`于去年6月發(fā)布,而自商業(yè)化以來,截至2025年2月,可靈AI的累計(jì)營業(yè)收入超1億元。
所以前不久的財(cái)報電話會上,幾乎所有分析師提問,都圍繞可靈提出,快手聯(lián)合創(chuàng)始人、董事長兼CEO程一笑表示,預(yù)計(jì)可靈AI在2025年將實(shí)現(xiàn)收入的跨越式增長。
盤和林告訴記者,可靈的商業(yè)化還有開發(fā)空間,1億元營收對可靈來說,應(yīng)該僅僅是開始。“未來,需要將AI和內(nèi)容創(chuàng)作的全鏈條結(jié)合起來,提供更豐富的內(nèi)容生成功能,AI營收還會有一定的提升。”他如此表示。
或許,想要增長,投入就不能停。
“快手將在未來3年甚至更長時間內(nèi),進(jìn)行更大規(guī)模的Capex(資本支出)和研發(fā)投入,希望能通過可靈AI的賦能,改造升級現(xiàn)有業(yè)務(wù)的同時,創(chuàng)造AI視頻內(nèi)容生產(chǎn)的新賽道,進(jìn)一步升級快手作為短視頻生產(chǎn)和消費(fèi)社區(qū)的領(lǐng)先地位。”程一笑如此表示。
盤和林認(rèn)為,可靈對快手整個生態(tài)來說很重要。未來,快手平臺上的創(chuàng)作者,需要借助可靈這樣的AI工具來生成內(nèi)容,或者至少輔助內(nèi)容創(chuàng)作,這會大大提高快手平臺上內(nèi)容輸出的質(zhì)量,從而更好地吸引用戶,擴(kuò)大快手在內(nèi)容平臺領(lǐng)域的影響力。
“與此同時,可靈創(chuàng)造出的新的創(chuàng)收點(diǎn),一定程度上也能夠讓快手的收入更加多元化,繼而增加想象空間。無論是從長期發(fā)展看,還是從吸引投資人的角度看,都對快手影響巨大。”盤和林進(jìn)一步補(bǔ)充說。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP