最近幾天,趙本山倫(lun) 敦腔接受采訪的視頻火了。網友們(men) 驚呼:鐵嶺已經國際化到這種程度了麽(me) ?!無獨有偶,本山大叔之後,黴黴講中文談自己專(zhuan) 輯的視頻也驚到了各路粉絲(si) —— 當然,並不是他們(men) 突然學會(hui) 了英語/中文,這都是AI“搗的鬼”。
這些視頻和原片相比,不僅(jin) 語言轉換的非常地道,聲線也幾乎相同,甚至連視頻中人物的口型都能無縫銜接,也難怪網友們(men) 大驚失色:這是要砸了配音演員和翻譯們(men) 的飯碗呀。而除了黴黴和趙本山,其他中外名人也紛紛秀起了自己“剛學的”外語,赫敏、憨豆、甚至連蔡明、郭德綱都給大家來了個(ge) “開口跪”。
這些轉換後的視頻給網友們(men) 最大的衝(chong) 擊莫過於(yu) 幾乎沒有傳(chuan) 統譯製片的腔調,而且由於(yu) 聲線的緣故,真人配音也很難達到這種效果。甚至對於(yu) 影片發行方來說,相比於(yu) 真人配音還要省事無數倍。
對任何一個(ge) 用戶來說,你需要做的,僅(jin) 僅(jin) 是上傳(chuan) 事先準備好的視頻,選擇想要轉換的語言 —— 然後靜靜等待,就可以了!當然,最值得稱讚的是,這款在國內(nei) 外都掀起浪潮,讓全世界網友玩得不亦樂(le) 乎的AI工具,研發團隊還是來自國內(nei) 的一家初創公司 —— 詩雲(yun) 科技。
詩雲(yun) 科技的這款工具名叫 HeyGen。新注冊(ce) 的用戶可以免費體(ti) 驗工具的主要功能,按照指示上傳(chuan) 準備好的視頻然後等待即可。不過目前對於(yu) 視頻的格式還有一定的限製:
支持3種視頻格式,分別是mp4/webm/mov;文件大小支持最高1GB,時長不超過5分鍾,如果使用google drive的話,最高支持5GB的文件;視頻分辨率支持最低360p到最高4K畫質。
視頻上傳(chuan) 完畢後即可選擇你想要輸出的語言,目前支持輸出包括中英文在內(nei) 的15中語言。如此“傻瓜”的操作,也難怪各路網友都能玩得不亦樂(le) 乎。
不過白嫖的快樂(le) 隻能在新手保護期享受兩(liang) 分鍾,而且還需要排隊等待(據說有博主測試等了一整天)。如果想要體(ti) 驗會(hui) 員的快樂(le) ,那麽(me) 至少也要每月氪金48美刀。鑒於(yu) 如此昂貴的價(jia) 格甚至淘寶上都迅速上架了各種白嫖/共享賬號。
當然,如此逼真的效果也不免引起網友們(men) 的好奇,令人大跌眼鏡的是,HeyGen 基本是在一係列開源方案的基礎上整合而來的。根據網上一些博主的分析,HeyGen文本翻譯用的是ChatGPT;語音轉文字用的是Whisper;聲線克隆音頻生成用的是so-vits-svc;而最後口型匹配則用的是GeneFace++。
那麽(me) 這是否意味著,其實這款AI工具並不具有太高的含金量或者技術難度呢?也不盡然。
事實上,製作這樣一段視頻運用的不是某項單一AI技術,而是要結合語音合成、情感識別、創建3D數字人等多種技術。
比如語音合成,這雖然不是什麽(me) 非常新鮮的技術,但如何讓生成的語音自然連貫且富有感情才是真正的難點。網絡上刷屏的視頻顯然能證明 HeyGen 搞定了這一難題。
又比如3D數字人建模,以黴黴的視頻為(wei) 例,難點除了麵部的3D建模,還有口型和微表情的動作捕捉。此外還有情感識別:這個(ge) 才是真正厲害的地方,要讓語音和人物口型表情相匹配需要非常複雜精確的算法,才能模擬真人的行為(wei) 習(xi) 慣而不讓觀眾(zhong) 覺得違和。
HeyGen 嶄露頭角的背後,是一家來自深圳初創公司 ——詩雲(yun) 科技Surreal。從(cong) 其官網上的介紹來看,其產(chan) 品方案除了視頻翻譯生成以外,還包括了數字頭像生成、AI腳本生成等等。
詩雲(yun) 科技的聯合創始人兼CEO徐卓,本科畢業(ye) 於(yu) 同濟大學,並在卡耐基梅隆拿到了CS專(zhuan) 業(ye) 的碩士學位。在自主創業(ye) 之前,他還曾是社交網站Snapchat的 key engineering leader。而另一位聯合創始人兼CPO梁望,同樣也是本科畢業(ye) 於(yu) 同濟,碩士畢業(ye) 於(yu) CMU,曾經擔任字節跳動北美 design lead。
目前公司不僅(jin) 榮獲了多項大獎,還已經獲得了紅杉資本領投的兩(liang) 輪百萬(wan) 美元融資。HeyGen也在7個(ge) 月內(nei) 實現了100萬(wan) 美元的年度經常性收入(ARR)。
同時根據網友的統計,HeyGen 從(cong) 今年9月開始就迎來了一大波流量增長,數據表現在國內(nei) 獨立AI網站中位列榜首。
雖然不少評論分析,由於(yu) 應用場景的限製以及相對較高的會(hui) 員價(jia) 格,HeyGen 注定會(hui) 是一個(ge) 相對小眾(zhong) 的平台。但相比之下,對童鞋們(men) 來說,詩雲(yun) 科技創始人們(men) 從(cong) 留學北美名校再到互聯網大廠再到自主創業(ye) 的經曆才更有借鑒意義(yi) 。
今日 CMU 計算機科研
評論已經被關(guan) 閉。