阿里巴巴作為國內(nèi)最大的電商平臺(tái)之一,也不甘落后于潮流,為了滿足用戶的需求,在2024年2月份推出了音視頻擴(kuò)散模型,給廣大用戶帶來了全新的體驗(yàn)。
阿里emo入口
阿里emo入口:【點(diǎn)擊進(jìn)入】
介紹
1、阿里emo是一個(gè)由阿里巴巴智能計(jì)算研究所開發(fā)的技術(shù)。
2、它能夠根據(jù)一張靜態(tài)的人物照片和音頻輸入(如說話或唱歌聲)生成具有豐富表情和頭部姿勢的動(dòng)態(tài)視頻。
4、這項(xiàng)技術(shù)支持多種語言,能夠?yàn)椴煌L(fēng)格的肖像注入生命,包括歷史人物、繪畫作品以及3D模型等。
方法
1、阿里emo的框架主要由兩個(gè)階段組成。
2、在稱為幀編碼的初始階段,部署 ReferenceNet 以從參考圖像和運(yùn)動(dòng)幀中提取特征。
3、隨后,在擴(kuò)散過程階段,預(yù)訓(xùn)練的音頻編碼器處理音頻嵌入。
4、面部區(qū)域蒙版與多幀噪點(diǎn)集成在一起,以控制面部圖像的生成。
5、隨后,采用骨干網(wǎng)絡(luò)來促進(jìn)降噪操作。
6、在骨干網(wǎng)絡(luò)中,應(yīng)用了兩種形式的注意力機(jī)制:參考注意力和音頻注意力。
7、這些機(jī)制分別對(duì)于保持角色的身份和調(diào)節(jié)角色的動(dòng)作至關(guān)重要。
8、此外,時(shí)間模塊用于操縱時(shí)間維度,并調(diào)整運(yùn)動(dòng)速度。