阿里巴巴作為國內最大的電商平臺之一,也不甘落后于潮流,為了滿足用戶的需求,在2024年2月份推出了音視頻擴散模型,給廣大用戶帶來了全新的體驗。
阿里emo入口
阿里emo入口:【點擊進入】
介紹
1、阿里emo是一個由阿里巴巴智能計算研究所開發的技術。
2、它能夠根據一張靜態的人物照片和音頻輸入(如說話或唱歌聲)生成具有豐富表情和頭部姿勢的動態視頻。
4、這項技術支持多種語言,能夠為不同風格的肖像注入生命,包括歷史人物、繪畫作品以及3D模型等。
方法
1、阿里emo的框架主要由兩個階段組成。
2、在稱為幀編碼的初始階段,部署 ReferenceNet 以從參考圖像和運動幀中提取特征。
3、隨后,在擴散過程階段,預訓練的音頻編碼器處理音頻嵌入。
4、面部區域蒙版與多幀噪點集成在一起,以控制面部圖像的生成。
5、隨后,采用骨干網絡來促進降噪操作。
6、在骨干網絡中,應用了兩種形式的注意力機制:參考注意力和音頻注意力。
7、這些機制分別對于保持角色的身份和調節角色的動作至關重要。
8、此外,時間模塊用于操縱時間維度,并調整運動速度。