編輯/LiveVideoStack
大家好,我是來自美攝科技研發中心的高級AI算法專家張瑞全。今天分享的主題是美攝科技關于快速落地基于“AIGC+數字人”的數字化內容生産的整體方案。概括
美攝科技産品主要分爲AI數字人、視音頻處理SDK、AI智能處理、汽車及智能硬件方案、雲端/PC端視頻處理方案和開發及設計服務六個部分。
美攝的技術已經在超過千余款實際産品中落地,尤其針對大量的手機廠商和大型互聯網客戶,面向多款超千萬級的DAU應用,美攝的SDK技術對大量的硬件和系統進行適配,保障各類場景下兼容性的同時,提供高質量的服務。
實時語音數字人是基于語音和文字實時驅動的高精度數字人,主要用于數字客服、車載形象和APP助手等場景中。虛擬主播則更多的應用于新聞播報、直播助手和虛擬講解等場景中。
數字人形象生成
數字人形象的三維渲染是數字人領域核心內容。美攝科技自研的三維圖像渲染技術擁有強大的渲染能力、多端互通、高效率處理、體積小巧、快速拓展和制作方便六個特點,可以爲數字人制作提供非常強大的輔助作用。
目前美攝科技支持支持基于物理的材質渲染、實時陰影處理、法向量貼圖、全局環境光和屏幕空間環境光遮蔽,爲各種環境下的數字人提供全面且逼真的渲染能力。爲了增加可玩性和用途,可以在數字人身上添加不同的配飾等。目前美攝科技的渲染引擎可以很好地支持輔助道具和數字人動作的同步,讓數字形象更加逼真。
要實現實時語音輸出,就需要數字人擁有唇音同步能力。美攝科技基于AI訓練建立了一套獨特的唇音分析算法,可以實現自然生動的形象展現。通過對輸入的語音進行輕量化AI分析,獲取實際人物的面部表情,再將AI算法輸出的結果與語音內容結合,驅動數字人模型,實現實時的三維唇音同步效果。美攝AI唇音同步技術具有高效、無時延、過度順滑自然、適配多種語音系統等特點。
基于自研的Morphing技術,美攝渲染引擎支持多達54種人臉基礎表情。這些基礎表情相互組合,構成了擬真的數字人面部系統,幾乎可以囊括所有的人臉表情,爲數字人模型生動的表情展現奠定基礎。左邊5張圖是通過基礎的表情融合出的一些複雜面部動作。中間是一個實時驅動的樣例,同時也攜帶了頭發的物理效果。
同時我們也提供了非常全面的數字人設計工具,設計師可以將其與C4D、Maya等工具配合,快速進行貼圖更換、效果調節,實現高效設計。其中,美攝自研的數字人設計工具與渲染器內部使用同一套引擎,設計效果與最終渲染效果完全一致,所見即所得。設計制作出的模型效果可快速部署發布。
這張圖是數字人的一套基本流程。美攝實時語音數字人集成了多家合作夥伴的語音系統,可以快速理解用戶輸入的文字信息並返回答案,並生成對應的數字人語音,驅動數字人進行實時語音播報和動作表達。整套數字人方案具有良好的開放性和可拓展性,能夠快速與各種主流的AI聊天系統、語音系統進行結合,形成對應的方案。
廣州鼎瀛計算機科技有限公司 版權所有 Copyright 2007-2018 All rights reserved
總部地址:廣東省廣州市天河區五山路267號瑞華大廈北塔19樓19E
電話:13342876698 Email:305625228@qq.com