Far EasTone的 "数字演示器 "诞生了:不是复制,而是创造了一个新的范式
浏览:320 时间:2021-8-4

远传科技从未停止制造人。

除了“AI虚拟主播”,就连“数字主持人”现在也在这里。什么是“数字主机”?

远传科技的“数字主持人”,就是通过语音合成、口型合成、表情合成、深度学习,克隆出一个和真人主播一样有播音能力的数字人。通过语音合成技术和视频驱动技术,只需输入一段文字,就能在屏幕上显示虚拟数字人的图像和播报新闻,嘴唇的运动也能与播报声音实时同步。

或许在不久的将来,你再也分不清视频中的主持人是真人还是虚拟人,这一天即将到来。

一、根源探索:背后的“高保真”

远传科技的“数字主机”以真人为原型,通过数字扫描技术,搭建起超逼真3D数字人体建模、多模态识别与生成、实时面部运动生成与驱动、迁移学习的“熔炉”。

效果方面,3DAI合成主播最大的印象是高保真,更好的还原真人的头发和表情;同时更具柔韧性和延展性,面部表情动作、口唇动作丰富,身体轻微摆动,有在更广阔空间使用的潜力。

通过3DAI合成锚技术的实现过程,我们探究它为什么会有如此逼真的效果。

1.数字扫描技术还原真实图像

建立角色模型必须有大量的数据。远传数字扫描技术通过摄像头扫描人体各个部位,采集每一个细节,并捕捉记录其各种面部表情、口唇动作、轻微身体摆动等细节,还原人体形象。

2.深度学习算法生成三维数字人体模型

远传科技算法工程师巧妙地应用深度学习算法,并对算法中的大量参数进行优化,保证生成的3D数字人体模型能够准确还原正常说话时真人的嘴唇动作、面部表情和微动作,并对3D数字人体模型进行实时驱动和渲染,使其面部肌肉驱动、表情肢体和语言表达能力都能达到较高程度

二、核心亮点:AI驱动,多模态交互

1.人工智能驱动的三维数字人

远传科技“数字主持人”是一种由AI驱动的虚拟存在,拥有和真人一样的声音、笑容和神态,具有表达情感和智慧的能力。仔细观察发现,3DAI合成锚是由AI算法驱动的。

具体来说,3D“数字主机”由AI算法实时驱动,输入一段文字就可以输出一段视频,往往会生成一分钟的视频,只需要一分钟,几乎可以算是实时生成。

2.关键技术赋能多模式互动创新

唇动算法、3D建模技术、深度学习算法、5G通信等关键技术,探索文本、语音、视觉多模态交互创新的无限可能。

远传科技利用唇动算法分析数字人应该展示的嘴型标记,突破了语言交流过程中表情与唇动的无缝链接;根据给定角色图像的要求,建立数字人的3D模型,绑定骨骼,创建动作动画和嘴部动画;基于深度学习算法和肢体捕捉技术,将文本、音频和图片实时生成数字人体视频;5G通信技术使用户可以通过语音和视频与数字人进行互动。麦克风和摄像头捕捉用户的声音和动作,数字人的后端人工智能算法根据场景生成数字人相应的交互动作、表情和声音。

第三,未来来了,你准备好了吗?

虽然远传科技的“数字主机”是基于真人建模的,但呈现给人们的行为是完全现实的。和真正的主持人一样,他会笑、会哭、会表达,他是一个被创造出来的“数字人”。

数字人的未来将作为主体的复制品存在于数字世界中。在未来的数字世界中,我们将无法区分真人和数字人。数字世界的大量服务将被数字人所取代。在电话客服、线上产品讲解、电商直播甚至线上演唱会等很多场景中,数字人的角色都会参与。最终的数字未来可能是数字人的世界。

你准备好接受数字世界了吗?