Far EasTone的 "数字演示器 "诞生了：不是复制，而是创造了一个新的范式

浏览：320 时间：2021-8-4

远传科技从未停止制造人。

除了“AI虚拟主播”，就连“数字主持人”现在也在这里。什么是“数字主机”？

远传科技的“数字主持人”，就是通过语音合成、口型合成、表情合成、深度学习，克隆出一个和真人主播一样有播音能力的数字人。通过语音合成技术和视频驱动技术，只需输入一段文字，就能在屏幕上显示虚拟数字人的图像和播报新闻，嘴唇的运动也能与播报声音实时同步。

或许在不久的将来，你再也分不清视频中的主持人是真人还是虚拟人，这一天即将到来。

一、根源探索：背后的“高保真”

远传科技的“数字主机”以真人为原型，通过数字扫描技术，搭建起超逼真3D数字人体建模、多模态识别与生成、实时面部运动生成与驱动、迁移学习的“熔炉”。

效果方面，3DAI合成主播最大的印象是高保真，更好的还原真人的头发和表情；同时更具柔韧性和延展性，面部表情动作、口唇动作丰富，身体轻微摆动，有在更广阔空间使用的潜力。

通过3DAI合成锚技术的实现过程，我们探究它为什么会有如此逼真的效果。

1.数字扫描技术还原真实图像

建立角色模型必须有大量的数据。远传数字扫描技术通过摄像头扫描人体各个部位，采集每一个细节，并捕捉记录其各种面部表情、口唇动作、轻微身体摆动等细节，还原人体形象。

2.深度学习算法生成三维数字人体模型

远传科技算法工程师巧妙地应用深度学习算法，并对算法中的大量参数进行优化，保证生成的3D数字人体模型能够准确还原正常说话时真人的嘴唇动作、面部表情和微动作，并对3D数字人体模型进行实时驱动和渲染，使其面部肌肉驱动、表情肢体和语言表达能力都能达到较高程度

二、核心亮点：AI驱动，多模态交互

1.人工智能驱动的三维数字人

远传科技“数字主持人”是一种由AI驱动的虚拟存在，拥有和真人一样的声音、笑容和神态，具有表达情感和智慧的能力。仔细观察发现，3DAI合成锚是由AI算法驱动的。

具体来说，3D“数字主机”由AI算法实时驱动，输入一段文字就可以输出一段视频，往往会生成一分钟的视频，只需要一分钟，几乎可以算是实时生成。

2.关键技术赋能多模式互动创新

唇动算法、3D建模技术、深度学习算法、5G通信等关键技术，探索文本、语音、视觉多模态交互创新的无限可能。

远传科技利用唇动算法分析数字人应该展示的嘴型标记，突破了语言交流过程中表情与唇动的无缝链接；根据给定角色图像的要求，建立数字人的3D模型，绑定骨骼，创建动作动画和嘴部动画；基于深度学习算法和肢体捕捉技术，将文本、音频和图片实时生成数字人体视频；5G通信技术使用户可以通过语音和视频与数字人进行互动。麦克风和摄像头捕捉用户的声音和动作，数字人的后端人工智能算法根据场景生成数字人相应的交互动作、表情和声音。

第三，未来来了，你准备好了吗？

虽然远传科技的“数字主机”是基于真人建模的，但呈现给人们的行为是完全现实的。和真正的主持人一样，他会笑、会哭、会表达，他是一个被创造出来的“数字人”。

数字人的未来将作为主体的复制品存在于数字世界中。在未来的数字世界中，我们将无法区分真人和数字人。数字世界的大量服务将被数字人所取代。在电话客服、线上产品讲解、电商直播甚至线上演唱会等很多场景中，数字人的角色都会参与。最终的数字未来可能是数字人的世界。

你准备好接受数字世界了吗？

« 你需要从工艺品商店得到什么，番茄孵化器能教你什么？ | 监管部门介入：将重点关注物流刷卡问题 »