汽车AI语音交互 机器的交互更加接近写实
浏览:262 时间:2022-11-27

文字|胡杨胡伟

来源|智能相对论(ID: aixdlun)

-今天天气怎么样?

-今天天气晴朗,气温17到22度,东北风3到4级。

-星期五怎么样?

-星期五离今天还有两天。

“反复觉醒,答非所问,这不是人工智能,这是‘人工智障智屏障’。”这是大多数智能网联汽车用户对语音交互的抱怨。

现在,情况有所改善。当用户问车“明天出门需要带伞吗?”汽车将播报明天的天气。如果需要查看其他时间或者城市的天气,那么用户不需要再次醒来,也不需要说出完整的表情。就说“后天怎么样?”“那那杭州?\"呢。在用户和汽车之间的自然连续对话期间,语义理解服务将记住对话的历史,并结合历史处理用户的请求。这样,用户的持续交互就可以形成会话流,与用户的交互也更加自然。

自然连续对话是车辆语音交互从“人工智能智障”走向“人工智能”的重要一步。然而,斑马网络最近推出的斑马智行金星系统却打破了对用户说话规则的要求。用户可以根据自己的说话习惯进行交流,互动过程更加人性化。这是一个飞跃吗?

从科幻小说到现实,语音交互一直在发展

说到智能语音交互,2018年谷歌I/O的开幕式上,普罗大众对技术刷屏的记忆犹存。当GoogleAssistant说得出奇流利,打电话与商店沟通,预定理发店和餐厅,并以戏谑的“嗯嗯”回应时,观众们报以热烈的掌声。这是技术愿景中美丽而鼓舞人心的一面。

有意思的是,在同年2月美国第52届超级碗的天价广告中,亚马逊下大力气黑了自己的智能音箱和智能助手——Alexa。唤醒错误、识别不准确、响应困难等用户槽点,通过广告创意生动展现。这就是技术的现实。

然而,无论是基于场景的未来想象,还是对当下缺陷的大胆自嘲,这两家科技巨头都在语音交互赛道上下足了赌注。

亚马逊,首席技术官WernerVogels断言,未来,人与数字世界的互动必须基于“人”而非机器驱动;我们最终会构建更人性化的交互,让人机交互更加融合。

在“以人为本”和“更加一体化”的人机交互中,语音交互(VUI)是核心。VUI允许更自由和高效的人机交互,这本质上比任何其他形式的用户界面都更“人性化”。斯坦福大学教授、《无线通讯》的合著者克利福德纳斯,写道:“语音是人类交流的基本手段.所有文化主要是通过言语来说服、告知和建立关系。”

VUI允许用户使用语音作为媒介与机器进行交互。从《2011太空漫游》中的HAL到《星球大战》中的C-3pO,人们想象着自己可以和科幻电影中的机器自由交流。其实早在1952年,贝尔实验室的工程师就开发了Audrey (奥黛丽):它可以识别数字0-9的发音。奥黛丽虽然可以识别90%以上准确率的语音输入,但体积大、成本高,从未进入大规模商业化的发展通道。

从那时起,人类开始探索语音交互已经有半个多世纪了。1962年,IBM推出了第一台真正的语音识别机。由工程师WilliamDersch开发的鞋盒可以听操作者说出的数字和命令。比如“5 3 8 6 4-9,合计”,机器会打印正确答案:17。

1970年,隐马尔可夫模型为语音识别的发展插上了算法的翅膀,使语音识别从文本匹配发展到可预测的水平。20世纪80年代,CoVOX、Dragon Systems和Speech Works相继成立,推动了语音识别的商业化。

20世纪90年代,语音识别技术迎来大规模商业化和普及。1995年,Dragon发布了单词听写级别的语音识别软件。这是人类历史上第一款面向消费者的语音识别产品。仅一年后,Charles Chawab(嘉信财富管理)和Nuance(纽昂斯)联合推出了一套“语音股票经纪人”系统,可同时响应360位客户的股票查询电话。1997年,现在隶属于Nuance的Dragonsystem推出了“NaturallySpeaking”软件,这是历史上第一个可用的“连续语音”听写软件。它标志着词的层面上不间断的言语互动的开始。

近20年来,谷歌、苹果、亚马逊相继推出大众熟悉的智能语音助手,通过智能手机、智能音箱等产品来到普罗人身边。根据JuniperResearch的数据,截至2019年2月,全球使用的语音助手数量达到32.5亿;预计到2023年,这个数字将达到80亿。

语音交互技术中的高山:自然连续对话

随着软硬件的快速迭代,如今的ASR(语音识别)技术已经接近成熟,未来智能语音交互的核心竞争力在于准确理解用户在复杂场景中的意图,并为其提供差异化服务。更加智能自然的持续对话能力,将使语音交互系统更具人情味和逻辑思维能力,为用户带来更加情境化、温馨化的用车体验和服务潜力。

根据“智能相对论”,自然连续对话是一个系统工程,涉及声学前端处理、语音唤醒、语音识别、语义理解、对话管理、自然语言生成、语音合成等核心交互技术。斑马智行金星的AI语音得益于阿里达摩院的重磅加持和科大, 讯飞、思必驰等合作伙伴的大力支持,大大提升了语音能力。斑马基于AliOS系统,可以更好地将语音核心技术能力与系统能力相结合,充分发挥语音核心技术的优势,最大限度地发挥各引擎的协同作用,实现“112”效果。

语音交互技术中的Alpine 2:个性化,即语音克隆

如果说自然连续对话为更自由的互动和差异化服务提供了可能,那么语音定制将在个性化、情感化的语音互动中占据主导地位。

2017年9月,一家名为Lyrebird的加拿大初创公司在推特发布了一段10秒的录音,录音内容是人工智能模仿美国总统特朗普的话在此之前,谷歌的子公司DeepMind曾发布过一个用人工智能合成人声的研究成果:WaveNet,达到了真实的地步。Adobe还发布了一款名为projectVoCo的原型软件,听了20分钟音频样本就可以模仿。Lyrebird将音频样本的输入时间缩短至60秒。

如今,国内智能网联行业也首次迎来语音定制——“声音克隆”产品。斑马智行金星系统中“声音克隆”的操作流程非常简单。用户只需要在斑马智行APP中录制20句话就可以合成一个私人语音包,一键发送到车上就可以全球使用。无论是导航导航、天气查询还是餐厅预定,你最想听的声音都是和你说话的那个。

声音是车内AI语音交互功能的“灵魂”。基于“声音克隆”技术,斑马智行金星系统将为用户提供“千声万语”的定制化服务,用户可以“克隆”亲人和爱人的声音,让陪伴更长久,让驾驶更舒适。

据报道,斑马智行金星系统中“声音克隆”的操作流程非常简单。用户只需要在斑马智行APP中录制20句话就可以合成一个私人语音包,一键发送到车上就可以全球使用。无论是导航导航、天气查询还是餐厅预定,你最想听的声音就是你说话的声音。据斑马网AI语音负责人介绍,斑马智行Venus系统在录制“听”的过程中,可以“掌握”每个人说话时字母、音素、单词和句子的发音特点,通过深度学习技术,推理模仿语音中的语音音色和语调,从而“说出”新的句子。

攀登技术之山,如何让机器交互更贴近现实生活交互,还在等待更好的答案

言语是人类最舒适、最直观的交流方式之一。如今,智能语音交互产品越来越像人一样智能和感性。它能准确理解信息输入,高效处理信息,提供理想的信息输出。“智能相对论”认为,在人工智能和5G快速发展的背景下,语音平台有机会成为物联网时代的新“操作系统”,连接一个全新的产业生态,包括各种服务、应用、硬件等。

在各类应用场景中,除了智能家居,汽车产品的语音交互需求明显。点击、滑动等触摸交互存在安全隐患,在车辆环境中效率不高,语音交互是适应车辆环境的自然交互方式。但是,要设计、开发和应用一个成熟的车载语音交互系统,必须克服很多高峰:如何应对交通噪声干扰,如何适应方言口音,如何更好地支持自然表达,如何将系统的误触发控制在可用范围内。

随着用户对智能汽车需求的不断增加,更加自然的交互已经成为语音交互的发展方向。如何让机器交互更接近人的交互?多模态融合理解、自然全双工对话、自然语义理解成为新的高峰需要攀登。

斑马智行,系统底层的——AliOS在传统的触控和按键交互方式的基础上,将语音交互能力、视觉交互能力和场景信息融合在系统层,更大程度上发挥了各种交互能力的优势,使得多模态融合理解、融合交互、更自然的全双工对话和信号输入更多的自然语义理解成为可能。同时,集成各种交互能力后打开上层应用,使得呈现给用户的交互更加自然。

语音交互带来的产业机会方兴未艾。如果未来主流的交互方式存在各种可能性,那么未来的人机交互一定更高,更自然,更接近人的本能。

本内容来源于智能相对论。

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、提取、复制或创建镜像。

部分图片来源于网络,版权归属未经核实,不用于商业用途。如有侵权,请联系我们。