工业和信息化部主管 中国电子报社主办
收藏本站投稿

人工智能

多模态人机交互让“虚拟人”更具温度

“你好,小布!附近有什么好吃的?”用户的话音刚落,手机上就出现了一个小窗口,让附近饭店的排名一目了然。对话中的“小布”是OPPO手机自带的智能助手,并在前段时间成为业界首个基于“虚拟人”多模态交互的手机智能助手。去年年末,“虚拟人”市场快速升温。除OPPO之外,京东、百度、阿里巴巴等科技企业都推出了自己的超写实数字人,B站还专门为虚拟主播开设分区,“虚拟人”已经走进了人们的生活。

“虚拟人”受到热捧的重要原因之一,是人们对人机交互的更深层次需要。从单纯的文本到语音,再到计算机视觉等技术的融合,人的天性倾向于融合视觉、听觉等多种感官的交互过程。而“虚拟人”背后的多模态人机交互技术,恰好能够满足人对外界信息获取逐渐升维的过程,让“虚拟人”看起来像人、听起来像人,更加具备人的温度。

微信图片_20220117095105.jpg

“虚拟人”背后的技术支撑

人机交互走过了键盘交互、触摸交互、语音交互等若干阶段。如今,由于用户对人机交互的便利性、自然性以及准确性提出了更高要求,更加智能化且能够理解用户意图的多模态人机交互,开始成为人机交互发展的重要趋势。

在接受采访时,OPPO小布助手首席架构师万玉龙向《中国电子报》记者表示,当深度学习算法在各技术方向逐渐趋于产业化,智能交互变得愈发重要。在这之后,传感器、视觉技术、语音技术和自然语言处理技术等都进行了迭代升级,多种技术的融合形成了多模态人机交互方式。

通过文字、语音、视觉的理解和生成,结合动作识别和驱动、环境感知等多种方式,多模态人机交互能够充分模拟人与人之间的交互方式。万玉龙给记者举例道,地铁、银行、商场等复杂环境下的服务类机器人就是结合传感器、人脸识别、语音交互等技术来帮助人们完成信息查询、购票、商家导航等需求任务。

现阶段,多模态人机交互领域最火的代表就是“虚拟人”了。万玉龙向记者表示,得益于元宇宙概念的大火,“虚拟人”这一元宇宙世界的“小切口”也得到了业界的广泛关注。

2021年第三季度,OPPO推出智能助手小布的首个“虚拟人”版本,为“虚拟人”市场再添一把火。相关资料显示,小布“虚拟人”涵盖了视觉、语音、自然语言处理等多模态融合算法,采用多种基础创新技术,可以实现与用户在多个场景生态下的内容服务、实时交互以及情感化交互。

作为多模态人机交互领域的重要成果之一,“虚拟人”背靠前端声学处理、语音唤醒、语音识别、对话理解和管理、语音合成、计算机视觉和图形学等技术支撑。万玉龙对记者谈道,语音交互是在对话理解的基础上,通过对话管理生成对应的回复话术和内容服务,结合语音合成技术(TTS)生成播报音频;虚拟人多模态交互则需要在此基础上,进一步理解播报文本所蕴含的表达信息,通过文本和语音分析,生成对应表情、嘴形和动作。

“除了嘴形以外,要想呈现出眼部、脸部的表情,以及我们说话或者非常开心时做出的动作,都需要3D人物设计和建模,并实时的根据表达内容预测人物身体各部位的驱动参数,进而结合渲染引擎实现对人物模型的驱动。”万玉龙举例道,比如某个人在说“大”的时候,他的嘴型就会张得很大,然后说字母“O”的时候嘴型会呈现出一个圆形。

为了让智能助手变的更加智能,人机互动过程还会涉及知识图谱、内容推荐等宽泛的技术领域。

AI学习还需要大量数据积累

现阶段,虚拟人在三个环节上存在关键性的技术难点。万玉龙向《中国电子报》记者指出,第一,从形象生成来说,用户会越来越希望他们所构建出来的“虚拟人”,在形象上显得更加逼真,比如发丝、衣服的纹理等很细致入微的特点都能完美呈现。只有“虚拟人”真正像一个活生生的人站在用户面前,用户才能感觉到自己与虚拟人之间的距离被拉近。

“但要实现这一点,涉及的技术点其实非常多,处理起来会非常困难,且制作成本居高不下。”万玉龙对记者坦言。

第二,在形象驱动方面,“虚拟人”的行动需要呈现得更加流畅和自然,而不是像机器人那样僵硬。人在交流表达的时候,不管是手、眼还是表情,所有的肢体动作都是根据表达的内容和情绪去变化的。但“虚拟人”想要达到这点,还需要更强大的AI机器学习和深度学习。AI只有在学习了大量真人表情、肢体表达的数据之后,才会慢慢趋近于真人,但这是一个非常漫长的过程。

第三,形象互动对于虚拟人来说尤为重要,因为“虚拟人”最大的卖点就在于互动性。如果“虚拟人”不能为用户提供自然、舒适的交互体验,用户很快就会失去兴趣。但这种互动性的提升其实并不简单。比如,人在回答问题时,通常会结合语句“上下文”,运用自己的背景知识很快给出合适的答复。智能虚拟人助手则需要通过学习大量人跟人的对话数据,来构建和丰富知识库。这些数据的获取并非易事,因为AI学习所需的数据量十分庞大,且需要不断更新,其中的难度不言而喻。而且,在获得数据之后,AI还需要对获取的数据进行质量把控和筛选,很难做到逐一排查。AI如果没有辨别能力,在学习完数据之后很难对习得内容进行修改,所以有些不合时宜的语句很可能会对用户造成不良影响。

另外,假设人们问AI一个知识点,它也许会从知乎或者其他网站上选一个答案进行反馈,但这就涉及知识产权的问题,同时AI所学习到的知识也无法保证具有绝对专业性。比如,人们在生病的时候不能去询问智能虚拟人助手自己该吃什么药,因为无法保证所获取到的答案的专业性。如果“虚拟人”助手给出一个错误的答案,人的健康可能会出现问题。所以,“虚拟人”要想与用户进行无障碍且自然流畅的交流,还需要更多的技术积累与沉淀。

向具备更多应用价值的领域拓展

尽管“虚拟人”在技术上尚存难点,但近年来的底层技术其实也在不断进步。万玉龙对《中国电子报》记者表示,不管是语音识别、对话理解、语音合成等语音交互技术,还是唇形驱动、表情驱动等多模态驱动参数预测技术,建模流程和方案都在变得更加简单。

“从机器学习的模型层面来说,算法的迭代已经让模型训练和调优进入到了‘门槛越来越低’的阶段。”万玉龙表示。

算力的提升也会让“虚拟人”形象更加接近真人。万玉龙对记者说,手机等设备端的算力正变得越来越强,云端服务器的算力也在不断增强,促使AI工程师们可以生成更加复杂、更加真实的人物形象。

2021年,英伟达CEO黄仁勋的一段“虚拟人”演讲视频风靡全球,英伟达推出的Omniverse平台进一步走入大众视野。据了解,Omniverse平台是英伟达推出的实时3D设计协作和虚拟世界模拟平台,旨在通过将图形、AI、模拟和可扩展计算整合到一个平台上,成为连接虚拟世界的基础。

万玉龙表示,借助自身强大的GPU算力,英伟达构建了一个看上去比较真实的人物形象。这进一步表明,目前的算力确实提升了一个台阶,算力的提高也让超写实人物的渲染变得更具可行性。一方面是对话式AI技术的不断升级,另一方面就是虚拟人物的形象构建能力越来越强,整个对话体验也变得更加智能,对话理解、知识图谱等认知能力的建设更上一层楼,助力“虚拟人”产品化的能力日益提升。

有人说,汽车是下一代“移动终端”,有望成为实现人机互动、情感交互的移动载体。那么,“虚拟人”是否有可能出现在智能座舱领域?

在万玉龙看来,不管是手机还是汽车,其实都可以被视为一个智能交互载体。OPPO推出的小布“虚拟人”目前的着力点主要还是在提升手机、电视、可穿戴设备等智能设备的交互体验。万玉龙表示,如果智能座舱等设备形成一定的规模之后,智能助手在这些设备中一定会有与用户频繁交互的机会,所以必然会产生一些场景应用价值。只要是有应用价值的领域,“虚拟人”的触角其实都是可望又可及的。

责任编辑:许子皓


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

落实工作会精神 推动高质量发展

2022年要聚焦制造强国和网络强国建设目标,把工业稳增长摆在最重要的位置,统筹推进强链补链、技术攻关、数字化转型和绿色低碳发展,加大对中小企业支持,提升信息通信服务供给能力。工业和信息化部政务新媒体“工信微报”推出“落实工作会精神 推动高质量发展”栏目,刊发工信系统2022年工作新思路,敬请关注。

2022年全国工业和信息化工作会议

12月20日,全国工业和信息化工作会议在北京以视频形式召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届历次全会精神及中央经济工作会议精神,认真贯彻落实党中央、国务院决策部署,总结2021年工作,分析当前形势,部署2022年重点任务。

2021年上半年中国家电市场报告

8月9日,中国电子信息产业发展研究院(又称赛迪研究院)发布了《2021年上半年中国家电市场报告》(以下简称《报告》)。《报告》显示,2021年上半年,我国家电市场加速回暖,零售额达4293亿元,同比增长16.3%;家电消费进一步向线上迁移,电商渠道对家电零售的贡献率达53.65%;家电产品均价普遍提升,高端家电销售热度不减,有效促进了消费升级...

新思想引领新征程·红色足迹

党的十八大以来,习近平总书记在地方考察调研时多次到访革命纪念地,强调要从中国革命历史、优良传统和精神中汲取养分。追寻红色足迹,感悟初心使命。即日起,本报推出“新思想引领新征程·红色足迹”专栏,跟随习近平总书记的红色足迹,访当事人、忆当年事,重温总书记的重要论述和重要指示精神,生动回顾红色圣地光荣的革命历史、优秀的革命传统...

聚焦2021年全国两会

3月5日,第十三届全国人民代表大会第四次会议在北京人民大会堂开幕。党和国家领导人习近平、李克强、汪洋、王沪宁、赵乐际、韩正、王岐山等出席,栗战书主持大会。初春的北京,处处生机盎然。第十三届全国人民代表大会第四次会议5日上午在人民大会堂开幕。近3000名全国人大代表肩负人民重托出席大会,认真履行宪法和法律赋予的神圣职责。

世界超高清视频(4K/8K)产业发展大会

会议

2021世界VR产业大会云峰会

10月19日—20日,由工业和信息化部和江西省人民政府共同主办的2021世界VR产业大会云峰会在南昌举办。国务委员王勇出席大会开幕式并发表讲话,江西省委书记易炼红,工业和信息化部副部长王志军,江西省委常委、南昌市委书记李红军出席开幕式并致辞。

2021世界显示产业大会

6月17日,由工业和信息化部、安徽省人民政府共同主办的2021世界显示产业大会在合肥市开幕。安徽省委书记李锦斌出席开幕式并宣布大会开幕,安徽省省长王清宪、上海合作组织秘书长弗拉基米尔·诺罗夫、工业和信息化部副部长王志军出席开幕式并先后致辞。

2021世界超高清视频(4K/8K)产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2021世界超高清视频(4K/8K)产业发展大会在广州召开。5月9日,广东省委书记李希出席开幕式,工业和信息化部部长肖亚庆、广东省省长马兴瑞、国家广播电视总局副局长孟冬、中央广播电视总台编务会议成员姜文波出席开幕式并致辞。

CITE2021第九届中国电子信息博览会开幕论坛

4月9日,第九届中国电子信息博览会(简称CITE2021)在深圳举办。深圳市人民政府市长陈如桂、广东省人民政府副秘书长陈岸明、工业和信息化部电子信息司司长乔跃山出席开幕式并先后致辞。

2020世界显示产业大会

11月20日,由工业和信息化部、安徽省人民政府共同主办的2020世界显示产业大会在合肥市举行。在开幕式上,工业和信息化部部长肖亚庆、韩国驻华大使张夏成发表视频致辞。安徽省委副书记、省长李国英,工业和信息化部副部长王志军出席开幕式并致辞。

2020世界超高清视频(4K/8K)产业发展大会

11月2日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2020世界超高清视频(4K/8K)产业发展大会在广州市召开。广东省委书记李希出席开幕式,省长马兴瑞出席并致辞。国家广播电视总局局长聂辰席、工业和信息化部副部长王志军、中央广播电视总台副台长蒋希伟出席开幕式并致辞。

世界显示产业大会

本周排行