多模态人机交互让虚拟人“活了”

展全思梦 2025-10-27 10:08:13

多模态人机交互让虚拟人“活了” 字体：小中大分享到：多模态人机交互让虚拟人“活了” 2022-01-24 07:50:32 来源：***电子报

“你好，小布！附近有什么好吃的吗？”用户话音刚落，手机上出现一个小窗口，附近餐厅排名一目了然。对话中的“小布”是OPPO手机的智能助手，前段时间预测（数据为往年仅供参考）成为业界***基于“虚拟人”多模态交互的手机智能助手。去年年底，“虚拟人”市场迅速升温。除了OPPO，JD.COM、百度、阿里巴巴等科技公司也推出了自己的超现实数字人，哔哩哔哩也为虚拟主播设立了专区。“虚拟人”已经进入人们的生活。

“虚拟人”流行的一个重要原因是人们对人机交互的更深层次需求。从简单的文字到语音，再到计算机视觉等技术的融合，人性更倾向于视觉、听觉等感官的交互过程的融合。“虚拟人”背后的多模态人机交互技术，正好可以满足人们对外部信息获取维度逐渐增加的需求，让“虚拟人”看起来像人，听起来像人，更有人类的温度。

“虚拟人”背后的技术支持

人机交互经历了键盘交互、触摸交互、语音交互等几个阶段。如今，随着用户对人机交互的便捷性、自然性和准确性提出了更高的要求，更智能、更能理解用户意图的多模态人机交互成为人机交互发展的重要趋势。

OPPO小布助手首席架构师万玉龙在接受采访时告诉《***电子报》记者，当深度学习算法在各个技术方向逐渐产业化时，智能交互变得越来越重要。之后，传感器、视觉技术、语音技术、自然语言处理技术都得到了迭代升级，各种技术的融合形成了多模态的人机交互模式。

多模态人机交互可以通过对文字、语音、视觉的理解和生成，结合动作识别和驾驶、环境感知等方式，充分模拟人与人之间的交互。万玉龙举例，地铁、银行、商场等复杂环境下的服务机器人结合了传感器、人脸识别、语音交互等技术，帮助人们完成信息查询、购票、商务导航等任务。

目前多模态人机交互领域最火的代表是“虚拟人”。万玉龙告诉记者，得益于超宇宙概念的大火，超宇宙世界的“小切口”——虚拟人也受到了业界的广泛关注。

往年第三季度，OPPO推出***“虚拟人”版智能助手小布，为“虚拟人”市场再添一把火。相关数据显示，小布的“虚拟人”涵盖了视觉、语音、自然语言处理等多模态融合算法，运用多种基础创新技术，实现了多场景生态下与用户的内容服务、实时交互和情感交互。

作为多模态人机交互领域的重要成果之一，“虚拟人”依托前端声学处理、语音唤醒、语音识别、对话理解和管理、语音合成、计算机视觉和图形学等技术支持。万玉龙告诉记者，语音交互是基于对话理解，通过对话管理生成相应的回复词和内容服务，结合语音合成技术(TTS)生成广播音频；虚拟人多模态交互需要在此基础上进一步理解广播文本中包含的表情信息，通过文本和语音分析生成相应的表情、口型和动作。

“除了口型之外，为了表现眼睛和面部的表情，以及我们说话时或者很开心时做出的动作，需要对3D角色进行设计和建模，根据表情内容实时预测角色身体各个部位的驱动参数，然后结合渲染引擎驱动角色模型。“比如万玉龙，当有人说“大”的时候，他的嘴会张大，然后当他说字母“O”的时候，他的嘴会呈现一个圆圈。

为了让智能助手更加智能，人机交互过程还将涉及知识图谱、内容推荐等广泛的技术领域。

学习AI也需要大量的数据积累。

目前虚拟人有三个方面的关键技术难点。万玉龙向《***电子报》记者指出，比较好，从图像生成的角度来看，用户会越来越希望自己构建的“虚拟人”非常逼真，比如头发、衣服纹理等细致入微的特征都能完美呈现。只有当“虚拟人”真正像一个活生生的人一样站在用户面前，用户才能感觉到自己和虚拟人的距离越来越近。

“但要实现这一点，涉及到很多技术，处理起来会非常困难，生产成本也会居高不下。”万玉龙坦率地告诉记者。

其次，在图像驱动方面，“虚拟人”的动作需要更加流畅自然，而不是像机器人那样死板。人在交流和表达的时候，无论是手、眼神还是表情，所有的肢体动作都是根据表达的内容和心情而变化的。但“虚拟人”需要更强大的AI机器学习和深度学习能力来实现这一点。AI只有在积累了大量的真人表情和肢体表情的数据后，才会逐渐接近真人，但这是一个非常漫长的过程。

第三，图像交互对于虚拟人来说尤为重要，因为虚拟人***的卖点在于交互。如果“虚拟人”不能给用户提供自然舒适的交互体验，用户很快就会失去兴趣。但这种互动推广并不简单。比如，人们在回答问题时，通常会利用自己的背景知识，结合句子语境，迅速给出恰当的答案。虚拟人类助手需要通过学习大量关于人与人之间对话的数据来建立和丰富知识库。这些数据的获取并不是一件容易的事情，因为AI学习所需的数据量巨大，需要不断更新，难度不言而喻。而且AI在获取数据后，还需要对获取的数据进行质量控制和筛选，很难一一检查。如果AI没有辨别能力，在学习完数据后很难修改学习的内容，所以一些不合时宜的说法很可能对用户产生不利影响。

另外，如果人们问AI一个知识点，它可能会选择知乎或者其他网站的答案进行反馈，但这涉及到知识产权，AI所学的知识不能保证***的专业性。比如人生病了，不能问智能虚拟助手该吃什么药，因为不能保证得到的答案的专业性。如果“虚拟人”助手给出了错误的答案，那么人如果是健康的，就可能有问题。综上所述，“虚拟人”要想无障碍、自然流畅地与用户交流，还需要更多的技术积累和沉淀。

扩展到更有应用价值的领域。

虽然“虚拟人”在技术上还有困难，但近年来，底层技术也在不断进步。万玉龙告诉《***电子报》记者，无论是语音识别、对话理解、语音合成等语音交互技术，还是唇形驱动、表情驱动等多模态驱动参数预测技术，建模过程和方案变得更加简单。

“从机器学习的模型层面来说，算法的迭代已经把模型的训练和调优带到了一个越来越低的阈值阶段。”万玉龙说。

计算能力的提升也会让“虚拟人”的形象更接近真人。万玉龙告诉记者，手机等设备的计算能力越来越强，云服务器的计算能力也在不断增强，促使AI工程师生成更复杂、更逼真的角色。

往年，英伟达CEO黄仁勋的一段“虚拟人”演讲视频风靡全球，英伟达推出的Omniverse平台进一步进入大众视野。据了解，Omniverse platform是Nvidia推出的实时3D设计协作和虚拟世界仿真平台，旨在通过将图形、AI、仿真技术和可扩展计算集成到一个平台中，成为连接虚拟世界的基础。

万玉龙表示，英伟达凭借其强大的GPU计算能力，构建了一个看起来更真实的角色形象。这进一步说明现在的计算能力确实提升到了一个更高的层次，计算能力的提升也让超现实人物的渲染变得更加可行。一方面是对话式AI技术的不断升级，另一方面是虚拟角色的造像能力越来越强，整个对话体验越来越智能。对话、知识图谱等认知能力的构建是靠上一层楼，“虚拟人”产品化的能力与日俱增。

有人说汽车是下一代移动终端，有望成为实现人机交互和情感互动的移动载体。那么，“虚拟人”有可能出现在智能驾驶舱领域吗？

在万玉龙看来，无论是手机还是汽车，其实都可以看作是智能交互的载体。目前OPPO推出的小布“虚拟人”重点主要是提升手机、电视、可穿戴设备等智能设备的交互体验。万玉龙表示，智能驾驶舱等设备形成一定规模后，智能助手在这些设备中肯定会有机会与用户频繁交互，因此一些场景必然会有应用价值。只要是应用领域，“虚拟人”的触角其实触手可及。(记者张十五子豪)

【纠错】

点击更多内容

文章标题：多模态人机交互让虚拟人“活了”
本文地址：https://www.55jiaoyu.com/show-269178.html
本文由合作方发布，不代表展全思梦立场，转载联系作者并注明出处：展全思梦

高光度Ia型超新星起源研究取得新进展

从房产到文博，商用VR凭借一个智能硬件破局

多模态人机交互让虚拟人“活了”

热门文档

推荐文档