多模态人机交互让虚拟人“活了”
“你好,小布!附近有什么好吃的吗?”用户话音刚落,手机上出现一个小窗口,附近餐厅排名一目了然。对话中的“小布”是OPPO手机的智能助手,前段时间预测(数据为往年仅供参考)成为业界***基于“虚拟人”多模态交互的手机智能助手。去年年底,“虚拟人”市场迅速升温。除了OPPO,JD.COM、百度、阿里巴巴等科技公司也推出了自己的超现实数字人,哔哩哔哩也为虚拟主播设立了专区。“虚拟人”已经进入人们的生活。
“虚拟人”流行的一个重要原因是人们对人机交互的更深层次需求。从简单的文字到语音,再到计算机视觉等技术的融合,人性更倾向于视觉、听觉等感官的交互过程的融合。“虚拟人”背后的多模态人机交互技术,正好可以满足人们对外部信息获取维度逐渐增加的需求,让“虚拟人”看起来像人,听起来像人,更有人类的温度。
“虚拟人”背后的技术支持
人机交互经历了键盘交互、触摸交互、语音交互等几个阶段。如今,随着用户对人机交互的便捷性、自然性和准确性提出了更高的要求,更智能、更能理解用户意图的多模态人机交互成为人机交互发展的重要趋势。
OPPO小布助手首席架构师万玉龙在接受采访时告诉《***电子报》记者,当深度学习算法在各个技术方向逐渐产业化时,智能交互变得越来越重要。之后,传感器、视觉技术、语音技术、自然语言处理技术都得到了迭代升级,各种技术的融合形成了多模态的人机交互模式。
多模态人机交互可以通过对文字、语音、视觉的理解和生成,结合动作识别和驾驶、环境感知等方式,充分模拟人与人之间的交互。万玉龙举例,地铁、银行、商场等复杂环境下的服务机器人结合了传感器、人脸识别、语音交互等技术,帮助人们完成信息查询、购票、商务导航等任务。
目前多模态人机交互领域最火的代表是“虚拟人”。万玉龙告诉记者,得益于超宇宙概念的大火,超宇宙世界的“小切口”——虚拟人也受到了业界的广泛关注。
往年第三季度,OPPO推出***“虚拟人”版智能助手小布,为“虚拟人”市场再添一把火。相关数据显示,小布的“虚拟人”涵盖了视觉、语音、自然语言处理等多模态融合算法,运用多种基础创新技术,实现了多场景生态下与用户的内容服务、实时交互和情感交互。
作为多模态人机交互领域的重要成果之一,“虚拟人”依托前端声学处理、语音唤醒、语音识别、对话理解和管理、语音合成、计算机视觉和图形学等技术支持。万玉龙告诉记者,语音交互是基于对话理解,通过对话管理生成相应的回复词和内容服务,结合语音合成技术(TTS)生成广播音频;虚拟人多模态交互需要在此基础上进一步理解广播文本中包含的表情信息,通过文本和语音分析生成相应的表情、口型和动作。
“除了口型之外,为了表现眼睛和面部的表情,以及我们说话时或者很开心时做出的动作,需要对3D角色进行设计和建模,根据表情内容实时预测角色身体各个部位的驱动参数,然后结合渲染引擎驱动角色模型。“比如万玉龙,当有人说“大”的时候,他的嘴会张大,然后当他说字母“O”的时候,他的嘴会呈现一个圆圈。
为了让智能助手更加智能,人机交互过程还将涉及知识图谱、内容推荐等广泛的技术领域。
学习AI也需要大量的数据积累。
目前虚拟人有三个方面的关键技术难点。万玉龙向《***电子报》记者指出,比较好,从图像生成的角度来看,用户会越来越希望自己构建的“虚拟人”非常逼真,比如头发、衣服纹理等细致入微的特征都能完美呈现。只有当“虚拟人”真正像一个活生生的人一样站在用户面前,用户才能感觉到自己和虚拟人的距离越来越近。
“但要实现这一点,涉及到很多技术,处理起来会非常困难,生产成本也会居高不下。”万玉龙坦率地告诉记者。
其次,在图像驱动方面,“虚拟人”的动作需要更加流畅自然,而不是像机器人那样死板。人在交流和表达的时候,无论是手、眼神还是表情,所有的肢体动作都是根据表达的内容和心情而变化的。但“虚拟人”需要更强大的AI机器学习和深度学习能力来实现这一点。AI只有在积累了大量的真人表情和肢体表情的数据后,才会逐渐接近真人,但这是一个非常漫长的过程。
第三,图像交互对于虚拟人来说尤为重要,因为虚拟人***的卖点在于交互。如果“虚拟人”不能给用户提供自然舒适的交互体验,用户很快就会失去兴趣。但这种互动推广并不简单。比如,人们在回答问题时,通常会利用自己的背景知识,结合句子语境,迅速给出恰当的答案。虚拟人类助手需要通过学习大量关于人与人之间对话的数据来建立和丰富知识库。这些数据的获取并不是一件容易的事情,因为AI学习所需的数据量巨大,需要不断更新,难度不言而喻。而且AI在获取数据后,还需要对获取的数据进行质量控制和筛选,很难一一检查。如果AI没有辨别能力,在学习完数据后很难修改学习的内容,所以一些不合时宜的说法很可能对用户产生不利影响。
另外,如果人们问AI一个知识点,它可能会选择知乎或者其他网站的答案进行反馈,但这涉及到知识产权,AI所学的知识不能保证***的专业性。比如人生病了,不能问智能虚拟助手该吃什么药,因为不能保证得到的答案的专业性。如果“虚拟人”助手给出了错误的答案,那么人如果是健康的,就可能有问题。综上所述,“虚拟人”要想无障碍、自然流畅地与用户交流,还需要更多的技术积累和沉淀。
扩展到更有应用价值的领域。
虽然“虚拟人”在技术上还有困难,但近年来,底层技术也在不断进步。万玉龙告诉《***电子报》记者,无论是语音识别、对话理解、语音合成等语音交互技术,还是唇形驱动、表情驱动等多模态驱动参数预测技术,建模过程和方案变得更加简单。
“从机器学习的模型层面来说,算法的迭代已经把模型的训练和调优带到了一个越来越低的阈值阶段。”万玉龙说。
计算能力的提升也会让“虚拟人”的形象更接近真人。万玉龙告诉记者,手机等设备的计算能力越来越强,云服务器的计算能力也在不断增强,促使AI工程师生成更复杂、更逼真的角色。
往年,英伟达CEO黄仁勋的一段“虚拟人”演讲视频风靡全球,英伟达推出的Omniverse平台进一步进入大众视野。据了解,Omniverse platform是Nvidia推出的实时3D设计协作和虚拟世界仿真平台,旨在通过将图形、AI、仿真技术和可扩展计算集成到一个平台中,成为连接虚拟世界的基础。
万玉龙表示,英伟达凭借其强大的GPU计算能力,构建了一个看起来更真实的角色形象。这进一步说明现在的计算能力确实提升到了一个更高的层次,计算能力的提升也让超现实人物的渲染变得更加可行。一方面是对话式AI技术的不断升级,另一方面是虚拟角色的造像能力越来越强,整个对话体验越来越智能。对话、知识图谱等认知能力的构建是靠上一层楼,“虚拟人”产品化的能力与日俱增。
有人说汽车是下一代移动终端,有望成为实现人机交互和情感互动的移动载体。那么,“虚拟人”有可能出现在智能驾驶舱领域吗?
在万玉龙看来,无论是手机还是汽车,其实都可以看作是智能交互的载体。目前OPPO推出的小布“虚拟人”重点主要是提升手机、电视、可穿戴设备等智能设备的交互体验。万玉龙表示,智能驾驶舱等设备形成一定规模后,智能助手在这些设备中肯定会有机会与用户频繁交互,因此一些场景必然会有应用价值。只要是应用领域,“虚拟人”的触角其实触手可及。(记者张十五子豪)
【纠错】本文地址:https://www.55jiaoyu.com/show-269178.html
本文由合作方发布,不代表展全思梦立场,转载联系作者并注明出处:展全思梦
热门文档
- 1.朔州市二中(朔州市二中2022中考录取分数线预测(数据为往年仅供参考)预测)
- 2.粮食工程专业就业方向及前景!附2025大学排名及分数线预测(数据为往年仅供参考)
- 3.广州市公用事业技师学院(广州市公用事业技师学院金盘岭校区)
- 4.武汉江南技术学校(武汉市青山区江南技术学校)
- 5.中山医(中山医科大学***附属医院)
- 6.龙冈中学(龙冈中学录取分数线预测(数据为往年仅供参考)预测2022)
- 7.可模仿的世界名画100幅人物可模仿的世界名画100幅人物男_...(少女世界名画人物肖像)
- 8.砚眼文言文翻译(砚眼文言文翻译仆人的错误用一个成语概括)
- 9.双刀歌词双刀歌曲(双刀歌词歌词是什么意思)
- 10.2025新高考八省联考填报志愿模拟演练入口:附填报方式、时间预测(数据为往年仅供参考)
推荐文档
- 11.2023年青岛电子学校招生录取分数线预测(数据为往年仅供参考)
- 12.三顾茅庐的顾什么意思(三顾茅庐中的顾是什么意思这个成语的意思是什么)
- 13.什么叫做淡季(什么叫做淡季和旺季)
- 14.形容流口水的成语(形容流口水的成语望闻生津)
- 15.KurtCobain为什么自杀(kurtcobain为什么自杀)
- 16.值机柜台是什么意思(值机柜台是什么意思F06-H10什么意思)
- 17.地球赤道一圈多长(地球赤道一圈多长广州,北京,航程)
- 18.如何报考大学生村官(怎么考村官大学生村官怎么考)
- 19.猪的英语怎么读(猪的英语怎么读,单词怎么写)
- 20.宰相是几品(宋代宰相是几品)
- 21.梦到和婆婆吵架预示着什么(梦到和婆婆吵架预示着什么周公解梦)
- 22.商学是什么专业(目前热门专业十大最吃香专业)
- 23.新冠肺炎的全称是什么(新冠肺炎的全称是新型冠状病毒肺炎)
- 24.坤位是什么方向(大六壬入门基础知识教程)
- 25.江西中考成绩怎样查(江西中考成绩怎么查询2021)
- 26.开头的四字成语(集合16篇)(开头的四字词语有哪些)
- 27.容身之地什么意思(容身之地的容是什么意思)
- 28.段开头的成语接龙(段开头的成语接龙大全集最长)
- 29.寻觅的作文10篇(寻觅的作文10篇三年级)
- 30.皖l是安徽哪个城市的车牌代码(皖l是安徽哪个城市的车牌)
- 31.更多音字组词(更多音字组词和拼音怎么写)
- 32.皖南事变发生在什么时候(皖南事变发生在什么时候开始)
- 33.形容一个人有钱的四字成语(形容一个人有钱的四字成语有哪些)
- 34.第二个字是争的成语(第二个字是争的成语有哪些)
- 35.范睢念ju还是sui(睢盱读suixu还是huixu)
- 36.布达拉宫简笔画布达拉宫简笔画图片儿童(布达拉宫简笔画又好看又漂亮)
- 37.纸上谈兵指的是谁(纸上谈兵指的是谁指鹿为马指的是谁乐不思蜀指的是谁)
- 38.少先队入队仪式新生代表演讲稿10篇(新少先队员入队仪式发言稿)
- 39.虎皮鹦鹉寿命多少(虎皮鹦鹉的寿命一般是多少年)
- 40.禅悟是什么意思(禅悟人生修心修行人生感悟)
- 41.生活在意大利的华人告诉你,意大利移民到底好不好(如今意大利移民的问题很严重吗)
- 42.朝花夕拾优美段落摘抄10篇(朝花夕拾优美段落摘抄10篇50字)
- 43.过年春节的画怎么画过年春节的画怎么画简单好看(2021春节画怎么画简单又好看)
- 44.形容互相支援的成语(比喻互相支持互相帮助的成语)
- 45.达尔文_三字歌谱_乐谱_(达尔文这首歌的歌词)
- 46.whole(wholeheartedly)
- 47.河南高考分数线预测(数据为往年仅供参考)2025一本、二本、专科一览表
- 48.山西2025年高考录取分数线预测(数据为往年仅供参考)一览表(含本、专科批)
- 49.西南科技大学教务系统登录入口(西南科技大学教务系统登录入口网址)
- 50.安阳师范学院教务处登录入口(安阳师范学院教务处登录入口官网)
- 51.輲车是什么意思輲车的解释是什么(notch×herobrine车)
- 52.上海黄浦区有多少平方公里(上海黄浦区占地面积是多少平方千米)
- 53.brick是什么意思brick的翻译(bricks是什么意思英语翻译)
- 54.龟缸怎么处理龟便
- 55.四书是指什么五经是指什么
- 56.结婚彩礼钱法律上归谁
- 57.成龙代言佳能什么型号
- 58.红酒要醒多久才好喝
- 59.婚姻料理电视剧情
- 60.人生只若如初见的意思
- 51.长岛水产职业中等专业学校往年报名条件、招生要求、招生对象
- 52.新华全媒+|番茄立体栽培 来看智慧温室里的“黑科技”
- 53.产业经济现4个破万亿,上海加快布局新赛道
- 54.全球连线|******“零碳”供暖城市供暖季结束
- 55.无棣县职业中等专业学校的院校办学层次是什么
- 56.国家计算机病毒应急处理中心监测发现15款违法移动应用
- 57.这项技术提升超高分子量聚乙烯产能10倍以上
- 58.网盘“月考”,年底前能解除限速吗?
- 59.柔性智能:工业机器人演进分水岭
- 60.首批新能源汽车电池退役潮来了 回收企业却“吃不饱”?
- 61.国企数字化转型跑出“加速度”
- 62.乡村振兴要用好“数字红利”
- 63.“智慧社区”带来宜居新生活
- 64.筑牢反电信网络诈骗防护网
- 65.快步迈向数字乡村的春天
- 66.莱芜技师学院优势有哪些
- 67.招远第三职业中专2023年报名条件、招生要求、招生对象
- 68.***移动总经理董昕:5G行业应用落地超5000个
- 69.标准化为智慧城市建设铺平赛道
- 70.四川盐源职业中学是公办吗

