教人工智能以“我”的视角看世界

展全思梦 2025-10-27 12:01:29

教人工智能以“我”的视角看世界字体：小中大分享到：教人工智能以“我”的视角看世界 2021-11-01 08:27:40 来源：科技日报

为了让人工智能系统像人类一样与世界互动，人工智能领域需要开发一种全新的比较好人称感知范式。这意味着当人工智能实时移动和交互时，它应该从比较好人称的角度理解日常活动。

世界是多维的，生活中同样的风景，从不同的视角看会呈现不同的形态。要让人工智能更像人类，就要让它的视角更接近人类。站在人类的角度，人工智能可能会看到一个新的世界。

近日，由脸书和9个国家的13所大学和实验室组成的学术联盟宣布，11月，开源将使人工智能拥有以比较好人称视角与世界互动的能力的Ego4D(以自我为中心的4D感知)项目。这个项目包含超过3025小时的比较好人称视频，涉及来自73个城市的700多名参与者的日常生活。这些视频将有助于让人工智能认知世界的方式更加人性化。

那么，目前人工智能用什么视角来认知世界，不同的视角会对人工智能的认知环境产生什么影响？人工智能用什么技术来感知环境和世界？想要更像人类一样认识世界，人工智能需要突破哪些瓶颈？

人工智能通常采用第三人称视角。

“要让人工智能系统像人类一样与世界互动，人工智能领域需要发展一种全新的比较好人称感知范式。这意味着当人工智能实时移动和交互时，它必须以比较好人称视角理解日常活动。”脸书的首席科学家克里斯蒂安·格劳曼曾经说过。

今天的计算机视觉系统大多使用数百万张从第三人称视角拍摄的照片和视频进行学习。“为了建立新的感知范式，我们需要教会人工智能像人类一样，以比较好人称视角，即‘我’的视角来观察和理解世界，并与之互动。这种认知方式也可以称为自我中心认知。”10月26日，王源智库人工智能处处长、图灵机器人首席战略官谭宇舟在接受科技日报记者采访时指出。

如何理解人工智能的比较好人称和第三人称视角？谭明洲解释说:“比较好人称视角代入感很强。比如玩游戏，如果你在那里，你看到的游戏画面就是你在现实世界看到的画面。第三人称视角也叫神视角，就好像你一直在角色周围飘，你可以看到角色本身和周围的情况。比如以第三人称的视角，躲在掩体后可以看到掩体前的情况；在比较好人称视角下，由于视角范围的原因，在掩体后面只能看到掩体本身。”

“再比如自动驾驶。如果它的视觉系统只是收集旁观者的数据(比如汽车的角度)，即使是通过几十万张旁观者视角的车辆行驶图像或视频进行训练，人工智能可能还是不知道怎么做，很难达到目前的自动驾驶水平。因为这种旁观者的视角和坐在车内方向盘前的视角有很大的不同，所以从比较好人称的角度来看，真正的驾驶员的反应还包括刹车、猛踩等行为，这是旁观者的视角无法收集到的。”谭玉舟进一步说道。

“过去人工智能社区很少从比较好人称视角收集数据集，这个项目弥补了人工智能视角系统的不足。AR和VR的未来发展很重要。如果人工智能能够以‘我’的视角观察和理解世界，将开启人类和人工智能沉浸式体验的新时代。”谭玉舟指出。

克里斯汀·格劳曼(Christine Glaumann)还表示:“下一代人工智能系统需要从一种完全不同的数据中学习，即从以事件为中心的视觉而不是边线视觉展示世界的视频中学习。”

建立真实世界的数据集

目前人工智能感知环境、认识世界、建立类人认知系统的主要方式有哪些「动手」？

行业专家指出，历史已经证明，基准和数据集是人工智能行业创新的关键催化剂。今天，几乎可以识别图像中任何对象的计算机视觉系统都是基于数据集和基准的，这为研究人员提供了一个研究真实世界图像的实验平台。

“脸书前几天发布的项目，其实本身就是建立数据集，旨在训练人工智能模型更像人类。它围绕比较好人称视觉体验开发了五个基准挑战，即将比较好人称视角拆解为五个目标，并进行相应的训练集竞赛。”谭玉舟指出。

Ego4D的五个基准是:情景记忆，什么时候发生？预测，接下来我可能要做什么？手物交互，我在做什么？视听日记，谁在什么时间预测（数据为往年仅供参考）说了什么？社交，谁在和谁互动？

谭明洲强调，上述基准测试将推动开发人工智能助手所必需的构建模块的研究。人工智能助手不仅可以理解现实世界中的指令并与之交互，还可以理解元宇宙中的指令并与之交互。

为了建立这个数据集，与脸书合作的大学团队向研究参与者分发了现成的头戴式相机和其他可穿戴传感器，以捕捉比较好人称未经编辑的日常生活视频。该项目的重点是参与者从日常场景中捕捉视频，如购物、烹饪、玩游戏时聊天以及与家人和朋友的其他集体活动。

该视频捕捉了相机佩戴者在特定环境下选择观看的物体，以及相机佩戴者如何以自我为中心的视角与人和物进行互动。到目前为止，相机佩戴者已经进行了数百次活动，并与数百个不同的对象进行了互动，该项目的所有数据都是公开的。

“对脸书的这项研究可以加速人工智能领域以自我为中心的认知研究的进展。这将对我们未来的生活、工作和娱乐方式产生积极影响。”谭玉舟说。

让人工智能的认知能力更加人性化。

人工智能发展的最终目的是造福人类，使我们能够应对现实世界日益复杂的挑战。想象一下如何通过AR设备在琴棋书画课堂上准确地弹琴、下棋、握笔、画轮廓。生动地指导家庭主妇根据食谱烘烤和烹饪菜肴；健忘的老人借助眼前的全息图回忆过去...

脸书强调，希望通过Ego4D项目为学术界和行业专家开辟一条全新的道路，帮助构建一个更加智能、灵活、交互的计算机视觉系统。随着人工智能对人类日常生活方式有了更深入的理解，相信这个项目可以以前所未有的方式将人工智能的体验情境化和个性化。然而，目前的研究仅仅触及了自我中心认知的皮毛。

怎样才能让人工智能的认知能力更像人类？“首先是关注。人工智能的注意力机制更接近直觉，而人类的注意力是有选择性的。目前人工智能的注意机制大多是在训练过程中反复告诉人工智能哪些地方需要注意，哪些事情是相关的。未来，参与实验的人可能会被允许佩戴可以捕捉眼球的特殊设备，以进一步收集相关数据。”谭玉舟指出。

“其次，我们需要通过关注事件和行为之间的关系来定义人工智能的行为。一件事的发生包括多种行为，人工智能系统要通过人类的反馈来训练，使人工智能的行为与我们的意图一致。”谭玉舟进一步表示。

谭明洲强调:“此外，听觉与视觉、语言与行为之间需要合作、响应和联动，这就需要构建多模态的交互模型，深入研究视角为什么聚焦投资，并与意向认同相结合，形成与行为的联动机制。”(记者华凌)

【纠错】

点击更多内容

文章标题：教人工智能以“我”的视角看世界
本文地址：https://www.55jiaoyu.com/show-270939.html
本文由合作方发布，不代表展全思梦立场，转载联系作者并注明出处：展全思梦

***手机厂商未来需寻求创新溢价突围

5G看冬奥，高山严寒不减速

教人工智能以“我”的视角看世界

热门文档

推荐文档