“AI教母”李飞飞揭秘创业方向：有了空间智能，AI将能够理解现实世界

腾讯科技

2024-05-17 16:16发布于河北腾讯新闻科技频道官方账号

划重点

1、李飞飞称，空间智能将使机器高效处理视觉数据，精准做出预测，并基于这些预测采取行动。

2、李飞飞透露，他的团队曾开发名为Walt的生成视频模型，比OpenAI的Sora还要早几个月问世。

3、空间智能将赋予机器彼此互动的能力，甚至还能与人类互动，与真实或虚拟的三维世界互动。

腾讯科技讯外媒消息称，知名计算机科学家李飞飞正积极筹备一家初创企业，该企业旨在通过借鉴人类视觉数据处理技术，赋予人工智能高级推理能力，此举无疑将推动该领域技术实现质的飞跃。

作为人工智能领域的佼佼者，李飞飞开创性的贡献已得到业界的广泛认可。据知情人士透露，她已成功在近期种子轮融资中为公司吸引了大量资金。其中，硅谷知名风险投资公司Andreessen Horowitz以及她去年加入的加拿大科技投资公司Radical Ventures均位列投资者名单之中。

在近期公开亮相的时候，李飞飞也避谈她新的创业项目。外媒称，在描述这家初创公司的愿景时，一位消息人士引用了李飞飞上个月在温哥华TED大会上的精彩演讲。在演讲中，她详细阐述了一种前沿算法，该算法能够合理推断图像和文本在三维环境中的表现，并根据这些预测采取行动。这一创新理念被业内专家誉为“空间智能”。

近日，李飞飞在X上放出来她在 TED上的这段演讲。

在宇宙诞生的初始阶段，无尽的黑暗笼罩着一切，直至首批生物逐步演化出了视力，那一刻，生命的光辉得以绽放。如今，李飞飞预言，一个类似的转折点即将在计算机与机器人领域上演。

在演讲中，李飞飞详细阐述了机器将如何逐步获得所谓的“空间智能”，这一能力使得机器能够高效地处理复杂的视觉数据，精准地做出预测，并基于这些预测迅速采取行动。此外，她还预判了这一突破性进展将如何改变人工智能在现实世界中与人类交互的方式。

以下为李飞飞演讲全文：

首先，让我为你们描绘一个画面。准确地说，我并非要向你们展示任何具体的画面，而是带你们回到5.4亿年前的世界。那是一个纯粹而深邃的黑暗世界。由于光线微弱，天空并非呈现我们所熟悉的黑色。而由于视觉的缺失，使得周围的一切显得如此漆黑。

尽管阳光可以穿透到海面下1000多米的地方，再从热泉口照向海底，那里充满了生命，但在这古老的海水中，却没有一只眼睛去捕捉这些光影。没有视网膜，没有角膜，没有晶状体，所有的光和生命都隐匿在未知的黑暗中。那时，视觉这一概念尚未成形，前无古人，未有来者。直到那个特殊的时刻到来。

由于一些我们刚刚开始理解的原因，三叶虫，这些最早能够感知光线的生物，开始在这片古老的海洋中崭露头角。它们成为了我们今日所熟知现实世界的首批居民，首次发现了除了自己之外，还有一个充满无数生命的世界。

人们普遍认为，视觉能力的出现，是寒武纪生物大爆发的关键所在。在这一时期，各种动物物种如雨后春笋般涌现。最初，视觉只是一种被动的体验，一种简单的让光线进入感知的过程，但随着时间的推移，它逐渐变成为主动技能。神经系统开始进化，视觉不仅仅用于感知，更成为了理解和行动的源泉。这一切都推动了智慧的诞生。

如今，我们不再满足于大自然赋予我们的视觉智能，好奇心驱使着我们创造出与我们一样聪明的机器。

九年前，在这个舞台上，我发表了一份关于计算机视觉的早期进展报告，这是人工智能领域的一个重要分支。当时，三股强大的力量首次汇聚一堂。一种被称为神经网络的算法，一种被称为图形处理单元的专用硬件，以及庞大的数据集，如我的实验室数年来整理的1500万张图片，被称为ImageNet。这三者的结合，共同开启了现代人工智能的新纪元。

我们确实已经跨越了漫漫长路。曾几何时，仅仅是给图片加上标签便被视为一次巨大的飞跃。然而，这些算法的速度和准确性都在以惊人的速度提升。我领导的实验室所主办的ImageNet年度挑战赛，正是这一进步的鲜明写照。

在此图表中，你们可以清晰地观察到每年的改进以及那些具有里程碑意义的模型。我的学生和合作者们更是在这些工作的基础上更进一步，他们创造了能够精准分割物体，甚至预测物体间动态关系的先进算法。

然而，这仅仅是冰山一角。记得上次我向你们展示的，那个能够用人类自然语言描述照片内容的计算机视觉算法吗？那是我与我的学生安德烈·卡尔帕西（Andrej Karpathy）共同努力的成果。

当时，我半开玩笑地问他：“安德烈，我们能让电脑做相反的事吗？”他笑着回答：“哈哈，那简直不可能。”但正如今天所见到的样子，不可能最终变为了可能。这得益于一系列扩散模型的突破，它们为当今的生成式人工智能算法注入了强大动力，使得这些算法能够将人类的提示转化为图片和视频。

你们中的许多人或许已经见证了OpenAI最近推出的Sora的惊艳表现。但值得一提的是，即便没有庞大的GPU资源支持，我的学生和我们的合作者们依然成功开发了一个名为Walt的生成视频模型，它比Sora还要早几个月问世。

你们可以看到其中的一些初步成果，尽管仍有改进的空间。举例来说，看看那只猫的眼睛，它在波浪下的模样，显然有些失真，像是从未被水打湿过一般。这确实是一个需要我们进一步优化的地方。

若以过去为序幕，我们将从这些错误中汲取宝贵的教训，共同创造一个我们梦寐以求的未来。在这个未来，我们期待人工智能能够为我们完成它所擅长的一切，或是成为我们得力的助手。

多年来，我一直强调拍照与观看、理解之间存在显著差异。而今天，我想再补充一点：仅仅观看是远远不够的。观看是为了行动，为了学习。当我们在这个三维空间和时间交织的世界中采取行动时，我们不断学习，我们学会如何更深入地观察，如何更有效地行动。大自然为我们树立了榜样，它创造了一个由“空间智能”驱动的良性循环，将观察与行动紧密相连。

为了更具体地阐述空间智能在日常生活中的作用，请仔细观察这张图。当你准备采取行动时，请举手示意。就在那一刻，你的大脑迅速捕捉到了这个杯子的几何形状，它在三维空间中的精确位置，以及它与桌子、猫和其他物体的相互关系。这种瞬间的分析能力让你能够预测接下来可能发生的事情。这种行动的冲动，是所有具备空间智能的生物与生俱来的本能，它将我们的感知与行动紧密相连。

若想推动人工智能超越其现有的界限，我们所追求的不再是仅限于视觉识别和语言交流的智能体。我们渴望的是那些能够行动的人工智能，能够主动介入并与我们生活的世界互动。

确实，我们正在取得令人兴奋的进展。在空间智能领域，最近的里程碑便是教会计算机观察、学习、行动，并在实践中不断提高其观察能力。这并非易事。大自然历经数百万年的进化才赋予了生物空间智能，它依赖于眼睛接收光线，在视网膜上形成二维图像，随后大脑将这些数据转化为三维信息。直到最近，谷歌的一组研究人员才开发出一种算法，能够通过拍摄一系列照片，将它们转化为三维空间模型，就像我们在这里所展示的例子一样。

我的学生和我们的合作者们更进一步，他们创造了一种算法，能够将输入的二维图像转换成三维形状。这里有更多的实例供你们参考。

回想一下，我们之前讨论过计算机程序如何将人类的文字提示转化为视频。现在，密歇根大学的一组研究人员已经找到了一种方法，可以将简单的文字描述转化为三维房间的布局，就像这里所展示的这样。与此同时，我在斯坦福大学的同事们及其学生也已经开发了一种算法，仅凭一张图像便能生成无限逼真、可供观众探索的三维空间。

这些进展只是未来可能性的初步迹象，它们为我们揭示了一个崭新的世界。在这个世界中，人类可以将整个现实世界转化为数字形式，并对其丰富性和细微差别进行建模。大自然在我们个人的意识中悄无声息地完成了这一壮举，而空间智能技术有望为我们的集体意识带来同样的变革。

随着空间智能技术的飞速发展，一个良性循环的新时代正在我们眼前展开。这种反复循环的过程将极大地促进机器人的学习，这对于任何需要理解三维世界并与之互动的智能系统来说都是至关重要的组成部分。

十年前，我的实验室通过启用ImageNet数据库，引入了一个包含数百万张高质量照片的庞大资源，为训练计算机的识别能力奠定了坚实的基础。如今，我们采用类似的方法，但目标已经转向训练计算机和机器人在三维世界中的行为和动作。不过，这次我们不再局限于收集静态图像，而是着手开发由三维空间模型驱动的模拟环境，这样计算机就能拥有无限多种学习行动的可能性。在我实验室领导的一项名为“Behavior”的开创性项目中，你们所见的仅仅是教导我们机器人的一小部分例子。

在机器人语言智能领域，我们也取得了令人瞩目的进展。借助基于语言模型的大型输入，我的学生和我们的合作者成功展示了机械臂如何根据口头指令执行多种任务，比如打开抽屉、拔掉手机充电插头，甚至是用面包、生菜和西红柿制作三明治，并贴心地为使用者放置一张餐巾。尽管我总是希望在三明治里多加一些配料，但这无疑是一个良好的开端。

回溯到生命起源的海洋，在遥远的古代，生物通过感知和观察环境的能力，开启了与其他生命形式互动的寒武纪大爆发。今天，这束照亮生命起源的光束已经触及了数字思维的领域。空间智能赋予了机器与彼此互动的能力，更重要的是，它们还能与人类互动，与真实或虚拟的三维世界互动。随着这样的未来逐渐成形，它将对许多人的生活产生深远的影响。

以医疗保健为例，过去的十年里，我的实验室在利用人工智能解决影响患者结果和医务人员倦怠的挑战方面，已经迈出了初步的尝试。我们与斯坦福医学院紧密合作，正在试验智能传感器，这些传感器能够检测临床医生进入病房前是否正确洗手，或者记录手术器械的使用情况，甚至在病人面临身体危险（如摔倒）时及时提醒护理团队。我们认为这些技术是一种环境智能，它们如同多了一双眼睛，确实能够在医疗保健领域产生积极的影响。然而，我期望我们的病人、临床医生和护理人员能够得到更多互动的帮助，他们同样迫切需要一双额外的手。想象一下，一个自动化机器人负责运输医疗用品，而护理人员则能专注于照顾病人。或者通过增强现实技术，引导外科医生进行更安全、更快速、侵入性更小的手术。

想象一下，那些严重瘫痪的病人仅凭思想便能控制机器人。是的，通过解读脑电波，他们能够完成我们日常中习以为常的任务。在我实验室最近进行的初步研究中，你们已经窥见了这一未来的面貌。在这段视频中，机械臂正在烹饪日本寿喜烧，而它的每一个动作，都仅由佩戴者通过脑电图帽非侵入性地收集的脑电波来控制。

五亿年前，视觉的出现如同一道曙光，照亮了一个原本黑暗的世界。它引领了生命史上最深刻的进化过程，推动了动物世界智力的飞速发展。与此相似，人工智能在过去十年中的进步同样令人震惊。但在我看来，除非我们赋予计算机和机器人空间智能，否则数字寒武纪大爆发的全部潜力将不会完全实现，正如大自然为我们所有人所创造的那样。

这是一个激动人心的时刻，我们有机会教导我们的数字伴侣学习推理，并与我们称之为家的美丽三维空间互动。更进一步，我们还能创造更多新世界，等待我们共同去探索。然而，实现这样的未来并非易事，它要求我们所有人都采取深思熟虑的步骤，开发出始终以人为中心的技术。

但只要我们做对了，由空间智能驱动的计算机和机器人将不再仅仅是工具，它们将成为我们值得信赖的合作伙伴。在尊重我们的个人尊严和促进我们的集体繁荣的同时，它们将提高和增强我们的生产力和人性。

最令我对未来感到兴奋的是，人工智能将变得更有洞察力和空间意识。它们将加入我们的行列，一同追求以更好的方式创造一个更美好的世界。（编译/金鹿）

查看原图 151K