Figure 首发 OpenAI 机器人，可以与人类全面对话，哪些信息值得关注？

Question

已认证账号

3月14日，美国明星机器人创业公司Figure发布了自己第一个OpenAI大模型加持的机器人demo。虽然只用到了一个神经网络，但却可以听从人类的命令…

关注者

244

被浏览

105,780

这回的展示无疑要比其他人的要快很多，尤其是在1.0倍速播放之下没有出现手抖的问题，这就说明降噪是比较成功的。

从对话来看，这套AI是已经展示出了理解物理世界的基础，但这并不代表它真的能够理解，而是至少展示出了一种近似的可能性。

严格来说要让AI真的能理解物理世界肯定还有很长的路要走，但Figure 01展示出了一个简易的迭代平台，可以让一些非专业人士参与到模型训练当中，开始具备应用的基础。

接下来我估计具身智能的发展方向是继续提高反应速度，而不是执着于更复杂的应用，毕竟更复杂的模型集成会拖累运算速度，而现在的速度还不够快，如果再拖累了那么就更难以被接受，所以应该优先解决反应问题。

解决了反应问题之后，估计可以到流水线做筛选与基本操作，通过多种工艺操作来丰富模型，成熟之后可以逐渐开始废物分捡工作，也就是到地狱场景去磨练了。

至于到消费级别的应用，或者一般办公室的应用，这个可能还有很长的路要走，尤其是保姆型机器人的商业化应该至少还得有个30年以上，所以不要太害怕。

现阶段的研发仅仅是以做出来一个能用的东西为标准，或者说就是入门而已，至于质量水平如何还谈不上，所以不要想象得太过了。

佳人李大花 南开大学理学博士 · Accepted Answer

看完视频只有一个感觉，GPT-4拥有了“人形”。

视频中的工作人员首先询问机器人能看见什么，Figure 01清晰的描述了视野里的一切，包括视角正中的红苹果、放有杯碟的沥水架、以及站在面前的工作人员和他搭在桌上的右手。

然后工作人员询问机器人，“可以给我点吃的吗？”

Figure 01“想”了一下，把苹果拿起递过去。

随后根据要求指令，一边清理工作人员刚倾倒在桌面的纸团，一边解释刚刚的行为：“我给了你苹果，因为我觉得这是桌上唯一能吃的东西。”然后自然而然地把收好在篮子里的纸团给回工作人员。

工作人员继续询问：“根据现在所见，你面前的碟子应该放到哪儿去？”

Figure 01思考了一下做出判断：杯碟应该归置进晾晒架！然后按指令把杯碟放好。

最后工作人员让机器人自己评价任务完成的怎么样。

Figure 01毫不谦虚：“我觉得我做得很不错！苹果找到了新主人，垃圾清理了，桌面上的东西各归各位。”

主导这个项目的高级AI工程师Corey Lynch，特意发文解释了Figure 01的背后原理：

他们将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音，通通转录为文本输入到预训练的大型多模态模型中。该模型能够理解图像和文本，在处理整个对话历史、包括过去的图像后做出语言回应，这些回应再通过文本转语音最终传递给人类。

很明显，这个引领着Figure 01走向“优秀”的预训练大模型就是GPT，不过不知道应用的是哪一代的GPT，我感觉比现在我们普通人能够用到的GPT优秀很多。

所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像，交给大模型处理，大模型推理预测下一步行为，将像素映射到200Hz、24个自由度的动作（包括手腕姿势和手指关节角度），直接输出结果。整个过程依靠端到端的机器人控制，而无需经过中间过程的编码。

此外，基于GPT的记忆功能，Figure 01也具备一定的“记忆力”，能够理解上下文语义，并根据这些语义做出准确的判断和正确的动作执行。

比如上一句Figure 01认为杯子盘子应该放回沥水架，下一句工作人员指示“Can you put them there?”

句子中的“them”和“there”都是一种模糊的泛指，但是依靠“记忆”，Figure 01“想起来”them指代杯盘，there指代沥水架，然后进行了正确的执行。

除人工智能加持外，Figure 01还整合了由专业工程师设计的所有系统，包括电机、固件、热力学组件、电子设备、中间件操作系统、电池系统、动作传感器、机械和结构等，一个整体的全身控制器确保Figure 01能够保持平衡，即使在动态过程中也可以保持稳定。

仅仅与Openai合作了13天，Figure 01就展现出了令人震惊的理解力和执行力，如果非要评价一句什么的话，我只能说：Figure 01未来可期！