【小哈划重点:Brett直言:机器人不会只是协助人类,而是将取代人类在大多数劳动力场景中的角色。在他描绘的未来图景中,GDP将由合成智能推动增长...在这期对谈中,OpenAI社区负责人Logan Kilpatrick对话Figure AI创始人Brett Adcock.】
图片来源:Logan Kilpatrick
未来不是手机上的App,而是家中那个替你洗碗、遛狗、泡咖啡的类人机器人。
在这期对谈中,OpenAI社区负责人Logan Kilpatrick对话Figure AI创始人Brett Adcock,一位先是造电动飞机、如今又一头扎进人形机器人赛道的技术狂人。在Brett看来,人形机器人并非一个噱头,而是AGI唯一合理的终端形态。不是网页里的智能助手,也不是语音设备,而是一个能自主移动、操控物体、理解环境、持续学习的“具身智能体”。
这不是空想主义。他所创立的Figure已在不到一年时间内推出第三代机器人原型,并计划在四年内完成十万台机器人的投放。他的核心判断是:软硬件的两大瓶颈,已经同步进入临界突破期。一方面,神经网络已经足以完成复杂的动作规划与行为决策,能够“像人类一样”学习与执行任务;另一方面,电驱系统的成熟使得机器人终于摆脱了液压时代短命而危险的物理限制,变得稳定、安全、可批量部署。
更具争议的是,Brett直言:机器人不会只是协助人类,而是将取代人类在大多数劳动力场景中的角色。在他描绘的未来图景中,GDP将由合成智能推动增长,家庭机器人将成为标配,做饭、洗衣、照料宠物甚至看护老人都将不再需要“真人值守”。劳动将不再是必要,而是选择;人类的工作不是消失,而是被转移——转移到由算法驱动的“替身”身上。
这不仅是技术路线的演进,更是文明路径的转折。Adcock相信,在未来10年,我们将在城市中看到“人类与机器人等量共处”的画面。今天看似天方夜谭的场景,或许很快就会像智能手机一样成为社会基础设施的一部分。
我们正处在一个极度模糊却又飞速逼近的时代边界,机器开始进入物理世界的主舞台,而人类的角色,正在重新定义。
以下是全文翻译。
01
机器人技术的指数级增长
Brett Adcock:现在我们所处的环境中,人形机器人似乎将成为AGI的最终部署载体,之后家庭领域将迎来变革。家庭环境距离真正能够部署机器人并让其自主完成对人类真正有用的工作,还需要几年的时间。将来有一天,当你外出时,你会看到更多的人形机器人,而不是人类。
Logan Kilpatrick:让我们深入探讨一下。首先,我们发现机器人技术领域正在发生指数级增长。我很好奇想听听您的观点,关于是什么推动了这一趋势,或者我们在指数曲线中处于什么位置,像Parament这样的公司就似乎正处于这一扩张的前沿。看到你们取得的进展真是太棒了。
Brett Adcock:我认为现在与五到十年前相比,有两点发生了根本性变化。
第一点是我们能够在机器人领域或者甚至专门针对人形机器人进行构建。具体来说,人类能够使用非常强大的硬件,比如在这个案例中,身体部分使得我们能够获得极高的可靠性。如果你走进我们的设施,你会发现到处都是机器人,就像现在正走在我身后的这个机器人。在机器人服务领域,可靠性已经达到了非常高的水平,无论是商业环境中部署到客户现场,还是在我们的设施内。如果你在这里走动,你会看到很多机器人。但你不会看到任何硬件故障,这种情况真的非常罕见。我们确实有过这样的故障,但现在故障变得越来越少。所以,即使你拥有世界上最先进的人工智能,你也无法在平庸的硬件上完成这项工作,硬件必须是真正功能强大的。所以说这是我们在硬件方面能构建的机电系统,这项系统将变得非常可靠,就像你拥有一个非常复杂的机械系统一样,复杂性非常高。就像火箭、涡轮风扇和其他基本硬件一样。但我们已经能够建造极度可靠的涡轮风扇系统,就像在这个世界上一样。
我认为对于人形机器人也是一样。即使在未来几年的人形机器人,也只能依赖真正强大、真正优秀的系统。这就是我认为非常有帮助的第一点。十年前我们没有那么好的硬件。我意思是,十年前世界上最好的机器人可能还不如波士顿动力公司的现在我是Atlas,它是一个液压系统,所以它只能运行大约二十分钟。到处都是泄漏的石油,大概有几千个PSI,每个阀门大约有2个3000PSI,如果泄露了,人类在附近会非常危险。但是,我们现在有了电力系统这样的东西,我认为它们是安全可靠的,在朝着这个趋势发展。
第二点,我认为机器人技术本质上是一个神经网络问,我们还没有看到神经网络在机器人中表现出色。直到最近几年,我才看到这种情况。所以现在我们有神经网络在机器人上运行,指挥机器人的手部位置,覆盖整个动作空间,而且效果非常好。你可以看到,我们的一些机器人在执行物流工作时,能够在60分钟内完成单一任务,而现在这些任务正在机器人内部运行看起来就像人类会做的事情。机器人几乎在模仿人类的职业技能,就像人类一样,而且正在接近人类的速度和性能。所以这也是我认为我们过去十年所做的事情。在机器人领域,我们有神经网络在运行,并且硬件正在变得越来越强大,这是实现这一目标所需的两大关键因素。
02
人形机器人背后的愿景
Logan Kilpatrick:是的,我对这一点很感兴趣。我并不了解所有历史背景,但最初的意图是直接跳过类人机器人,还是说有其他考虑?我最近刚买了一台Madic家用吸尘器机器人,它的性能明显优于我之前尝试过的其他机器人吸尘器。它感觉上非常接近你想象中家庭机器人未来的样子,但显然与人类机器人有天壤之别。它的功能非常有限,我很好奇你们在让类人机器人工作的路径上的思路,显然你们采取了直接开发类人机器人的方法。
Brett Adcock:是的,我从一开始就专注于人形机器人。从第一天起,我们就制定了明确的计划,就像网站上的愿景一样。从公司成立的第一天起,我们就将这一理念付诸实践。对我来说,最终目标就是解决人类机器人问题。比如,有一些其他选项,比如打印轮子,以及在机器人末端因素上的爪子等部件,这基本上是IT的局部最优解,它会让你陷入IT的困境,这将是一个重大问题。如果你从第一天开始没有直接设计正确的系统,那么从第一天开始,这将对业务造成巨大的冲击。这就像我三年前的论文一样,这是可以实现的。我们从一开始就基于开始构建和设计人形机器人。
Logan Kilpatrick:关于这一点,我有一个非常快的跟进,我只喜欢特斯拉的一部分。但在特斯拉的整体计划中,实际上需要大量资金来实现这一目标。显然,2025年的融资环境对人工智能和机器人十分积极。但您觉得过去几年里,人们对这个问题的兴趣明显呈指数级增长,有更多的资金流入,但您早期的一些信念是什么,让你认为这在方向上是可行的,而不是通过逐步进行更小的项目,最终达到人形机器人水平。
Brett Adcock:是的,我有一个有趣的故事。在创立Figure之前,我在2018年创立了Archer Aviation。在此之前,我以略高于1000万美元的价格出售了一家软件领域的公司,所以我带着一点钱开始建造像Archer这样的公司,我坚信电动飞机是可能的,也是现在所需要的,而且是一个可以解决的问题。而我认为深度科技的融资环境几乎不存在,就像早期的投资者并没有为特斯拉、Rivian和SpaceX这样的团体提供资金,Archer也是如此。我几乎把我的全部净流动资产投入到Archer当中,但事实并非如此。我仍然需要大量资金才能实现这一目标,并不是说我没有投入足够的资金,没有足够的净资产来让它变得足够重要。我记得当时的行业环境有多艰难。现在看来,整个深科技领域的行业环境已经发生了翻天覆地的变化。现在有专门的基金支持这类项目,人们意识到这些初创公司可能成为全球最大的企业。
所以,我认为当我开始创业时,一开始就能为企业提供物质资金,让我能够从一开始就获得实质性的资金支持。比如,其中一家公司每月烧钱约100万美元,仅用了五个月就耗尽资金。我们当时就像疯了一样,决定去打造一个类人机器人,尽可能快地推出产品。可以说,我们基本上是从零开始设计这个类人机器人,从公司成立到产品推出,整个过程不到十二个月,这件事发生得非常快。现在IT领域,人形机器人将成为AGI的最终部署载体,因为如果你想在物理世界中完成任务,你需要一个能够适应各种环境的机器人,比如吸尘器或其他任何你真正需要AI的场景。你真的希望AI能够搭载在一个高维度的机器人上,以便完成工作。
我们正在看到机器人技术和人工智能的兴起,我认为这确实吸引了大量资本涌入该领域,因为这些趋势正在推动市场发展。然而,更重要的是,机器人正在发挥作用,我们开始看到机器人在许多情况下变得真正有用,比如那些原本需要人工完成的工作。因此,我们开始看到迹象表明,这种变革现在正在发生,而且正处于正确的十年中。
03
硬件开发中的挑战
Logan Kilpatrick:谈到从软件到硬件的转型,我一直很好奇,当你们进行这种转型时,硬件领域会遇到哪些挑战,与软件相比,你们是如何应对的?此外,从采用的角度来看,我的直觉是,与软件相比硬件领域要专注于适应和付出努力要困难得多。尤其是现在有这么多软件可以让人们在线尝试。如果用户喜欢,他们可能会继续使用,否则他们可能会转向其他东西。你如何设想这种情况?这是一个两部分的问题。首先,一般来说,你遇到了哪些挑战?然后,在采用方面你又遇到了哪些挑战?
Brett Adcock:是的,人工智能有很多值得讨论的地方。我认为有几点观察,比如在硬件方面,对于创业者来说,这与软件非常相似,比如在极限情况下,需要十亿倍的计算能力。所以,有很多事情需要从规划开始,然后逐步实施。我们想测试,想做IT,就像你设计IT、构建它,然后通过供应链中的事物引入并早期测试制造的IT,将所有东西组合在一起,看看它是否正常工作。而在某些地方,可能需要一年时间才能完成的事情,在软件领域可能只需几天或几周。
但这里有很多相似之处,我们想去测试这种基本的科学方法假设。这些假设背后有真实的早期反馈,比如客户反馈或其他输入,我们出去构建一些东西,试图看看最终是否可行,然后继续迭代。现在的问题是你需要很长时间和具体的东西。现在你需要购买硬件,而不是仅仅依赖软件。硬件的开发和推出非常困难。当你做IT时,要让事情真正运转起来很困难,因为你需要做很多这样的事情,或者数字化、无限扩展软件,或者其他。
硬件开发与软件开发不同,它确实非常困难。但我认为这非常有成就感。在我从事软件开发的日子里,我从未真正感到过这种成就感。因为软件无法像硬件那样被触摸和展示,你只能通过登录浏览器来展示产品。就像在现实世界中亲手建造事物有一种特别的魅力,而我们花在物理世界中的时间如此之多,以至于在某种程度上,软件在过去十年或二十年里并没有得到太多关注。所以我对硬件产生了浓厚兴趣。我们是一家专注于构建图谱的公司,而我曾在软件领域工作过,后来我意识到,我真的很想投入到那种需要全力以赴、充满挑战的工作中,现在我正在我的公司中实现这一点,这真的很棒。不过,一切都变得更难了。所以,我喜欢软件,但硬件就像把挑战和难度调到11档,然后你就到了这里。不过,我必须说,我总是对确保自己设计的是正确的东西并朝着正确的方向前进感到焦虑。
在某种程度上,就像软件一样,你正在构建一些东西,你现在要尽早获取用户反馈并进行测试但并不确定这是否会奏效。而硬件领域,如果我们有这种信心。比如,我们应该驾驶飞机而不是开车,那肯定会奏效。或者说,如果你能做到的话,就不要在地面上建造隧道,并确保它一定能实现。如果能设计出正确的产品,工程上是相对直截了当的。工程就像是让这样的事情成为可能,这是可以去做的事情。这是良好的第一性工程,我只需要确保它干净利落,有规则可循。所以对我来说,作为一名企业家,这可能是职业生涯中最不具压力的几年,因为我们有物理定律作为规则手册,可以基本追溯到这些定律。我的生活就像一场硬核的奔跑,既有挑战性又有乐趣,我喜欢这两个领域。
04
终端市场的选择
Logan Kilpatrick:作为一个团队,你们是如何评估谁可能是最合适的人选?现在制造行业和物流行业都非常重视制造和物流,我们可以在此融入某种人形机器人。你们列出了十个行业、十个人群,打算进入这些领域。可以介绍一下吗?我只是好奇你们是如何构想这一切的。
Brett Adcock:我们有几个重点领域。我们专注于家庭中的机器人配送。我们喜欢一个具有高度可变能力的环境。家庭环境非常困难,然后我们关注劳动力领域,比如将机器人应用于物流、制造、医疗保健和建筑,因为家庭环境比劳动力领域难得多。你可能会认为,如果解决了家庭环境的问题,那将是一个千倍大的市场,但实际上工程难度是如此巨大。实际上情况恰恰相反,劳动力市场占GDP的一半,其变异性要低得多。我之所以这么说,是因为工程挑战与变异性成正比。因此,变异性越低,挑战就越小。
我将Tonic IC系统集成到家庭中,在大多数情况下,劳动力首先进入家庭,然后你需要整体考虑这一点。家庭就像一个起点,然后在家庭之外,你可以像杂志一样按订单收费,劳动力和家庭的成本更高。在家庭中,你可以建造一个机器人并每月收费数百美元,而劳动力则有巨大的能力来赚取GDP中的所有资金。因此,我们主要关注这两个方向,我们正在努力打造一款通用型机器人。
因此,我们希望打造一种能够在设施内完成人类绝大多数工作的机器人。只要机器人具备足够的运动范围、载重能力和速度,我们应该能够完成所有这些工作。我们已经与一家物流公司达成了合作。物流行业,我们签约客户时,我们完全不知道我们要做什么。我们参观了设施并发现,小包裹物流的客户服务是运营中非常重要的一部分,尤其是在招聘和劳动力方面面临巨大挑战,这必须通过学习来解决。
因此,我们开始专注于学习,几乎到了必须全身心投入学习的地步。我们全力投入学习,很快我们就看到了成效,现在我们已经看到了一些成果现在情况已经好转,可以说每天都在进步。我刚刚发布了视频,我们之前做的是每三到四秒处理一个包,但昨天我们没有实际计时,我感觉那个东西快了很多,而且它处理不同类型包的能力也好了很多。它会智能地处理像在包外生活这样的事情,这样就可以推动另一个包沿线前进,然后处理像关闭栏杆和翻转包这样的事情,几乎就像机器人在经过深思熟虑的推理链后所做的那样。
所以,我认为从高层次来看,我们正在尝试进入这些行业,我们试图让机器人具备通用行为。从学习的角度来看,然后通过硬件使机器人能够完成人类能够完成的大部分事情,我们需要能够完成一切,所以我们可能需要开始滥用我们我们现在需要在劳动力市场中加速推进这一进程,而家庭应用则需要更长时间,可能需要数年时间才能真正实现机器人在家庭中为人类完成有意义的工作。因此,我们也需要全力推进这一方向。
这就像每个家庭的情况都非常不规范且各不相同。因此,要在软件与硬件之间的差异上实现双重分类,确实是一个稍显棘手的问题。我认为,目前在软件领域,我们正见证一场巨大的生产力爆炸,许多软件开发者都拥有这些AI工具并已完成配置。
Logan Kilpatrick:现在可以做到比以前作为工程师时多十倍的事情。你认为在构建硬件或产品时,是否有一些类似的优势已经转化到你们的工作中?但请给出一个大致的估计,我们距离实现这种加速还有多远,尤其是能够构建物理产品并进行物理工程设计等方面。
Brett Adcock:学习的扩展性是,我们需要能够以高产量部署机器人,并且它们需要持续学习并不断改进。现在,随着机器人在执行任务时获得更多数据和训练,它们的性能也在提升。我们还看到,它们在现实世界中的表现也在不断改进,这些正是希望部署一支机器人舰队的原因。
物理agent在现实世界中,你希望它们通过与世界互动,变得更聪明,更好地完成任务和行为。现在正在发生这种情况,我认为在未来一两年内,我们将看到机器人被部署到现实世界中,而机器人的应用案例实际上每天都在变得更好。机器人几乎将这些模型轨迹作为预训练数据回馈给整个机器人舰队,最终目标是打造一支既能通过规模化制造降低成本,又能不断提升智能的机器人舰队。它们会将这些信息与整个车队共享,我不知道我们是否见过类似的技术,除了像AL、MS这样的系统,它能够在与世界互动的过程中变得越来越智能、越来越便宜。这就是未来一两年的趋势,我们将开始看到这种情况真正发生。最终,这将涉及如何实现大规模生产以及如何让足够多的机器人投入使用。
我们有一个刚刚投入使用的新设施,并且在内部进行了冷却。这是我们为Figure 3机器人生产的制造工厂,我们现在正在这里生产Figure 3机器人。我去年基本上都在致力于这个项目,研究如何以高效率进行生产。我确信我们能够生产大量机器人,但问题是,我们能否每年生产超过一定数量的机器人?这是一个非常难以解决的问题。我认为解决它是可能的,但这是在学习之后的下一个挑战,就像现在学习是基础,然后在某个阶段你会像瓶装一样被制造出来。
Logan Kilpatrick:关于这个问题,我想问的是显然人类或机器人现在拥有视觉、语言能力,也能像人类一样移动,那么你认为还需要什么?
Brett Adcock:就我所知,下一代机器人需要能够自主学习。从哈佛大学的角度来看,它们的内部特征是否被盗用,这似乎有点遥远。但要达到想要的水平,我们需要让它们学习。要做到这一点,我们已经准备好大干一场。我们内部有一些产品开发项目需要实现这些功能。例如,我们有一款专为高速公路制造设计的机器人,其制造成本比之前的低90%。这些都是我们需要重点推进的关键事项,即向市场投放大量机器人,这正是您所问的下一步行动。因此,我们需要能够大量生产廉价机器人。目前,我们正在将制造能力和成本作为核心关注点,同时在几个领域进行设计,其中包括整体安全性,这在家庭环境中尤为重要。
第三点是,随着时间的推移,我认为我们的设计线路图在操纵和运动方面与人类的运动高度相关。随着时间的推移,你可以根据机器人的速度、载荷和所需的运动范围来评估这些方面。因此,我们的路线图是逐步的,随着时间的推移,机器人将能够在物理上更接近人类。然后,下一步就是如何在没有人类协助的情况下,以相当大的规模在世界上部署大量类人机器人,让它们每天都能工作,就像我们过去几年看到的那样。
现在已经能够部署一支汽车车队,证明这实际上是可行的,并且随着时间的推移,人类干预的比率会降低。我们需要进入那个阶段,而我们现在正处于这个阶段,作为一家公司,我们需要考虑如何在未来几年内将大量机器人部署到全球,然后你必须思考在做什么,不能忙得不可开交只是整天工作,人类干预率极低甚至没有。你必须扩展学习到非常高的水平。
也许可以回答一个问题。我们现在正处于这样一个阶段,就是要把更多东西物理地推向世界,这将有助于数据收集,有助于机器人可靠性,有助于我们更好地将机器人整合到世界中,而这本身也是一件困难的事情。但我很好奇你的反应,这与上述内容一致。
Logan Kilpatrick:从机器人角度来看,你认为未来会有哪些产品功能?过去两周我看到的一个讨论主题是关于人类对机器人的心理反应。比如,如果让机器人看起来滑稽可笑,人类会产生某种特定的反应。
Brett Adcock:就像我坐在这里,对于那些在听而不是在看的人来说,就像有一个机器人在面包和IT之间来回走动,这让我想起了一种现实,就是你和你的团队整天坐在办公室里看着这一切发生,这已经成为你们的一种正常体验。而我在这边,我想知道你们会有什么反应,你们认为人类适应机器人无处不在的学习曲线是怎样的。我举一个非常快速的例子,就是Dash公司使用一些小型机器人在芝加哥四处行驶并送达DNA样本。每次看到其中一个机器人,我都会觉得它太可爱了,就像它在努力寻找方向一样。在所有这些事情中,实际上有一种相当有趣的体验。
05
机器人技术中的隐私与安全问题
Logan Kilpatrick:我很好奇,你觉得人类对机器人的反应是否有所不同?比如,我感觉人类对机器人的反应似乎略微不同,就像看到一个略带威胁感的人类一样。你有没有想过,可爱的家用版本与工业版本相比会是什么样子?
Brett Adcock:我认为首先,将会有一个时刻,当你出去做家务或外出时,你会看到更多的人和机器人,你会看到同样多的人类和机器人。我认为那会感觉像是一部科幻电影,就像五十年的未来被提前到了今天,那会感觉很疯狂。你会看到很多机器人,那感觉太棒了。
我真的很喜欢我们有机器人在整个设施里走来走去,一整天都在那里。有些机器人在和人交谈,问他们要水或咖啡,有些只是在四处走动,基本上就是在巡逻。我们喜欢这些机器人,它们帮助我们提升了体验。我们已经花了很长时间来设计和美化这些机器人。所以我们有一个完整的科学团队,大多数成员都来自主要的汽车集团。我们不仅关注机器人本身的设计,还关注人机交互。机器人需要在家庭环境中发挥作用。这是一个可以深入探讨的主题,但正如你之前提到的,让机器人看起来更柔和、更人性化是非常重要的。我对此有非常强烈的看法,即机器人必须展现出高度的能力、高度的智能和复杂性,因为这是IT的本质。
在隐私方面,我们要做正确的事情,即从机器人性能的角度来看。在实际使用场景中,当机器人在工作场所中时,它们的表现非常出色。我认为当你将这些巨大的谷歌眼睛安装在机器人上时,这是一种巨大的服务,这些机器人非常强大,速度也非常快。在某些情况下,它们可以随着时间的推移完成人类能够完成的大部分事情。所以,把谷歌眼睛放在上面,这几乎就像你在试图欺骗其他人,说你是一个珍贵的小东西,你知道,就像一个非常有趣和卡通化的东西。我认为从设计角度来看,这真的很傻。在机器人上加上眼睛和屏幕之类的东西,但这在现实中看起来很滑稽。这些其实是高度复杂的机器,它们的设计应该符合我的观点。在家中,安全、隐私和网络安全等问题正面临挑战,而坦率地说,这真的很困难。在家庭安全方面,我们不希望任何人类或宠物受到伤害。这意味着我们需要在任何时候都确保安全,避免攻击任何移动的动物或人类。此外,还有语义安全的问题,比如我们真的不希望不小心打翻蜡烛导致房屋起火。所以,这是一个需要每个人都非常谨慎的领域,即使在物理上是安全的,也需要非常谨慎地移动。所以,我认为这真的很困难。
关于机器人进入家庭,我真的希望这是一种大规模的、像我这样的神经质集合。我们这里的人希望家里有人形机器人。如果我们能让这些事情发生,我认为每个人都想要一个机器人来做家务,比如洗碗、收碗、煮咖啡、做饭,就像有人来做这些工作一样。我认为当向人们展示出真正的具身智能能够以相对低廉的成本为人类完成这些任务时,我们可以让这些机器人全天候运行。我知道它们可以像踮着脚尖一样缓慢地移动,把所有餐具收好,同时做其他事情。我认为这将对家庭和世界都非常有益,我们需要它们在两个领域都发挥作用。
我认为你所看到的,就像我所理解的,是一个单一的机器人在处理所有这些事情,就像人类在家工作一样,但人类也需要工作。我们为家庭打造了两种劳动力,一种是普通人类,另一种是专家人类。你将看到一种类似智能手机的设备,一个用于类人机器人的平台。
Logan Kilpatrick:我很好奇,可能是个愚蠢的问题。你们是如何让人类参与其中的?比如,如果我家里有一个机器人,我是在和人类对话吗?控制在哪里?比如,你如何实际处理人类的行为或操作?以及如何确保安全,让我可以使用手机上的应用程序,就像ZI知道的Manticore一样,它拥有IT管的API层。目前对于那些正在采用的人来说,这是什么样子?你如何看待未来的发展?因为我回过头来看你的陈述,人们在公寓里有机器人。我们如何确保这在封闭的门内,而不是更广泛的受众?
Brett Adcock:我的观点是,整个机器人在家中的体验以及机器人的默认用户界面,无论是在世界上的任何地方,都应该通过语音来实现。你提到像手机或电脑之类的东西,当我们站在机器人旁边,在电脑终端上打开并询问一个命令时,这感觉很奇怪。这简直是糟糕的低带宽遗留问题,需要太长时间。如果你不想和机器人对话,你就会选择发短信。我们所有的机器人内部都有一张新的主板卡,上面有一个模块,你只需要用一种语言与机器人沟通。我们的机器人,比如Helix神经网络,是语言条件化的。因此,你需要将所有操作都基于语言进行设置。这将如同人类在家中使用的自然默认方式。如果你不想做某事,你只需告诉它即可。
至于隐私、网络安全等相关问题,这是一个非常重要的值得投入大量时间的研究议题。我们实际上刚刚建立了整个隐私和网络安全部门,大概花了四个月时间。现在我们有一支来自Snapchat和谷歌的小团队,他们之前在商业领域、企业部门和产品侧都曾处理过这些问题。另外,我们还收到很多关于机器人出海等问题的咨询,你真的需要与互动的公司建立真正的品牌信任。它比电脑和手机更复杂,因此隐私问题在这里显得更加重要,涉及如何在产品安全和企业安全方面做得更好,以及我们如何整体看待隐私问题。
因此,我认为这也是一个非常棘手的问题。我不想给人留下这样的印象,即我们今年就能解决所有问题,但我们确实正在全力以赴地解决这些问题。无论在什么情况下,你肯定不希望机器人像这样,你希望它有规则,比如在基板上没有球形记忆,或者我能做什么,你不想让任何人获得对机器人的根访问权限所以,我们现在正在努力解决的许多问题,对于实现全球数百万个机器人来说都非常重要。
06
超级智能在社会中的作用
Logan Kilpatrick:我一直在思考的一件事,听起来你和我观点一致,就是过去两年我意识到,我不会对人工智能超级智能在不久的将来出现感到惊讶。但当我望向窗外,观察周围的物理世界时,很明显这个世界不会因此而改变。我走出家门,世界依然与现在一模一样。而构建这种数字智能,至少在短期内,并不会直接转化为我周围物理世界的改变。
事情会有所不同,因为你将开发出物理世界中的机器人。但这听起来像是人类机器人技术的发展方向,我们通过这种方式看到物理世界中人类进步的加速。你认为需要多长时间才能实现这一点?而且,这种指数级增长似乎会非常缓慢地开始,但随后会以实质性方式加速。我对所有这些技术如何相互作用感到好奇。
Brett Adcock:感觉未来不会像现在这样到来。我认为人类机器人将扮演重要角色,为人类做各种事情,我们也可以像现在这样乘坐飞行汽车去各地。我认为这就是真正的未来。我认为推动我前进的是,我目前在公司和项目中的工作,我确实觉得这对于激动人心的未来至关重要。我想补充一点,我们正在接近数字超级智能,它确实感觉很近。而今天的超级智能,就像存在于服务器中,存在于一个盒子里。我之所以在这里开发人形机器人,是因为如果我们不解决人形机器人的问题,那么我们接近数字超级智能的场景对我来说就是一个问题。我们有所有这些数字agent,它们为人类做工作,它们需要在物理世界中完成很多事情。人形机器人是实现这一目标的理想部署方案。它能够完成人类能够完成的大多数任务,而实现这一点需要具备智能语义能力,以便在复杂多变的环境中准确感知和处理物理世界。这正是人形机器人的核心优势。然而,这种技术目前无法在家庭等环境中实现,因为缺乏相应的硬件支持。
所以,我认为回答你问题的关键是,你首先会看到人形机器人在少数几个地方被部署,它们全天候工作。如果你有机会去现场查看,你会惊叹道:“天啊,它现在真的在工作了。”我们正在逐步看到这样一个阶段,我们获得更多,更多地走出,我们需要学习如何整合,如何工作,如何进行人类互动,以实现规模化。如何进行规模化学习,我们需要作为一家公司,我们正在努力通过部署机器人并将其更多地推向世界来解决这个问题。我们在商业环境中每天都会运行机器人。
我们正在通过实际经验来尝试解决这个问题。我认为,到目前为止,我们已经学到了很多,现在我们正在努力让更多的机器人投入使用。随着机器人数量增加,管理更大规模的机器人群将变得更具挑战性。这就像需要持续的维护和管理,我们过去也经历过类似情况,但最终会找到解决办法。未来,我们有望将数以亿计的机器人部署到世界各地。无论是部署几十万个机器人还是数百万个机器人,所需的技术都是相同的。不能有太高的干预率,必须实现极低的甚至零干预率,必须具备默认的UICV语音识别功能,需要对学习过程进行大致的记录。同时还需要规模。比如说,人类学习需要在一定规模上解决这些问题。
所以我们接下来的重大推进是,在未来四年内推出十万台机器人,这是我们正在努力实现的目标。我们的制造能力已经可以做到这一点。我们已经开始制造第三代机器人。它们实际上已经投入运行。它们实际上能够自主运行,我们希望在未来四年内将规模扩展到这些领域。如果我们能达到预期的目标,我们计划向全球投放数百万台机器人。与软件不同,我们无法无限复制这些机器人。但我想最大的障碍在于进入某个环境并让机器人开始工作,这是整个问题中最困难的部分。就像是让机器人具备整体的自主工作能力。
我认为我们刚刚发布的最新版本包含了大约60小时的额外数据,而在此之前,我们根本不知道如何处理这种情况的物流问题。正如我们向你们展示的那样,我们每天投入60小时到工作中,而我完成了所有这些工作。从整体来看,这没什么大不了的。我们能够收集数亿小时的人类数据,能够将这些数据扩展到数十亿小时,覆盖全球每个角落。这就是我们正在努力实现的目标。我认为在这些阶段,我们必须经历硬件的快速发展,并学会如何整合和扩展。
Logan Kilpatrick:是的,有一个问题是,你认为快速学习过程在多大程度上受益于世界知识的压缩?我并不清楚你们是基于什么来判断的,但从整体来看,随着生态系统逐渐掌握如何将越来越多的世界知识压缩到越来越小的模型中,就像你们所看到的。这种直接好处就是,模型可以因为已经内置了大量知识而学习得更快。
Brett Adcock:这确实有帮助。因为我们更本地化地记忆这些模型,对于较小的模型来说速度更快。我们使用我们基本上使用像VLM这样的语义基础,例如VLA这样的视觉语言简化模型,即Helix。我们以几乎更大的大脑和S2级别运行它,其运行基本速度较慢,大约在7到9赫兹之间,这是我们一些较低层的transformer策略。因此,我们确实从中受益。
问题在于,这些模型并不真正理解如何在物理层面上与周围的不同物体互动,比如抓取物体并真正理解机器人的本体感觉,以及如何处理某些可能更柔软或更坚硬的物体。这些都是模型无法理解的。它们完全没有这些方面的知识。因为机器人领域的YouTube并不存在。因此我们不得不自行设计所有这些工作。模型中有一套核心架构,这对集成非常有帮助。在我们称之为“螺旋”的整个系统中,我们已经在这里与人工智能合作。目前,我们团队中有20%的员工专注于螺旋项目。我们目前面临的唯一问题是机器人学习以及如何极快地训练新行为。
Logan Kilpatrick:那么,你如何设想超级智能?你知道,十年、二十年后的道路?这对人类来说会是什么样子?你希望这种技术能实现什么目标?或者说,如果人们能通过减少处理数据的时间,更多地与家人相处,从而解锁下一级别的创造力,而不是依赖这些机器人来帮助你完成任务,你会如何描绘这种社会图景?当我们达到某些关键节点和里程碑时,这种社会会是什么样子?
Brett Adcock:制造的机器人每年都能完成更多人类能做的事情,随着时间的推移,它们将能比人类更出色地完成大多数事情。这种情况在我们有生之年一定会发生。世界上任何类型的劳动,无论是在家中还是在工作场所,对人类来说都是可选的。你可以选择做饭、洗衣服、泡咖啡、遛狗、看孩子,或者做任何你想做的事情,比如建筑工作,或者你可以让机器人来做这些事情,而机器人将对GDP产生显著的贡献。我们现在测量GDP时,就像测量人类的平均收入一样,而这些数据基本上是合成的。所以,即使在今年,也会有机器人在生产线上帮忙,所有机器人都在为你工作,机器人正在建造机器人。因此,机器人正在建造机器人。机器人正在执行工作。大多数工作都比人类做得更好,更快,更可靠。
那么,我们该如何利用我们的时间?我们的存在意义是什么?这成为了一个非常困难的讨论,尤其是对于像我这样的人。我一生都在工作,思考如何建造比我们更聪明、更优秀的机器人和智能体。这确实会带来很多焦虑,我希望人们能花更多时间做自己真正喜欢的事情,比如与家人共度时光。我希望我们不会在三十年后发现,人们一生中有五十年都在工作,而他们一生中很大一部分时间都花在这些体力劳动上。
Logan Kilpatrick:快点抓住这个机会,然后完成这个问题。你认为未来会出现类似特斯拉模式的运作方式吗?每个人都会有一个机器人,可以部署去处理X、Y、Z任务,这些机器人会给你某种形式的补偿,就像我之前说的,我只是好奇地描绘一下这个场景。你有什么想法吗?
Brett Adcock:是的,你可以告诉你的机器人,如果你想让它陪你出去,就让它走到街上,去隔壁或邻居家帮忙。你也会有一个机器人为你赚钱。我甚至可以进一步说,未来的机器人制造成本相对较低,可以持续工作,而你长期来看,服务价格会大幅下降,几乎所有人都能负担得起任何东西,比如理发、商品或农产品,或者C类服务,你只需要让机器人来做这些事情。这只是成本问题,机器人所需的能源以及实际节省的成本。通过合成人类全天候工作,可以大幅降低成本,几乎不需要大量人力,拥有一个具有个性的机器人。你会要求它增加幽默感,有时要更严肃,你会与它交谈,发送信息,它会不断为你工作。
07
2025年及未来愿景
Logan Kilpatrick:最后一个问题,我们想问大家一个开放性问题。你希望在2025年发生的事情,以及你希望不会发生的事情,它非常多样化,但给你施加了压力,我们总是得到非常有趣的东西。所以我很好奇,你们对这两件事的看法如何。
Brett Adcock:随着我们接近那个我正在努力实现的目标,我希望我的公司能像弓箭手一样,既能保护又能创造。我希望我的公司能做得很好,希望他们能出去创造一些真正令人兴奋的未来。个人而言,我真的希望能在推动人类进步所需的技术上更进一步。我们需要致力于水下城市、太空电梯或尼尔结构等项目,这些项目能真正推动人类文明在二十到五十年内实现飞跃。这些领域正逐渐变得更加可行,相关技术也在不断进步。就像上世纪四五十年代的太空探索一样,我们正迎来新的机遇。
我们需要为人类和整个地球文明设定一个新的目标,借助超级智能帮助我们实现这一目标。但我们希望在有生之年就能看到这一目标的实现。因此,我希望我们能够迈向更高层次,科技的杠杆作用能够提升全球生产力、幸福感。我们应该对未来充满希望,到2050年,我们有望实现太空探索的重大突破,将为人类创造一个前所未有的激动人心的未来。
原视频:An unfiltered conversation with Brett Adcock, CEO of Figure AI
https://www.youtube.com/watch?v=_Xct1BCLylc
编译:Jaymie Xing
(原文标题:《深度|Figure AI创始人:人形机器人是AGI唯一合理的终端形态,会像iPhone一样成为AI时代的基础设施》)
https://mp.weixin.qq.com/s/X0o5xOcNlptxsLyEMEkmPw