8月21日,2024世界机器人大会在北京亦庄拉开帷幕。无论是从参展商还是观展人数来看,这都是历年来热度最高的一届大会。这背后,与具身智能概念的爆火相关。
在众多参展的机器人公司中,来自杭州的宇树科技颇受关注。
今年5月,这家公司发布了人形机器人G1。它能够完成站起、坐下折叠、舞棍等高难度动作,也具备精准操作物体的能力。更重要的是,G1的售价仅为9.9万元,这也是双足机器人价格首次被打到10万元以内。
而在近日,宇树科技又发布了G1的量产版本,成为国内少数几家具备人形机器人量产能力的公司。宇树科技创始人兼CEO王兴兴在接受界面新闻采访时表示,G1的销量基本符合预期,目前已在科研、教育、工厂等场景落地应用。
他还解答了外界对宇树科技和人形机器人的诸多疑问,包括降本方法、量产挑战、商用进展、技术限制,以及人形机器人距离iPhone时刻究竟还有多少年。
采访中,“干活”和“通用AI”成为反复出现的高频词汇。王兴兴认为,人形机器人当下的能力还不足以实现真正的“干活”,但这应是它最具价值的部分。由于人形机器人缺乏像ChatGPT那样的通用模型,当前行业面临着极大阻碍。
“我一直有种感觉,人形机器人公司还是要克制一点,不要把自己做成传统的自动化公司。”他说。
王兴兴并不喜欢将今年定义为人形机器人的商用元年,认为那还为时过早,毕竟头部公司的年出货量也不过百来台。但他依然对人形机器人的商用未来持乐观态度,“如果拿大语言模型来对比,今年就像是ChatGPT诞生的前两年。”
在他看来,尽管这一领域的技术路线还有许多模糊地带,但当更多聪明人和资本涌入,转折点也将很快到来。
以下为访谈实录(有不改变原意的删减及编辑):
AI让做机器人变简单
问:为什么G1可以做到9.9万的价格?宇树是如何降本的?
王兴兴:价格更友好,产品才有更多人买,才能在全球范围内推动行业进步。
我们的价格相对比较低,因为我们做四足机器人已经很多年了,对于机械、成本、生产都有比较多的经验,而四足和人形机器人很多设计是类似的,这也是我们低价的基础。宇树的四足机器人最低卖到9000多元一台,对比机器人还有点贵。
要把所有的零部件,哪怕一个螺丝钉都设计到极致是非常耗时间的。公司到现在已经成立了8年,有好几款产品实现了量产,但我们依然很有压力,因为每一个零部件都要精细设置,有些技术要求高的零部件都是以0.01毫米起步考虑的。
因为目前的量不够,如果我们价格定得太低,对行业和公司都不好。我们还是希望价格相对合理,可能到明年后年出货量会进一步提升,机器人的能力也会越来越强,价格可以做更好地调整。
问:宇树是做四足机器人起家的。四足机器人和人形机器人的关系,像是人从爬行到站立起来的过程吗?
王兴兴:从技术上或者进化角度,你可以这么认为,毕竟灵长类动物本身也是从4条腿进化过来的。机器人也是一样,为什么早年大家做四足机器人更多,因为它的稳定性、负载、续航能力更强,技术成熟度更高。
过去一两年,国内很多人形机器人公司都出来了。为什么他们做得很快?原因非常简单,他们用了大量开源的四足机器人技术,包括算法和硬件。
问:对于设计风格是怎么想的?
王兴兴:我们希望产品尽量简洁,无论是外观还是功能,都不要弄得太复杂,像iPhone一样。交互的简洁性是对产品最极致,也是最重要的要求。
问:为何宇树和波士顿动力的Atlas都采用了是三指设计?
王兴兴:目前全球人形机器人的方案不是特别统一,客户的需求也不一样,最典型的代表就是手。G1高度大概只有1.3米多,如果我们给他装了五指,会发现这个手有点太大了,我觉得非常不好看。而三指手大部分产品都能用,抓东西都可以抓得很牢,包括波士顿动力的Atlas在工厂里干活,三指就够用了。出于实用性的角度,大家还是希望机器人的手势越简单越好。
目前来说,把物体从这里抓到那里,只要一个关节就够用了,如果要做更精细的事情,比如说拿电烙铁去焊接,或拿筷子,三个手指也基本够用。大家可以想象一下,如果自己只有两三个手指,其实能干很多活。
AI的加入使得对硬件的自由度、数量、外观灵活度要求都越来越低,这是一种趋势。假使你随便找几个关节电机和木头,把它拼在一起,搭出人形,都很可能让它走起来或者干点活。
不急于商业化
问:宇树和其他人形机器人公司最大的不同点是什么?
王兴兴:宇树目前主要做高性能机器人,未来希望做全球最领先的、能给大家产生价值的机器人,无论是四足还是人形机器人,我们都愿意去做。形态是非常自由的一件事情。如果说和别的公司不一样,那就是我们发展时间更长,产品成熟度更好一些。
问:现在宇树的商业化进展是一个什么阶段?人形机器人在哪些场景落地比较多?
王兴兴:我们很早就开始做商业化,2016年成立,2017年开始预售接订单,2018年正式发布。人形机器人的客户目前比较杂,有个人用户、科研教育公司、AI公司、科技公司,还有一些工厂。
问:最近智元也有产品发布,他们看上去尤为在意商业化进展,但宇树似乎淡定一些?
王兴兴:我们确实不是特别急,还是希望能把产品做得更好之后再去推商业化,但也不排斥。现在会有一些公司合作,但我们产品太多了,不可能把所有事情都宣传得很到位,所以大家不太知道。
问:早期业界普遍不看好人形机器人,宇树怎么看待外界的声音?对于人形机器人的发展策略,宇树是有自己明确的发展规划,还是随着社会共识变化而改变?
王兴兴:基本上还是遵循社会共识。雷总说过,顺势而为,做得太早或太晚,都是非常不好的一件事。
以前有很多投资人问我,你们做不做人形机器人?我斩钉截铁地说,我不做。我在大一寒假就做过仿生机器人,但产品没有达到我的预期。当时全球的人形机器人都不是特别理想,性能上不去,也没办法到能干活的阶段,所以我当时就决定不做了。
但到2021、2022年,在马斯克的带领下,全球开始非常关注人形机器人,尤其是2022年底大模型诞生之后,AI技术产生了明显的质变,也开始有客户找上我们。社会的共识足够了,有人愿意买,我们才会做。
问:很多具身智能公司会把宇树定位成机器人的“身体”,自己则是机器人的“大脑”,你认可这样的说法吗?软硬件企业未来更多会走向竞争还是合作?
王兴兴:非常欢迎客户用我们的硬件,哪怕把我软件全删了,我们也非常欢迎,初衷还是希望更多人来用我们的机器人。
定位这个问题,我们过去有跟一些AI公司合作,自己也会做一些AI,如果完全不做的话,大家不知道我们机器人AI效果怎么样,总要有一个初始的软件系统。但我们对AI的投资是比较克制的,因为太烧钱了。
机器人肯定是我们的立身之本,同时也欢迎和各种大模型公司合作,特别是愿意在我们的产品上标配做得好的大模型,把我们的软件替换成它的也可以。
问:资本进入之后,会不会跟原有的研发团队产生路线上的分歧?是否会针对投资方美团的业务推出一些特定机器人?
王兴兴:我们融资和估值还是比较克制的,投资方对具体的公司管理不怎么参与。一件事情能做或是不做,他们不太会有大的意见。美团确实是我们最大的股东,后续也可能有合作的机会。
问:今年国内很多机器人宣布进厂打工,但大多不具备实际操纵的能力,你怎么看?宇树机器人针对工厂端的落地有哪些规划?
王兴兴:这的确是一个趋势,但目前还没有形成商业闭环,即产生的商业价值是正向的,要比人的成本更低。我们公司目前主要是卖本体的,并不是说一定要做工业,如果科研、教育公司买我们的产品,或者个人用户买来玩,也完全欢迎。
但工业领域也在推进,比如去做一些生产资料分配或者简单的搬运,推进的速度没那么快。我们对这个行业还是比较有耐心的,不会把自己逼那么紧,更多还是尊重市场的反应。等到技术和产品大家接触到一定程度,有一些商业推广的苗头了,我们再大规模推广。
问:未来在研发上的迭代方向是怎样的?
王兴兴:成本更加合理,性能和外观做得更好,用户体验才能更好,这是最主要的大方向。再者,要时刻了解全球的技术和产品导向,不能松懈,不能觉得今天已经做得不错了,未来一两年就不改进了。
机器人离“iPhone时刻”还远
问:是否认同“今年是人形机器人的商用元年”?
王兴兴:今年的体量其实很小,即使在商业化的情况下,有些公司最多也就小几十台这种级别。我个人不是很喜欢这个定义。
问:预计通用机器人领域何时会出现“iPhone时刻”?AI化模型给机器人带来了哪些明显的能力提升,目前还存在哪些挑战?
王兴兴:还是稍微有点远。iPhone的出现是综合性技术的突破,原来已经有了触摸屏、CPU、交互界面,然后乔布斯提出了终极产品构想,再把这些技术都整合在一起(才有了iPhone)。
可能现在大家还觉得机器人有点傻,就只能干一些固定的活,但我觉得今年年底之前,至少全球有一家公司能把通用机器人的AI模型做出来。当然,这个只是接口,也不是“iPhone时刻”。真正的“iPhone时刻”,还是希望在工业或服务业有终端产品的出现,行业的出货量暴增,可能还要三四年,但不会超过五年。
ChatGPT没出来之前,大家觉得大语言模型的东西很散,什么都干不了,出来以后就不一样了。我们做的很多机器人也是这样,可能今天还在地上打滚,突然训练出一个模型,放上去之后就非常智能,所以我比较乐观。
问:技术层面,人形机器人目前最大的挑战在哪里?
王兴兴:最大的限制门槛还是AI方面不太够,机器人AI的能力在全球范围都没有达到一个像初代ChatGPT那样的水平。
模型、AI训练数据集、AI产品的落地部署、硬件层面都远远不够,但这不是理论上的门槛。工程上就是要把成本做得更低,外观做得更极致、功能更丰富,这是工程问题,这部分时间是可以预估的。
如果今天有人把AI机器人的通用模型做出来,找我们定制人形机器人,我可以保证年底之前就能完成,做10万个人形机器人都行。我加大产能和研发效率,投大量的人,甚至通宵都没问题,因为硬件本身不是问题,最大的问题还是机器人的AI能力没有足够的突破。
当然,硬件也要继续完善,比如电池容量做更大,减速机的寿命可以做得更长,负载能力更好,灵巧操作的精度更高,视觉感知的分辨率更高,执行速度更快,但这些都不是最大的限制。
问:现阶段的大模型可以解决人形机器人哪些技术问题?大模型和AI的应用有望降低机器人的研发成本吗?
王兴兴:目前大家说大模型时,多是指大语言模型或者多模态模型,这部分可以给机器人用,但不是全部。机器人要发展下去,单纯的大语言模型是不够的。
例如在工厂里做事的机器人,完全不用说话,给他布置一个任务,看一张照片,或者敲一个数字进去,让他干活就行了。无论是在工厂拧螺丝,还是在家洗衣做饭,机器人最主要的还是要能干活。对话的话,一部手机就可以做得很好。
对于干活这个点,目前的大语言模型可以用到一部分,但更多是要做一个机器人的模型出来,比如把图像数据、关节指令数据、激光雷达或者别的数据加到里面。特斯拉最近就在招数据的采集工人,然后去做训练,待遇也不错。这和大语言模型没多大关系,更多是模仿学习。
目前整个体系不太成熟,包括机器人应该在哪里装相机、装几个、传感器数据怎么采,要不要数据传感器等问题。国外有些流派,他连灵巧手都不想用,只想用个爪子,但有些就希望手指更加灵活,每个手指上有丰富的传感器。每个人的想法都不太一样,很难评价哪个路线是错误的。
问:你之前提过会考虑在机器人上添加更多的触觉感知,触觉的重要性在哪儿?瓶颈是什么?
王兴兴:触觉非常重要。假设一个人全身皮肤的触觉都丧失了,影响会非常大,可能抓不住东西,走路也会跌倒。但目前的触觉确实做得非常糟糕,很多机械臂基本上没有触觉。这个事情不好做,它要求灵敏度,意味着要部署成百上千个触点或者触觉传感器,万一磕碰,损坏的概率是非常大的,这也是做触觉最大的瓶颈和量产的挑战。如果一台机器人全身有1000个触点,那量产一定要保证做得非常好,想想都是令人崩溃的事情。
问:物理交互可以加深模仿和强化学习,但这项技术现在还不成熟,之后可以如何改进?
王兴兴:我一直觉得物理交互非常重要,要真正让机器人去生活中帮忙处理事情,如果只用虚拟的数据去训练是远远不够的。虚拟数据最多达到一种程度,即大概知道要干什么,比如往前走,或者把什么东西放在一起,但要组装精密零部件这类工作,误差会比较大,没办法完全契合地进行实物操作。还是要非常有必要去做一些实物训练,把最后的闭环跑通。
问:你多次提到机器人最重要的就是干活,有没有什么具体的期待?
王兴兴:干活也分好几个阶段,当下的AI可以做一些模仿学习的措施,如果是固定工位,比如说把一个电池从这里拿到那里,全球很多公司都能做,成功率基本上接近100%。
更进一步的话,还是希望它能在工厂里做更复杂一点的事情。比如拆装零部件,或者做一些农业相关的工作,就不是简单的抓取,这件事明后年基本就可以做了。
终极阶段,希望真的非常通用,比如随便给一个人形机器看一张照片或者说一下,它就可以组装产品或者整理桌子,即使它完全没见过桌子原本长什么样。
最主要的还是AI软件去发力。AI软件没有突破,硬件做得再好也不行。我一直有个感觉,现在人形机器人需要克制一下,不要把自己做着做着变成一家传统自动化公司。你要跟自动化行业卷效率是永远卷不过的,还是要把AI软件做好之后,去做一些更有价值的事情。
问:机器人行业借助AI热度重新火起来后,产业端和销售端相较于过去有哪些明显的不同?
王兴兴:变化非常大。与过去几十年比,最近一两年新的AI和机器人浪潮完全是两个世界,技术的认可度和资本的热度都不一样,全球的大公司、中小企业、地方政府都非常关注机器人。但由于它还只能做一些固定的事情,大家不太满意,整个行业发展跟通用AI落后了差不多10年的。我觉得会慢慢赶上来,因为有更多的聪明人、更多的资本和关注进来了。
问:现在机器人都还在投入期,预计何时能到盈亏平衡?
王兴兴:具体要看怎么算。我们还是保留了合理的利润,希望有更多的机器人出货量,这是最重要的。
如果投入大量的AI与人力,可能很难实现盈亏平衡,因为AI太烧钱了。我们对AI的投入相对克制一些。
问:大模型领域很信仰堆算力,人形机器人能否靠投入大量的数据和算力把通用模型搞得更好?
王兴兴:如果对大公司或者底子比较厚的公司,有财力和人力,可以多投入一点,但我们还是要算账。
其实国内大公司对AI的投入也是比较克制的,团队大一点的可能有小几百人,少一点不过几十个人。目前机器人的通用AI模型技术路线没那么清晰,如果投入过多的财力和人力,会有使不上劲的感觉。
OpenAI当时投入大,是他们内部已经验证了模型是OK的,再加算力和资源效果愈发明显,那就得加大投入。而在机器人领域,现在很难说哪个方向特别正确。特斯拉要搞的模仿学习可能堆数据是有效果,但更大的验证不太确定。
问:如何看待当下机器人行业的竞争格局?中小公司的机会在哪里?
王兴兴:中小公司竞争也是我一直在考虑的问题。最重要的是得保持对前沿技术的敏感度,得看到未来,要足够灵活。如果能预估未来一两年甚至五年以后的技术路线和行业格局,提前布局,肯定死不了。
这方面大公司反倒有点难,因为内部流程复杂、团队间有竞争,资源沟通的顺畅性(比较低),甚至有时大公司招人都没有小公司方便。
问:中国、日本和美国在人形机器人领域算是跑得比较快的,你觉得中国企业拥有哪些优势?
王兴兴:每个国家都有自己的特点,而且做得都还不错。中国的优势可能在于工业底子比较厚,劣势就是AI人才非常缺乏,整个教育体系对AI人才的培养还是不太够。
转载来源:界面新闻 作者:陆柯言