大家好,欢迎收听本期玩点聊。这期的主播是关注具身智能的宇童。
今天我们非常荣幸地邀请到了高阳老师。他是清华大学交叉信息研究院的助理教授,同时也是具身智能公司千寻的联合创始人和首席科学家。高阳老师在具身智能领域深耕多年,他是清华计算机系的本科和UC Berkeley的博士。UC Berkeley现在已经成为近期具身智能热潮的重要发源地,这得益于Trival、Pieter和Sergi这几位教授在机器人学习领域的卓越成就。
高阳老师在博士和博士后期间,师从国际计算机视觉大师Trival,并与Pieter和Sergi有深入的合作。2020年从Berkeley回国后,高阳加入清华大学,并在2024年和韩风涛共同创立了千寻智能,致力于推动具身智能的技术摸高。成立至今,千寻已经获得了来自阿美风险投资旗下Persperity 7 Ventures、博瑞资本和鸿辉基金等机构的三轮融资,也发布了自研的VLA Spirit V1抢先板,让机器人可以实现叠衣服全流程的顺畅操作。
我们认为具身智能是个非共识行业,但在高阳看来,这已经是坍缩收敛后的结果。在今天的对话中,高阳将与我们分享他对具身智能的认知,比如为什么大家都在做人形,为什么端到端的VLA是具身智能共识,为什么叠衣服这样的操作会成为具身智能领域的智商测试,具身智能的scaling law从何而来等技术议题。
高老师先自我介绍一下,跟我的听众朋友打个招呼。
大家好,我是高阳。我现在是清华大学交叉信息研究院的助理教授,然后也是千寻智能、巨神机器人公司的联合创始人。
你是什么时候从伯克利回国,然后到清华任职的?
我是2020年8月份从伯克利回中国,然后就直接入职清华,然后交叉信息研究院当助理教授,然后是在2024年开始和韩老师一起创业,做具身智能。
你当时决定创业的时刻是什么时候?
我觉得应该是有一个moment,就是突然意识到我现在就是要做这件事情。因为我之前一直在做教授,所以我大多数时间都在想,研究里面下一个研究课题怎么去选,这是我在科研里面大多数时候想的这个问题。
然后在某一些瞬间,我会觉得这个研究好像没有那么多可做了,因为你能看到这个范式的变化,而这个范式可能会终结掉这个研究的领域。这怎么理解呢?比如说,有很多科研领域大家经常会说,这个论文出来之后,这个领域就不用继续做了,因为基本的问题都已经解决完了,就没有什么问题需要去解决了。
然后剩下的问题只是说把这些解决的方法在工程上做得更好,就像现在的大模型一样。其实大家在学校做自然语言处理的老师,可能除了AI safety之外,还有比较多的问题可以做。其他的这个角度,尤其是可能解决我们日常这些任务的角度,你已经很难有什么东西可以去做,因为GPT-4已经把这个东西做得非常非常好了。
所以某种程度上,大原模型已经进入到这样一个阶段,这个阶段是说,做科研的人仍然有东西做,但没有那么多需要探索的方向。大概在2023年,我开始感觉到这种情况。
我觉得机械人的在科学的这个角度发展,也会逐渐地往大原模型这个成熟的阶段上走。对于科学家来讲,你会有越来越少的事情需要去做,因为这个东西越来越成熟了。
但是从工程和社会的角度来讲,这却是一个很好的事情,因为我们真的可以开始享受到这个技术带给我们的福利。从那个时刻开始,我就决定去做一个创业公司。
当时知乎上有一篇文章是讲具身智能是什么,为什么这个东西很重要。那篇文章并不是我写的,也不是任何科学家写的,而是韩风涛写的。那篇我也看过,我之前其实也是听说过洛史,但我没有听说过韩老师。看了那篇文章后,我觉得,虽然那篇文章在我看来可以写的水平也就那样,但怎么说呢,大思路是非常正确的。
他当时讲的大思路是,原来的机器人的应用方式是一个人编写程序,我们通过编写程序让机器人在现实中做事情,但这局限性很大,很多东西你没有办法编写程序去做。因此我们需要人工智能让机器人能做更多的事情,并且这一波大模型的变化过程之中,赋予了机器人做通用事情的技术基础。这篇文章主要讲的是这个观点,在当时有给大家科普的性质。但它其实比我总结的更加细致一些。
我自己因为在这个行业待了很多年,所以我认为这是非常理所当然的事情。但我觉得有一个人,原来是一个比较传统的产业方的人,却这么open-minded,并且愿意相信这些事情,我觉得这是一个非常难得的东西。
你当时还有见到其他一些产业方的人吗?因为我理解,科学家对产业和商业的理解往往会比较少。我觉得像产业老炮,加上年轻科学家的组合,确实是一个不错的配置。我相信也是很多投资人愿意相信你们的原因。
其实市面上已经有的这些公司,我基本上都聊过一遍了。另一个也是因为他们有过创业经历,并且落实的是一家做得比较不错的公司。我们在做的,实际上是一个机器人的生意,尽管这和传统机器人的逻辑非常不一样。尤其在中国,机器人公司的逻辑往往是国产平替,所以会有点打价格战,但我们现在做的是更像open AI在做的东西。
我去问那些投资人,他们告诉我,他聊过市面上所有的具身智能公司,然后选了一家均分最高的,就是你们。他对你们的评价都是觉得你们非常务实,尤其是在场景和商业方面。虽然你们没有给出非常具体的答案,但你们把自己的推导过程告诉他,这在很多投资人看来是非常重要的。
对,我觉得基本上大家都是这么评价的。但我觉得融资这件事可能也不能太务实,还是得说一些比较宏大的理想,可能才会做得比较好。我们和韩总也在不断改进这一块。
你现在应该还和导师以及美国的同学交流比较多吧?你觉得在做具身智能的角度,美国最近有什么最新的观点、趋势或者路径可以跟我们分享一下吗?
我觉得可能公众不太了解,但比如说Figure,他们发布了Figure 02,我觉得这是一个看起来很炫酷的机器人,并且他们做了一些很炫酷的事情。可以先给我们的听众简单科普一下Figure 02大概做了一些什么。
Figure 02有两个全人型的机器人,站在一个厨房的场景里面。人类给他们一袋从商店买回来的购物袋,倒在桌面上,然后告诉这两个机器人“你们帮我把这个东西收一下”。这两个机器人看到这些东西,判断“这是牛奶,我应该放冰箱”,就会自己打开冰箱,把牛奶放进去;类似的,它们会将其他物品放到对应的地方,并且这两个机器人之间可以说话、合作,拥有常识,知道每个东西该放到哪里。
这是一个展示了美国目前在具身智能领域做得比较好的实力的案例。你觉得有没有具体的方式、方法是我们可以借鉴的?
Figure他们去展示时,讲了他们使用了快慢系统,包括机器人的工业设计也做得很好,机器人的柔顺度也表现得很出色。我觉得这些都是我们可以学习的。这方面,国内其实大部分公司也都在做这件事情。
你觉得他们更优秀的地方在什么地方?具体哪些细节可以看到他们的动作很丝滑?
国内我还没听说哪家公司真的把快慢系统做出来,并且用到他们的VLA里面。快慢系统的难点在于工程实现,要把动作做得很丝滑,同时又能优化速度。我觉得想象这些可能需要很多工程上的工作。
就是工程上的工作需要不断试验,不断反复的尝试是这个意思吗?
对,明白了。那么你觉得中国有哪些发展是在你的观察中,可能比美国更领先的一些方面?
我觉得中国在基础硬件制造方面,整体还是比美国要领先很多。这些美国的朋友会告诉我,他们在公司里买了很多中国的机器人。有些朋友说,“不好意思,我们用你的机器人”,但他们不担心坏了怎么去修,他们说这个修起来很麻烦。
对,很多人就会问我们,你们这个机器坏了怎么办?我觉得你这个问题问得特别好,这就是一个行业里必须要问到的实际问题。
他们的解决方式是让一些公司寄一些备件,然后自己去修。但对于他们而言,这会消耗很多人力,而且他们也需要备很多备件,过程确实挺麻烦的。
那美国会有什么部门专门来负责修复吗?他们的机器人会出现哪些常见问题呢?
一般来说,假如是在实验室做一些高强度的实验,机器人可能会很快出现问题,比如它的手一不小心就甩出去了,导致手臂不再好用。我们在实验中做一些高动态的任务时,它的脚踝可能会裂掉。
这样对于你们自己做本体会有哪些启发?
其实我们公司自己也在做本体,也遇到很多硬件问题,但因为我们有很多内部的工程师,所以大多数问题能在一两天内解决掉。
我觉得这个点还是中国相较于美国有很大的优势,尤其是在修理机器上。这在我们公司里也是一项很重要的优势。
你会怎么为具身智能的行业发展阶段划分阶段?有的人比如说像我们采访一些支架的人,他们会用L来划分,比如说机器人巨神的共用是L3级别,或者现在我们处在什么L0级别。
其实这个问题我和韩总这周一还在讨论。但我们自己的定义是,首先L0对应的是工业机器人,也就是没有智能。L1是是在一个单一的任务上有智能,比如说在工厂里完成打螺丝这个任务;L2的智能是可以在办公室里完成少数几件事情,比如说给我打一杯咖啡、收拾桌子等,可能会有五六七八件事。我们把这个称之为L2。
而L3则是在一个物理的场景中,比如说办公室场景,能够达到70%到80%人类能做的事情。
这个阶段是一个比较大的跨越,因为L2只是少数几项任务,而L3的能力范围扩大了很多。至于L4,就是在单一场景能够完成所有人类能做的事情,比如Waymo在三藩市的自动驾驶。 这个就我们定义为L4。
那么L5呢?就是说你不局限于单一场景。你可以在任意场景,不仅是我的写字楼,我可以在我的家里面,我可以在便利店,我可以在工厂里面,都可以做到任何的事情。对,所以这是就是像我们拍脑袋自己去定义的一个level。
那你觉得现在在什么阶段?我们现在其实已经过了L1的阶段,但是我们在approach L2这个阶段。你是指的是迁循还是说整个行业?整个行业的最好的视频也是这样,对我们也是这样。明白,在接近L2的过程当中,对,明白。
问一个大家都会比较关心的问题,就是聚生智能一定是等于人型机器人吗?为什么现在大部分做聚生智能的公司都还是在做人型这个品类?就一定需要人型吗?不一定要人型,其实它完全不一定要人型。比如说其实L1这个事情,你完全可以是一个工业的单个的一个GGB就可以去做。但比如说如果你要去做L2的话,可能大部分时间你需要一个双臂,因为很多时候你需要两个手一起配合去完成一件事情,并且你需要移动的一个装置,因为你需要到各种各样的地方。最简单的方式就是一个移动的一个底盘。所以就是你为了完成L2的任务,最少需要两个手和一个底盘。
那这也是我们这个物理的形态,但我觉得脚就双足它是一个没有那么刚需,但你可以去更多地形的这样的一个形态。但是我觉得它尤其是双足,短期内是一个非必需的一个东西。双足可能会在L级里面称为一个必需的东西,如果仅仅是在办公室场景的话,可能到L4和L4之前都不是必需的。对,但是如果你选这个场景是一个比如说操场上,那可能你L2就要做这个事情。明白,所以还是要看选择切入的,首先突破的这个方向是什么。
刚才你也提到的就是说,可能再到L4,比如说室内场景在L4之前,可能都不需要做双足的这个能力。可能有那么能力,但是就是确实台里面也有一些,可能更擅长做双足做运控的人认为说你先做上半身,就是等于当时先势力先做增程车嘛,那你最后还是要补上你的该需要的这个能力。你是怎么看这件事?我同意啊,觉得这个是之后补就可以了。
你觉得这个是简单吗?我逻辑是这样,我逻辑说现在底盘这个东西已经非常成熟了。但是我们其实见到的这种基础底盘,指轮式底盘,对,轮式底盘。但我现在见到的基础轮式底盘的机器人其实非常少。比如说可能只有酒店松露机器人,对吧,它是一个基础底盘的,在线中被单位部署的一个机器人。但其他的比如说办公室厂店里面,并没有这样的东西。那为什么呢?其实主要并不是说底盘它不够好,而是说我光有一个底盘我没有手,就我没有用。我只能是在一个地方,我需要人去给我装东西,另一个地方我还需要一个人去给我卸东西。
那么这里面的核心就是说,如果你没有操作能力,你只有移动能力,它的价值是非常小的。因为我们现在已经有很好的一些移动能力的一个硬件,但是我们在日常生活里面并没有见到它去被适用。所以我们解决一个问题,肯定要挑它的主要矛盾去解决。所以我认为现在的主要矛盾是你的手上的操作能力,而非你的底盘能力,或者你的locomotion就是双足的这个能力。然后我同样也认可未来我们需要补足双足的这个能力,但是现实的情况是可能我们在相当长的一段时间之内,或者出货量最大的机器人的形态都是轮式底盘加双臂。因为这已经可以去解决那些80%的场景能被机器人解决的场景。
那么在未来,当然你为了解决剩下20%的场景,你需要双足。比如你要上下楼梯,对吧,这个机器人这个轮式底盘不能上下楼梯,或者你要去操场上,你要去什么野外,那你肯定需要双足的这个能力。但是它是剩下20%的场景。因为大家一定会倾向于用更简单的解决方案,先解决那些能解决的场景。对,所以我觉得这个东西是我们未来需要去做的。你是从场景的角度上出发,觉得是说现在去做双足不是一个性价比很高的事情,对,对。
那你觉得双足的难度是怎么样的?因为其实之前我也听其他的一些做精神智能的人提过,有人的想法是双足是好补的,因为像您刚才的逻辑,可以等到其他做双足的人把科研给突破之后,我们去补齐其实是好补的。那同样也有人跟我提过,其实双足是比操作更难做的,因为双足对到很多稳定性的事情。比如说我们小孩在很小的时候,他的手就会去操作很多东西,但他要学会走、学会跑,要到很大的年纪。对这个技术上你是怎么判断的?
我个人认为双足的技术还是比较简单的。对,因为首先我在期划实验室也做双足和四足。然后我们最近刚好做了一个项目,就是关于平衡性的。当然我们做平衡性之前也做了双足的行走,然后实际上它没有那么难。就是以现在的科研的这个领域的水平来讲,把一个双足的一个策略,当然不是说他走得非常好,去让他在物理世界里走,没有那么困难。这个东西就是我们实验室能做,我相信可能很多其他实验室也能做。虽然可能你为了把它做到工业级的这个稳定,你还有一些功夫要做,但是这里面没有本质的卡点。
对,甚至在我们实验室我们也在做一些高度平衡性的东西。比如说有一个我们做的叫厌室平衡,就一个腿站着,然后你的双手冲前,另一条腿冲后,然后这个动作我们都能做出来。就是瑜伽那个,对对对。然后还有一些像什么李小龙那种,一条腿站着那条腿踢起来,类似这种。所以我觉得这个东西从技术难度上,它其实没有那么难。对,一定要双腿吧?有没有可能是吗?没有开始,对,四条腿然后上面两只手,像那个人行马那种。半人马是吧?对啊,腾炫他们之前就做了类似的形态的一个东西,我觉得是可以的。
四足的稳定性会比双足更好,对吧?对,非常多。对就是Again,agantan它的应用场景会有一些局限性,因为相当于你四足要占领更多的空间嘛。它可能用的场合会稍微有一些局限性,但是我觉得可能未来会有一个极限品类是这样的,卖点是张立哥。对,卖点是我站得更稳,不可能也是有可能的,明白。
那比如说像你刚才提到的,双臂、移动能力、双臂这样的形态,它一定是需要一个人的上半身了。对,因为大家都会在说,其实好像只要操作能力强就可以,但是还是会忍不住做一个上半身,就是有一个躯干,然后加上一个脑袋。对,那一定是要这样的形态吗?哦,我明白你的问题。你的问题是说,能不能我脑袋长在下面,或者说它一定要脑袋吗?就是能不能只是两个机械臂。如果真的只是,双手的这个操作是最重要的话。是这样,因为你需要就是有相机去观察这种场景。
所以非常自然的,你需要一个相机装在比较高的一个位置上。嗯,它可以不是一个脑袋,但它需要在上面有一个东西能去俯视这个全图。那这个高度也一定是要像特斯拉的Optimus是1米73吗?不一定,你可以稍微高一些,可以稍微矮一些。但是现实的情况是说,我们的物理世界是为人设计的。就是室内场景是为人设计的。对,尤其是室内场景是为人设计的。
所以你可以设计一些奇怪的一些机器人的一些构型,但是你会发现,如果你仿造人去做,它物理上一定是可行的。因为所有的场景都是为人设计的。如果这个东西人的物理是不可行的,那么这个场景也不会存在。比如说这个桌子,基本上都是75厘米高。如果你做了一个机器人,它只有1米2,它可能这个桌子里面的东西就够不太着。它如果它的手有两米长,它可以折叠。它可以不用时收起来,它用的时候它折叠出两米,它也可以勾到这个桌子。我觉得是可行的。
就是如果你有一个胳膊,像登山杖一样,它是可以一直长长长长长的九节边,然后去抓一些,最后再收回来。我觉得应该也是可以的。哦,对,只是说大多数场景你不太需要那么长的胳膊。背后的一个问题是说,大家现在都在扎堆做这样人的形态,那到底是从一个需求的角度出发,还是说从技术眼镜来说,这个人的形态可能是,比如说最省力的?就是从科研成本的角度出发,还是说从心态度出发,还是因为需要出发?
对,实际上本质原因是因为世界是为人设计的。所以人形从物理形态上你可以确保它可以解决基本上所有的问题。嗯,明白。就是说如果等到真的就是机器人统治世界那天,然后他们可以设计出符合自己产品的对形态的那些东西之后,那也不一定是人形的形态。对, 就是从亨利福特时代的流水线开始,工业生产逻辑就是分工细化。
为什么现在我们却希望用一个机器人来解决大量通用的问题?因为我们现在有很多很多问题,如果你为每一个问题,专门设计一套机器方案,它需要付出一定的固定成本。但是如果你有一个通用的机器人的话,像你赋予了这个机器人的硬件设计、人工智能系统,然后你只需要赋予这个机器人做不同任务的AI能力,你就可以去做到各种各样不同的事情。
所以它并不违反就是工业革命或者工业生产降低成本这个事情。那为什么以前是追求精细化的本质也是为了追求更低的成本?所以更通用也是为了追求更低的成本。对,就它们俩是不矛盾的。因为其实我们有了比如说通用人形机器人,我们也不会用它来比如生产塑料杯,因为塑料杯就是用模具去生产的最快的。
所以未来有可能会存在通用的机器人和精细的这种比如说机械臂一起用的场景。对,是的,这样并不冲突。对,那他们会比如说在工业场景里面解决哪些问题吗?对,其实我们现在就在做一些工业场景,然后这些场景里面是很难被这些专用的机器人都做解决好的。
所以这些问题就是仍然是需要,有一些肯定不是减电池啊,或者不是减电池,就是比如说汽车厂里面这个装配的总装线,安一个大灯啊、安一个座椅啊这些仍然是要人手工去做的。所以比如说这些活它是没有办法被传统的机械臂所解决的,它仍然是需要通用形态的机器人去解决。有人会认为现在就是做这件事情的人的成本会比机器人的成本更低。从成本的角度上来说,这个会比划算。
对,现在的确是这样的。不过我只是举几个例子,就是说为什么工厂里仍然有人,因为现在还解决不了这些事情。当然就有一些人会比较便宜,有一些人会比较贵,有一些人的量会比较大。那么在工业里面就肯定会优先去做那些量比较大的一些事情,就是只有在前期才能算得过来账。到后期是不是说,比如说一个人型机器人如果能用很久,它是足够cover,比如说我一个人几年的成本的话,那这个账也是能算得过来的。
对的,然后下面可能还是会讨论一些就是共识和非共识的这样一些情况。因为我觉得具身智能发展到现在,确实会有一些,我觉得大家都在各说各话的感觉,然后我觉得谁也证明不了别人是错的,倒是也比较有一套逻辑。然后我觉得您是中国既有产业背景,又有海外留学经历,然后其实是对这个技术。
并且您在伯克利的时候,其实是在两个实验室,就是视觉和强化学习,其实都待过。我觉得您应该对这件事情有更全面的思考。所以我接下来可能会抛给您一些这个行业里面,大家都在讨论的一些非共识的情况。首先一个就是关于现在,比如说走向具身智能是端到端的这个路线会更容易走向具身智能,还是说现在当然有些人在做分层,您是怎么看的?
我觉得这个肯定是端到端,这个基本上,我觉得行业内,可能只有少数人不这么认同,但大多数人都会认同一定是端到端的。其实这个背后逻辑,已经在自动驾驶经过这么十多年的发展,已经基本上所有自动驾驶的人都在开始去做端到端,因为大家发现手动去做分层,这个事情不靠谱。
对,这里我跟读者们介绍一下端到端。端到端其实就是相当于,我们收集到的信息,然后我们直接可以给出动作,而不是说中间要, 比如说我们要先接手信息,然后给它转换成什么什么什么,然后再转换成我们的具体操作。分层是这样的,对吧?那还想问一下您,这个端到端等于VLA吗?现在大家都在提VLA,就等于吗?
等于,端到端等于VLA。对,因为你的输入输出就是视觉下语言,你输出动作嘛。所以就是VLA就是等下语段到端。VLA就是vision language action,明白。VLA不能解决什么问题?我觉得只要是操作类的,应都可以解决。从你来讲,对操作类应该都可以解决,但实际上呢,我们可能会遇到你实际数量,可能没有那么好使,所以我们需要更好使的传染器,等等等等这些。
我说一下就是现在还是有人选择分层的这个原因是因为分层在现阶段还是一个可能怎么说?更容易实现的这样的一个路径,对吧?工程量更容易实现,对,但是可能就是在您看来,未来一定大家都会走向端到端。分层实现现阶段的一个选择。对。 然后聊到操作这个地方,其实我觉得是你签纯更擅长的这个地方。然后这个地方,要不您先简单的讲一下我们现在的一个思路,然后我们现在能大概做到一个什么程度。
操作加大脑。对,其实我们操作这个角度,我刚才简单讲了,就是端到端的VLA这样的一个模型。因为这个模型就是你刚才说任何一句话,比如说给我倒杯水或者给我做杯咖啡,他就会通过他这个VLA的理解把视觉的这个场景理解和动作去结合起来,生成一串动作来完成这个任务。
然后我们在做的技术方案,其实是把海量的这种互联网级的数据,包括互联网级的图文的数据和互联网级的人类的这种操作的视频结合,也要操作这种精细的微调,再加上最后的强化学习微调,这一套链路综合的去把所有我们能用上的数据都用起来,这样的一个策略。然后我们现在能做到的东西,我们前一段时间也release了一个demo的一个video,就是我们连续去点很多件衣服这样的一个能力。其实对于普通人来讲,大家会觉得这是一个很稀疏平常的事情,但其实对于机器人来讲,第一份这件事情是一个尤其难的一个问题。因为我们日常在操作很多东西的时候,比如说杯子啊什么的,它都是一个钢体,那么你就很容易去理解这个物体的状态,比如说我这个杯子放在哪就是哪,然后我倒水,它就是比较固定的一个行为。
但叠衣服它不一样。叠衣服这个衣服,我从这个洗衣楼里面拿出来,它可能就是折得乱七八糟的,所以你很难把它归属于某一个状态。你需要去理解这个衣服的褶皱是什么样的,你才能理解我到底应该以一个什么样的策略把这个衣服给叠好。所以其实叠衣服对于人类的小孩也是很困难的一个事情,是吗?
对。有一天我跟我一个朋友讲说,我们机器人能叠衣服了,他说哇真的吗?因为他的好像两岁还是三岁的小孩叠不明白衣服,为什么呀?就是因为他的脑子还没有发展。其实这个事难在哪儿?难在你得明白这个衣服这么乱了,你要怎么去撑它,所以他是不能理解乱,对,他是不能理解他是怎么乱的。然后对于这个乱的,你要怎么去处理它。
所以并不是跟他柔软的材质有关系,我以为是比如说他的力度怎么难,不是。不是力度,只是说他这个状态,要理解他的状态,然后把它还原到一个设定的状态,因为他有可能出现各种各样像在思考计算范围内的这个状态。其实对我们成年人而言,我们不会觉得叠衣服是一个比倒杯水或者扔个垃圾更难的事情,但实际上对于小孩而言,对于机器人而言,难点同样都是无法识别状态。
对,我觉得这个就相当于一个聚身智能的智商测试,可能已经是四岁或者五岁小孩的一个智商了。明白,就是为什么是,比如说我理解其实在操作这个过程当中,以及大脑识别的这个过程,还有一些别的难事,这些难点应该有一个顺序,比如说什么更难,什么更简单,更靠后,还有什么可以大家一起去探讨去解决的下一步难题呢?
我觉得我们现在在解的问题是怎么让这个模型能够同时拥有很多能力,包括比如说我告诉她叠衣服,我说这个衣服我不想这么叠,我想那么叠,或者我叠着衣服叠一半,所以我说你给我这衣服里面比如包一个信,我想把这个信藏在这个衣服里等等等等。就是相当于我们现在在解的问题是说其实就是朝着L2去走。
L2就是说多任务,我们到底怎么能把多任务做得很好。我们做多任务的这些,其实对于单个任务而言,叠衣服已经是一个相对来讲非常非常难的一个事情了。单个任务还要比叠衣服更难的吗?还有一些是比较偏精细操作类的,但这些是,如果你有传感器,还是比较容易去做的。
明白,那些就是跟大脑无关了,对吧?对,可能跟大脑就关系比较弱。就比如说可能我想把一个针插到这个缝里面,那它就主要是关乎于你的触觉传感器有多精确。但跟大脑相关的,基本上叠衣服就是最难的事情了。叠衣服这件事情竟然这么难。
对,因为我今天在来的路上,我还在跟我一个朋友讨论,就说为什么大家最近都放了一些跟叠衣服相关的demo,Hugging Face在去年也开源了叠衣服的项目,美国的Fiscal Intention的Piling也能完成叠衣服的操作,那李飞飞的研究团队的论文也已经公开代码了开源,也是能让机器人学会叠衣服等操作,因为它是大任务里面最难的一个东西。
并不是从场景出发,哦,并不是,而是一个技术追求更高更快更强的过程当中必须要做的一件事情。是的,明白。下一步就是你们要多线程操作,是吗?对,比如说是什么?叠衣服的同时我要去,比如说就是相当于你在叠衣服的时候,我要你做一些稀奇古怪的一些事情,然后你能不能也一起完成掉。
所以这个其实还是得靠他的这个大脑的思考,这个是跟什么快系统慢系统有关吗?还是它是什么决定的?这个难题主要还是慢系统来解决的。快系统其实是比较低层的,比如说我抓一个东西,我有没有抓稳,找不稳再重新抓一下等等,这些主要还是在它的慢系统这个方面。这怎么实现呢?
机前的这个操作模型,它是分为快系统和慢系统。你可以理解为快系统它是一个反馈很高频,大概是50赫兹到100赫兹这样的一个频率,很快速的一个反应。这个反应里面主要是对于触觉和一些很底层的视觉的一些反馈,比如说抓一个东西有没有抓到,没抓到我就快速调整一下,我就能抓到了。这是快系统。慢系统是指,比如说我叠了个衣服,你反正说要把信封放在左袖子下面,可能我的慢系统要想,这个信封在哪呢?我现在看一看,对吧?然后我拿到信封之后,我又得去看哪边是左,哪边是右,然后我把它放在左面下面。
这个就是相当于通过慢系统,那这里面主要是视觉的理解,语言的理解,然后通过视觉和语言的理解去产生你的意图。泛化这件事情,它的难度大概是在一个什么阶段?其实我刚才讲的就是L2的L3的提升,其实就是一个主要的挑战,就是一个泛化性的一个挑战。因为你很难能把所有的任务都踩一遍,所以你需要泛化性来支撑你,能够举一反三,比如说我学会抓ABCD四个物体,但我也能一下子抓另外一个,你随便给我一个新版的一个东西,那这就是体现这个泛化性。
我觉得当前对机器人的主要挑战其实就是泛化性,就是我建了一个新的物体,我能不能知道该如何去处理它。这是其实当前的主要挑战,是在叠衣服之后的。叠衣服本身它也有泛化性挑战,比如说不同颜色的衣服,不同类型的衣服,它可能有细微的叠的策略的一些区别。 所以叠衣服本身,既是一个操作本身又很难,同时又具备一定泛化性的这样的一个难题。
对,好的,你们的数据是怎么调的,从哪里来的?然后再怎么调整?对,我们数据主要是分为三个来源,一个是互联网级的文本加图像数据和互联网级的视频数据。那么这些数据就是量非常非常大,它可以让我们模型学会很多常识,但是这些数据它可能没有那么精确,所以我们后面会用真实的操作数据对这个模型进行微调,也就是说所谓的SFT微调。
然后在SFT微调之后呢,我们会继续用强化学习对这个模型进行进一步的微调。那么强化学习的作用就是让这个模型的成功率变得更高。明白,就是互联网的视频数据,它们的质量大概是怎么样的?然后你们有哪些筛选的标准吗?对,它们的质量其实是比较参差不齐的。以及来源,我们基本上就是从一些视频网站上去排一些素材,比如说YouTube这些,它们的就是说实话,它们能用的数据量的比例也就大概1%左右,因为大部分的视频是和人类的这个操作没有什么关系的。
所以能用的比例很少,我们其实基本上会删出来这些跟人类操作强相关的这些视频,其他的就完全不去处理了。对,然后跟人类操作强相关的是,比如说就是第一人称视角这样的一些操作的视频。第一人称视角是最好的,这个就是我之前的理解是互联网视频给机器人训练的主要意图是在于,比如说帮助它去识别,这个是什么,这个是什么,是这样吗?还是说也会让它去学习怎么去操作?
对,也是会学习怎么去操作。就是一方面它会学习什么东西是什么,另一方面它也会学习怎么去操作。对,因为学习什么是什么,这个东西在视觉语言模型里面其实已经基本学到了,然后我们更多在做的就是说让它从视频里面去学,每一个物品到底该怎么去操作,这个怎么学。
这个就像用到我之前的一些学术上的一些论文,比如说我们去预测这个视频里面每一个物体未来的这个轨迹,预测人的手的未来的轨迹,通过这样的方法让它去学到,人是怎么去操作这些物品的。对,我问一个很小白的问题,因为我前段时间其实也看到志员他们也说了类似的,当然我知道这个你们提的是比他们要早很多的,对,他们也在说,当时他们公布说,他们也在从互联网视频数据当中就是去学习训练的时候。我一个自然而然的疑问就是,从作为我们人来说,比如说我们看了很多操作的视频,可能看了很多很多遍,然后我们也还是不会操作。
今天看完他也不会操作,他只是大概明白这个操作大概是这么做的,但他仍然是要去。所以一样也是一个对和不对的这样的一个认知是吗?就是也是认识什么是什么,只不过他的这个什么是动作。对,是的,就是他大概知道这么做是对的,但他可能做得不够精确。 所以他也不能说只看互联网视频他就能够直接去做事,明白。
所以他还是需要您刚才说到的其他的,比如说什么SFT微调,然后加入强化学习。对对对。OK,那您可以再讲一下后面的这一半截日旅程,具体是怎么去调整的,然后分别会发挥什么样的作用。模仿学习,它就相当于让这个动作变得更精准,就像你看视频,你看完之后,你也不知道具体这个零件怎么装,你自己装先才知道。所以模仿学习微调就像做这个事。
那么强化学习的这个微调呢,其实和大元模型是一样的。就是说如果你一直是握着机器人的手去做这件事,不让机器人自己去用他自己的想法去做,那么他总会有那么5%到10%的情况他会失败。好哲学是怎么理解,我想一下,握着他的手做,他就会要操作吧?对对对,就是我举个例子,怎么理解一下,就相当于比如说让你看你的妈妈做菜,但不允许你上手。
你看了他做了十年然后突然有一天,你自己要在你的家里面做,然后你就不知道这个盐我要放多少,对吧,这个菜炒到什么火和我要出锅,因为你从来没有自己去做过这事。所以强化学习的哲学就是说,你为了把这个事做好,你必须得自己去。站中学,所有的运动都一样,就是有点像,但人类我理解是有一些肌肉记忆在去做这件事。对,机器人也是有的,也有他们的记忆,他们的经济,他们的练习。
我们这个词叫什么?就是人的肌肉记忆,他们叫什么?你好发明了一个新的,就是这个,我们没有这个专门的术语,但是的确实类似的机制,机器人也是只是说,人类的这个控制系统,它可能是分布式的一个控制系统,就是你的脑子是一部分,对吧?可能你的每个肌肉也有一些记忆,所以它是一个分布式的,只不过机器人的这个它现在是中心化的,但不排除未来它也会变成。
OK,人是VF3,我觉得这个点还蛮好的,这还很给我启发。其实机器人也是一样,就是机器人在做强化的时候,它也是很长时间,它都不会,然后突然某一次会了,然后之后你每次做总会越来越容易的。 然后突然某一下你会了。然后你未来就非常容易地能去复现这个成功。
那比如说像插USB接口这件事情,你这一次成功了,也会提高它去做类似的,比如说插入了这种事情的成功率。我们管的叫跨任务番话。对,就是相当于一般的番话是,对吧,我倒这个水那个水,就我都是不同的瓶子,不同的杯子,然后我都在做同样的事。但跨任务番话就是,现在我一会儿倒水里,一会儿浇花,我的这个动作都是比较接近的,但是又有一些不同。它们有一些相似性,或者说,对吧,我今天拧这个螺丝,明天我转门把手,然后后天我又拧了灯泡。然后它们之间都是,动作是一致的,只不过是不同的任务。对,对。它们动作也不是完全一致,但有很大的相似性。
那这个你们的训练,比如说会有什么规律可言吧,还是说会很玄学,就是你们也不知道,它哪一次会成功,还是说会有一个,比如说会有什么阶段,比如说它在100后到150次,我瞎说的,就是能在这个阶段的时候,会更容易做成这些事情。强化学习的话,它比较取决于任务的难度。如果任务,它不见得是非得100到150,它就是取决它什么时候能试出来一个东西,它就会一下子,什么东西决定它,就是这个东西取决于我们之前的基因模的训练和这个SFT的做得多好。如果这两个都做得比较好的话,它千万学习就会比较快的能耗使。
这个数据这一块,我还想问一下就是说,其实我觉得现在对于数据的采集和训练方式,其实大家也都还有不同意见。你们现在其实是属于各种,你们都会用,然后并且用在不同的阶段。对,然后有的人可能会更偏向于相信某一个方式会带来跟大家价值,然后其他的作为辅助。比如说有的人会觉得仿真的这个环境,仿真的数据可能会更好,然后像特斯拉,他们其实做要操作的非常非常多。你是怎么看待整个行业就选择不同的这样的方式?
对,我觉得本质其实是大家认知的不同吧,以及擅长的,对,以及擅长的东西的不同。其实大家比如说做访认器的这个公司,他们就有比较多的这种访认器的一些积累,所以这是他们所擅长的,然后也是他们所相信的,所以他们会这么去做。但看到的是这个是大家没有能达成共识的一个点啊,所以大家现在的这个做法也是非常非常不一样。
那你们最主要的是视频学习吗?我们最主要的其实是,就是我们最大的数据量,肯定是互联网上的图文,加上视频。因为这个东西在大元模型里面,已经被证明过无数次。如果你的积模是足够好的,那么你就可以让你的模型变得非常非常强。所有的大模型,他们最重要的一部就是预训练。预训练你就是要爬非常非常多的数据,然后把你的积模做得非常非常好。
之前我看你的资料已经提到说你带领团队发现了Data Scaling Now。对,就是具身智能的这个数据,不知道Scaling Now怎么翻译成中文,好像没有人翻译。对,这个确实是在具身智能领域也有Scaling Now的存在吗?
对,是这样。就我们发现具身智能里面的这个Scaling的性质就和大模型是一模一样的。对,数据越大了,相当于数据和你的性能的我们叫Optimality Gap,就是和自由的差距是Log Linear的一个关系。就是你的数据取Log之后和你的性能的这个,就和你的Ultimality Gap是一个线性的一个关系。换句话说,我多采十倍的数据,我的性能就会多一个九,就是99.9到99.99这样的一个东西。就粗糙来讲是这意思。
这个你觉得是一个多大范围的公式?就是具身智能也有Scaling Now的这件事情,论文里验证的是规模没有那么大,因为我们也没有采那么多数据,大概是一个十到几十万这样的一个量级的一个区间。对,这个规律都是成立的。
你觉得像要做出具身智能的GPT3,大概数据量会要占什么?我们其实预估过做到3.5的话,按照我们的技术线啊,按照大概会需要100亿条互联网的视频。这100亿条是有效的还是?有效的。有效的,那就是你说的质量是1%,那就是我们至少要去学习100亿的100倍的数据。就是我们从100亿的100倍的数据里面筛到100亿,然后加上一亿条的摇操作的数据,再加上大概小几千万的千万学习的数据。
对,那这个现在我们互联网,互联网已有的这些数据,你测算大概是在一个什么样的范围内?现在其实我们测算下来互联网上已有的视频,就是能够用的视频,大概也就100亿条。所以就是要学完所有的。这件事情会是一个时间很久的事情。我们预计算下来的计算下来的视频,我们预计可能大概需要我们4到5年。4到5年。
对,明白。就你说的这个是在视频数据的角度成立,但如果是比如说我这家公司,当然我觉得摇操可能是不太可能实现去搞到100亿的数据,这太累了。对,比如说他仿真他有可能仿到100亿,那这样如果是他仿到的数据的话,这个也成立吗?
是这样,仿真的数据其实不成立,因为就是仿真的数据,它的我们叫diversity是有限的。就是对于仿真来讲,你其实不太能数你的数据的条数,是数的那个什么点,是数那个diversity有多大点。但这个东西就很难去量化了。OK,因为一个仿真器如果放到那儿,就是让它一直跑,它可以产生无穷多的数据,但我并不能说它能解决无穷多的问题,因为它的数据的diversity是有限的。
所以对于仿真器的话,就就是说这东西就很难数,就是你可能得数,我的仿真器能够比较真实地去cover我现实世界的多少种任务。这个任务可能就包括,比如说透明的玻璃杯,你能不能够仿,衣服能不能够仿,然后比如说我的椅子是一个上面有一点软下面很硬的这样的一个结构能不能够仿。明白。
所以其实对于仿真数据,它们是有另外一套要求的,可能不是按照数据量来定的。对,所以其实Scaling Law对这样的数据,其实确实是不生效的。对,明白。那你觉得摇操的数据会也存在Scaling Law吗?摇操也是存在的,就只要你摇操的这个diversity足够大,它也是存在的,只不过这个是成本更高。
对,只不过这个成本更高。明白,签决也是做大脑加本体,对吧?对,所以你们也是你们有自己的大脑,大模型,然后去和自己的身体去做配合。对,因为那个像Figer他们也是有这种观点,所以他们之前是跟OPI合作后没有觉得自己做了吗?对,你们从一开始就是选择这个路线。
对,是的。就是如果说是只做大模型,就只做大脑,你觉得会有机会吗?它可能会面临什么问题?我觉得就是只做大脑这个事儿,其实就是你做methodology它是可以做的。但是因为其实像我们每一个人,我们就人其实并不是一个说,我们叫cross embodiment,就是跨巨身的一个能力。人读书跨巨身的能力,就是人不拥有很强的跨巨身的能力。我想表达就是说,一个只做大脑的公司,它可能很难,就像我们所说的这个人有肌肉机。如果你只做大脑,你的这个模型,对于任何的机器人本体都没有肌肉机,所以你很难对于任何一个机器人本体做到,对吧,我很快的什么回家求拍,或者很快的一个任务完成。你可能都需要很慢慢地去把这个东西做好,因为你的这个巨身模型,它没有针对你这个本体的一些特点进行一些肌肉机。
明白,那只做本体不做大脑呢?只做本体不做大脑,它的问题在于说就最大的价值是在大脑端。这个是一个共识吗?就最大价值在大脑的,我觉得是一个共识。
多大范围的共识?因为我们也看到的,比如说像语树这样的公司,他们其实确实不做大脑。对,他们本体能力很强。而且他们还有很多投资的人,抢掉头,他们啊。OK,就是首先就是说,我们其实做本体的能力和十年前、二十年前没有太本质的区别。你的我们是指的我们所有人,世界上所有人,对,但为什么大家突然在做本体了,是因为就是大脑端是有这个变化。
所以以前的机器人的行业,它的总体的这个能为人类产生的价值,可能并没有那么大,是因为我们局限在大脑这一端,能力比较弱。但是因为现在我们有了大脑这个能力,还有可能能在未来把这个东西做成一个千万亿级别的这样一个市场,所以我是觉得这个共识是存在的,就是大脑本身才是最大的价值的一环。
那你怎么看,比如说去做这种灵巧手,就你刚才说到的,比如说我们要去做一个什么插一个什么针,那其实非依靠非常细这种触觉的这种传感器,这个行业里的这些零部件,或者说关节啊,这样的这些厂商,他们会处在一个什么样的位置,然后已经,比如说你们做本体的话,你们会自己做到什么程度,然后哪些东西是你们觉得可以和外界去合作的?
我觉得最后,具身机器人比较像一个汽车的一个产业链。就是说,相当于你需要生产一个本体,然后加一个大脑,它能去为大家去做事情。然后在这个本体之中,也有很多零部件是很困难的,比如说触觉,比如说你的灵巧手,再比如说可能芯片也是一个比较难的一个事情。其实我们的态度是,我们是很开放的去想和整个的产业链一起去把这个本体去做好。但是呢,可能现在有很多事情还没有做得特别好,所以不得不,我们对,产业链上还没有做得特别好,所以我们不得不自己去做。
对,但是其实我们更希望的是这个产业链能走得特别成熟,使得我们有监量多的东西能够和产业链上的所有的人一起来把这个东西做好。因为最后这个东西就肯定是分工越精细,我们会把这事情做得越好,就像现在的这个汽车行业一样,其实整车厂它最后只是去把这个车的spec设计得比较好,那么基本上所有的零部件都是外采的,或者共同研发的。
哎,我可以这样理解吗?前段时间我不知道你看没看,朱孝虎说的那个什么人心机器人的事情,我没有仔细看,就他的RU文是啥。对,他其实最重要的核心论点就是我给你复述一下。就是说觉得人心机器人高度共识,但又没有商业化的路径,然后他说他问了几个CEO,你们的商业化的客户在哪里?朱孝虎觉得这些CEO说的话都是自己想象出来的客户,谁会花十几万买一个机器人去干这些活?
但是我对这件事情,我自己有两个理解,一个是,就是现在是在技术卡坡期,就是我们确实,现在是在一个原型到一个就是技术原理的这样一个过程。我觉得可能你在这个阶段要求人家商业化,我觉得确实有点太早了。对,但是我觉得我确实还是比较想跟你聊一下,你们是怎么看待就是场景这个问题?
对,我们认为其实,正如您所说,就是这个商业化的这个事情是一个。所以你不能要求GPT1在它GPT1的时候就有商业化的能力。但是我们现在到了自给你落的时期了。所以我认为现在你最应该做的是把技术做到GPT4.0,而并不是说去盯着这个商业化到底以我现在的水平该怎么去做。这个东西不是最重要的事情。
但是呢,我们当然也会在这个过程之中去做一些商业化。这个东西主要是为了让我们的公司的这个抗风险能力更强一些。那我们怎么做商业化呢?其实就是沿着我们说的L1 L2,L3 L4这个,我们到达每个阶段就去做L1所能做的事情。比如现在L1,我觉得最能做的就是在工厂里面有一些事情,其实是可以完成的,并且他们愿意花时间去买一个机器。对,只是说,在L1阶段你能找到的商业场景可能没有那么多,因为你的能力是受限的。
但如果你有L2的话,你就可能多了十倍,甚至几十倍的场景可以去做,几何倍数。对,我对他这句话另外一个理解是,现在,学生智能行业最大的问题就是我们刚才聊到,其实我觉得是非共识。太多了。就是大家都在用各自的这个路径去跑,然后每一个路径好像现在目前来看都会有一些成绩,都会能还做出一个比较不错的一个L1的一个状态。我觉得其实这个问题也是想跟您探讨一下。
您觉得,我们不说什么路线是对的,因为我们现在其实是没有办法去验证这件事情的。你觉得到什么阶段会是去收敛?就是我们开始出现,比如说像大模型,我们大家现在就是觉得去做规模这样的,去做用Transformer架构,这个是对的。你觉得大概什么时候会有这种收敛的状态?
我觉得当某公司能跑出L2,甚至跑出L3,应该自然会有关系。你觉得它背后所需要的这些要素有哪些?就是让哪些东西都同时存在,它才可能出现,还是说这个可能就是一个比如说历史是由个人决定的,就是当某一家公司突然想到了,做到了,它就做到了。 我个人认为,现在要素是起倍的。就是说,需要一些时间把它做到。
对,那你刚才的逻辑就是一步一步的,这个链条做完,它就总会到达那个地方。之前看咱们的稿子,形容就是你发现这个 Data Scale in Law,说是最深智能。你觉得这个算是 XHPT 时刻吗?我觉得它是 XHPT 的 Theory Foundation 的时刻,就是它有理论的基础的时刻。它肯定不是说真的 XHPT 时刻,那是 Transformer 提出的时刻吗?就是如果真的要比的话,那最恰当的比喻就是 OpenAI 提了它的 Skin in Law,然后可能在两三年之后,OpenAI 做出来的 GPT-4。但是因为机器的数据更难搞一些,所以我期待这个时间会比那个稍微久一些。
是的,以及我觉得机器权本来它的这个链条也要比纯软件要更长一些。对,那算我们真的有一个非常非常牛的大脑,我们还要去让大脑驯化它的躯体,其实也是比较难的。是的,然后包括还有我们刚才聊到的这个产业链上的一些配合。是的,因为我觉得确实让一家公司把整个身上 body 上的所有东西都做到非常精细,确实我觉得是不太可能的。对,我觉得很困难。
所以其实机身智能如果要等到它的 HPG 时刻,其实是一个非常非常综合的各种要素都要具备的。对吧,要等行业一起陈述。我觉得其实现在的瓶颈还是在 AI 方面,还是在 AI。对,硬件的现在不是短板,还是 AI 是最短的板,最短的板。对,就像它是一个木桶,就是相当于你的木桶,虽然别的也不长,但如果能把 AI 补齐的话,它就对,是一个木盆。
所以其实现在大家会更关注 AI 能力强的聚身智能的团队。对,明白。这提到了你们的这个归国集资,是吧?因为你们其实都是,我觉得算是根正苗红的名门正派,几位其实都是比较擅长做大脑的,大脑型。对,是吧?是的。你怎么界定这归国四次,我想都有谁?许华哲算不出力,就是除了 XO 一样,你们是从同一个单位他就出来了。
许华哲,吴亦,还有谁?陈建宇。对对对,今天那个罗建兰。对对对,他也是我的同学。那其实算是五则。这里给听众朋友们介绍一下,许华哲是现在另外一家聚身智能公司新海图的首席科学家,那陈建宇呢,是聚身智能公司心动纪元的创始人。罗建兰最近刚刚加入估值最高的聚身智能公司志源担任首席科学家,无疑是编赛创始人。之前也在 OpenAI 工作过。
对,其实我们本来在 Berkeley 的时候我们就很熟。你们五个吗?但我们不是说五个人一起,我知道不是小团体,各自都很熟。我当时和许华哲和吴亦,我们都在一层楼,然后我们经常一起吃火锅啊,去打牌什么的。你们这么忙,学家也打牌。我们读博的时候还是挺有时间的。为什么?你是同时在那两个实验室?没有没有,我读博的时候主要还是在 Trevor 的实验室,但我读博的时候跟 Surgay 也有一些合作,然后我博后就像那两个实验室都有一些合作。
对,就是跟 Trevor 和 Peter。明白,挺神奇的。对,其实我们读博的时候并没有想象这么难。对,生活还是比较丰富的。吴亦现在应该不做聚身了,对吧?对,吴亦老师现在主要在做大模型的 alignment。就是,所以你和许华哲是同一个实验室吗?对,你们同一个实验室还有谁?就是还有名人。蒋阳青是我们的实验室,他比较有名的是深度学习,基本上有很多软件的框架,就是现在大家最常用的叫 PyTorch,但其实就是最开始的第一个深度学习框架就用的人比较多的叫 Café,就是蒋阳青写的。
他是你们大很多届的师兄吗?还是?他比我应该大四届还是五届。我记不清了,对,比我大四届左右。他当时写了一个框架叫 Café,然后基本是当时用的最多的深度学习框架。他也非常深度地参与了后来几个比较有名的深度学习框架,包括,比如说 TensorFlow 然后和 PyTorch。你没有同期过吗?我没有同期过,就是我刚去他刚毕业。
然后,我们现在是还有一些外国人,就是跟蒋阳青一起开发 Café 的,有个叫 Evan Schellheimer,他是一个美国人,然后他当时比较有名的一个工作就是做了叫 FCN,是第一个语义分割的一个神经网络。语义分割就是说给你一张图,你把每个物体的边缘都圈出来。这都是 Trevor 实验室。对,都是 Trevor 实验室的。
你最开始的时候其实是不是在另外一个实验室?对,我最开始,最开始是在一个做积带生物的一个实验室,然后我还在一个做理论积极学习的实验室,也听过一段时间组会,反正刚开始就是 rotation 了一下。后来是怎么选择的,就是去跟着 Trevor 去做,然后选择到这个方向的,因为看起来积带机视觉就挺酷的,所以就做了。对,15、16 年那会儿确实就是积带机视觉还是比较火的。
对对对,你那会儿就是已经在做就是积带机视觉加具身机器人的这样的研究了吗?其实最开始并没有,可能是我做到大概博二、博三的时候就开始做,然后最开始做的项目是自动驾驶,就我跟许华哲一起做的自动驾驶的一个项目,然后也是许华哲建 Trevor 族做的第一个项目。这是你学弟。对,他比我小两年。
嗯,所以你是哪一年的?我是 91 年呢,他应该是 93吧,对,好年轻。嗯,那个项目大概是什么情况,你可以介绍一下。对,那个项目是我们做了一个端到端的一个自动驾驶模型。嗯,是哪一年?我想想大概是 16 年。嗯,对 16 年,然后到了现在,25 年,过了 9 年,就是自动驾驶的工业界,当时没有人相信端到端。嗯,然后我们,但就我们从那个年代就已经开始相信端到端,然后一直认为端到端会是未来。
嗯,当然那篇论文在现在的视角来看,这个技术肯定早已经过时了,但是我觉得这个 philosophical 的这个思想,其实是早在那个年代就是我们已经这么去想。当时学界研究端到端纵驾驶的多吗?我们那篇应该是属于比较早的。嗯,其实当时还并不是算多,当时应该有一篇是英伟达做的,断断断自动驾驶。嗯,然后我们那篇相当于用了比英伟达可能大了 100 倍的数据去训练一个自动驾驶一个模型。
嗯,然后就是泛化性啊什么的,都比当时英伟达做的好很多。所以就是相当于我们做机器人,也是从自动驾驶这个角度开始做。嗯,然后后来呢,怎么又开始去做一些跟机器人交叉的这样一些研究?后来其实我们做增加史越做越深,然后我发现其实这里面就增加史的本质问题和机器人的本质问题就是一样的。嗯,因为增加史也是一个你看这个场景,你去控制你一个本体的这样的一个任务。
嗯,对,所以从学术角度来讲,做机器人是一个更加通用的一个控制形态,所以后来我就开始研究这个机器人是怎么去做的。为什么从学术角度机器人是更加通用的形态?因为增加史车它就你只能往前开和转弯,别的事你都干不了。所以相当于你的这个动作的能做的事比较少。嗯,对,但是机器人你能做的事非常非常多,它是一个更难的一个问题,然后也是一个就像研究起来自由度更高的一个问题。嗯,然后所以就决定开始去做。对,你做的第一个课题是什么?
在自动驾驶之后。我们做的第一个课题其实就是把模仿学习和增加学习结合起来。就在当时,我们就做了一个,因为增加学习这个事,它是一个挺难的一个事,就像我们刚才讨论的,你得有第一次成功,它才比较容易有未来的成功。所以我们当时就开始研究这个问题。当然后来我们研究的东西就越来越多,就包括比如说一些更好的增加学习算法呀,然后跟物理的机器人的一些结合呀等等等等。你觉得做学习是需要灵感的吗?需要灵光乍现时刻吗?
我觉得不需要。你觉得就是靠不断的去?就是我觉得是 COT 的一些过程,COT 的过程,推理的过程。对,就要一步一步,每一个链条都做好,对,自然会导向这个结果。对,所以你会对于技术的判断会比较乐观吗?因为你会觉得只要这样做下去,它其实是达到你所说的,比如说到 L3 L4 这种级别,它其实是没有问题的。对,我倾向于是这么觉得。
然后你会有一个时间线吗?比如说你觉得到什么时候可以到达一个 L2 级别,然后到什么时候可以到一个 L3 级别?我预计可能我们大概明年 6 月份会达到 L2 级别,就是单场景的多任务,单场景的多任务。对,然后 L3 我觉得可能会在需要额外的一年八到两年的时间。嗯,所以你当时你是怎么去管理你的时间的,就是同时做这些课题,然后你还会去参加其他组的组会,不断的去再学习,然后同时还要刚好同学关系去跟同学人去打牌,吃火锅。
嗯,其实我觉得就是在读博的时候,相对来讲还没有那么多事,因为一般我们同一个时间就做一个项目。虽然我们可能会参加对吧,这个老师的组会,那个老师的组会,然后去听一些 Seminar 啊什么,但是相对来讲,时间是非常自由的。那你的典型的一天会怎么度过?典型的周一到周五还是会主要在实验室里面,然后周一到周五的某一天,比如说晚上六点什么的,这个我们组就有组会,然后组会就大家一起边吃饭边考虑一些学术问题。有时候呢,尤其是周五晚上就一起吃火锅或者下牌。
我导师是一个很喜欢滑雪的一个人。啊,Trevor。每年我们组里面都会一起去组织滑雪。对,组织滑雪。在美国吗?对,就是 Berkeley 旁边有一个山叫 Lake Tahoe,然后那个山是大概有个两三千米的海拔,然后所以就一到冬天,大概会有四五个月的雪季,所以就我们经常冬天去那边滑雪,然后那边还有一个湖,景色也还是挺不错的。
你当时就是从伯克利博后结束之后,为什么会选择回博?因为当时其实我有蛮多的选择的,然后我觉得在清华做这个事情,我觉得是非常非常有意思的一个事。就是当时我几个其他选择是,一个是,就是在美国去 WAMO,就是一个自动驾驶的公司。对,然后,但是我觉得这个事情好像没有那么有挑战,然后比较一眼望得到头一些,就是成为一个大厂的 Engineer 对。
我觉得就是他相当于,因为我也在 WAMO 实习过,然后我就觉得我的脑子进去就坏掉了,sort of。就是我在 WAMO 实习过三个月,然后我出来的时候,我感觉,这个为什么老师讲的什么东西我都理解不了,就是真的是这样。为什么会这样?因为在 WAMO,它是就是非常非常大的一个厂,所以每个人的事情都非常非常小,就我只需要把这样一个极其小的事情做好,然后他不需要太多智力。
对,所以就是员工在那里 Engineer 起到是操作的一个过程,然后大脑其实并不是我们自己的大脑,而是公司的决策层的大脑。对,所以你更想去做成为大脑的事情。对,所以你当时就想创业吗?还是说其实当时我也考虑过创业,但是当时的确没有什么好的机会吧。我们博士的时候,我在 Berkeley 参加了一个叫 Berkeley ACE,一个创业的一个协会,然后其实我博士期间也考虑过要不要毕业之后创业,当然的确没有什么特别好的机会。你说说行业上,产业上的机会对吧?对,因为 ACE 你们还有谁?你们几位归国基子,他们好像都不在。
有一个人在,他叫许卓,然后他好像要回清华的 AI College 当助理教授。伯克利还是给清华送了很多人。非常多人才,我今天还在极客上发,我说以前都是清华培养美国人,大家都开玩笑。所以清华培养美国人,就是说清华给海外高校输送很多人才,大家就留在那里了。我觉得你们这几位的出现就是会引领一种趋势,美国高校给中国输送人才。是,你们几个有交流过,为什么大家都会回清华,回国这样?我觉得原因都差不多吧,其实都是觉得是一个非常有挑战,并且非常有意思的一个事情,就回国做科研这件事情。 回国去做科研这件事情更有挑战性。其实你们当时面临选择应该都差不多吧?
对,加入美国的某一家超级大厂。其实我觉得在美国我的文化上,很难完全去适应当地的这个文化。因为其实美国人喜欢的东西,中国人普遍都觉得很无聊。而且美国还有一些,比较也不能说反制,大家比较喜欢那些Cheerleader style的人。在学校里面,大家不会觉得你学习很好是一个比较值得去崇尚的一些事情。
那你和学校者平常会交流一些创业心得吗?
对,我们也会聊一些。你们现在算是竞品吗?我觉得有一些性能关系,但是因为我们在做的应用也蛮不一样的,所以也还好。
他们是什么方向?他们在跟一些家电厂有一些合作,其实这可能都是工业角度的落地,可能很不一样的企业吧。对,因为其实你们俩之前都是比较纯粹的搞科研的这样。你们会进入商业世界创业之后,有什么共同的一些感悟吗?人们会交流这些吗?
共同感悟就是忙了好多。其实也会交流,比如说他们公司的管理的风格,然后我们公司怎么管理。一些觉得什么方面可以改进。
你们最近讨论的技术上的话题是什么?
我想一想。我记得我们有一次聊到说,现在好像巨神之脑科研的idea已经进入到比较平静的一个时期。我们在讨论说在这个regime下到底有什么新的东西可以做之类的。然后我们当时觉得可能零销售还是有万多可以去做的。
这个科研的瓶颈这个问题我还想再回过头来问一下你。其实我们刚开始的时候就聊到了这个问题。我还是有点没有概要讨论到,为什么在你们看来会觉得这件事情是到了一个平静期。你刚才当然提到的很重要的一个原因是你觉得可能某一个技术出来就抹平之前的技术,那这件事情难道不是在更久之前也同时存在的吗?
是这样,说其实在学术的思想上大家在逐渐趋同。可能以前有人会研究很多话题,大家的话题可能你可以理解为有五外一个话题,但是现在这个话题就收敛了很多。为什么呢?因为大家相信在学术上有一定的公式,某一些路径已经被证伪是不可能实现,所以大家都再也不去碰了。也不是说被完全证伪,而是大家觉得好像这些路径没有那么有前途。可能做的人就会变少一些,虽然不是说现在的学术的话题就完全探索成一个了,但是呢,他可能从五百个探索成了一百个。
所以相当于在每一个话题之下,就都可能有人探索过了。因此,你要在这些话题之下再探索出来新的东西,现在来讲会更难一些。这是我们讲的这个美的做的具体的一个表述,就不是说真的美的做,而是说放了一遍,真的不让它突破,并且就是很有影响力的东西。因为大家的思想越来越趋同之后,它变得越来越难一些。
你指的思想趋同是指大家认为聚神智能的实现路径越来越近,基本大家都是认同无标A这一套?
明白,所以即使在我们外行人看起来,聚神智能行业有这么多的非共识,其实在你们眼里,它已经是一个共识收敛过的一个状态。
对,但它没有完全收敛,但是它已经收敛了很多,已经在收敛的过程中。为什么清华的助理教授这么多出来创业?因为我觉得恰好是这个行业进入到了一个产业化阶段。像大模型和聚神智能,恰好清华有很多这些方面的老师,而这些方面正在进入一个产业化阶段。
所以刚好你们这些有这样背景的人可以出来去做一些事业是吧?
对。大家会有一个比较大的担心是说,很多年轻的大学教授出来创业,风险就是过短时间拍拍屁股走人了。如果做得不好,大家对这件事情的本质担心是说你同时身兼教职和这个你在企业做的事情,是否决心不够。一方面是担心时间成本,另外一方面是担心这个决心的问题。你是怎么看待这件事情?
我觉得本质上其实是在做同一件事情,只是在于技术逐渐成熟和工程化落地的transition。所以我并没有觉得我在做两件事情。其实我就在做一件事情,所以我觉得我不可能拍拍屁股走人,因为这就是我想做的事。
那比如说会存在一个可能,就是当这个企业发展的越来越好,时间精力越来越不够用,你会有考虑放弃清华那边的教职吗?我知道像杨芝林应该也是你们插院的助理教授,他应该是已经辞去学校的职务了,专注于做他的专业。
对,我觉得这东西不排除这种可能性。我觉得人生就是一个journey,没有标准答案。只要享受这个过程,我觉得就是最好的。
那你现在日常的routine会是一个什么样的?
我现在一般每天可能早上会大概七点半起床,然后大概九点半到十点第一个会。可能我每天开会会开到晚上九点。日常一个例题就是我怎么能再把会的时间压缩一下。
这怎么样,有思考出什么办法吗?
我觉得可能也是一个难以避免,可能到这个阶段大家都会需要去面对的事情。很多会想开的比较高效一些,包括公司的这个组织架构上,怎么让整个组织更有效率,让我的参与更有效率一些。
所以你一般一个周时间里面,大概多少会放在公司上,多长时间会放到学校这边?
大概一半一半吧,动态平衡一下。就也没有什么特别好的,就是燃烧生命吗?就是说当事情太多的时候,减少自己的睡眠时间去解决。我倾向于不是这样的,我每天都是十二点睡觉。包括我在清华,读书从来不熬夜。因为我觉得做一件事情,它的方法论要比你每天多投入一个独立的小时、两个小时要远远重要得多。
所以我更亲爱你从方法论的角度,把这个事情做好,而不是从时间的角度去做好。那你还算是我认识的清华人里面睡眠时间还算比较长的,很多人是选择不睡的。
就是如果事情非常多,它可以极度压缩自己的睡眠时间。我觉得是这样的,如果我不睡的话,第二天的脑子没有那么清醒。脑子没有那么清醒,可能我会做很多错误的决策。一个错误的决策可能会让跟我一起work的人多花两倍时间才能把事情做好。我觉得这反倒是降低了效率。
Doris说你每天骑车上下班。
哦,对对对。你骑什么车?
小黄车。
没错,真吗?对啊。人家以为是什么自行车这样的,并没有。我骑车主要目的是为了锻炼身体。
我知道,我猜你肯定是为了锻炼身体。我没有想到你答案是骑共享单车,是从经济成本的角度考虑吗?
并不是。因为有时候,比如说我白天会出去,如果骑了一个我自己的车到公司,之后第二天我没车可骑,因为可能我打车去了很远的地方。一般共享单车都比较难骑,所以锻炼效果会更好。
真的,我真的听到过一个类似的这样的说法。这是你保持身材的一个方式吗?
sort of。对,因此你不健身?
我也健身,每周两次,固定的。周二是下午四到五,周五一般是中午的一点半到两点半。
哦,你像有人给你写好的程序,到这个时间点就会做这个事情。
对,我是一个MBTI是ISTJ,我的schedule是比较固定的。基本上,包括骑车上下班,控制时间呢,必须要在多少长时间内到?
一般都是31到33分钟之间。但是共享单车的还车的时候会告诉我,可能每天时间都比较相似吧,你并不会觉得很枯燥。
我觉得很好。就是我在routine的内容里面去享受这个事情,而不是改变我的routine。
其实有很多投资人就说什么AI,科学家创业不靠谱,我深刻表示同意,作为科学家本家。因为我觉得每个人都有他自己的局限性,虽然技术我是懂的,但是比如说技术如何去做工程化,如何把工程化团队的分工做好,如何把工程化团队带好,如何和应用落地的节奏配合,很多很多东西其实没有那么简单。它需要很多经验去做的,我觉得这也是我这一年之中,深刻体会到的一些东西。