全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住
一觉睡醒,具身智能公司竟然也开始搞房地产了?刚刚, 大晓机器人 联合 港中文MMLab 发布了一个新项目——
具身智能的房地产开发商来了!
henry 发自 凹非寺 量子位 | 公众号 QbitAI
什么?
一觉睡醒,具身智能公司竟然也开始搞房地产了?!
刚刚, 大晓机器人 联合 港中文MMLab 发布了一个新项目——
Kairos-Homeworld ,全球首个实现全屋三维生成与物体级全交互的统一框架。
它干了一件颇有点“房地产商”味道的事:第一次把 30万套中国真实住宅户型 ,搬进了数字世界。
不过可千万别误会。
Kairos-Homeworld不是给「找房APP」看房的,而是给「具身智能机器人」训练的仿真环境。
从30平米一居室到200平米大平层,从南北通透到封闭式厨房,从干湿分离卫生间到独立生活阳台,统统变成了机器人用来训练的3D仿真环境。
更有意思的是,Kairos-Homeworld并不单纯是一个数据集,它还是一个能够自动“盖房子”的模拟器。
只消一句话,系统就能自动生成完整的中国家庭仿真环境,并支持机器人开展导航、多房间整理以及各类家务任务训练。
而且,场景中的每件物体都不只是摆设。
材质、密度、摩擦系数等物理属性都被完整建模,机器人可以直接对它们进行抓取、移动和操作,获得更接近真实世界的交互体验。
事实上,这还不是大晓最近唯一一项与具身智能相关的工作。
就在不久前,他们刚开源了4B参数的世界模型 Kairos 3.0-4B 。
如果说Kairos-Homeworld是在给机器人建造训练场,那么Kairos 3.0-4B做的,则是给机器人装上理解这个世界的大脑。
一前一后两项工作,分别对应了具身智能最核心的两块拼图:环境和模型,训练场和大脑。
接下来,我们一件件来看。
先说这个给机器人造“家”(训练场)的事儿。
如果说大模型的训练数据就躺在互联网上,那么机器人的数据则藏在现实世界里。
开门、拉抽屉、整理物品、做家务——
机器人想学会这些能力,需要海量真实交互。
可现实世界太贵了。
此前,北美机器人明星公司Figure AI就曾与房地产巨头Brookfield达成合作,希望借助其管理的超过10万套真实住宅训练机器人。
这种让机器人先进入家庭的思路是没错,但真实场景有限,家具维修,场景维护都是问题。
基于此,Kairos 4D选择了另一条路,把这些住宅直接搬进数字世界。
一方面,数字化路线的优势在于新增场景的边际成本趋近于零,不受真实房源总量限制,另一方面,生成器还能让训练环境规模持续扩展。
沿着这条路,大晓联合港中文MMLab,一口气开源了两个关键资源: 30万套 中国真实住宅户型数据集; 5000个 完整可交互的3D家庭场景。
前者提供真实世界的空间分布基础,后者则让机器人能够真正“住进去”、动起来、练起来。
而且相比规模,更重要的是它们都来自中国家庭。
此前,大多数开源室内场景数据集,都是基于欧美家庭构建的,开放式厨房、没有阳台、没有玄关。
如果机器人长期在这样的环境里训练,真到了中国家庭,难免出现“水土不服”。
而Kairos-Homeworld则 第一次系统性地把中国家庭的空间结构纳入具身智能训练体系 。
规模上,30万套户型图相当于学术界常用RPLAN数据集的近4倍,是ResPlan的17倍。
对于整个具身智能领域来说,这本身就是一块相当稀缺的数据底座。
不过,仅有数据还不够。
30万套住宅再大,本质上仍然是一个静态数据集。如果每新增一个训练环境都需要人工建模,那么环境规模最终还是会遇到天花板。
因此,Kairos-Homeworld做的另一件事,是让AI学会自动生成新的家庭环境,以加速机器人的训练。
为了做到这一点,Kairos-Homeworld设计了一套分层生成框架。
整个过程被拆解成四个阶段。
第一步, 生成户型图 。
团队将传统住宅结构转化为层级化表示,让大语言模型先规划房间布局,再确定门窗位置和房间连通关系,从源头避免房间重叠和拓扑断裂等问题。
第二步, 布置家具 。
系统先从俯视视角放置床、沙发、餐桌等大型家具,再以第一人称视角逐步补充厨房、浴室等空间细节。
第三步, 自动纠错 。
通过视觉语言模型对场景进行闭环检查,自动发现并修正“沙发挡门”“柜子穿墙”等问题,将场景碰撞率从0.20降低至0.05。
第四步, 补充可交互物体 。
系统会进一步生成桌面摆件、厨房用品、收纳物件等细粒度元素,并为它们赋予材质、密度、摩擦系数等物理属性,让机器人能够直接进行抓取、移动和操作。
相比直接端到端生成整个3D世界,这种分层方案不仅更加可控,也更容易保证空间合理性和物理一致性。
在30人参与的用户评测中,Kairos-Homeworld在合理性、美观度和复杂度三个维度均超过Holodeck、LayoutGPT和LayoutVLM,综合偏好率达到81.1%。
更重要的是,这套系统已经开始进入真实训练流程。
机器人接收全屋整理任务后,会自动拆解为多个子任务,按客厅、餐厅、厨房等空间动线依次执行,完成礼盒归柜、牛奶入冰箱等具体操作。
相比过去主要服务导航训练的仿真环境,Kairos-Homeworld生成的场景拥有完整且一致的空间结构,支持机器人跨房间连续行动;
同时,场景中的物体都带有真实物理属性,机器人能够与十余种不同类别的物品进行自然交互。
换句话说,Kairos-Homeworld并不只是生成一套房子。
它真正生成的,是一个机器人能够不断练习、不断犯错、不断成长的数字训练场。
训练场有了,还得有能在里面学习的大脑。而这,也在大晓的路线图之中。
前不久,他们开源了4B参数世界模型 Kairos 3.0-4B 。
在THOR平台上,Kairos 3.0-4B实现了 1:1.5的实时生成速度 ,推理速度比NVIDIA的Cosmos 2.5 快了72倍 。
换句话说,机器人每1秒钟都能生成未来1.5秒的动作视频。
而这种预测,并不是简单的视频生成。
作为一个世界模型,Kairos 3.0-4B最核心的能力,是对物理规律的理解。
例如在倒水或倒牛奶时,液体流速、水柱收窄等细节都符合真实流体运动规律。
在高难度的叠石头任务中,模型同样遵循重力与摩擦等物理法则,能够维持合理的支撑结构和平衡关系。
即便面对洗衣服这类涉及柔性物体的任务,衣物也会随着抓取、掉落自然变形。
而此前在外网刷屏的一段7分钟连续家务Demo,则进一步展示了它在长程任务中的能力。
机器人先整理茶几上的杂物,再进入洗衣房收拾衣物,随后来到厨房准备早餐。整个过程一镜到底,没有任务切换,也没有人工干预。
那么问题来了。
一个只有4B参数的世界模型,为什么能做到实时预测,还能在复杂场景里保持物理一致性?
答案来自三个方面。
首先,是 架构 。
Kairos 3.0-4B采用了「理解-生成-预测」一体化设计。
传统世界模型通常需要先生成未来视频,再从视频中反推出动作指令。模拟世界和输出动作是两个独立过程。
Kairos则直接将视觉表征映射为动作输出,把世界模拟器和动作执行器合二为一,大幅缩短了推理链路。
其次,是 数据 。
Kairos 3.0-4B融合了物理规律(CoT文本)、人类行为数据以及真机交互数据三类来源。
其中,物理规律负责回答“为什么这么做”,人类行为负责提供“应该做什么”的范例,而真机数据则补齐“具体怎么做”的执行细节。
这种数据组合,让模型学到的不只是动作本身,还有动作背后的因果逻辑。
最后,是 效率 。
Kairos 3.0-4B引入了 首个专为世界模型设计的混合线性注意力算子 。
它将时间复杂度从O(n²) 降至O(n),既保留了长时序建模能力,又显著降低了计算和显存开销。
最终,Kairos生成10秒任务仅需9.5秒,显存占用23.5GB,而14B参数的Cosmos 2.5则需要70.2GB显存。
更重要的是,这意味着世界模型第一次真正具备了部署到机器人端侧实时运行的能力。
它不仅能够在英伟达平台运行,也兼容沐曦、海光、壁仞等国产GPU;同时支持单臂、双臂以及灵巧手等不同机器人形态。
世界模型不再只是实验室里的演示视频,而开始真正成为机器人的“大脑”。
如果把大晓这两项工作放进英伟达具身负责人 Jim Fan 提出的路线图里看,会发现一件有意思的事。
Jim Fan最近在红杉的一场分享中提到,机器人想要像大语言模型一样实现规模化发展,需要同时具备三样东西:
世界模型(World Model)、数据(Data)和环境(Environment)。
其中,世界模型负责理解物理规律,相当于大语言模型的预训练;
特定的数据负责让机器人学习具体任务,从“知道世界如何运转”走向“知道该怎么做”,相当于微调。
而环境则决定了机器人能够经历多少种场景、犯多少次错误,以及最终能够达到怎样的泛化能力。
所以,按照这张路线图来看。
Kairos 3.0对应的是世界模型。而Kairos-Homeworld则同时提供了另外两块关键拼图:
一方面,它开源了30万套中国住宅户型和5000个完整家庭场景,为机器人提供训练数据;
另一方面,它又能够持续生成新的可交互家庭环境,为机器人提供近乎无限扩展的数字训练场。
单独看Kairos 3.0,它是一篇世界模型工作;单独看Kairos-Homeworld,它是一篇环境生成工作。
但放在一起看,大晓最近交出的两份答卷,恰好对应了具身智能规模化发展最核心的三项基础设施。
最后,让我们来简单的介绍一下Kairos系列背后的团队——
大晓机器人 。
大晓于去年12月初正式对外亮相,由商汤科技联合创始人 王晓刚 担任董事长,澳大利亚科学院院士 陶大程 出任首席科学家。
团队来自南洋理工、港大、港中文,研究方向覆盖环境智能、世界模型与具身基础模型。
作为商汤在具身智能领域的自然延伸,大晓承担着将“数字大脑”装入“实体机器人”的使命,技术路线围绕“以人为中心”的具身智能研究范式展开。
公司近期完成了由蚂蚁集团领投的天使轮融资,资金将主要投入世界模型和具身研发范式的迭代与落地。
Kairos 3.0-4B:https://github.com/kairos-agi/kairos-sensenova HomeWorld:https://kairos-homeworld.github.io/
这不是普通内容生产新闻。关键在“在30人参与的用户评测中,Kairos-Homeworld在合理性、美观度和复杂度三个维度均超过Holodeck、LayoutGPT和...”,它直接指向 AIGC 从单次演示走向批量生产;如果“在THOR平台上,Kairos 3.0-4B实现了 1:1.5的实时生成速度 ,推理速度比NVIDIA的Cosmos 2.5 快了72...”也能接住分发和回收,内容团队的成本结构会被重写。
全球首个机器人训练楼盘开盘 这条我不会只看“做出来了没有”,而会盯两件事:一是“在30人参与的用户评测中,Kairos-Homeworld在合理性、美观度和复杂度三个维度均超过Holodeck、LayoutGPT和Layo...”能不能持续稳定,二是“在THOR平台上,Kairos 3.0-4B实现了 1:1.5的实时生成速度 ,推理速度比NVIDIA的Cosmos 2.5 快了72倍 。”最后有没有落到发行、订阅或回款。只要生产效率能被放大但品控和回收链跟不上,这类故事就还是偏试水。
