清华&生数发布国产视频具身基座模型，高效泛化复杂物理操作达SOTA水平

ippyyx · 发表于 2025-7-25 14:30

马上注册，享用更多功能，让你轻松玩转本论坛。

您需要登录才可以下载或查看，没有账号？立即注册 sms 手机登录

×

13:45 【训练数据爆减至1/1200！清华&生数发布国产视频具身基座模型，高效泛化复杂物理操作达SOTA水平】机器人能通过普通视频来学会实际物理操作了！来看效果，对于所有没见过的物品，它能精准识别并按照指令完成动作。比如清理桌面垃圾，或者是从零食筐里找到人类想要的糖果。这就是清华大学与生数科技最新联合研发的Vidar模型，首次让通用视频大模型长出了“手脚”，通过少样本泛化能力，实现从虚拟的Dream World到真实世界Real World物理执行的关键跨越。它在互联网级视频数据预训练的基座模型Vidu上，使用百万异质机器人视频数据进行再训练。仅用20分钟机器人真机数据，即可快速泛化到新的机器人本体，所需数据量约为行业领先的RDT的八十分之一，π0.5的一千两百分之一，大幅降低了在机器人上大规模泛化的数据门槛。

大老郭 · 发表于 2025-7-28 23:41

提示: 作者被禁止或删除内容自动屏蔽

大老郭大老郭当前离线 IP卡狗仔卡头像被屏蔽	发表于 2025-7-28 23:41 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
大老郭大老郭当前离线 IP卡狗仔卡头像被屏蔽
	回复使用道具举报显身卡

清华&生数发布国产视频具身基座模型，高效泛化复杂物理操作达SOTA水平

马上注册，享用更多功能，让你轻松玩转本论坛。

浏览过的版块