上海盈首信息科技有限公司
阅面科技
湖州宏威新能源汽车有限公司
上海眼控科技股份有限公司
北京的卢深视科技有限公司
山东国兴智能科技有限公司
南京柯西莫智能科技有限公司
和美(深圳)信息技术股份有限公司
深圳市维兴顺科技有限公司
寻艾(深圳)数据计算有限公司
深圳追一科技有限公司
狄拍(上海)科技有限公司
虹博
天准科技股份有限公司
深圳市镭神智能系统有限公司
宁波江丰智能科技有限公司
南京博润智能科技有限公司
数据魔方智慧科技(北京)有限公司
重庆中科云丛科技有限公司
深圳市高大尚信息技术有限公司
深圳市力通威新能源有限公司
大连大华中天科技有限公司
节俭成习(北京)国际文化有限公司
上海派毅智能科技有限公司
广州极天信息技术有限公司
成都小多科技有限公司
网易(杭州)网络有限公司
北京倍丰科技有限公司
泰安极创机器人科技有限公司
北京中科汇联科技股份有限公司
重庆凯泽科技有限公司
阿尔德巴兰机器人贸易(上海)有限公司
邦鼓思电子科技(上海)有限公司
南京华捷艾米软件科技有限公司
北京海天瑞声科技有限公司
深圳市贝美互动科技有限公司
深圳阿泰克电子科技有限公司
中山市天启智能科技有限公司
希亚思(上海)信息技术有限公司
上海云从企业发展有限公司
珺馨科技有限公司
成都市小多科技有限公司
南京甄视智能科技有限公司
杭州积术科技有限公司
科大讯飞股份有限公司
安徽奇智科技有限公司
图麟信息科技(上海)有限公司
广州数沃信息科技有限公司
科索(上海)电子有限公司
深圳华北工控股份有限公司
深圳云天励飞技术有限公司
北京深鉴智能科技有限公司
上海乂学教育科技有限公司
上海派毅智能科技有限公司
山西嘉世达机器人技术有限公司
江苏楷文电信技术有限公司

2025年年初,机器人在春晚舞台颤颤巍巍,被网友调侃“像看到了我太奶”,等到年底,已能街舞唱跳、动作流畅。2025年具身智能的能力表现与大众关注度,都经历了一场飞跃。
但真正身处具身智能一线的从业者,却清晰地看到,热闹之下,无形的斩杀线或将淘汰掉大量玩家。
美国明星具身智能公司Physical Intelligence的研究者曾公开表示,“它们仍经常失败,目前状态更像是‘演示就绪’而非‘部署就绪’”,并总结了落地难的具体难关,包括复杂任务执行能力、环境泛化能力与高可靠性性能。
在开发者社区,类似的困境比比皆是。经常见到工程师发帖求助:“我们的具身智能机器人在真实环境中总是撞墙,仿真里明明表现完美!”
解决起来却十分困难,因为提升可靠性,意味着指数级增长的训练轮次和算力投入。这就像一场障碍赛,每一关都可能挡住开发者的脚步。
开发者迫切需要一个更高的起跳点,一个能低成本启动、快速迭代、真实可落地的基座。
值得关注的是,近期一项来自中国团队的开源进展,正在为这一困局提供切实可行的出口。由灵波科技发布的具身智能基座模型 LingBot-VLA,已在星海图、松灵等多家国产本体厂商的真实机器人上完成端到端验证。在统一的真机评测基准下,其整体任务成功率与泛化表现已超越Physical Intelligence的 Pi0.5,后者长期被视为行业性能标杆。
而LingBot-VLA 的泛化能力,部分源于其对高质量三维空间信息的深度融合,这是LingBot-Depth 模型所提供的核心能力,也在1月27日同步开源。
不难看到,开源,正在成为改变行业的一股关键力量,如何帮助开发者更轻松地通关?
2025年被业内人士称为人形机器人的量产元年,但智源研究院院长王仲远却指出,具身智能距离真正的“ChatGPT时刻”尚有距离。
真正的“ChatGPT时刻”,需要全球上亿台机器人每天在真实环境中产生动作、触觉、决策等全模态数据。而当前具身智能每个任务都要单独训练,每台机器人都是孤岛,每次部署都从零开始,陷入专用性强、泛化性弱、效率低的死循环。这种模式难以规模化。
具体来说,行业正被三条斩杀线所围困:
一、数据荒。王仲远院长曾提过,即使是几十万小时的数据,也称不上海量,远远没有达到引发智能涌现的量级。传统仿真环境构建成本高、效率低,而真实世界数据采集又极其困难。具身智能企业普遍将数据视为核心资产,私有数据集高度封闭,而开源社区的数据集多局限于简单任务,复杂场景数据稀缺且缺乏统一质量标准。缺乏高质量真机数据,成为中小团队的第一道斩杀线。
二、效果差。由于数据有限,大量开源模型只在仿真环境中跑分,但仿真数据无法完全替代真实数据。一旦部署到真机,性能断崖式下跌。加上一些模型只开放权重,后训练代码是闭源的,开发者拿得到也用不好。泛化性太差,导致机器人的性能表现和成功率不佳,产品竞争力低下,构成第二道斩杀线。
三、高成本。让机器人在物理世界中“高效犯错”,需要海量试错。但每一次试错,都是真金白银。某具身智能创业公司曾测算,“训练一个倒水动作,需要一台超算运算千万亿次……光是模拟人晃动杯中的水这一个动作,所涉及的计算量可能就需要一台超级计算机算十分钟”。高昂的试错成本与开发周期,会让很多企业在成功之前就被斩杀。
不解决这些问题,机器人的规模量产与商业成功就十分遥远。下面我们就来聊聊,星海图、松灵等多家本体厂商的解法。
从公开Demo视频来看,星海图、松灵等厂商基于开源基座LingBot-VLA,实现了几个飞跃:
从“一机一脑”到“通用智能大脑”,显著降低了数据门槛。传统模式下,不同构型机器人需要大量采集数据训练模型。LingBot-VLA实现了跨本体复用,同一模型经过少量数据微调可控制不同构型机器人,执行剥柠檬、叠毛巾等上百种任务,减轻中小团队的开发难度。
从“演示就绪”到“部署就绪”。
正如Physical Intelligence的研究者所说,机器人目前状态更像是“演示就绪”而非“部署就绪”。传统模型只能执行单一指令,真实部署时性能大跌。LingBot-VLA具备快速适应不同任务的能力,无论是抓取、放置,还是叠衣服、擦拭桌面,同一个模型全部应对,解决了专用性强、泛化性弱的问题。
LingBot-VLA在GM-100真机评测基准(覆盖3类主流双臂机器人、100项复杂任务、每任务130次真机试错)上,平均成功率(SR)达17.30%,超越Pi0.5的13.02%。比指标更重要的,是多家本体厂商在真实硬件上完成了对LingBot-VLA的验证,这意味着行业终于有一个不吹牛、能落地的模型了。
从烧钱试错到低成本迭代。LingBot-VLA在8、16、32、128和256张GPU配置下,训练效率都超越了OpenPI和DexBotic。而且GPU数量越大,优势越突出。也就是说,基于LingBot-VLA可以大幅缩短训练周期,降低开发的综合成本。省下的算力和时间都是钱,意味着企业和开发者可以反复迭代、快速试错,在激烈的市场竞争中抢占先机。
这是业内首次出现一个真正面向通用操作、跨本体部署的通用智能底座,也是具身智能迎来ChatGPT时刻的先决条件。
不少原本观望的开发者,在看到星海图、松灵等厂商的真机验证之后,都纷纷表示要去GitHub/Hugging Face找代码试试。
那么,LingBot-VLA到底是怎么做到的?
Physical Intelligence的Pi0.5一直是具身智能领域的性能标杆,LingBot-VLA在性能与效率上显著超越Pi0.5,标志着开发者从此有了一个强大、高性能的开源武器。通过论文,我们来详细拆解这把武器有哪些不同。
首先也最难的是跨本体,不同机器人在关节数量、自由度、末端执行器、传感器布局上天差地别,如何屏蔽多元且复杂的硬件差异?
LingBot-VLA 的解法是,接收到视觉图像、自然语言指令、机器人当前状态等信息之后,不直接预测关节指令,把这些信号都映射到统一的操作空间(Unified Action Space),生成统一的动作向量。
不同本体的关节指令,则由轻量级模块或厂商驱动层完成,主干模型无需知道硬件细节。
这就像人体,由大脑来统一处理信息,并生成倒水、开门等操作意图,由神经系统转化为具体的肢体动作,无论高矮胖瘦或人种差异,各种身体结构都能执行。LingBot-VLA就是这样的通用大脑,只输出通用操作指令,硬件差异由下游模块处理。
LingBot-VLA这颗大脑的决策能力,建立在空间感知基础之上。这就要提到最近开源的 LingBot-Depth模型。
不同于普通RGB输入,LingBot-VLA在训练与推理中显式融合了由LingBot-Depth生成的高质量、度量准确的深度图。该深度模型采用创新的“掩码深度建模”(MDM)技术,能在透明、反光等挑战性场景中补全缺失深度,并在NYUv2、ETH3D 等基准上达到SOTA。更重要的是,它输出的深度具备真实物理尺度,使机器人能进行精确的距离判断与操作规划,让LingBot-VLA更好地看清物理世界,并与之交互。
那跨任务的强大泛化能力,又是怎么实现的呢?
传统VLA模型只能执行训练时见过的指令组合,比如没训练过擦桌子,即使包含抓抹布、移动手臂等子动作,模型也会失效。LingBot-VLA的突破在于,将语言指令动态解析为结构化动作序列,并与视觉感知对齐。
这就像是人类的举一反三。主干模型建立了“物体-指令-动作”的关联,Action Expert负责预测动作序列。当接收到擦桌子的指令时,哪怕以前没有训练过,也可以复用抓起毛巾、移动手臂等子技能,进行重组和适配,迁移到其他任务上,让任务泛化不再是零样本猜测。
在跨本体、跨任务的基础上,LingBot-VLA 在训练层面做了系统性优化,引入课程学习和稀疏奖励蒸馏,数据效率大幅提高。研究者从大规模真实世界基准测试集GM-100中选择了8个具有代表性的任务,在AgibotG1平台上进行了实验。
结果显示,在有限预算下,LingBot-VLA的Progress Rate(进度率)和 Success Rate(成功率)都优于Pi0.5。
正是上述工作与创新,使得LingBot-VLA能在更低数据、更少算力的条件下,达到比Pi0.5更强的真机泛化能力,成为一个为真实世界部署而生的通用智能基座。而这,正是本体厂商跨越斩杀线的关键。
在智能产业中,开源开放是公认的重要力量。
以AIGC为例,Stable Diffusion开源之前,高质量图像生成模型如DALL·E和Midjourney等闭源模型,使用受限,普通开发者无法本地部署或二次开发。SD开源后,催生了完整的生态体系,AIGC因此迎来爆发式增长。
再反观闭源公司,OpenAI不开源的做法,被大量开发者嘲讽为“closeAI”,而曾以闭源软件帝国著称的微软,如今不仅深度拥抱开源,更战略性收购了开源社区GitHub。
为什么开源对AI乃至AGI如此重要,科技巨头和开发者都十分重视?根本原因在于,AGI的复杂性远超单一企业或实验室的能力范围,它需要全球开发者、研究者和产业伙伴,在数据、算法、工具和场景上的持续协同与迭代。
具体到具身智能领域,此前,宇树科技、优必选等厂商各自开发了不兼容的操作系统,制约了产业生态的协同发展。这种背景下,行业迫切需要有能力的开源贡献者,让千千万万开发者不必重复造轮子,能站在巨人的肩膀上共同探索AGI的上限。
从能力层面看,LingBot-VLA作为蚂蚁在AGI领域的又一成果,具备可复现、可落地、高性能等特点,且经过真机检验,能够支持普通开发者,快速构建自己的具身智能体,降低创新门槛,释放集体创造力,为行业共建提供了基础。
从战略意愿看,自从LLM爆发以来,蚂蚁一直是全球领先的大模型开源贡献者,以开源开放模式探索AGI,为此打造InclusionAI 开源社区,系统性地释放了包括基础大模型百灵、通用 AI 助手灵光、具身智能灵波在内的核心技术。LingBot-VLA是蚂蚁集团开源的第一款具身智能基座模型,也是这一战略在具身智能领域的关键实践。
从持续贡献的角度看,LingBot-VLA不仅开源了模型,还涵盖了后训练工具链,使得开发者可以更方便地进行微调和部署,可谓诚意满满。LingBot-Depth紧随其后开源,进一步丰富了技术栈,这种连续性的开源动作,也让开发者更有信心加入技术路线,繁荣生态。
所以,蚂蚁所做的,是搭建起一座连接前沿研究与产业落地的开源桥梁,而这正是具身智能产业从炫技到量产,从“演示就绪”到“部署就绪”的关键基础设施。
正如Stable Diffusion的开源彻底引爆了AIGC生态,LingBot-VLA正为具身智能带来类似的转折,触发具身智能的“Stable Diffusion时刻”。
对开发者来说,当别人还在为数据匮乏、算力吃紧、泛化难而挣扎的时候,不妨以LingBot-VLA为起点,完成向真实世界的飞身一跃。