数据瓶颈:人形机器人智能跃迁的核心难题
人形机器人的赛场故事,正在从马拉松跑道蔓延至更广阔的产业版图。2026年春天,北京亦庄的机器人马拉松见证了三百余台设备的竞逐盛况,机器人已能自主完成半马赛程、龙旗下平板工厂的上下料作业、春晚舞台的武术表演。这些成果看似光鲜,却掩盖不了一个根本性的缺憾:机器人依然不够聪明。
时间回溯:从AlphaGo到智能涌现的期待
回望人工智能的发展轨迹,2016年AlphaGo击败李世石时,业界就开始畅想具身智能的涌现时刻。大语言模型的突破让人们更加确信,数据驱动的智能跃迁必然会发生。然而人形机器人的数据需求,与语言模型有着本质差异。GPT-5使用了100万亿token的训练语料,这些数据可以从互联网的日常应用中轻松获取——迪士尼动画、电子版苏东坡词集,皆可成为高质量文本数据。相比之下,机器人需要的是三维开放世界的知识,每获取一小时真机数据,成本高达200元甚至更高,数量级和复杂度完全不可同日而语。
关键节点:50万小时与1亿小时的鸿沟
当前行业面临的核心瓶颈,在于数据供需之间的巨大落差。觅蜂科技董事长姚卯青指出,整个行业高质量真机数据汇聚在一起,凑凑可能仅有50万小时的规模,而要达到智能涌现时刻,1亿小时的训练数据可能都不够。这意味着高质量真机数据的供需之间,存在成千上万倍的差距。更棘手的是,现存数据质量参差不齐,标注不规范、传感器空间标定缺失、时间同步问题频发,脏数据充斥着整个市场。外购数据质量往往不达标,导致优秀算法被误判为无效。
经验总结:数据孤岛与标准缺失
各机器人企业的数据标准各自为战,数据格式、标注体系自成一体,形成一个个孤岛,难以互通复用。这导致企业与企业之间、上下游之间、应用方与数据生产方之间的协作成本极高,整个产业难以形成合力。极佳视界联合创始人朱政透露,其公司在训练模型过程中使用了约几十万小时数据,其中大部分来自实验室环境或人工设置好的场景,远不够真实。现有视频数据标注普遍简略,对环境描述、任务描述远远不足。
方法提炼:数据金字塔与三大来源协同
突破困局的关键,在于建立多层次的数据体系。光轮智能CEO谢晨提出数据金字塔概念:顶层是真机数据,质量最高但成本最大;中间层是仿真数据,作为退而求其次的替代;底层是视频数据、互联网数据尤其是人类数据。比照特斯拉FSD通过上百万辆车获取真实场景数据的模式,具身智能需要动员真机、仿真、人类三大核心来源,需要10亿个数据生成器。
应用指导:效率提升与评价体系构建
在数据稀缺背景下,提升数据利用效率同样关键。当前极佳视界每年在GPU算力上的支出高达数千万元,用于处理几十万小时的训练数据。若将训练数据扩增100倍甚至1000倍,单单GPU成本就会超过企业承受范围。因此一方面要扩增数据规模,另一方面要改善模型架构、提高运行效率。此外,构建可规模化的评价体系至关重要——如果没有合适的评价体系,企业就不知道用什么样的数据能够做好具身模型。仿真能力,将成为评价体系底层的核心支撑。



