导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

Physical AI需警惕“数据小时数”陷阱:有效信息密度才是关键

曾任、兼任多伦多大学并现任佐治亚理工学院的机器人学者 Animesh Garg 在其文章《Moneyball for Physical AI》中,将当前具身智能(Physical AI)领域的数据竞赛比作棒球史上的“金球”时刻——即市场对某些表面指标的盲目迷信,正掩盖了真正决定成败的核心变量。

Garg 挑战了一个日益流行的融资叙事:只要机器人公司积累更多遥操作小时、更多真实部署时间,就能自动形成“数据飞轮”,从而构建模型壁垒。然而,他警告称,若累计小时数并不等同于有效模型进步,投资者就需重新评估这些公司的数据资产价值。

他借用《点球成金》(Moneyball)中的经典案例指出,2002年奥克兰运动家队之所以能以低薪阵容赢得103场胜利,是因为他们摒弃了传统球探看重的打击率等表象指标,转而聚焦更能预测得分能力的“上垒率”。类似地,Physical AI 行业或许也正陷入对“数据小时数”的打击率式迷信。

与大语言模型可从互联网低成本获取海量文本不同,机器人所需的是包含物理交互、动作反馈和环境变化的真实数据。每一小时有效数据都需真实创造,背后涉及设备、人力、场地、传感器及安全成本。机器人学者 Ken Goldberg 曾用“100,000年数据鸿沟”形容机器人与互联网AI在数据规模上的巨大差距——这并非设定门槛,而是提醒行业:真实世界数据无法像网页文本那样被轻易抓取。

Garg 尤其反对“血汗工厂式遥操作”叙事。大量人工遥操作虽能生成密集动作样本,但若仅以总小时数衡量数据价值,资金可能流向重复、低难度、低信息密度的样本,而非最能降低失败率的关键场景。

三类数据,三种价值

Garg 将 Physical AI 数据分为三类:

  1. 观察数据:如第一人称或第三人称视频,成本低、覆盖广,有助于理解物体与环境,但缺乏动作决策链。
  2. 干预数据:包括遥操作、示教轨迹,直接提供“状态→动作→结果”链条,但采集成本高,难以规模化降本。
  3. 部署数据:来自真实商业场景的运行记录,看似形成“边干活边学习”的飞轮,实则存在统计陷阱。

当前最先落地的机器人场景(如结构化仓储、固定产线)往往变化少、风险低,导致部署数据分布狭窄、重复度高。模型一旦掌握局部规律,新增数据的信息增益迅速衰减。真正有价值的部分,反而是失败、卡顿、异常物体等长尾事件——但这些样本稀疏、发现成本高,且难以稳定复现。

重复样本会快速变“贵”

Garg 谨慎借鉴语言模型的 scaling law:数据增加通常带来性能提升,但收益递减。若样本高度重复或来自同一窄分布,新增数据的边际效益将急剧下降。

例如,机器人反复抓取同一货架上的标准包装盒,前几千次尝试极具价值;但当光照、路径、物体均已固化,后续数据不过是已有经验的复制。语言模型训练中已证实:重复数据不仅浪费算力,还可能损害泛化能力。

因此,衡量数据价值不能只看数量,更要看样本间的差异性。对 Physical AI 而言,多样性包含两层:一是覆盖更多物体、材质、光照、遮挡等物理条件;二是避免模型在简单任务中过拟合,却在稍有变化的场景中失效。

部署飞轮成立的前提:早期场景必须“新”

许多具身智能公司采用“neo-integrator”路线:先在窄场景部署机器人,靠人类远程接管保证可用性,同时收集生产数据,再训练更强模型以拓展新场景。Garg 指出,此飞轮成立的关键前提是——早期部署数据必须足够新颖、多样,才能支撑跨任务迁移。

若早期场景仅为高度定制化的低熵任务(如单一抓取流程),数据很快饱和,公司获得的不是通用能力,而是一堆需持续维护的定制项目。这将带来双重成本:每进一个新场景,都要投入环境改造、流程适配与安全兜底;若部署尚未盈利,扩大规模可能只是用亏损换取低价值样本。

因此,评估早期部署不应只看运行时长,而应追问:带来了多少新任务覆盖?产生了多少失败与异常样本?这些样本能否迁移到其他场景?扣除硬件、人力与集成成本后,每美元换来了多少模型改进?

估值叙事需转向“信息密度”

Garg 并非反对数据采集,而是呼吁更换评价口径。累计小时数可作为运营指标,但不应等同于技术壁垒。更有解释力的问题包括:

  • 单任务数据何时饱和?
  • 新增任务需多少工程成本?
  • 数据覆盖了多少动作簇与场景?
  • 生产数据中有多少是真正的分布外样本?
  • 常规成功片段是否应被过滤,避免污染训练集?

对应到资本配置:观察数据应追求低成本与广覆盖;高成本遥操作应在单任务饱和后转向新任务;部署数据则应重点筛选失败与边界案例,剔除信息密度低的常规记录。

这一观点对 Physical AI 的估值逻辑构成现实挑战:拥有更多机器人、更长运行时间、更大遥操作团队,并不自动意味着更强模型能力。真正难复制的,是持续识别高价值长尾数据、判断数据饱和点、以及以低成本覆盖多元任务分布的能力。

当然,这仍属资本配置视角,尚非行业定论。机器人模型是否会呈现类似语言模型的规模效应?高维部署场景能否持续产出新信息?任务间迁移效率究竟如何?这些问题仍有待实证回答。

但 Garg 的核心提醒清晰而具体:Physical AI 的“金球指标”或许不是数据小时数,而是每一美元买到的新颖样本。 对仍在用“数据飞轮”讲故事的机器人公司而言,市场最终要看的,不是累计运行了多久,而是这些时间里到底产生了多少新信息