Physical AI需警惕“数据小时数”陷阱：有效信息密度才是关键

曾任、兼任多伦多大学并现任佐治亚理工学院的机器人学者 Animesh Garg 在其文章《Moneyball for Physical AI》中，将当前具身智能（Physical AI）领域的数据竞赛比作棒球史上的“金球”时刻——即市场对某些表面指标的盲目迷信，正掩盖了真正决定成败的核心变量。

Garg 挑战了一个日益流行的融资叙事：只要机器人公司积累更多遥操作小时、更多真实部署时间，就能自动形成“数据飞轮”，从而构建模型壁垒。然而，他警告称，若累计小时数并不等同于有效模型进步，投资者就需重新评估这些公司的数据资产价值。

他借用《点球成金》（Moneyball）中的经典案例指出，2002年奥克兰运动家队之所以能以低薪阵容赢得103场胜利，是因为他们摒弃了传统球探看重的打击率等表象指标，转而聚焦更能预测得分能力的“上垒率”。类似地，Physical AI 行业或许也正陷入对“数据小时数”的打击率式迷信。

与大语言模型可从互联网低成本获取海量文本不同，机器人所需的是包含物理交互、动作反馈和环境变化的真实数据。每一小时有效数据都需真实创造，背后涉及设备、人力、场地、传感器及安全成本。机器人学者 Ken Goldberg 曾用“100,000年数据鸿沟”形容机器人与互联网AI在数据规模上的巨大差距——这并非设定门槛，而是提醒行业：真实世界数据无法像网页文本那样被轻易抓取。

Garg 尤其反对“血汗工厂式遥操作”叙事。大量人工遥操作虽能生成密集动作样本，但若仅以总小时数衡量数据价值，资金可能流向重复、低难度、低信息密度的样本，而非最能降低失败率的关键场景。

三类数据，三种价值

Garg 将 Physical AI 数据分为三类：

观察数据：如第一人称或第三人称视频，成本低、覆盖广，有助于理解物体与环境，但缺乏动作决策链。
干预数据：包括遥操作、示教轨迹，直接提供“状态→动作→结果”链条，但采集成本高，难以规模化降本。
部署数据：来自真实商业场景的运行记录，看似形成“边干活边学习”的飞轮，实则存在统计陷阱。

当前最先落地的机器人场景（如结构化仓储、固定产线）往往变化少、风险低，导致部署数据分布狭窄、重复度高。模型一旦掌握局部规律，新增数据的信息增益迅速衰减。真正有价值的部分，反而是失败、卡顿、异常物体等长尾事件——但这些样本稀疏、发现成本高，且难以稳定复现。

重复样本会快速变“贵”

Garg 谨慎借鉴语言模型的 scaling law：数据增加通常带来性能提升，但收益递减。若样本高度重复或来自同一窄分布，新增数据的边际效益将急剧下降。

例如，机器人反复抓取同一货架上的标准包装盒，前几千次尝试极具价值；但当光照、路径、物体均已固化，后续数据不过是已有经验的复制。语言模型训练中已证实：重复数据不仅浪费算力，还可能损害泛化能力。

因此，衡量数据价值不能只看数量，更要看样本间的差异性。对 Physical AI 而言，多样性包含两层：一是覆盖更多物体、材质、光照、遮挡等物理条件；二是避免模型在简单任务中过拟合，却在稍有变化的场景中失效。

部署飞轮成立的前提：早期场景必须“新”

许多具身智能公司采用“neo-integrator”路线：先在窄场景部署机器人，靠人类远程接管保证可用性，同时收集生产数据，再训练更强模型以拓展新场景。Garg 指出，此飞轮成立的关键前提是——早期部署数据必须足够新颖、多样，才能支撑跨任务迁移。

若早期场景仅为高度定制化的低熵任务（如单一抓取流程），数据很快饱和，公司获得的不是通用能力，而是一堆需持续维护的定制项目。这将带来双重成本：每进一个新场景，都要投入环境改造、流程适配与安全兜底；若部署尚未盈利，扩大规模可能只是用亏损换取低价值样本。

因此，评估早期部署不应只看运行时长，而应追问：带来了多少新任务覆盖？产生了多少失败与异常样本？这些样本能否迁移到其他场景？扣除硬件、人力与集成成本后，每美元换来了多少模型改进？

估值叙事需转向“信息密度”

Garg 并非反对数据采集，而是呼吁更换评价口径。累计小时数可作为运营指标，但不应等同于技术壁垒。更有解释力的问题包括：

单任务数据何时饱和？
新增任务需多少工程成本？
数据覆盖了多少动作簇与场景？
生产数据中有多少是真正的分布外样本？
常规成功片段是否应被过滤，避免污染训练集？

对应到资本配置：观察数据应追求低成本与广覆盖；高成本遥操作应在单任务饱和后转向新任务；部署数据则应重点筛选失败与边界案例，剔除信息密度低的常规记录。

这一观点对 Physical AI 的估值逻辑构成现实挑战：拥有更多机器人、更长运行时间、更大遥操作团队，并不自动意味着更强模型能力。真正难复制的，是持续识别高价值长尾数据、判断数据饱和点、以及以低成本覆盖多元任务分布的能力。

当然，这仍属资本配置视角，尚非行业定论。机器人模型是否会呈现类似语言模型的规模效应？高维部署场景能否持续产出新信息？任务间迁移效率究竟如何？这些问题仍有待实证回答。

但 Garg 的核心提醒清晰而具体：Physical AI 的“金球指标”或许不是数据小时数，而是每一美元买到的新颖样本。 对仍在用“数据飞轮”讲故事的机器人公司而言，市场最终要看的，不是累计运行了多久，而是这些时间里到底产生了多少新信息。