首页
感知基础
VLA 架构
层次控制
Sim-to-Real
端侧部署
物理安全
工程实践
前沿方向
面试宝典
2026 最新版 · 首席科学家视角

具身智能
从感知到真机控制的工程全景

以具身智能首席科学家的视角,从多模态基础模型出发,深入解析 VLA 端到端学习架构、层次化实时控制循环、Sim-to-Real 迁移工程、端侧低延迟部署,以及物理安全对齐体系。面试、科研、工程落地一本通。

0
核心章节
0
控制频率
0
Sim-to-Real 策略
0
面试考点
Chapter 01

感知基础与多模态输入

具身智能的"眼睛":理解视觉、触觉、本体感知的融合工程

💡 首席科学家的一句话

具身智能 = 感知(看世界)+ 理解(懂世界)+ 行动(改变世界)
与纯语言模型最本质的区别:它的输出要对物理世界产生真实后果。一个 Token 的偏差,可能是桌上的咖啡杯,也可能是工厂线上的 100 万损失。这要求我们在感知层就建立冗余与校验,而非仅仅追求单模态精度。

👁️
视觉感知栈
  • RGB-D 立体相机:深度信息消除视差歧义
  • 鱼眼广角:180° 场景覆盖,减少盲区
  • 手腕摄像头:近距操作的精确视角
  • 事件相机(Event Camera):μs 级时间分辨率,高速动态场景
Intel RealSense D435 ZED 2i
🖐️
触觉与力感知
  • 6轴力矩传感器:接触力 / 力矩全量测量
  • 触觉皮肤(Tactile Skin):分布式压力阵列 ≥ 1kHz
  • 关节力矩反馈:过载保护与柔顺控制前提
  • 基于振动的材质识别:硬、软、湿、脆分类
ATI Nano17 GelSight
🧭
本体感知与状态估计
  • IMU + 腿部关节编码器:全身状态实时估计
  • 足底压力传感器:步态相位检测与地形自适应
  • 视觉惯性里程计(VIO):无 GPS 定位
  • 状态估计卡尔曼滤波:EKF / UKF 融合多源
ICM-42688 VINS-Mono
⚡ 2026 最新实践:感知时间同步

多模态感知的核心挑战是时间对齐:视觉 30-60fps、力传感器 1kHz、IMU 200Hz,必须用硬件时间戳 + 软件插值共同保证时序一致性。业界标准:所有传感器时戳误差 < 1ms。推荐方案:PPS 脉冲同步 + ROS2 硬件触发话题。

Chapter 02

VLA:视觉-语言-行动架构

从 GPT 到能拿东西的机器人:VLA 如何统一感知、理解与控制

💡 VLA 的本质

VLA(Vision-Language-Action Model)= 视觉编码器 + 大语言模型骨干 + 行动解码器。它把"看图说话"的 VLM 能力,扩展到"看图拿东西"。核心创新:将机器人动作作为特殊 Token 纳入语言模型的词表,实现语义理解与物理控制的统一建模。

VLA 端到端系统架构(2026 主流范式)
💬
语言指令输入
自然语言任务描述:"把红色积木放到蓝色箱子里" → Tokenize → Embedding
Text Encoder
🖼️
视觉特征提取
多摄像头 RGB-D → ViT / DINOv2 → 图像 Token patch。第三视角 + 手腕视角双流融合
Vision Encoder
🧠
多模态 LLM 骨干
视觉 Token + 语言 Token 联合输入 Transformer。执行推理、场景理解、任务规划。主流:Gemma-2B / LLaMA-3-8B 微调
LLM Backbone (7B)
🎯
行动 Token 解码
Action Chunk 预测:下 T 步的关节角度序列(Chunk size T=8~16)。Diffusion Policy 或 Flow Matching 解码分布
Action Decoder
🦾
低层控制执行
关节空间 / 笛卡尔空间轨迹插值 → PD / 阻抗控制器 → 电机指令 @ 500-1000Hz
Motor Controller

📊 2025-2026 主流 VLA 架构对比

模型 骨干 行动表示 泛化能力 推理延迟 核心创新
π₀ (Physical Intelligence) PaliGemma-3B Flow Matching ⭐⭐⭐⭐⭐ ~50ms Pre-training on diverse robot data,跨机型泛化
OpenVLA-7B LLaMA-7B + DINOv2 Discrete Tokens ⭐⭐⭐⭐ ~200ms Open-source,支持参数高效微调 LoRA
RoboVLMs InternVL2-8B Continuous (ACT) ⭐⭐⭐⭐ ~80ms 中文指令友好,国内首选
GR-2 (ByteDance) Video Gen Pre-training Diffusion Policy ⭐⭐⭐⭐ ~100ms Video预训练赋予丰富物理先验
RDT-1B Diffusion Transformer 1B DiT Action ⭐⭐⭐ ~60ms 纯扩散架构,双手灵巧操作SOTA
🔑 首席视角:选 VLA 的三个问题

1. 数据量:你有多少高质量演示数据?<100 → 传统 BC;100-1000 → ACT/Diffusion;>1000 → VLA 微调有望泛化
2. 延迟预算:任务允许多高的推理延迟?精细操作 <100ms,巡检类任务可接受 >500ms
3. 泛化需求:同一模型要适应几种任务、几台机器?场景固定用 BC 更省事,需要语言指令泛化才上 VLA

Chapter 03

层次化实时控制循环

为什么一个 AI 要同时用 50Hz 和 1000Hz 思考

💡 控制频率的本质

人类拿杯子时,大脑做高层规划("拿那个红杯子"),脊髓做反射控制(自动稳定手腕),肌肉做实时微调。具身智能的层次控制完全对应这一生物架构:任务规划层(慢)→ 技能执行层(中)→ 关节控制层(快)→ 硬件安全层(最快)。各层频率不同,是因为它们解决的问题时间尺度不同。

🔄 五层控制循环频率栈
频率
层次 & 职责
技术实现
1-5 Hz
🌍 任务规划层(高层 AI)
VLA 推理 / LLM 任务分解 / 场景理解 / 重规划
VLA Inference
5-30 Hz
🗺️ 技能执行层(轨迹生成)
运动规划 / 碰撞检测 / 末端轨迹平滑 / Chunk执行
MoveIt 2 / RRT*
100-200 Hz
🎛️ 关节控制层(阻抗 / PD)
关节 PD 控制 / 阻抗控制 / 力矩前馈 / 状态估计
RT-preempt Linux
500-1000 Hz
⚙️ 电机驱动层(伺服控制)
FOC 电流控制 / 编码器读取 / PWM 输出
EtherCAT / CAN FD
10+ kHz
🛡️ 硬件安全层(保护回路)
过流 / 过温 / 奇异位形保护 / 急停硬线
FPGA / MCU 硬件
🎯
Action Chunking 技术
VLA 每次推理输出 T=8~16 步动作序列(Chunk),而非单步动作。好处:
  • 平滑高层推理延迟(50-200ms)与低层执行频率(100Hz)的差距
  • 减少因 LLM 推理过慢导致的抖动
  • 捕捉动作间的时序相关性
ACT(Action Chunking with Transformers)- Stanford IRIS 2023
💫
Diffusion Policy 解码
用扩散模型解码动作分布,而非直接回归单点动作。好处:
  • 能建模多峰动作分布(同一任务多种解法)
  • 避免均值回归导致的"平均动作"问题
  • DDIM 加速采样:20 步推理 ≈ 50ms
Diffusion Policy - Chi et al., RSS 2023 Best Paper
⚠️ 实时性工程要点

低层控制(>200Hz)必须运行在实时操作系统(RT-preempt Linux / Xenomai / QNX)上。延迟抖动(Jitter)> 1ms 会导致控制不稳定。关键配置:CPU 亲和性绑定、禁用 CPU 频率调节(cpufreq)、PREEMPT_RT 内核、EtherCAT 总线(确定性 1ms 周期)。高层 AI 推理(VLA)运行在普通 Linux,通过共享内存 / DDS 与实时层通信。

Chapter 04

Sim-to-Real 迁移工程

弥合虚拟与现实的"现实差距":让仿真训练的模型在真机上不翻车

💡 Reality Gap 的根源

仿真训练出的策略在真实机器人上失效,核心原因是仿真与现实的系统差距(Sim-to-Real Gap)。分三类:物理差距(摩擦、刚度、惯量不准确)、感知差距(渲染质量、噪声模型不匹配)、动力学差距(接触动力学、柔性关节)。闭合这个差距是量产具身智能最关键的工程问题。

🎲
Domain Randomization(DR)
训练时随机化物理参数:摩擦系数 ±50%、质量 ±20%、关节阻尼 ±30%。迫使策略学习对参数鲁棒的行为。
✅ 实践标准:Isaac Gym / MuJoCo,随机化 20+ 物理参数
🎨
视觉随机化(Visual DR)
随机化背景贴图、光照颜色、摄像头噪声、运动模糊。让视觉特征提取器对外观变化鲁棒。
✅ 推荐:NVISII / Isaac Sim 渲染,结合真实图像 Mixup
🔧
系统辨识(System ID)
通过真机实验数据反向辨识仿真参数(如关节摩擦、电机惯量),使仿真尽量逼近真实。
✅ 工具:Bayesian Optimization + 真机激励信号采集
🤸
自适应策略(RMA)
Rapid Motor Adaptation:先在仿真中训练基础策略,再训练一个轻量适配器,根据实时感知估计环境参数并在线调整策略。
✅ Kumar et al., RSS 2021;Boston Dynamics / ETH ANYmal 采用
🔬
Sim2Real 微调
在仿真中做大规模预训练,用少量真机数据(10-100 次演示)做微调。成本低,收敛快。
✅ π₀、ACT++ 均采用此路径;LoRA 微调降低计算需求
🌐
世界模型辅助
训练神经网络世界模型预测环境转移,作为更精准的"仿真器"进行数据增强,减少对物理引擎的依赖。
✅ DreamerV3、Genie 2 路线;数据效率提升 10x
10x
Domain Rand. 数据效率提升
<50
真机演示数据(精调)
85%+
成熟任务真机成功率
72h
典型 Sim-to-Real 迁移周期
Chapter 05

端侧低延迟部署

把 7B 参数的 VLA 塞进机器人背包:边缘 AI 的工程艺术

💡 延迟预算分析

精细操作的总控制延迟预算:< 200ms(端到端:感知采集 10ms + VLA 推理 80-150ms + 轨迹规划 10ms + 通信 5ms)。超过 200ms 会导致滞后控制、抓取失败。因此 VLA 推理必须在端侧 GPU/NPU 本地执行,无法依赖云端。

💻
计算主板
NVIDIA Jetson Orin NX 16GB
或 NVIDIA Thor SoC
1000 TOPS INT8 算力
20W TDP(移动平台)
推理优化
TensorRT-LLM 量化
INT4 / AWQ 权重压缩
KV Cache 管理
Speculative Decoding
🔌
通信总线
EtherCAT(关节控制)
CAN FD(传感器)
USB3.1 Gen2(摄像头)
PCIe NVMe(存储)
🔋
功耗管理
AI 推理 ≈ 30-80W
关节执行器 ≈ 200-500W
总功耗预算:<800W
电池续航:2-4 小时
💾
内存架构
统一内存架构(UMA)
CPU/GPU 共享 LPDDR5
避免 PCIe 拷贝开销
Zero-copy 感知流水线
🛠️
软件框架
ROS 2 Humble / Iron
RT-preempt Linux 6.x
CUDA 12 + cuDNN 9
Isaac ROS 2.0

🚀 VLA 端侧推理加速技术栈

模型量化(Quantization)
  • INT4 AWQ 量化:7B 模型从 14GB → 3.5GB,速度提升 3x
  • 视觉编码器保持 FP16(精度敏感)
  • 行动解码器保持 FP32(安全性要求)
  • 动态量化:根据当前任务复杂度选精度
🔄
异步推理流水线
  • VLA 推理线程(CPU/GPU)与控制线程解耦
  • Ping-Pong Buffer:当前 Chunk 执行时,下一 Chunk 已在推理
  • 预测性执行:提前推理下一状态的行动
  • 推理触发:事件驱动(任务完成 / 异常检测)而非固定频率
Chapter 06

物理安全对齐

具身智能的安全不仅是"不说坏话":如何让机器人永远不伤人

💡 具身安全 vs 语言模型安全

语言模型的安全失误代价是信息伤害;具身智能的安全失误代价是物理伤害——毫秒级、不可逆。因此必须构建多层硬件+软件+AI的纵深防御体系,而非仅依赖 LLM 的内容安全过滤。每一层独立设计、可独立触发急停。

L1
🔴 硬件急停(E-Stop)
物理急停按钮切断电机驱动器电源。独立于软件,任何软件故障均不影响此层。必须双通道冗余(安全继电器)。
< 1ms
L2
🟠 关节力矩保护(Torque Limit)
驱动器固件层:每个关节设置最大力矩阈值。超过阈值立即切断该关节输出并触发阻抗零刚度模式(Safe Torque Off)。
< 2ms
L3
🟡 碰撞检测(Collision Detection)
基于电流监测的碰撞检测(无需外置传感器)。实时计算预期力矩 vs 实际力矩偏差,异常则触发反弹撤退(Collision Reflex)。
< 5ms
L4
🔵 虚拟安全边界(Safety Zones)
软件层:定义禁止区域、速度限制区域、人体保护区域。基于实时 3D 点云检测人员距离,动态调整速度上限(TS 15066 协作机器人标准)。
< 20ms
L5
🟣 AI 意图验证(Intent Check)
在 VLA 输出行动 Token 后、执行前,运行轻量安全分类器(<50ms),验证指令是否超出允许操作空间,并过滤可能危险的动作序列。
< 50ms
L6
🟢 人工监督(HITL Oversight)
高风险操作(陌生环境、异常检测触发、置信度低于阈值)强制请求人工远程审批后继续。支持 VR 实时监督与紧急接管。
异步
✅ 2026 行业标准:ISO/TS 15066 合规要点

协作机器人(Cobot)在人机共工场景下的安全要求:功率与力限制(手部接触 ≤ 140W / 140N);速度监控(保护停止 ≤ 250mm/s);安全区分级(协作区 / 限速区 / 全速区)。每年强制安全审计与重新认证。任何安全相关代码变更必须有独立安全工程师评审。

Chapter 07

端到端工程最佳实践

从首席科学家的踩坑史提炼:具身智能工程的 8 大铁律

RULE 01

📊 数据飞轮优先于算法创新

具身智能 90% 的进步来自数据质量与数量,而非模型创新。投资遥操作(Teleoperation)采集真实演示数据,建立数据自动过滤(异常轨迹剔除)与标注 Pipeline。数据成本是模型训练成本的 10-100 倍,优先保障。

遥操作系统 数据质量过滤 自动标注 数据增强
RULE 02

🔁 仿真先行,真机验证

在真机上迭代成本极高(磨损、损坏、安全风险)。建立高保真仿真环境(Isaac Sim / MuJoCo),90% 的实验在仿真中完成后,再用少量真机实验做最终验证与 Sim2Real 微调。仿真加速比目标:≥100x 实时。

Isaac Sim MuJoCo Domain Rand. 100x 加速
RULE 03

🔬 评估体系先于模型训练

先定义评估 benchmark,再开始训练。具身智能的评估极复杂:任务成功率(多次独立实验均值)、鲁棒性(扰动下的成功率)、泛化率(unseen 物体 / 场景)、安全事件率。每次迭代跑完整评估套件,防止局部过拟合。

成功率 ×N次 泛化测试 扰动鲁棒性 安全事件率
RULE 04

📡 全链路可观测性

具身系统的调试难度远高于软件系统——失败发生在毫秒级,只有日志。必须记录:完整传感器数据流、VLA 推理 Token 序列、关节力矩/角度轨迹、安全系统触发记录。支持"时间旅行"回放失败片段。存储预算:每台机器每天 ~50GB。

Bag 录制 轨迹回放 推理日志 时间旅行调试
RULE 05

🏗️ 模块化解耦架构

感知 / 规划 / 控制 / 安全各层严格解耦,通过 DDS(ROS 2)标准接口通信。每层独立测试、独立升级。特别是:安全层永远不依赖 AI 层,AI 层可以随时更换而不影响实时控制层。

ROS 2 接口 DDS 中间件 依赖注入 接口测试
RULE 06

🔐 安全红线不可妥协

永远不为了成功率/演示效果绕过安全层。安全代码和业务代码分离,安全工程师有单独代码库 + 独立 Review 权限。真机实验必须有人监督,远程实验必须有紧急停止通道。失败是数据,安全事故是灾难。

安全代码隔离 人员监督 紧急停止通道 事故复盘
RULE 07

🔄 渐进式真机测试

新策略首次真机测试流程:沙箱仿真(✓)→ 慢速关节测试(限速 10%)→ 单任务片段测试 → 完整任务测试(限速 50%)→ 全速测试 → 多样化场景测试。绝对不跳步骤。

5 步测试流程 速度渐进 片段测试 场景扩展
RULE 08

🌐 跨机型泛化设计

不要为单一机器人型号写死模型。从一开始就考虑跨机型(不同关节数、不同基座、不同末端)的迁移。使用机器人描述文件(URDF)参数化策略输入,支持 Robot-Agnostic 的 VLA 推理层,仅在低层控制适配具体硬件。

URDF 参数化 Robot-Agnostic VLA 硬件抽象层 跨机型验证

✅ 真机部署就绪检查清单

🏗️ 系统完备性
  • 全链路延迟 end-to-end 测量 ≤ 200ms
  • RT Linux 配置验证(延迟 jitter < 1ms)
  • EtherCAT 总线确定性通信验证
  • 所有传感器时间同步误差 < 1ms
  • 仿真 → 真机成功率衰减 < 15%
🛡️ 安全合规性
  • 6 层安全体系全部独立测试通过
  • 急停响应时间 < 1ms 验证
  • ISO/TS 15066 力限测量达标
  • 安全事件率 < 0.01% 达标
  • 安全工程师签字 + 第三方认证
📊 性能指标
  • 目标任务成功率(≥20次实验均值)≥ 85%
  • Unseen 物体泛化成功率 ≥ 60%
  • 光照 / 背景扰动成功率衰减 < 20%
  • 连续运行 4 小时无安全事件
🔍 可观测性
  • 完整数据录制与回放功能测试
  • 失败案例自动分类与上报
  • 性能监控 Dashboard 上线
  • 远程监督通道与紧急接管测试
Chapter 08

2026 前沿研究方向

首席科学家押注的下一个五年:哪些方向将定义具身智能的未来

🌍
具身世界模型(Embodied World Models)
机器人在执行动作前,先在内部世界模型中"想象"结果,再决策。代表工作:Genie 2(DeepMind)、Genesis(CMU)。目标:1000x 减少真机数据需求。
Genie 2 DreamerV3 Genesis
🤝
人机共学(Human-Robot Co-Learning)
机器人与人类协作时持续学习:观察人类示范 → 在线更新策略 → 主动询问歧义步骤。Few-shot In-Context Learning 迁移到物理操作域。
Active Learning HITL 微调
🤖
灵巧双手操作(Dexterous Manipulation)
5 指灵巧手的全指控制:27+ DoF 精细操作、布料 / 绳索等非刚体处理、仅凭触觉的盲操作(Tactile Only)。代表:LEAP Hand、Allegro Hand + RDT-1B。
LEAP Hand RDT-1B Tactile Learning
🦿
全身协调运动(Whole-Body Control)
双足行走 + 双臂操作的全身统一控制:行走时动态调整重心同时完成上肢操作任务。代表:Figure 02、Unitree G1、Agility Digit 的最新成果。
Full-Body MPC WBC Loco-Manipulation
📐
可扩展数据引擎(Scalable Data Engine)
解决数据瓶颈:合成数据生成(Diffusion Model → 操作视频 → 动作标注)、跨机构数据联合训练(Open-X Embodiment v2)、主动探索自动采集。
Open-X v2 合成数据 主动探索
🧠
具身推理(Embodied Reasoning)
从"动作预测"升级到"因果推理 + 物理常识 + 长程规划"。大模型通过物理常识推断 unseen 情况下的最优动作,而非单纯模式匹配。SpatialVLA、EmbodiedGPT 等方向。
SpatialVLA EmbodiedGPT
Chapter 09

面试宝典 & 高频考点

35+ 道具身智能面试题精选,覆盖算法、系统、工程、安全四大维度

❓ 具身智能与传统机器人控制的本质区别是什么? +

传统机器人控制是确定性的专家系统:程序员为每种场景编写具体规则,机器人严格执行。换一个场景就需要重新编程。

具身智能是端到端学习系统:通过大量示范数据学习感知→行动的映射,能泛化到训练中未见过的场景。

核心区别四维度:
1. 泛化性:传统 = 规定场景精确执行;具身 = 见过类似情况的灵活应对
2. 输入复杂性:传统 = 结构化传感器数据;具身 = 高维视觉 + 触觉 + 语言
3. 开发方式:传统 = 手工设计控制器;具身 = 端到端学习
4. 失败模式:传统 = 规则边界外崩溃;具身 = 分布外泛化失败,失败更"智能"也更难预测

❓ 什么是 VLA?为什么 Action Chunking 是必要的? +

VLA(Vision-Language-Action Model)= 多模态大模型 + 行动解码器。把语言和视觉理解能力扩展到物理控制输出。

为什么需要 Action Chunking?
矛盾:VLA 推理延迟 50-200ms;精细操作需要 ≥100Hz 控制频率。
解决:每次推理输出 T=8~16 步的动作序列(Chunk),低层控制器以 100-500Hz 插值执行该序列。

额外好处:Chunk 能建模动作间的时序相关性(如"先握紧,再提起"的顺序依赖),比逐步预测更连贯。
代表工作:ACT (Stanford, RSS 2023)

❓ Diffusion Policy 和直接回归动作的区别与优劣? +

直接回归(MSE Loss)问题:当示范数据存在多种合理动作(多峰分布)时,均方误差回归会输出"均值动作"——比如两种抓取姿势的平均值,往往是一个失败的中间姿势。

Diffusion Policy 优势:用扩散过程建模动作分布,能采样出任意一个合理的峰(而非均值)。对包含多种解法的复杂任务表现显著更好。

劣势:推理需要多步去噪(DDIM 20步≈50ms),比直接回归慢 5-20x。实践上用 DDIM 加速采样 + Action Chunking 掩盖延迟问题。

选择建议:任务简单、动作唯一 → ACT 足够;任务复杂、多种解法 → Diffusion Policy 更优

❓ Sim-to-Real Gap 有哪三大类型?各自如何应对? +

三大类:

1. 物理差距(Physics Gap):仿真的摩擦、刚度、惯量不准确 → 应对:Domain Randomization(随机化 20+ 物理参数)+ 系统辨识(System ID)

2. 感知差距(Perception Gap):仿真渲染 vs 真实相机图像存在域偏移 → 应对:视觉随机化(随机背景/光照/噪声)+ 真实图像 Fine-tuning

3. 动力学差距(Dynamics Gap):接触动力学、关节柔性、电机响应不准确 → 应对:RMA(Rapid Motor Adaptation)+ 在线参数估计

综合策略:DR(仿真侧)+ Sim2Real 微调(真机侧)+ 世界模型(减少对物理引擎依赖)

❓ 为什么具身智能需要实时操作系统?普通 Linux 为什么不够? +

关节控制需要 ≥200Hz 的确定性控制周期(5ms/周期)。

普通 Linux 的问题:调度器不保证任务延迟上限。系统调用、GC、内核任务可能导致控制线程暂停 10-100ms——在 200Hz 控制下,这意味着控制系统失步,轻则抖动,重则损坏。

RT-preempt Linux 的改进
• 中断处理器可被抢占(Preemptible Interrupts)
• 控制线程优先级最高,不被内核任务打断
• 延迟抖动从 >10ms 降低到 <100μs

实践:高层 AI 推理在普通 Linux 进程,通过共享内存 / DDS 与 RT 控制进程通信,互不干扰

❓ 具身智能的安全体系为什么不能只靠 AI 模型? +

三个根本原因:

1. AI 是概率性的:VLA 有推理出错的概率,错误可能导致物理危害。单点依赖必然失败。

2. 延迟不足:AI 安全检查需要 50-200ms;物理紧急情况需要 <1ms 响应(关节保护)。AI 永远跑不过硬件。

3. 软件 Bug 必然存在:任何复杂软件都有 Bug。安全不能依赖于代码无错。硬件急停(E-Stop)独立于软件,是最后防线。

正确设计:硬件急停(<1ms)→ 关节力矩保护(<2ms)→ 碰撞检测(<5ms)→ 虚拟安全边界(<20ms)→ AI 意图验证(<50ms)→ HITL 监督(异步)

原则:每层独立触发,不依赖上层正常工作。

❓ 如何评估一个具身智能系统的"泛化能力"? +

泛化评估需要系统性测试,而非只测试"成功率":

四个维度
1. 物体泛化:在 unseen 颜色/形状/材质的物体上的成功率 vs 训练物体成功率
2. 场景泛化:改变光照/背景/桌面材质后的成功率衰减幅度(目标 <20%)
3. 指令泛化:改写同义语言指令("把那个苹果拿过来" vs "移动红色水果到这里")的理解准确率
4. 扰动鲁棒性:在任务执行中途引入轻微位姿扰动后的恢复成功率

评估要求:每个条件 ≥20 次独立实验,报告均值 ± 标准差。单次成功不算数。

❓ 2026 年具身智能最重要的五大技术趋势是什么? +

从首席科学家视角:

1. VLA 大一统:从单任务专用控制器走向通用 VLA,语言指令驱动多任务泛化,π₀ 是里程碑

2. 数据引擎决定成败:遥操作 + 合成数据 + 跨机构共享(Open-X)成为最重要的基础设施,不是算法

3. 仿真 + 世界模型:高保真仿真(Isaac Sim)+ 神经世界模型(Genie 2)使训练数据成本下降 10-100x

4. 物理安全合规化:ISO/TS 15066 等标准普及,安全工程从可选变为必选,第三方认证成为量产门槛

5. 人形机器人量产元年:Figure 02、Tesla Optimus、Unitree G1 进入小批量工业部署,具身智能从实验室走向生产线