Chapter 01

感知基础与多模态输入

具身智能的"眼睛"：理解视觉、触觉、本体感知的融合工程

💡 首席科学家的一句话

具身智能 = 感知（看世界）+ 理解（懂世界）+ 行动（改变世界）
与纯语言模型最本质的区别：它的输出要对物理世界产生真实后果。一个 Token 的偏差，可能是桌上的咖啡杯，也可能是工厂线上的 100 万损失。这要求我们在感知层就建立冗余与校验，而非仅仅追求单模态精度。

👁️

视觉感知栈

RGB-D 立体相机：深度信息消除视差歧义
鱼眼广角：180° 场景覆盖，减少盲区
手腕摄像头：近距操作的精确视角
事件相机（Event Camera）：μs 级时间分辨率，高速动态场景

Intel RealSense D435 ZED 2i

🖐️

触觉与力感知

6轴力矩传感器：接触力 / 力矩全量测量
触觉皮肤（Tactile Skin）：分布式压力阵列 ≥ 1kHz
关节力矩反馈：过载保护与柔顺控制前提
基于振动的材质识别：硬、软、湿、脆分类

ATI Nano17 GelSight

🧭

本体感知与状态估计

IMU + 腿部关节编码器：全身状态实时估计
足底压力传感器：步态相位检测与地形自适应
视觉惯性里程计（VIO）：无 GPS 定位
状态估计卡尔曼滤波：EKF / UKF 融合多源

ICM-42688 VINS-Mono

⚡ 2026 最新实践：感知时间同步

多模态感知的核心挑战是时间对齐：视觉 30-60fps、力传感器 1kHz、IMU 200Hz，必须用硬件时间戳 + 软件插值共同保证时序一致性。业界标准：所有传感器时戳误差 < 1ms。推荐方案：PPS 脉冲同步 + ROS2 硬件触发话题。

Chapter 02

VLA：视觉-语言-行动架构

从 GPT 到能拿东西的机器人：VLA 如何统一感知、理解与控制

💡 VLA 的本质

VLA（Vision-Language-Action Model）= 视觉编码器 + 大语言模型骨干 + 行动解码器。它把"看图说话"的 VLM 能力，扩展到"看图拿东西"。核心创新：将机器人动作作为特殊 Token 纳入语言模型的词表，实现语义理解与物理控制的统一建模。

VLA 端到端系统架构（2026 主流范式）

💬

语言指令输入

自然语言任务描述："把红色积木放到蓝色箱子里" → Tokenize → Embedding

Text Encoder

🖼️

视觉特征提取

多摄像头 RGB-D → ViT / DINOv2 → 图像 Token patch。第三视角 + 手腕视角双流融合

Vision Encoder

🧠

多模态 LLM 骨干

视觉 Token + 语言 Token 联合输入 Transformer。执行推理、场景理解、任务规划。主流：Gemma-2B / LLaMA-3-8B 微调

LLM Backbone (7B)

🎯

行动 Token 解码

Action Chunk 预测：下 T 步的关节角度序列（Chunk size T=8~16）。Diffusion Policy 或 Flow Matching 解码分布

Action Decoder

🦾

低层控制执行

关节空间 / 笛卡尔空间轨迹插值 → PD / 阻抗控制器 → 电机指令 @ 500-1000Hz

Motor Controller

📊 2025-2026 主流 VLA 架构对比

模型	骨干	行动表示	泛化能力	推理延迟	核心创新
π₀ (Physical Intelligence)	PaliGemma-3B	Flow Matching	⭐⭐⭐⭐⭐	~50ms	Pre-training on diverse robot data，跨机型泛化
OpenVLA-7B	LLaMA-7B + DINOv2	Discrete Tokens	⭐⭐⭐⭐	~200ms	Open-source，支持参数高效微调 LoRA
RoboVLMs	InternVL2-8B	Continuous (ACT)	⭐⭐⭐⭐	~80ms	中文指令友好，国内首选
GR-2 (ByteDance)	Video Gen Pre-training	Diffusion Policy	⭐⭐⭐⭐	~100ms	Video预训练赋予丰富物理先验
RDT-1B	Diffusion Transformer 1B	DiT Action	⭐⭐⭐	~60ms	纯扩散架构，双手灵巧操作SOTA

🔑 首席视角：选 VLA 的三个问题

1. 数据量：你有多少高质量演示数据？<100 → 传统 BC；100-1000 → ACT/Diffusion；>1000 → VLA 微调有望泛化
2. 延迟预算：任务允许多高的推理延迟？精细操作 <100ms，巡检类任务可接受 >500ms
3. 泛化需求：同一模型要适应几种任务、几台机器？场景固定用 BC 更省事，需要语言指令泛化才上 VLA

Chapter 03

层次化实时控制循环

为什么一个 AI 要同时用 50Hz 和 1000Hz 思考

💡 控制频率的本质

人类拿杯子时，大脑做高层规划（"拿那个红杯子"），脊髓做反射控制（自动稳定手腕），肌肉做实时微调。具身智能的层次控制完全对应这一生物架构：任务规划层（慢）→ 技能执行层（中）→ 关节控制层（快）→ 硬件安全层（最快）。各层频率不同，是因为它们解决的问题时间尺度不同。

🔄 五层控制循环频率栈

频率

层次 & 职责

技术实现

1-5 Hz

🌍 任务规划层（高层 AI）

VLA 推理 / LLM 任务分解 / 场景理解 / 重规划

VLA Inference

5-30 Hz

🗺️ 技能执行层（轨迹生成）

运动规划 / 碰撞检测 / 末端轨迹平滑 / Chunk执行

MoveIt 2 / RRT*

100-200 Hz

🎛️ 关节控制层（阻抗 / PD）

关节 PD 控制 / 阻抗控制 / 力矩前馈 / 状态估计

RT-preempt Linux

500-1000 Hz

⚙️ 电机驱动层（伺服控制）

FOC 电流控制 / 编码器读取 / PWM 输出

EtherCAT / CAN FD

10+ kHz

🛡️ 硬件安全层（保护回路）

过流 / 过温 / 奇异位形保护 / 急停硬线

FPGA / MCU 硬件

🎯

Action Chunking 技术

VLA 每次推理输出 T=8~16 步动作序列（Chunk），而非单步动作。好处：

平滑高层推理延迟（50-200ms）与低层执行频率（100Hz）的差距
减少因 LLM 推理过慢导致的抖动
捕捉动作间的时序相关性

ACT（Action Chunking with Transformers）- Stanford IRIS 2023

💫

Diffusion Policy 解码

用扩散模型解码动作分布，而非直接回归单点动作。好处：

能建模多峰动作分布（同一任务多种解法）
避免均值回归导致的"平均动作"问题
DDIM 加速采样：20 步推理 ≈ 50ms

Diffusion Policy - Chi et al., RSS 2023 Best Paper

⚠️ 实时性工程要点

低层控制（>200Hz）必须运行在实时操作系统（RT-preempt Linux / Xenomai / QNX）上。延迟抖动（Jitter）> 1ms 会导致控制不稳定。关键配置：CPU 亲和性绑定、禁用 CPU 频率调节（cpufreq）、PREEMPT_RT 内核、EtherCAT 总线（确定性 1ms 周期）。高层 AI 推理（VLA）运行在普通 Linux，通过共享内存 / DDS 与实时层通信。

Chapter 04

Sim-to-Real 迁移工程

弥合虚拟与现实的"现实差距"：让仿真训练的模型在真机上不翻车

💡 Reality Gap 的根源

仿真训练出的策略在真实机器人上失效，核心原因是仿真与现实的系统差距（Sim-to-Real Gap）。分三类：物理差距（摩擦、刚度、惯量不准确）、感知差距（渲染质量、噪声模型不匹配）、动力学差距（接触动力学、柔性关节）。闭合这个差距是量产具身智能最关键的工程问题。

🎲

Domain Randomization（DR）

训练时随机化物理参数：摩擦系数 ±50%、质量 ±20%、关节阻尼 ±30%。迫使策略学习对参数鲁棒的行为。

✅ 实践标准：Isaac Gym / MuJoCo，随机化 20+ 物理参数

🎨

视觉随机化（Visual DR）

随机化背景贴图、光照颜色、摄像头噪声、运动模糊。让视觉特征提取器对外观变化鲁棒。

✅ 推荐：NVISII / Isaac Sim 渲染，结合真实图像 Mixup

🔧

系统辨识（System ID）

通过真机实验数据反向辨识仿真参数（如关节摩擦、电机惯量），使仿真尽量逼近真实。

✅ 工具：Bayesian Optimization + 真机激励信号采集

🤸

自适应策略（RMA）

Rapid Motor Adaptation：先在仿真中训练基础策略，再训练一个轻量适配器，根据实时感知估计环境参数并在线调整策略。

✅ Kumar et al., RSS 2021；Boston Dynamics / ETH ANYmal 采用

🔬

Sim2Real 微调

在仿真中做大规模预训练，用少量真机数据（10-100 次演示）做微调。成本低，收敛快。

✅ π₀、ACT++ 均采用此路径；LoRA 微调降低计算需求

🌐

世界模型辅助

训练神经网络世界模型预测环境转移，作为更精准的"仿真器"进行数据增强，减少对物理引擎的依赖。

✅ DreamerV3、Genie 2 路线；数据效率提升 10x

10x

Domain Rand. 数据效率提升

<50

真机演示数据（精调）

85%+

成熟任务真机成功率

72h

典型 Sim-to-Real 迁移周期

Chapter 05

端侧低延迟部署

把 7B 参数的 VLA 塞进机器人背包：边缘 AI 的工程艺术

💡 延迟预算分析

精细操作的总控制延迟预算：< 200ms（端到端：感知采集 10ms + VLA 推理 80-150ms + 轨迹规划 10ms + 通信 5ms）。超过 200ms 会导致滞后控制、抓取失败。因此 VLA 推理必须在端侧 GPU/NPU 本地执行，无法依赖云端。

💻

计算主板

NVIDIA Jetson Orin NX 16GB
或 NVIDIA Thor SoC
1000 TOPS INT8 算力
20W TDP（移动平台）

⚡

推理优化

TensorRT-LLM 量化
INT4 / AWQ 权重压缩
KV Cache 管理
Speculative Decoding

🔌

通信总线

EtherCAT（关节控制）
CAN FD（传感器）
USB3.1 Gen2（摄像头）
PCIe NVMe（存储）

🔋

功耗管理

AI 推理 ≈ 30-80W
关节执行器 ≈ 200-500W
总功耗预算：<800W
电池续航：2-4 小时

💾

内存架构

统一内存架构（UMA）
CPU/GPU 共享 LPDDR5
避免 PCIe 拷贝开销
Zero-copy 感知流水线

🛠️

软件框架

ROS 2 Humble / Iron
RT-preempt Linux 6.x
CUDA 12 + cuDNN 9
Isaac ROS 2.0

🚀 VLA 端侧推理加速技术栈

⚡

模型量化（Quantization）

INT4 AWQ 量化：7B 模型从 14GB → 3.5GB，速度提升 3x
视觉编码器保持 FP16（精度敏感）
行动解码器保持 FP32（安全性要求）
动态量化：根据当前任务复杂度选精度

🔄

异步推理流水线

VLA 推理线程（CPU/GPU）与控制线程解耦
Ping-Pong Buffer：当前 Chunk 执行时，下一 Chunk 已在推理
预测性执行：提前推理下一状态的行动
推理触发：事件驱动（任务完成 / 异常检测）而非固定频率

Chapter 06

物理安全对齐

具身智能的安全不仅是"不说坏话"：如何让机器人永远不伤人

💡 具身安全 vs 语言模型安全

语言模型的安全失误代价是信息伤害；具身智能的安全失误代价是物理伤害——毫秒级、不可逆。因此必须构建多层硬件+软件+AI的纵深防御体系，而非仅依赖 LLM 的内容安全过滤。每一层独立设计、可独立触发急停。

L1

🔴 硬件急停（E-Stop）

物理急停按钮切断电机驱动器电源。独立于软件，任何软件故障均不影响此层。必须双通道冗余（安全继电器）。

< 1ms

L2

🟠 关节力矩保护（Torque Limit）

驱动器固件层：每个关节设置最大力矩阈值。超过阈值立即切断该关节输出并触发阻抗零刚度模式（Safe Torque Off）。

< 2ms

L3

🟡 碰撞检测（Collision Detection）

基于电流监测的碰撞检测（无需外置传感器）。实时计算预期力矩 vs 实际力矩偏差，异常则触发反弹撤退（Collision Reflex）。

< 5ms

L4

🔵 虚拟安全边界（Safety Zones）

软件层：定义禁止区域、速度限制区域、人体保护区域。基于实时 3D 点云检测人员距离，动态调整速度上限（TS 15066 协作机器人标准）。

< 20ms

L5

🟣 AI 意图验证（Intent Check）

在 VLA 输出行动 Token 后、执行前，运行轻量安全分类器（<50ms），验证指令是否超出允许操作空间，并过滤可能危险的动作序列。

< 50ms

L6

🟢 人工监督（HITL Oversight）

高风险操作（陌生环境、异常检测触发、置信度低于阈值）强制请求人工远程审批后继续。支持 VR 实时监督与紧急接管。

异步

✅ 2026 行业标准：ISO/TS 15066 合规要点

协作机器人（Cobot）在人机共工场景下的安全要求：功率与力限制（手部接触 ≤ 140W / 140N）；速度监控（保护停止 ≤ 250mm/s）；安全区分级（协作区 / 限速区 / 全速区）。每年强制安全审计与重新认证。任何安全相关代码变更必须有独立安全工程师评审。

Chapter 07

端到端工程最佳实践

从首席科学家的踩坑史提炼：具身智能工程的 8 大铁律

RULE 01

📊 数据飞轮优先于算法创新

具身智能 90% 的进步来自数据质量与数量，而非模型创新。投资遥操作（Teleoperation）采集真实演示数据，建立数据自动过滤（异常轨迹剔除）与标注 Pipeline。数据成本是模型训练成本的 10-100 倍，优先保障。

遥操作系统数据质量过滤自动标注数据增强

RULE 02

🔁 仿真先行，真机验证

在真机上迭代成本极高（磨损、损坏、安全风险）。建立高保真仿真环境（Isaac Sim / MuJoCo），90% 的实验在仿真中完成后，再用少量真机实验做最终验证与 Sim2Real 微调。仿真加速比目标：≥100x 实时。

Isaac Sim MuJoCo Domain Rand. 100x 加速

RULE 03

🔬 评估体系先于模型训练

先定义评估 benchmark，再开始训练。具身智能的评估极复杂：任务成功率（多次独立实验均值）、鲁棒性（扰动下的成功率）、泛化率（unseen 物体 / 场景）、安全事件率。每次迭代跑完整评估套件，防止局部过拟合。

成功率 ×N次泛化测试扰动鲁棒性安全事件率

RULE 04

📡 全链路可观测性

具身系统的调试难度远高于软件系统——失败发生在毫秒级，只有日志。必须记录：完整传感器数据流、VLA 推理 Token 序列、关节力矩/角度轨迹、安全系统触发记录。支持"时间旅行"回放失败片段。存储预算：每台机器每天 ~50GB。

Bag 录制轨迹回放推理日志时间旅行调试

RULE 05

🏗️ 模块化解耦架构

感知 / 规划 / 控制 / 安全各层严格解耦，通过 DDS（ROS 2）标准接口通信。每层独立测试、独立升级。特别是：安全层永远不依赖 AI 层，AI 层可以随时更换而不影响实时控制层。

ROS 2 接口 DDS 中间件依赖注入接口测试

RULE 06

🔐 安全红线不可妥协

永远不为了成功率/演示效果绕过安全层。安全代码和业务代码分离，安全工程师有单独代码库 + 独立 Review 权限。真机实验必须有人监督，远程实验必须有紧急停止通道。失败是数据，安全事故是灾难。

安全代码隔离人员监督紧急停止通道事故复盘

RULE 07

🔄 渐进式真机测试

新策略首次真机测试流程：沙箱仿真（✓）→ 慢速关节测试（限速 10%）→ 单任务片段测试 → 完整任务测试（限速 50%）→ 全速测试 → 多样化场景测试。绝对不跳步骤。

5 步测试流程速度渐进片段测试场景扩展

RULE 08

🌐 跨机型泛化设计

不要为单一机器人型号写死模型。从一开始就考虑跨机型（不同关节数、不同基座、不同末端）的迁移。使用机器人描述文件（URDF）参数化策略输入，支持 Robot-Agnostic 的 VLA 推理层，仅在低层控制适配具体硬件。

URDF 参数化 Robot-Agnostic VLA 硬件抽象层跨机型验证

✅ 真机部署就绪检查清单

🏗️ 系统完备性

全链路延迟 end-to-end 测量 ≤ 200ms
RT Linux 配置验证（延迟 jitter < 1ms）
EtherCAT 总线确定性通信验证
所有传感器时间同步误差 < 1ms
仿真 → 真机成功率衰减 < 15%

🛡️ 安全合规性

6 层安全体系全部独立测试通过
急停响应时间 < 1ms 验证
ISO/TS 15066 力限测量达标
安全事件率 < 0.01% 达标
安全工程师签字 + 第三方认证

📊 性能指标

目标任务成功率（≥20次实验均值）≥ 85%
Unseen 物体泛化成功率 ≥ 60%
光照 / 背景扰动成功率衰减 < 20%
连续运行 4 小时无安全事件

🔍 可观测性

完整数据录制与回放功能测试
失败案例自动分类与上报
性能监控 Dashboard 上线
远程监督通道与紧急接管测试

Chapter 08

2026 前沿研究方向

首席科学家押注的下一个五年：哪些方向将定义具身智能的未来

🌍

具身世界模型（Embodied World Models）

机器人在执行动作前，先在内部世界模型中"想象"结果，再决策。代表工作：Genie 2（DeepMind）、Genesis（CMU）。目标：1000x 减少真机数据需求。

Genie 2 DreamerV3 Genesis

🤝

人机共学（Human-Robot Co-Learning）

机器人与人类协作时持续学习：观察人类示范 → 在线更新策略 → 主动询问歧义步骤。Few-shot In-Context Learning 迁移到物理操作域。

Active Learning HITL 微调

🤖

灵巧双手操作（Dexterous Manipulation）

5 指灵巧手的全指控制：27+ DoF 精细操作、布料 / 绳索等非刚体处理、仅凭触觉的盲操作（Tactile Only）。代表：LEAP Hand、Allegro Hand + RDT-1B。

LEAP Hand RDT-1B Tactile Learning

🦿

全身协调运动（Whole-Body Control）

双足行走 + 双臂操作的全身统一控制：行走时动态调整重心同时完成上肢操作任务。代表：Figure 02、Unitree G1、Agility Digit 的最新成果。

Full-Body MPC WBC Loco-Manipulation

📐

可扩展数据引擎（Scalable Data Engine）

解决数据瓶颈：合成数据生成（Diffusion Model → 操作视频 → 动作标注）、跨机构数据联合训练（Open-X Embodiment v2）、主动探索自动采集。

Open-X v2 合成数据主动探索

🧠

具身推理（Embodied Reasoning）

从"动作预测"升级到"因果推理 + 物理常识 + 长程规划"。大模型通过物理常识推断 unseen 情况下的最优动作，而非单纯模式匹配。SpatialVLA、EmbodiedGPT 等方向。

SpatialVLA EmbodiedGPT

Chapter 09

面试宝典 & 高频考点

35+ 道具身智能面试题精选，覆盖算法、系统、工程、安全四大维度

❓ 具身智能与传统机器人控制的本质区别是什么？ +

传统机器人控制是确定性的专家系统：程序员为每种场景编写具体规则，机器人严格执行。换一个场景就需要重新编程。

具身智能是端到端学习系统：通过大量示范数据学习感知→行动的映射，能泛化到训练中未见过的场景。

核心区别四维度：
1. 泛化性：传统 = 规定场景精确执行；具身 = 见过类似情况的灵活应对
2. 输入复杂性：传统 = 结构化传感器数据；具身 = 高维视觉 + 触觉 + 语言
3. 开发方式：传统 = 手工设计控制器；具身 = 端到端学习
4. 失败模式：传统 = 规则边界外崩溃；具身 = 分布外泛化失败，失败更"智能"也更难预测

❓ 什么是 VLA？为什么 Action Chunking 是必要的？ +

VLA（Vision-Language-Action Model）= 多模态大模型 + 行动解码器。把语言和视觉理解能力扩展到物理控制输出。

为什么需要 Action Chunking？
矛盾：VLA 推理延迟 50-200ms；精细操作需要 ≥100Hz 控制频率。
解决：每次推理输出 T=8~16 步的动作序列（Chunk），低层控制器以 100-500Hz 插值执行该序列。

额外好处：Chunk 能建模动作间的时序相关性（如"先握紧，再提起"的顺序依赖），比逐步预测更连贯。
代表工作：ACT (Stanford, RSS 2023)

❓ Diffusion Policy 和直接回归动作的区别与优劣？ +

直接回归（MSE Loss）问题：当示范数据存在多种合理动作（多峰分布）时，均方误差回归会输出"均值动作"——比如两种抓取姿势的平均值，往往是一个失败的中间姿势。

Diffusion Policy 优势：用扩散过程建模动作分布，能采样出任意一个合理的峰（而非均值）。对包含多种解法的复杂任务表现显著更好。

劣势：推理需要多步去噪（DDIM 20步≈50ms），比直接回归慢 5-20x。实践上用 DDIM 加速采样 + Action Chunking 掩盖延迟问题。

选择建议：任务简单、动作唯一 → ACT 足够；任务复杂、多种解法 → Diffusion Policy 更优

❓ Sim-to-Real Gap 有哪三大类型？各自如何应对？ +

三大类：

1. 物理差距（Physics Gap）：仿真的摩擦、刚度、惯量不准确 → 应对：Domain Randomization（随机化 20+ 物理参数）+ 系统辨识（System ID）

2. 感知差距（Perception Gap）：仿真渲染 vs 真实相机图像存在域偏移 → 应对：视觉随机化（随机背景/光照/噪声）+ 真实图像 Fine-tuning

3. 动力学差距（Dynamics Gap）：接触动力学、关节柔性、电机响应不准确 → 应对：RMA（Rapid Motor Adaptation）+ 在线参数估计

综合策略：DR（仿真侧）+ Sim2Real 微调（真机侧）+ 世界模型（减少对物理引擎依赖）

❓ 为什么具身智能需要实时操作系统？普通 Linux 为什么不够？ +

关节控制需要 ≥200Hz 的确定性控制周期（5ms/周期）。

普通 Linux 的问题：调度器不保证任务延迟上限。系统调用、GC、内核任务可能导致控制线程暂停 10-100ms——在 200Hz 控制下，这意味着控制系统失步，轻则抖动，重则损坏。

RT-preempt Linux 的改进：
• 中断处理器可被抢占（Preemptible Interrupts）
• 控制线程优先级最高，不被内核任务打断
• 延迟抖动从 >10ms 降低到 <100μs

实践：高层 AI 推理在普通 Linux 进程，通过共享内存 / DDS 与 RT 控制进程通信，互不干扰

❓ 具身智能的安全体系为什么不能只靠 AI 模型？ +

三个根本原因：

1. AI 是概率性的：VLA 有推理出错的概率，错误可能导致物理危害。单点依赖必然失败。

2. 延迟不足：AI 安全检查需要 50-200ms；物理紧急情况需要 <1ms 响应（关节保护）。AI 永远跑不过硬件。

3. 软件 Bug 必然存在：任何复杂软件都有 Bug。安全不能依赖于代码无错。硬件急停（E-Stop）独立于软件，是最后防线。

正确设计：硬件急停（<1ms）→ 关节力矩保护（<2ms）→ 碰撞检测（<5ms）→ 虚拟安全边界（<20ms）→ AI 意图验证（<50ms）→ HITL 监督（异步）

原则：每层独立触发，不依赖上层正常工作。

❓ 如何评估一个具身智能系统的"泛化能力"？ +

泛化评估需要系统性测试，而非只测试"成功率"：

四个维度：
1. 物体泛化：在 unseen 颜色/形状/材质的物体上的成功率 vs 训练物体成功率
2. 场景泛化：改变光照/背景/桌面材质后的成功率衰减幅度（目标 <20%）
3. 指令泛化：改写同义语言指令（"把那个苹果拿过来" vs "移动红色水果到这里"）的理解准确率
4. 扰动鲁棒性：在任务执行中途引入轻微位姿扰动后的恢复成功率

评估要求：每个条件 ≥20 次独立实验，报告均值 ± 标准差。单次成功不算数。

❓ 2026 年具身智能最重要的五大技术趋势是什么？ +

从首席科学家视角：

1. VLA 大一统：从单任务专用控制器走向通用 VLA，语言指令驱动多任务泛化，π₀ 是里程碑

2. 数据引擎决定成败：遥操作 + 合成数据 + 跨机构共享（Open-X）成为最重要的基础设施，不是算法

3. 仿真 + 世界模型：高保真仿真（Isaac Sim）+ 神经世界模型（Genie 2）使训练数据成本下降 10-100x

4. 物理安全合规化：ISO/TS 15066 等标准普及，安全工程从可选变为必选，第三方认证成为量产门槛

5. 人形机器人量产元年：Figure 02、Tesla Optimus、Unitree G1 进入小批量工业部署，具身智能从实验室走向生产线

具身智能 从感知到真机控制的工程全景