technical architecture whitepaper

智采·万果通

AI 草莓采摘机器人技术架构 · v1.0 → v2.0

Building on team v1.0 strawberry harvester (91.3% / 6.3% / 15.1s · lab furrow-grown, validated 2025) — v2.0 upgrades the software stack to hierarchical VLA system (VLM + Diffusion Policy + Real-Time Chunking, LeRobot v0.5.1).

91.3%✓

v1.0 草莓物理样机 · 已实证

150–300📋

v2.0 草莓 base demo · W1-24 目标

≤ 8 s📋

v2.0 选择性周期 · W21-24 Pilot 目标

chapter i

技术挑战

采摘机器人不是单一难题，而是感知、规划、控制、跨作物迁移四块叠在一起的工程系统。市场背景：中国草莓产量 2021 年 368.2 万吨、2011-2020 CAGR 6.2%，自 2007 年起世界第一——市场体量与机械化采摘空白都已就绪。本章把每块拆开——告诉你它具体卡在哪里、为什么 2024-2026 的论文还没完全解决、我们采取什么策略。

01五大 AI 核心问题

采摘机器人面对的世界比工厂机械臂复杂十倍。果实长在不规则的枝条上，会被叶子遮挡，颜色和背景相近，风一吹位置就变。下面五个问题是 2024 至今所有发表的采摘机器人论文都在回答的——每个问题对应一种独立的技术栈。

① 果实检测与成熟度判断

表面上是个目标检测问题，YOLO 类模型在 COCO 上做了多年。但农业场景有三个非标准条件：成熟度需要 4 分类（绿/粉/红/过熟，单一阈值不够），红色果实在带红反光的绿叶背景下对比度极低（枸杞最典型），同一簇果可能有 70% 被叶子遮挡。直接用预训练 YOLO 准确率会从 95% 掉到 60% 以下。

我们的策略是分两段：YOLO11s fine-tune 做粗定位（或 Apache-2.0 友好的 RT-DETR 替代见 §13 module 01 footnote），然后 frozen DINOv3 特征 + ordinal regression head（4 类成熟度天然有序绿→粉→红→过熟，比 softmax MLP 表达更准）做精确成熟度分类。DINOv3 (Meta 2025-08 发布，NASA JPL / WRI 已用 production，drop-in 替换 DINOv2) backbone 永远 frozen，只换分类头——单作物 200-500 张标注图就够（跨形态作物如垄作草莓 vs 蔓状枸杞取上限 500 张）[1][53][54]。Long-tail fallback：作物标注图 < 100 时退到 Grounding-DINO 文本 prompt "ripe X" + Qwen2.5-VL-7B-AWQ cross-check（处理 v3.0+ 咖啡 / 茶 / 桃 / 梨等长尾扩展场景）[55][56]。VLM 不作 standalone ripeness 判定（2025 cross-VLM benchmark 显示 zero-shot 准确率 < YOLO11 supervised baseline），仅低置信度 cross-check + 长尾兜底[57]。

② 3D 空间定位

视觉知道果在哪里还不够，机械臂需要毫米级的 6D 位姿 (x, y, z, roll, pitch, yaw)。RGB-D 相机（如 RealSense D405）能给立体硬件深度，但在叶子翻动、阴影斑驳、果实表面反光的情况下会出现“幽灵深度”——某些像素的深度估错几厘米，导致机械臂去够空气或撞枝。

解法是融合两路深度：硬件立体（confident 但稀疏）+ Depth Anything V2 单目神经深度（dense 但相对）。两路一致的地方才信，不一致的地方调用 NanoSAM 重新分割再投票。最终位姿误差控制在 ±5 mm。

③ 可达性与路径规划

枝条柔软，会跟机械臂之间发生“双向影响”——你伸过去枝条被撞偏，果就跟着移动。这意味着规划阶段算出来的关节轨迹在执行 100 ms 后可能就过时了。传统做法是用 MoveIt2 + FCL 做静态规划，离接近目标 10 cm 时再切到伺服控制。

我们在 MoveIt2 上加了一层异步流式规划——大脑慢规划（1-2 Hz），小脑接管最后 10 cm（30-50 Hz）。这中间的协调由 Real-Time Chunking 处理，下面 §02 详讲。移动平台层的全局 + 局部规划（A* / Dijkstra · DWA / TEB）同样基于 ROS 2 Nav2 栈，详见 §03.5 工程骨架。

④ 末端柔顺控制

水果损伤的本征参数是应变 + 模量而不是单点法向力。以蓝莓为例：果肉杨氏模量 0.339 MPa、屈服应力 σ_y ≈ 0.063 MPa、瘀伤判据 PEEQ ≥ 0.1（FEA 离线损伤判据，Zheng et al. 2024）[18]；按 ø3 mm 硬指端估算接触面 A ≈ 7 mm²，均匀应力近似 F_crit ≈ σ_y × A ≈ 0.44 N（一阶量级估算；Hertz 球-平面接触应力在次表面 z ≈ 0.48a 处先达屈服，含 0.62 因子的完整 von Mises 推导仍回到 ~0.4-0.5 N 量级；A 随接触力变化、E* 不确定，综合精确值有 ±50% 区间），与 Gunderman 2022 黑莓软抓手实测工作点 0.5-0.78 N 同量级[24]。冲击破皮以 BIRD 跌落计算：硬质 120 cm / 软质 60 cm 是分级线（Yu et al. 2014 BIRD 法）[25]。这意味着夹爪不仅要软，抓取动作本身的速度、扭转角度、力的渐变都要被精确控制。传统 PID 控制器无法处理这种多维约束。

团队 v1.0 草莓力学锚点：成熟期红色草莓表层弹性模量 0.356 MPa、生物屈服应力 σ_y = 0.0045 MPa、草莓-硅胶静摩擦系数 μ = 0.76（团队 2025 实测，详 Refs [52]）。自研 4 指气动柔性软爪在 16 kPa 工作气压下，末端 10 mm 处对果实表面的应力实测为 1.74-2.18 × 10⁻³ MPa（约屈服阈值 40-50%）——这是 v1.0 在实验室仿垄环境实测 6.3% 破损率的力学边界。物种说明：σ_y 数值与物种强相关（蓝莓 0.063 MPa / 草莓 0.0045 MPa，量级差 14×），蓝莓 / 黑莓数据保留作 cross-reference，工程目标针对草莓数据对齐。

解法是用 Diffusion Policy CNN U-Net 学习人类示教的抓取轨迹。150-300 个遥操作 demo（草莓基线 · v2.0 base，团队 v1.0 已有 300 次实验数据为候选样本上限，2 工程师周 reformat 后预期得 ~30-60 条 LeRobotDataset v3.0 prod-ready episodes + 新采 100-200 episodes）（用 SO-101 leader-follower，单价 $250）就能让策略学会"接近 - 包裹 - 扭转 - 撤回"四个阶段的连续动作。[2]

⑤ 跨作物泛化

每种水果都要重新收 5000 demo，团队会被数据成本拖垮。我们的设计是共享骨干 + 每作物 LoRA 适配器，按迁移成本排序——草莓做 v2.0 主基线（150-300 demo 一次性投入，含 v1.0 已有实验数据 reformat ~60 + 新采 100-200，对齐 §08 数据需求曲线）；后续按优先级 v3.0 番茄 LoRA → v3.1 枸杞 LoRA → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡 / 茶（各 100-200 demo + LoRA 微调适配）。番茄优先于枸杞的工程理由：Helios cherry tomato 原生支持（vs 枸杞需自写 PhytomerCreationFunction 4-8 工程师周）、全年设施栽培无季节窗口、学术权重生态成熟（Robofruit / DexFruit fork target / MetaFruit / Apache 2.0 权重多）。详见 §III。[3] 选草莓做 v2.0 base 的理由：团队 v1.0 物理样机已完成 91.3% 综合成功率 / 6.3% 破损率 / 15.1 s 单果周期的实验室仿垄环境验证（详 §15 SOTA 表后 v1.0 baseline 与 §11 主作物战略论证）[52]。

技术现状

公开论文里 2024-2026 没有任何系统同时达到 ≥ 85% 未疏遮挡成功率 + ≤ 5% 损伤率 + ≤ 8 s 周期三件套。这是我们的工程目标，也是商业窗口的来源。

02我们的架构原则

每条原则都有公开论文或源代码支撑——不是产品宣传，是工程依据。

经典 + 学习混合

感知层用 YOLO + SAM + 立体深度（确定性、可解释、低数据需求），规划层用 MoveIt2 + FCL（成熟、可调试），只有最后 10 cm 的抓取动作交给学习。这种分工把整体数据需求从 5000+ demo 降到 150-300 demo（小脑端）+ 规划层兜底数据，工程风险也降一个量级。[2]

Diffusion Policy 是首选

2024-2026 公开仓库里，Diffusion Policy CNN U-Net 是唯一同时具备完整 real-robot 代码栈（RTDE 驱动 + RealSense + SpaceMouse 遥操作）、ONNX 可导出、150-300 demo 数据规模三件套的策略。Equivariant DP 的等变测试在仓库 issue #9 中被报告失败；iDP3 不在 LeRobot v0.5.1。[2][5]

RTC 桥接快慢

Real-Time Chunking（Black 2025）通过 ΠGDM pseudoinverse guidance 让 flow / diffusion policy 在 +200 ms 上游延迟下保持平稳。RTC paper 实测 ~10 Hz 推理 + 50 Hz 控制器（A100 + π0/π0.5）；本架构 Qwen2.5-VL-7B-AWQ on Jetson Orin 工程外推 1-2 Hz（3B 公开实测 1-2 Hz, 7B 推理量 ~2× 3B, 待 v0 期实测；详见 §05 honest disclosure）。仅适用 diffusion/flow，ACT 不兼容。[4]

跨作物 LoRA 迁移

草莓做 v2.0 主基线（150-300 demo · v1.0 reformat ~60 + 新采 100-200），v3.0 番茄 → v3.1 枸杞 → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 按迁移成本顺序 LoRA r=32 微调 100-200 demo / 作物。骨干永远冻结，每作物加 80 MB 适配器。番茄优先：Helios cherry tomato 原生 + 全年设施 + 学术权重多；枸杞次之：Helios 自写 4-8 周 + 季节短但全国综合产值 100+ 亿元（2022）/ 宁夏单省 340 亿（2024 预期）高价值。[6]

chapter ii

架构

双脑分层是这套系统的骨架——大脑慢思考（1-2 Hz），小脑闭环控制（30-50 Hz），Real-Time Chunking 把两个时间尺度粘起来。本章给出每一层的模型选型、延迟预算、消息协议。

系统总览 — 感知层 + AI 认知层

两层分工：硬件传感器把世界变成数字，AI 模型把数字变成动作。每一项都对应到后面章节的技术细节。

— 感知层 · sensing

RGB-D 立体相机

Intel RealSense D405 + D435 双相机硬件立体深度，30 Hz · ±5 mm，果实 6D 定位主力。

神经深度补洞

Depth Anything V2 Small 单目神经深度填补叶遮 / 阴影 / 反光下的"幽灵深度"。两路一致才信，不一致 NanoSAM 重分割投票。

末端力 + IMU 反馈

六轴 F/T + IMU 30-50 Hz 闭环。蓝莓应变阈值 PEEQ ≥ 0.1 · 屈服应力 σ_y 0.063 MPa[18]，按 ø3 mm 指端 A ≈ 7 mm² 估算 F_crit ≈ 0.4-0.5 N。

LiDAR + RTK 导航

Livox + RTK GPS，仅底盘果园行间穿梭用 · 不参与果实感知（1-2 cm 果实在远距离 LiDAR 分辨率不够）。Pilot 档起配。

计算单元

Jetson AGX Orin 64GB（MVP / Pilot 单脑）→ AGX + RK3588 双脑（Scale 量产，续航 ×3，故障域隔离）。

— ai 认知层 · cognition

检测

YOLO11s fine-tune INT8，果实粗定位 · 12 ms/帧 · 200 张标注。

成熟度

DINOv3 frozen + ordinal regression head（4 分类天然有序绿→粉→红→过熟，比 softmax MLP 表达更准），单作物 200-500 张标注图够（跨形态作物取上限）[1][53][54]。

分割

NanoSAM NVIDIA 蒸馏 ViT，仅对 top-K 候选做精细 mask · 18 ms/帧（原 SAM2 仅 2 FPS 跑不动）[8]。

跟踪

BoT-SORT 多目标跟踪 < 5 ms/帧，处理一簇果 50+ 候选。

VLM 大脑

Qwen2.5-VL-7B-AWQ（Apache 2.0 商用 license）目标 1-2 Hz 异步（数字为工程外推，W1-4 期实测确认），理解"摘左侧第二串成熟枸杞"等中文指令 + 输出 JSON primitive。3B 公开实测 30-50 tok/s 社区 / ~225 tok/s NVIDIA 调优栈[7]；本架构选 7B (推理量 ~2× 3B)，社区公开 Jetson benchmark 缺失，工程外推 ~12-20 tok/s 社区 / ~100 tok/s 优化栈，v0 期 W1-4 实测。选 7B 不选 3B 因为 3B 系列 Qwen-Research license 非商用。

小脑策略

Diffusion Policy CNN U-Net + RTC 30-50 Hz 闭环。模仿学习（不是 RL）从 SO-101 leader-follower 收 150-300 demo · 草莓 v2.0 base（v1.0 reformat ~60 + 新采）→ v3.0 番茄 LoRA 100-200 → v3.1 枸杞 LoRA 100-200[2]。

跨作物迁移

LoRA r=32 共享骨干冻结 · 每作物 80 MB 适配器 · 100-200 demo 适配（不是联邦学习）[3]。

遮挡感知

主动观测 + 物理介入：amodal segmentation 推断遮挡轮廓 + NBV 换角度 + 风扇移叶（WSU 草莓 58→74%）[19]。不是"穿透叶枝"。

为什么二分层

感知层硬件可逐个升级（D405 → 高速 SWIR），AI 层模型可独立迭代（YOLO11 → YOLO12 / DINOv3 已采用 v4.1 起步，v4.2 全栈一致，未来可换 DINOv4）—— 解耦让团队能快速吸收 SOTA 而不动整套架构。下文 §03 起对每一层展开。

术语 honest disclosure · VLA system vs 严格组件

本架构在业界定义下属于 "hierarchical VLA system"（与 Hi Robot / NVIDIA GR00T N1.5 / Figure Helix 同构口径——这三家自己也都用 "VLA system / VLA model with dual-system" 标识 hierarchical 设计[27][28][29]）。但严格组件层：我们大脑是 Qwen2.5-VL-7B-AWQ VLM（输出 JSON primitive 不是 action），小脑是 Diffusion Policy（输出 action 不是 vision-to-action），通过 JSON discrete-token bridge 拼接，两层独立训练——这与 GR00T / Helix 的 shared-latent joint-trained 实现有差异，也不是 π0 / RT-2 / OpenVLA 那种 end-to-end single-model VLA。v3.0+ future path：一旦 v2.0 草莓数据规模化（>1000 episodes / 1 年多客户部署），团队具备数据基座训练自有 end-to-end 农业 VLA 模型。但务实评估：(a) 训练成本 ~$50-100k+ GPU；(b) 7B end-to-end VLA 在 Jetson Orin 推理不可行（需 H100 server cloud inference）；(c) 需要额外 R&D 6-12 月。当前架构选 VLM + DP 双脑是工程现实下的最优解，不是 end-to-end VLA 不诱人。

03双脑分层架构

整套系统由两台计算单元组成。MVP 阶段全跑在 Jetson AGX Orin 64GB 上；量产阶段把小脑移到 RK3588 SBC（功耗减半 + 续航 ×3 + 故障域隔离），通过千兆以太网 + ROS 2 Zenoh 共享内存通信。

Figure 1双脑分层架构 · 信息流方向 · 频率分工

为什么大脑要慢？因为 Qwen2.5-VL-7B-AWQ 在 AGX Orin 上单次推理工程外推 ~600-800 ms（3B 公开实测 ~300 ms / 30 tok/s 社区 / 225 tok/s 优化栈，参考 NVIDIA forum thread 345073[7]；7B 推理量 ~2× 3B，Jetson 社区公开 benchmark 缺失，v0 期实测补），不可能 30 Hz 跑。但大脑负责的事——读懂"摘左侧第二串成熟枸杞"、判断遮挡是否能绕过、估计采摘是否安全——这些 1-2 Hz 就够了。

为什么小脑要快？50 Hz 控制频率是机械臂闭环响应风扰、湿度变化、果实位置抖动的最低门槛。低于这个频率，外环扰动来不及补偿，会出现"过冲—回拉"的振荡，破坏果皮。

RTC 怎么让两边对得上？下文 §05 详解 chunk-inpainting 桥接。简单说就是：大脑发的动作 chunk（8 步 × 6D 草稿位姿 ∈ ℝ^{8×6}，覆盖未来 250 ms）小脑按 30 Hz 逐步执行；中途新观测到达时，大脑下一帧发新 chunk，小脑用 ΠGDM 把新旧 chunk 平滑拼接，不出现关节速度跳变。

1-2 Hz + 30-50 Hz 的学术 / 工业背书

此频率分工借鉴通用人形 / manipulation VLA 双系统范式：Hi Robot（arXiv 2502.19417）Physical Intelligence ~1 Hz VLM + ~50 Hz π0[27]；NVIDIA GR00T N1.5 1-5 Hz Eagle-2 VLM + 30 / 120 Hz DiT flow policy[28]；Figure Helix 7-9 Hz + 200 Hz[29]——均为人形 / 通用 manipulation 场景，采摘领域 peer-reviewed VLA 双层架构暂无背书。本架构选双层基于三条采摘领域独有的工程理由：(a) Qwen2.5-VL-7B-AWQ 在 Jetson Orin 算力天花板，单体 30 Hz 物理不可达；(b) 4 臂多机协同的任务分配 1-2 Hz 重做即满足（Tortuga AgriBot 1 Hz central planner 反证）；(c) 果实成熟变化时间尺度 ≥ 数小时，慢脑无需 30 Hz。反例值得参考：HarvestFlex (2026-03) 走单层 30 Hz VLA 直出动作，主动论证反对双层；RT-2 (55B) 纯单体 1-3 Hz 反证"不分层就上不去 30 Hz"。RTC 是 chunk-inpainting 类补丁方案之一，另有 latent passing / bridge buffer / language-as-bridge 三类同源做法。

03.5工程骨架：ROS 2 + 地面导航 + 续航

AI 决策层（§03 双脑）之下需要一个可靠的"地面层"承接命令：机械臂去哪里、移动平台怎么开过去、电池什么时候要回去充。这一层的栈技术早已成熟，不是 differentiator——但栈深度、算法选型、场景切换逻辑是工程能力分水岭。下面三块——ROS 2 中间件 / SLAM + RTK 导航 / 续航管理——一次性讲清楚。

Figure 1.5三层架构 · AI 决策（differentiator） / ROS 2 骨架（commodity） / 硬件抽象

① ROS 2 是什么 · 为什么用

ROS 2 Humble + rmw_zenoh shared memory 是整套机器人的"操作系统"——节点通信、硬件抽象、消息传递、规划框架都跑在 ROS 2 之上。AI 决策层是骨架之上的大脑 + 灵巧手，不是替代 ROS 2 的方案。这两层的关系类似 Android 系统 (ROS 2) + App (VLM + DP)：没有底层 OS，每个 App 都要重写驱动 / 调度 / IPC。

为什么是 ROS 2 不是 ROS 1：(i) DDS 真实时通信，端到端延迟 5 μs（同机进程内）/ 1 ms（千兆以太网跨机），ROS 1 的 TCPROS 至少 200 μs；(ii) 原生多机架构（多臂 + 移动平台同总线管理），ROS 1 master 单点故障；(iii) 国内主流机械臂厂商 ROS 2 driver 覆盖完整（JAKA / Dobot / Aubo / Doosan 都有官方支持[42]）。为什么不自研中间件：写一个跑得动的中间件需要 2-3 工程师年 + 生态绑死。"生态 > 性能微调" 在这个阶段的取舍下，ROS 2 + Zenoh 是 Pareto 最优。

② SLAM + 自主导航

SLAM 三路融合，不是单一算法兜底——温室 / 露天 / 强光眩光三场景下任何单一 SLAM 都有失效域，单点失败会卡死整机。三路并行输出统一在 robot_localization EKF 投票，给上层一个稳定的全局位姿。

SLAM 算法	角色	适用场景	失效域
FAST-LIO2（主）	3D LiDAR + IMU 紧耦合	露天果园 · 农场粗糙地形 · 适配 Livox MID-360（已选型 §13 module 04）	极端粉尘 · 反光面 (玻璃温室)
Cartographer（2D fallback）	多传感器 2D 栅格图	结构化温室 · 大棚行间	3D 起伏地形
ORB-SLAM3（视觉冗余）	IMU + 多地图 + 重定位	CPU-only 紧急模式 / 激光模块故障兜底	低纹理 · 强反光 · 单作物垄

自主导航 Nav2（不是 ROS 1 时代的 move_base）：Behavior Tree navigator + behavior server 统一调度全局规划（A* / Dijkstra · 农田跨垄长路径）和局部规划（DWA · 标准；TEB · 弯道 / 窄通道 / 农具避让），输出 cmd_vel 给底盘驱动。多目标排序、归航、暂停、避障兜底全在 BT 树里描述，**改场景换 BT 文件，不改代码**。

③ 北斗 / GPS / RTK 室外定位

室内依赖 SLAM 已够；但开放果园 / 农田场景需要绝对全局坐标。RTK 北斗 B1I/B2a 双频 + GPS L1/L5 双频 + RTK 差分是国产基线选型，定位精度 ±2 cm（开阔）/ ±10 cm（弱遮挡）。

实现链：北斗模块串口 → nmea_navsat_driver 解析 NMEA-0183 → ROS 2 标准 /fix 话题 → robot_localization EKF 融合 GPS + 9 轴 IMU + 底盘里程计 + SLAM 局部位姿 → 输出 UTM 全局坐标 + 协方差。室内/室外切换：温室入口 entry-zone（GPS 锁定 + LiDAR 同时观测 5 s）触发定位栈交班，避免单一定位栈失效时机器人"瞎"了。

④ 续航 + 自动归航联动

导航栈不只为"开过去"服务——还为"回家充电"服务。Energy-aware mission planner 每 30 s 评估一次：

当前电池剩余电量 (BMS SoC)；
完成当前任务 cluster（剩余果簇 × 单果能耗）所需能量；
完成后归航到充电桩所需能量（用 SLAM 持久化地图 + A* 估算路径长度 × 平均移动能耗）；
叠加 30% 安全裕度；
若 (1) < (2) + (3) + 裕度 → 立即触发 Nav2 归航 to 充电桩 RTK 锚点。

详细电池规格 / 自动换电流程 / 充电桩部署见 §13 module 06 续航 + 自动换电。

这一层为什么写进白皮书

ROS 2 / SLAM / RTK / 续航在工程师眼里是"标配"——但客户技术 DD 必问"用什么 SLAM / 北斗精度多少 / 怎么自动充电"。白皮书把这层写清楚 = 跳过客户 DD 第一轮反复问答 + 招聘工程师时 "懂行" 信号。差异化不在这一层，但工程深度是护城河的一部分——AI 团队 + ROS 2 工程团队同时具备的公司，在国内不超过 20 家。

04感知栈

感知层 30 Hz 跑在 Jetson AGX Orin 上，端到端延迟 28 ms 一帧。整个流水线分 6 个阶段，每个阶段在论文或工程实测中都验证过 Jetson 上的 FPS。

Figure 2感知层 6 阶段流水线 · Jetson 实测延迟

为什么 SAM2 原版不用？SAM2 在 AGX Orin 上只有 2 FPS，跑不动 30 Hz 主循环。NVIDIA 自己开发的 NanoSAM 把 image encoder 蒸馏到 mobile ViT 量级，AGX 上可达 30 FPS。[8]

为什么 SAM 只对 top-K 候选做？YOLO 每帧检测可能输出 50 个 bbox，但机械臂一次只能摘一个。优先级排序后取最高的 3-5 个候选送 SAM 做精细分割，剩下 45 个直接丢——节约 80% 算力。

Depth Anything V2 用 Small 不用 Base 或 Large？因为我们用立体硬件深度做 ground truth，DA 只负责"补洞"（叶子重叠、阴影区域）。Small 已经够用，Base 多 50% 延迟收益不到 2% 精度。

05Real-Time Chunking

这是整套系统最精巧的部分——把异步推理框成一个图像 inpainting 问题。

RTC 的论文是 Physical Intelligence 团队 2025 年 6 月发的 Real-Time Execution of Action Chunking Flow Policies[4]。它解决的问题是：diffusion / flow policy 一次推理出未来 H=50 步动作，但实际只执行前几步就要重新推理。如果新旧 chunk 拼接的位置不平滑，关节就会抖。

RTC 的核心 trick 是把新 chunk 的去噪过程额外加一项软约束，让前 d 步（已执行）冻结，中间 (H-s) 步软约束向旧 chunk 靠近，最后 s 步自由生成。这样新旧 chunk 在中间过渡段自然衔接。

数学上是 ΠGDM (pseudo-inverse guided diffusion model) 的移植——原本用在图像 inpainting 上，现在用在动作 chunk 的"时间维度 inpainting"上。整个修正函数的核心 15 行代码（JAX 版本）：

def pinv_corrected_velocity(self, x_t, obs, y, t, inference_delay):
    # Predict clean sample x_1 via flow ODE
    def denoiser(x_t):
        v_t = self(obs[None], x_t[None], t)[0]
        return x_t + v_t * (1 - t), v_t

    x_1, vjp_fun, v_t = jax.vjp(denoiser, x_t, has_aux=True)
    weights = get_prefix_weights(inference_delay, prefix_attention_horizon,
                                  self.action_chunk_size, schedule)
    error = (y - x_1) * weights[:, None]
    pinv_correction = vjp_fun(error)[0]
    inv_r2 = (t**2 + (1 - t)**2) / ((1 - t)**2)
    c = jnp.nan_to_num((1 - t) / t, posinf=max_guidance_weight)
    guidance_weight = jnp.minimum(c * inv_r2, max_guidance_weight)
    return v_t + guidance_weight * pinv_correction

诚实的真实区间：论文 Figure 1 的"300 ms"是单条 rollout（π0.5 match-lighting），不是统计平均。系统性吞吐评估在 6 任务 × 10 episode = 60 ep 上做，注入延迟为 +0 / +100 / +200 ms（基线模型本身仅 76 ms + 10-20 ms 网络）。实测+200 ms 注入延迟下仍稳定，更高延迟未测。RTC 有效工作区间 ~10 Hz 推理 + 50 Hz 控制器；用于本架构 1-2 Hz 大脑 + 30-50 Hz 小脑场景属工程外推，需配合 §03 提到的 latent passing / bridge buffer 同源方案。

RTC 使用前提 · 四条警告

① 仅适用 diffusion / flow policy——ACT / OpenVLA-OFT 等确定性 chunk policy 无可注入梯度引导的 denoiser 通路，论文 §6 明文排除；② LeRobot v0.5.1 主线官方实测仅 π0 / π0.5 / SmolVLA，π0-FAST 标称兼容但缺乏验证 (PR #1698)；③ predict_action_chunk 禁止与 select_action 或 lerobot-record 混用，HF docs 显式警告；④ 唯一公开第三方复现（Alexander Soare ALOHA, 2025-08）观察到 chunk-边界跳变，需把 σ_d 从 1.0 调到 0.2。

属性	是 / 不是	说明
数学本质	ΠGDM pseudoinverse guidance	图像 inpainting 移植到 action chunks
适用策略	仅 diffusion / flow	ACT 无 denoiser，论文 §6 明文排除
延迟容忍	+200 ms 注入实测 / fig 1 单条 rollout	60 ep ±1 SEM；更高延迟未测
工作区间	~10 Hz 推理 + 50 Hz 控制器	本架构 1-2 Hz 大脑属工程外推
代码状态	JAX-only sim repo	PyTorch 端需自写 torch.autograd.grad
LeRobot 集成	v0.5.1 PR #1698 已合并	仅 π0 / π0.5 / SmolVLA 测过
开销	每步 VJP 增加 30-50% 计算	per-step backward-mode autodiff

06小脑选型矩阵

我们在 6 种主流 policy 之间做了选型，每种都读了论文 + 代码 + recent issues。Diffusion Policy CNN U-Net 是唯一同时满足三条硬指标的选择：(1) 有完整 real-robot 代码栈，(2) ONNX 可导出量化，(3) demo 规模与团队匹配。

策略	状态	demo 需求	推理延迟	RK3588	结论
Diffusion Policy CNN	▲ 首选	150–300	~100 ms	50–150 ms	唯一可行 · real_world 全栈代码
ACT	备选	100–200	10–15 ms	30–80 ms	RTC 不兼容 · 跳过
iDP3	不在 LeRobot	10 × 3 task	9 Hz CPU	不可行	issue #26 不可复现 · 需 L515 EOL
Equivariant DP	DISQUALIFIED	100	untested	不导 ONNX	issue #9 等变测试自己失败
π0.5 + LoRA	Y2 研究	200–500	76 ms	—	零户外数据 · LoRA PyTorch 不支持
SmolVLA 450M	Y2 探索	50–200	30 Hz AGX	—	RTC 已支持 · 需 AGX 才跑得动

07通信总线

大脑和小脑通过 ROS 2 Humble + rmw_zenoh shared memory 通信，端到端延迟 5 μs（同机进程间）或 1 ms（千兆以太网跨机）。消息格式选了"语言原语 + 6D 草稿位姿"的 JSON 形式——可调试、可日志、可审计。

{
  "instruction_zh": "摘取左侧第二串成熟枸杞",
  "target_bbox_2d": [847, 412, 923, 488],
  "target_pose_6d_hint": [0.42, -0.18, 0.95, 1.57, 0.0, 3.14],
  "primitive": "approach | grasp | twist_pluck | retract",
  "ripeness_class": "mature",
  "ripeness_confidence": 0.85,
  "max_force_n": 0.5,
  "shake_freq_hz": 25,
  "shake_amp_mm": 8,
  "stamp_ns": 1735689600000000000,
  "ttl_ms": 500
}

为什么不用 protobuf？JSON 慢、大、但人能读。在我们这个量级（1-2 Hz 消息），可调试性 ≫ 性能。等 Y2 商用扩到 100+ 机器人时再切 protobuf 不晚。

primitive 字段的妙处：把"摘"原子化成 4 个动作 (approach / grasp / twist_pluck / retract)，每个原子动作绑定一个小脑专用策略 (4 个 Diffusion Policy heads，共享 backbone)。跨水果换作物时，primitive 序列变化（草莓 approach→grasp→cut_peduncle→retract · v2.0 base；番茄 approach→grasp→twist→retract · v3.0 LoRA；枸杞 approach→shake→catch→retract · v3.1 LoRA），但中层接口稳定。

JSON Schema · 大脑—小脑契约

VLM 输出长 JSON 实测仍有 2-8 % 格式错误率（社区报告，长度敏感）。我们把整套消息锁死成 JSON Schema Draft-07，用 XGrammar 在解码端强制结构合法——零额外 token 延迟，FSM 压缩，Orin 上 vLLM 默认后端验证可用[30]。

{
  "$schema": "https://json-schema.org/draft-07/schema#",
  "type": "object",
  "required": ["primitive", "target_bbox_2d", "ripeness_class", "stamp_ns", "ttl_ms"],
  "properties": {
    "primitive": { "enum": ["approach","grasp","twist_pluck","shake","catch","retract"] },
    "ripeness_class": { "enum": ["green","pink","mature","overripe"] },
    "target_bbox_2d": { "type": "array", "items": {"type":"integer"}, "minItems": 4, "maxItems": 4 },
    "ripeness_confidence": { "type": "number", "minimum": 0, "maximum": 1 },
    "max_force_n": { "type": "number", "minimum": 0.1, "maximum": 10 },
    "ttl_ms": { "type": "integer", "minimum": 100, "maximum": 2000 }
  }
}

双层精化 + 三级容错

VLM 输出 6D 位姿作为草稿（基于 Qwen2.5-VL RefCOCO 82.1% IoU@0.5 + D405 深度精度 ±1-2 cm，EE 位置误差 ±15-30 mm，工业果实抓取容差 ±10-15 mm）。小脑在 30-50 Hz 闭环用 cuRobo / IK 解析 + 末端力反馈 + 视觉伺服精化至 mm 级。三级容错：L1 strict JSON 解析失败 → json-repair；L2 缺 pose 字段或置信度 < 0.7 → 回退 bbox + 深度 + 抓取规划兜底；L3 灾难故障安全停机。本架构借鉴 GR00T N1.5 / Helix 的 dual-system 范式——VLM 出草稿语义 + 几何 hint，小脑收敛到执行精度。实现差异：GR00T / Helix 是 shared latent + joint-trained end-to-end；我们用 off-the-shelf Qwen2.5-VL + JSON discrete-token bridge + 独立训练 Diffusion Policy，工程上更模块化，但放弃了 joint-train 的潜在收益。

三级容错管道

L1 解析：strict JSON.parse 失败 → json-repair（修补尾逗号 / 未闭合括号）→ 正则抽字段兜底。
L2 校验：缺 target_pose_6d_hint 时退化到 bbox + depth；缺 primitive 时复用上一帧 chunk。
L3 看门狗：ttl_ms 过期或 3 次连续失败 → 小脑切到 hold / retreat 安全 primitive；同时检查 stamp_ns 单调性防止旧 chunk 复用抓空。

III

chapter iii

数据 · 训练

公开论文里 Diffusion Policy 真实任务跨度 90-284 demo，不是营销材料里的 50。LeRobot v0.5.1 是工程级框架——成熟模块加上务实的 patch 计划即可上生产。

08数据需求曲线

每个数字都可以 trace 到论文的具体 Table 或 Figure。

论文 / 任务	demo 数	成功率	环境	引用
DP Push-T (real)	136	95 %	tabletop	Chi 2023 T3
DP Pour 6DoF	90	79 % IoU	real-robot	Chi 2023 §7
DP Mug Flip	250	~90 %	tabletop	Chi 2023 §7
DP Shirt Folding	284	—	deformable	Chi 2023 §7.5
iDP3 Pick / Pour / Wipe	10 × 3	9–10 / 10	indoor	Ze 2024 §IV-D
Robofruit strawberry	—	83 % pluck	polytunnel	Parsa 2024 JFR
WSU strawberry + fan	—	58 → 74 % (+15)	outdoor	CEA 2025 110684
Cherry tomato Rong	—	57.7 %	greenhouse	Rong 2024 JFR
Grape dual-arm	—	96.7 %	vineyard	Frontiers 2022
π0.5 LIBERO Long-10	50	92.4 %	sim block	openpi README
OpenVLA-OFT LIBERO	50	94.5 %	sim block	OFT §V Tbl I

我们的预算

草莓 v2.0 主基线 150-300 demo（一次性投入，含 v1.0 已有 300 次实验数据为候选样本上限，2 工程师周 reformat 得 ~30-60 条 LeRobotDataset v3.0 prod-ready episodes + §16 W1-4 实验室仿垄新采 100 + W13-16 Pilot 100-200 demo 补集；W1-4 VERIFY 必须交付 ≥30 条可训练、可回放、schema-valid 的 LeRobot episodes）。v3.0 番茄 LoRA → v3.1 枸杞 LoRA → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡 / 茶（各 100-200 demo / 作物，rank 32 微调，单卡 4090 跑 4-6 小时；按 Helios 仿真就绪度 + 学术权重生态 + 季节窗口排序）。成本两层口径：(a) 自训现金外采成本 ~¥420-680k（数据采集 + 标注 + GPU + reformat，不含工资）vs 商业部署 ~¥2.5-3.5M，节省 65-80%；(b) 6 个月 v2.0 项目 burn = 2 FTE 工程师 × 24 周 + 现场试点 + 硬件返工 + 认证缓冲，另算。ROI 拐点：第 2 作物（番茄 LoRA 完成）现金成本回本，全项目 burn 含 v2.0 草莓 Pilot 客户付费后回本（详 §17 GTM）。

09LeRobot v0.5.1

HuggingFace LeRobot 是 2026 年 4 月发布的 v0.5.1，commit 1396b9fab7。我们对每个 policy 模块、PEFT 集成、RTC 集成都做了源码审计。下面是可以直接用 vs 需要 patch的清单。

状态	模块	路径 / 说明
✓ 已成熟	ACT + DP	src/lerobot/policies/{act,diffusion}/
✓ 已成熟	LeRobotDataset v3.0	新分片格式 · 转换器 convert_v21_to_v30
✓ 已成熟	PEFT 集成	pretrained.py:wrap_with_peft + peft 0.18.1
✓ 已成熟	RTC 集成	policies/rtc/modeling_rtc.py · π0 / π0.5 / π0F / SmolVLA
✓ 已成熟	SO-100 / 101	lerobot-calibrate · Feetech 真支持
✓ 已成熟	Async gRPC	policy_server.py · 真生产架构
⚠ 需 patch	ONNX / TRT 导出	0 个 policy 有 export path · 要自写
⚠ 需 patch	π0.5 inference bugs	open issues #3439 · #3591 · #3425 · 待修
⚠ 需 patch	DP-async crash	#3445 stack expects non-empty TensorList
⚠ 需 patch	校准越界	#3585 / #3587 写超 min/max 无警告
⚠ 需 patch	iDP3 不在仓库	需自己 fork 集成
⚠ 需 patch	无 wall-clock benchmark	benchmarks/ 目录无数据 · 要自测

典型的训练命令（从 SO-101 收数据 → 训 Diffusion Policy → 跨水果 LoRA 微调）：

# 1. 安装 v0.5.1
$ pip install lerobot[smolvla,pi0]==0.5.1

# 2. 用 SO-101 收 200 demo · 草莓 v2.0 base（含 v1.0 reformat ~60 + 新采）
$ lerobot-record \
    --robot.type=so101_follower \
    --teleop.type=so101_leader \
    --dataset.repo_id=$USER/strawberry_pick_v2 \
    --dataset.num_episodes=200 \
    --dataset.fps=30

# 3. 训 Diffusion Policy CNN U-Net · 草莓 base
$ lerobot-train \
    --dataset.repo_id=$USER/strawberry_pick_v2 \
    --policy.type=diffusion \
    --policy.horizon=16 --policy.n_action_steps=8 \
    --batch_size=64 --steps=200000

# 4. v3.0 番茄 LoRA 微调 (优先级 1: Helios 原生 + 全年设施 + 学术权重多)
$ lerobot-train \
    --policy.path=$USER/dp_strawberry \
    --peft.method_type=LORA --peft.r=32 \
    --dataset.repo_id=[$USER/tomato,$USER/strawberry] \
    --dataset.weights=[0.8,0.2] \
    --steps=20000

# 5. 导出 ONNX 给生产用（自写脚本 · 因为官方没有）
$ python scripts/custom_export_onnx.py \
    --checkpoint=$USER/dp_strawberry_tomato_lora \
    --output=models/strawberry_v2.onnx --opset=17

10跨作物迁移

跨作物迁移的关键是分清哪些层共享，哪些层 per-crop。我们的设计：

Figure 3跨作物 LoRA 适配器架构 · 共享骨干 + 每作物分支

为什么 LoRA r=32 而不是 r=8 或 r=64？r=8 的表达力不够拟合一个新作物的动作分布（实验上成功率掉 10-15%），r=64 的参数增多但收益边际递减。32 是 OpenVLA paper 和 LeRobot 默认推荐值——我们没改。

为什么 v2.0 主基线选草莓？(1) v1.0 已实证——团队 2025 物理样机在实验室仿垄环境实测 91.3% 综合成功率 / 6.3% 破损率 / 15.1 s 单果周期（300 次重复试验），是公开范围内已有的最强工程基线 anchor，v2.0 直接继承软爪 + 移动平台 + 仿垄环境硬件资产[52]。(2) 客户 narrative 强——中国草莓产量 368.2 万吨（2021），2007 年起全球第一，单机 ROI 与销售路径明确。(3) 力学数据齐全——σ_y 0.0045 MPa / E 0.356 MPa / μ 0.76 / 软爪 16 kPa 工作点全套自测，可作为 DP small-brain 训练时的边界约束参考（具体 force-bound 加入 loss 的方式 W5-8 实验确定）。跨作物按优先级展开：v3.0 番茄（Helios 原生 + 学术权重多）→ v3.1 枸杞（全国 100+ 亿综合产值）→ v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡（云南 niche）/ 茶（需新末端硬件：剪+吸 / 微镊，独立工程预算 2-3 月），不是 v2.0 day-1 焦点；详 §11 战略论证 + §16 W21+ 路线图。

chapter iv

作物 · 仿真

Helios v1.3.72 共 24 个原生物种，7 战略作物覆盖率分三档：Strawberry + Cherry Tomato 直接原生（2/7 · v2.0 base + v3.0 LoRA 即用）；桃 ← Almond · 梨 ← Apple 同属可借用（2/7，约 2 工程师周 / 种）；柑橘 · 枸杞 · 冬枣完全自写 PhytomerCreationFunction（3/7，4-8 工程师周 / 种）。Isaac Lab 农业资产为零，整套场景从 Helios USD 导出。

11主作物 roadmap · v2.0 草莓 base → v3.0 番茄 → v3.1 枸杞 → v3.2+ 扩展

v2.0 base = 草莓（v1.0 物理样机继承 + AI 软件栈升级）。跨作物按迁移成本优先级排序：v3.0 番茄（Helios 原生 + 全年设施 + 学术权重多，迁移最简）→ v3.1 枸杞（全国 100+ 亿综合产值 / 宁夏 340 亿 + AI under-served 最强但 Helios 自写 + 季节短）→ v3.2+ 冬枣 / 桃 / 梨 / 柑橘（学术多但权重缺）→ v3.3+ 咖啡 / 茶（出海 + 名优茶需新末端硬件，独立工程预算）。复用 80% 代码 + 20% 替换末端 + 小脑 LoRA + 数据集。

维度	草莓 · v2.0 base ★	番茄 · v3.0 LoRA	枸杞 · v3.1 LoRA
优先级理由	v1.0 91.3% 已实证 + 客户 narrative 强 + 力学数据齐全	Helios 原生 ✓ + 全年设施 + 权重生态成熟（迁移成本最低）	全国 100+ 亿综合产值 / 宁夏 340 亿 ★ + AI under-served 24-27/30 但 Helios 自写 + 季节短
作业季节	全年 · 实验室仿垄 → 温室 / 露天	全年 · 设施	6-11 月 · 50 天/年
种植方式	垄作 ▲（v1.0 已验证）	棚架吊蔓	大田丛栽
仿真原生支持	Helios Strawberry ✓	Helios cherry tomato ✓	需自写 PhytomerFn (4-8 周 · ¥40-80k)
主路线	v1.0 唇齿软爪 + VLM + DP	视觉柔爪 + 扭转	AI 振摇 + 气吸软接
小脑 demo	150-300 (base · v1.0 reformat ~60 + 新采)	100-200 (LoRA)	100-200 (LoRA)
末端硬件	v1.0 4 指气动软爪（16 kPa · 已验证）	气动软爪 + 扭转头	多层硅胶气吸
v1.0 基础线 / SOTA	v1.0 91.3% / 6.3% / 15.1s 实测	Rong 2024 57.7%	Xu 2015 振动 93.5% (整丛)
竞争对手	Robofruit (83% 商温) / Tortuga (M&A 退出) / DexFruit (Stanford)	乔戈里 (出口) + 遨博	零商业对手 (学术原型) · 100+ 亿综合产值 AI under-served

* Helios v1.3.72 共 24 个原生物种（2026-05 验证，commit 锁定）。7 战略作物覆盖率：Strawberry + Cherry Tomato 直接原生 ✓（v2.0 + v3.0 即用）；桃 ← Almond · 梨 ← Apple 同属借用 ⚠（~2 工程师周 / 种）；柑橘 · 枸杞 · 冬枣完全自写 ✗（4-8 工程师周 / 种）。Helios Strawberry asset 功能稍薄（仅 Fruit/Flower/PhytomerCreation 函数，无 PhytomerCallback），v2.0 阶段补 ¥40-80k sim asset 工程预算[52]。完整原生物种清单详见 §12。

自训成本锚点（B3 audit）：7 作物 from-scratch 自训总成本 ~¥420-680k（数据采集 + 标注 + GPU + reformat），vs 商业部署 ~¥2.5-3.5M（节省 65-80%）；GPU 4090 LoRA r=32 / 作物 ~¥3-5k；ROI 拐点第 2 作物即回本；护城河 = 2 项硬资产（v1.0 物理样机 know-how 含 σ_y + 软爪 spec + 91.3% baseline · 客户场景数据飞轮）+ 5 项配置组合（7-LoRA / 7-PhytomerFn / 中文指令 / Orin 调优 / VLM+DP 双脑工程整合）= 18-24 月 catch-up barrier（工程复刻 6-12 月 + 数据/客户场景 12 月）。

12仿真：能干什么 · 不能干什么

Helios plugins/plantarchitecture/include/Assets.h 物种清单（commit 1.3.72，2026.05 验证）：

✓

Helios 原生支持的物种

Almond · Apple · Asparagus · Strawberry ▲ v2.0 base 我们用 · Cherry Tomato ▲ v3.0 LoRA 我们用 · Tomato ▲ v3.0 LoRA 我们用 · Grapevine (4 trellis types) · Walnut · Pistachio · Olive · Bean · Cowpea · Capsicum · Maize · Rice · Wheat · Sorghum · Soybean · Butter Lettuce · Bougainvillea · Redbud · Bindweed · Cheeseweed · Puncturevine

v3.1+ 自写 PhytomerFn 路径：枸杞 Lycium barbarum (优先级 2 · 全国 100+ 亿 / 宁夏 340 亿) → 冬枣 Ziziphus → 柑橘 → 桃 / 梨 (同属借用)

✗

不支持 · 需自写

柑橘 · Wellington 是 RAMI IV 外部几何
枸杞 Lycium barbarum · 4-8 工程师周自写
冬枣 Ziziphus · 同等工作量

Isaac Lab 农业 assets · ZERO
lab_assets/robots/ · 0 个农业机器人
manager_based/ · 0 个 agriculture / orchard / harvesting

"Find the Fruit" (arXiv 2505.16547) 的真相：Isaac Lab 农业相关最高调的论文，测试用的是塑料假果实——not real plants. 96% sim → 87% real-on-fake.[10]

3DGS + Helios 双轨

2024-2026 出现的 3D Gaussian Splatting 把 sim-to-real gap 又拉低一档。我们采用双轨而非二选一——Helios 负责程序化植株几何 + RL 训练，3DGS 负责视觉 sim-to-real 桥接 + 数字孪生 + 时序追踪。

方法	实证成功率	场景	引用
RoboSplat（RSS 2025）	87.8 %	桌面 6 类泛化（姿态/类别/视角/外观/光照/本体）	arXiv 2504.13175[20]
SplatSim（CoRL 2024）	86.25 %	zero-shot sim2real RGB policy	arXiv 2409.10161[21]
DexFruit / FruitSplat（Stanford 2025）	92 %	草莓/番茄/黑莓抓取 + 瘀伤减少 20 %	arXiv 2508.07118[22]
GrowSplat（Berkeley CASE 2025）	时序数字孪生	Sequoia/Quinoa 76 天 55 个时间点	arXiv 2505.10923[23]

3DGS 真实边界 · 四条诚实声明

① 几何精度 ~cm 级，不能直接驱动末端闭环——必须与硬件立体 / LiDAR 融合到 mm 级；② 户外强光 + 风扰 + 大尺度果园未公开实证；③ Jetson AGX 只能渲染 / SLAM，训练仍需云端 RTX 4090 / A100；④ 上述 86-92 % 数字限定桌面级 + 单物体 + 室内，不外推到田间。

结论：3DGS 作为数据增广 + 数字孪生外观层进入仿真栈；抓取闭环几何与物理仍以 Helios + 传统传感为准。二者非替代而是分层。

13能力模块图

整套系统按 6 个能力模块组织 — 感知、计算、机械臂、移动平台、末端 + 力反馈、续航 + 自动换电。每个模块给出 SOTA 主选型 + 国产可选 + 国际对照 + 阶段成熟度，主流件 80%+ 可国产替代，供应链对外脱钩可达。下文不出零售价 — 量产档采购口径由 Pilot 期议价框定，白皮书层面只锁住技术选型与阶段升级路径。

感知模块

主选型：Intel RealSense D405 + D435 立体 · Depth-Anything-V2 神经深度 · YOLO11s + NanoSAM。国产可选：Orbbec Gemini 335 / 镭神 LS01D / 大族机器视觉（接口与 D435 等效）。成熟度：MVP 起 · Pilot 起加 NBV 第三视角。团队前期：v1.0 视觉栈使用 HALCON 离线相机标定 + Canny 边缘 + 亚像素曲率（团队 2025 已验证），v2.0 替换为 VLM-guided 神经感知栈 (YOLO11s + DINOv3 + Depth-Anything-V2 + NanoSAM + Qwen-VL 6-stage pipeline)，HALCON 退化为离线 dataset 标注辅助保留[52]。License 说明：YOLO11s / YOLOv8 等 Ultralytics 系采用 AGPL-3.0，商业部署需购买 Ultralytics Enterprise license 或保留 copyleft；备选 RT-DETR (Apache 2.0) / NanoSAM (Apache 2.0) / Depth-Anything-V2 (Apache 2.0) 均无此限制，v0/Pilot 期评估是否切换。

计算模块

主选型：NVIDIA Jetson AGX Orin 64GB（单脑）→ AGX + RK3588 双脑（量产）。国产可选：算能 BM1684X / 寒武纪 MLU220 / 瑞芯微 RK3588 / 地平线 J6。对照：x86 + RTX 4070 工控机。成熟度：MVP 单脑 → Scale 双脑解耦（续航 ×3）。

机械臂模块

主选型阶梯：Dobot CR3（MVP 验证）→ Aubo i5 / Doosan M0617（Pilot）→ JAKA Zu 7 × 4（Scale）。国产可选：Aubo / 节卡 JAKA / 越疆 Dobot / 法奥 FAIR — 该模块 100% 国产可选，官方 ROS 2 + MoveIt2 dual_arms 兼容。对照：UR5e / Franka FR3。团队 v1.0 历史：v1.0 物理样机用双侧 Y-Z 直线笛卡尔臂（行程 135 mm / 重复精度 ±1.5 mm），v2.0 升级 6-DOF 串联以获更大灵巧度[52]。

移动平台模块

主选型：AgileX Scout Mini 底盘 + Livox MID-360（3D LiDAR · 跑 FAST-LIO2 SLAM 主路）+ RealSense D435 视觉冗余（ORB-SLAM3 兜底）+ 9 轴 IMU + RTK 北斗 B1I/B2a 双频 + GPS L1/L5 双频（±2 cm 开阔 / ±10 cm 弱遮挡）。软件栈：ROS 2 Humble + Nav2（A* 全局 + DWA/TEB 局部）+ robot_localization EKF + nmea_navsat_driver，详见 §03.5 工程骨架。国产可选：宇树 Unitree / 阿尔法 Alpha / 拖挂自研底盘（按温室宽度定制）；北斗模块千寻 / 司南导航。对照：Clearpath Husky。成熟度：Pilot 起配 · MVP 阶段固定工位免移动。团队 v1.0 历史：v1.0 龙门跨垄移动平台尺寸 350 × 1000 × 500 mm，离地间隙 600 mm，已验证硬件 v2.0 沿用[52]。

末端 + 力反馈

主选型：自研 4 指对称气动柔性硅胶软爪（食品级硅胶 + 增强纱网 + FDM 3D 打印模具，单指 60 mm 楔形，仿形曲率 R₁ = 10 mm / R₂ = 21 mm 双指，7 气腔室，16 kPa 闭环气压控制，单根输出力 0.263-0.334 N）+ 六轴 F/T 传感器 + IMU。国产可选：奥诺科技六维力 / 元生创新 ATI 替代 / 鑫精诚指尖传感。对照：ATI Mini40 / Robotiq FT-300。成熟度：团队 v1.0 物理样机已验证（300 次重复试验 / 91.3% 综合成功率 / 6.3% 破损率），v2.0 直接继承；Pilot 集成国产六维力 → Scale 模块化快换[52]。

续航 + 自动换电

电池主选：48 V / 100 Ah 磷酸铁锂（LFP，IP65，热插拔 < 5 min）×2 组双仓位，连续作业 4-5 h / 组。充电桩：固定式 6.6 kW DC 快充桩（CCS-Combo2 / GB/T 双协议），机器人自归航对桩（精度 ±2 cm 由 RTK + LiDAR 视觉对准协同保证）。BMS：CAN 总线接 ROS 2 节点，SoC / 温度 / 单体电压实时发布到 /battery_state 话题。能量管理：energy-aware mission planner 每 30 s 评估"剩余电量 vs 完成任务 + 归航 + 30% 裕度"，不足即触发 Nav2 归航（详 §03.5 ④）。国产可选：宁德时代 / 比亚迪 LFP 电芯 + 沃特玛 BMS / 国轩高科 PACK；充电桩特来电 / 星星充电定制 6.6 kW 版本。对照：扫地机器人 ChargeStation 逻辑（精度等级不同，原理一致）。成熟度：MVP 阶段固定工位免移动 → Pilot 单充电桩 + 单换电仓 → Scale 多桩布点 + 备用电池架共享池。

13.3 自助 BOM 估算器

读完上方能力模块图，如果你想亲手拨一拨"这套机器跑起来到底多少钱"——下方配置器允许你按类别选机型、调定价倍率、看实时毛利结构。数据源于 2026-05 京东 / 淘宝 / 厂商官网 / 海外经销实价（详见 audit-2026-05/_phase2_5/bom-real-prices.md，38 条挂牌价多源交叉）。OEM 价按 100 台/年量产折扣 30-35% 推算。

数据来源：京东 / 淘宝 / 厂商官网 / 海外经销（DJI Store / Intel RealSense Store / Ardusimple / Devonics / Vention / Unchained Robotics）多源交叉，时点 2026-05。OEM 100 台/年口径含 25-35% 量产折扣，与节卡港股 ASP ¥4.71 万、节卡招股书 ¥5.80 万互证。最终以厂商意向报价单为准。海外部署 +12-25% 关税 / +25-40% 经销加价 / +10-20% 现场服务，总价 ×3-5 倍。完整数据见 audit-2026-05/_phase2_5/bom-real-prices.md。

阶段成熟度对照

MVP · 实验室验证（模块 01 + 02 + 03·CR3 + 05·软爪）—— 固定工位，单臂闭环跑通采摘 → 视觉伺服 → 软抓。Pilot · 首批试点（+04 移动平台 +03·Aubo/Doosan 升级 +05·国产六维力）—— 行间穿梭 + 双臂协作 + 力反馈闭环。Scale · 100 台/年量产（02 双脑解耦 + 03·JAKA × 4 + 04 拖挂平台 + 05 模块化快换）—— 续航 ×3、故障隔离、整机国产化率 80%+。三档共享相同软件栈，硬件按 ROI 渐进升级。

采后分级 · Y2 规划

末端不背 NIR — 让光谱模组留在分级线。机械臂末端要的是 < 100 ms 决策延迟 + 抗振动 + 量产成本 < 500 元；而 NIR 单果糖度商用精度依赖 50-500 ms 静态积分 + 单品种 PLS 模型，至今全球无量产末端集成。Y2 起把糖度判断后置到采后线，由 NIR 模组完成 ±0.5 °Brix 的内部品质分级，与机器视觉外观瑕疵 + 称重粒径合并出标准化结果。

层级	方案	精度 / 速度	量级
整线 · 国际标杆	TOMRA Inspectra² / Compac MLS	10 fruit/s 通道	千万级整线
整线 · 国产主力	江西绿萌 FRUSCAN 7.0 · 合肥泰禾	5-8 fruit/s 通道	千万级国产整线
NIR 模组	奥谱天成 NY2300 · 迅杰光远 IAS	±0.5 °Brix · 5-8 fruit/s	万元级 NIR 模组
手持参考	Felix F-750 · Atago PAL-HIKARi	R² > 0.85	千元-万元级手持
芯片级 SWIR	Hamamatsu C12880MA · ams AS7421	≤ 100 ms 静态可达	千元级芯片

枸杞特殊说明：鲜枸杞蜡质反光 + 单粒 0.3-1 g 远低于 NIR 采样体积（> 5 g 等效路径），单粒 NIR 信噪比不足。Y2 走 高光谱成像 + 群体采样；等 SWIR 芯片化（trinamiX / ams-OSRAM 1-3 µm）成熟再升级单粒。

为什么写进白皮书

"整体解决方案"叙事必须给出 采→分→冷链完整链路。把 NIR 明确放在分级线（而非末端）是经过 ROI + 技术成熟度双重权衡的结果，避免被技术读者反问"采摘臂为什么不带 NIR"。

chapter v

竞品 · 路线

国内 5 家直接对手中 3 家声明仅出自新闻稿，缺少同行评议。SOTA 三件套在我们的 2024-01 至 2026-05 检索范围内尚未同时被任何 peer-reviewed 系统达成——窗口未关。

14中国对手 · 经核实

公司	声明	证据级别	对我们威胁
蓝侠机器人 (深圳)	冬枣 8s/果 85% <8% 损伤	新华网 + 人民日报 2025	大荔试点真 · 单作物 · 公开学术贡献有限
禾芯动力	蘑菇 + 植保 + 除草 5 场景	36Kr / 中国日报	邻接威胁 · 公开口径止于"环境感知 + 农业 AI 模型 + 多机协同" · 不同子市场
乔戈里 (KRTECH)	多果种通用平台 · 国内 40w/台	2024 出口 2000 万美金	出海样本 · 不重叠技术对手
集萃智造	~~7-DOF + CoPickVLM 90%~~	查无实据 · 主业非农业	公开定位为生态供方 · 非直接对手
伟景智能	3D 相机累计 1500 出货	人形采摘仍 demo 阶段	平台型 · 非直接对手
遨博智能 / 岚江科技	关节臂 · 喷洒 / 除草 / 运输	行业可查	供应商 / 邻接 · 非采摘对手
南京农大汪小旵	草莓 66→84% / 20s 演示	南农新闻办 + 新华社 2026-03	产业演示 benchmark · 软爪方向公开材料有限（团队设施农业 / 智能农装方向有显著学术积累）
华南农大（番茄 / 荔枝末端执行器）	YOLOv9/v10-pose · STRAW-YOLO CEA 2024	CEA / TASE peer-reviewed	Tier-1 学术 benchmark
CAS 合肥 + 宁夏大学 Xu 2015	振动 93.5% / 2.54% · 整丛非选择性	Trans CSAE 2015	相关学术背景 · 非同赛道

* 本表分析以截至 2026-05 公开材料 + 媒体访谈为依据；对竞品技术栈的判断以其公开口径为准，未涉及对未披露内容的推断。中国发明专利申请有自申请日起 18 个月的公开期，本表可能未涵盖该窗口内未公开材料。表中具名学者在其主要研究方向（如汪小旵团队在设施农业 / 智能农装）有显著公开学术贡献。

15SOTA 三件套

跨 12 篇 2024-2026 论文综述后的真实瓶颈——不是夹爪软硬度，是遮挡感知和周期时间。

Figure 4SOTA 三件套 · 单项已被部分跨越，五条件全满足者尚未出现

单项已被突破 · 五条件耦合窗口未关

我们 2024-01 ~ 2026-05 检索 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg（共筛 ≥ 50 篇候选），在检索范围内未发现同时满足五条件的 peer-reviewed 系统：≥ 85% 成功率 + ≤ 5% tactile-graded 损伤 + ≤ 8 s 单果周期 + 开放果园 + 同行评审。最接近者：Tiantian 3/5（损伤未披露）、Lanxia 4/5（非 peer review）、柑橘 dual-arm 3/5。单项 SOTA 均已被分别跨越，窗口正在收紧。

最接近者	成功率	损伤率	周期	差在哪	出处
Tiantian 番茄 (3 臂 gantry · Dong et al.)	91.0 %	未披露	4.62 s 等效（单臂 ~9 s）	损伤未定量	JFR 2026 rob.70168[32]
Lanxia 冬枣（新闻稿）	85 %	< 8 %	8 s	损伤 > 5% · 非 peer review	People Daily 2025
DailyRobotics 草莓（商业试点）	未披露	~ 4 %	4.57 s	成功率未披露 · 非 peer review	AgFunder 2026
柑橘自适应抓取	未披露	2.6 %	—	成功率与周期未对齐	CompAg 2025
Robofruit 草莓（商业温室）	83 %	—	—	损伤与周期未对齐	Parsa JFR 2024[13]
葡萄双臂	96.7 %	3.2 %	13.7 s/试	周期 > 8 s	Frontiers 2022

三个洞察：

软爪硬件不再是瓶颈——损伤率已 ≈ 人类。问题在视觉遮挡 + 周期
WSU 草莓加风扇移遮挡 58 → 74%（+15.8 pp）—— "物理介入感知"是新思路[19]
Rong 番茄 cut-point 88.5% → 抓取成功率 57.7% — 30 pp 流失在抓取/规划，不在感知前端
多臂加速比双口径：Tiantian 三轴 Cartesian gantry 3 臂 1.96×（η ≈ 0.65）/ Lammers & Zhu 双 4-DOF 苹果 28% time reduction（= 1.39× speedup, η ≈ 0.695）/ Zhu et al. arxiv 2505.10028 12 臂 Cartesian gantry simulation 12.7× @ 100 fruits/m² / Lu Agronomy 15:1446 4 臂运动学。6-DOF 4 臂协作目标 2.5-2.8×（stretch, η = 0.62-0.70）/ 保守 1.8-2.4×（紧协作 baseline, η = 0.45-0.60）—— 不是 N 倍线性，BOM × N 时收益边际递减

v1.0 内部基础线 · v2.0 motivation

团队 v1.0 物理样机基础线（垄作草莓采摘机器人，实验室仿垄环境，300 次重复试验）：综合成功率 91.3% / 破损率 6.3% / 单果周期 15.1 s（移动 5.9 s + 唇展 4.4 s + 齿抓 0.4 s + 唇闭 4.4 s）——已达成 "≥ 85% 成功率 + ≤ 8 s 三件套" 中的成功率项，破损率距 ≤ 5% 尚有 1.3 pp 差距，周期需要从 15.1 s 提速。v1.0 失败模式自披露：73.1% 破损可追溯到视觉坐标偏差导致唇机构擦伤；密集 / 遮挡冠层的多模态感知适应性受限——这正是 v2.0 引入 VLM 大脑 + Diffusion Policy 小脑（hierarchical VLA 双脑系统）的内部 motivation[52]。v2.0 目标：硬件继承 v1.0 末端 / 移动平台 / 仿垄试验环境（已就绪），软件栈整体升级到 hierarchical VLA system (VLM + DP + RTC + LeRobot v0.5.1)，目标 ≥ 95% 成功率 / ≤ 5% 破损率 / ≤ 8 s 单果周期（末端机械物理上限决定 ≤ 8 s 为现实目标）。国际 SOTA 库 cross-reference：Ya Xiong 双臂草莓 4.6 s/果（损伤未披露）/ Octinion ~5 s/果（产品宣传）/ Agrobot 24-DOF > 85% 成功率（未公开周期）—— 各 SOTA 系统在单项指标已突破，但完整五条件耦合窗口仍未关闭。

农业 VLA category 创建机会

检索结果：在 arXiv (cs.RO) + HuggingFace + GitHub 2024-2026 检索范围内，没有 agriculture-specific VLA foundation model 公开发布。HarvestFlex (草莓 crop-specific 适配, arXiv 2603.05982)[33] 与 arXiv 2601.11906 (VLM task-planning, 非 end-to-end VLA) 是最近的工作。Jetson Orin 上完整 VLA action loop latency 公开 benchmark 不存在——3B-AWQ VLM 单脑层 NVIDIA 论坛实测 30-225 tok/s（不是端到端动作环数据）。本架构 = 公开范围内最早完整披露 "v1.0 物理样机实证 + v2.0 hierarchical VLA system (VLM + DP) + 跨作物 LoRA + 中文指令" 的农业 vertical 整合尝试（不是宣称定义 category — 空白也可能是市场困难信号；同期 AgriGPT-VL / AgThinker / HarvestFlex 也在做农业 VLA 单点研究，我们的差异是 v1.0 物理样机 anchor + 完整双脑工程整合 + 中文 GTM 三件套同时具备）。我们用 W1-4 latency + W13-16 温室真草莓 ≥85% 成功率作为 "category wedge" 的发布门槛，v0 期 W1-4 实测填补 Jetson Orin 完整双脑 action loop benchmark 公开缺失这个 gap。护城河组成：2 项硬资产（v1.0 物理样机 know-how 含 σ_y + 软爪 spec + 91.3% baseline · 客户场景数据飞轮）+ 5 项配置组合（7-LoRA / 7-PhytomerFn / 中文指令 / Orin 调优 / VLM+DP 工程整合）= 18-24 月 catch-up barrier（B3 audit 估算：工程复刻 6-12 月 + 数据/客户场景 12 月）。

* 五条件定义：(1) ≥ 85% 选择性采摘成功率（开放/温室环境，未受控）；(2) ≤ 5% tactile-graded 损伤率（FEA 仿真或人工评级，非外观目测）；(3) ≤ 8 s 单果周期（含视觉 → 规划 → 抓取 → 放置完整链路）；(4) 开放果园环境（含遮挡 / 风扰 / 光照变化）；(5) peer-reviewed 期刊或顶会发表。检索方法：2024-01 至 2026-05 检索 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg，关键词 fruit harvesting / picking robot / selective harvesting / orchard robot，共筛 ≥ 50 篇候选。本声明每 3-6 个月复核。

166 个月技术里程碑

2 工程师 · 6 个月。每个里程碑都有 VERIFY 验收点。

周	阶段	任务	VERIFY
W 1-4	引导	买 SO-101 + AGX Orin · LeRobot v0.5.1 pin commit · v1.0 草莓数据 reformat（STM32+HALCON 日志 → LeRobotDataset v3.0，2 工程师周，得 ~60 等效 demo）+ 实验室仿垄环境新采 100 demo（草莓 base） · v1.0 末端 / 移动平台 / 仿垄环境直接继承（硬件 0 改动）[52]	Diffusion Policy · 草莓 50% 实验室
W 5-8	基线	训 DP + ACT 对比 (草莓 base 160 demo) · RTC 仅对 π0.5 / SmolVLA 测试 · ONNX 自写 export 路径 · 集成 STRAW-YOLO keypoint (替换 v1.0 HALCON 曲率，预期缓解 v1.0 中视觉坐标偏差导致的擦伤主因，具体破损率缩减量 W13-16 实测确认) · Orin DP 50 Hz caveat：需 TensorRT INT8 + horizon trim 至 16/8 才稳定 50 Hz，否则实际 20-30 Hz（周期会从 ≤8s 推到 ~10s，v0 期实测决定是否换 small-brain CNN-only 蒸馏路径）	选 DP · 草莓 70% 实验室
W 9-12	真臂	v1.0 唇齿软爪 + 6-DOF 升级臂 (Dobot CR3) · ROS 2 + MoveIt2 + Zenoh · DP 桌面真臂集成 · DexFruit (MIT) tactile-conditioned 小脑 fork + v1.0 MPM288DI 气压替换 DenseTact (省 4 工程周)	桌面草莓 10/10 (复刻 v1.0)
W 13-16	数据	实验室仿垄 + 合作温室草莓 100-200 demo 补集（与 W1-4 累计达成 base 150-300 上限）· RoboSplat 单 demo × 5 augmentation · 70/30 真合成共训 · 把 σ_y = 0.0045 MPa 力学边界作为 DP 训练时的安全过滤参考（拒绝输出超 force budget 的轨迹）	温室真草莓 ≥ 85%（追平 v1.0）
W 17-20	VLM	Qwen2.5-VL-7B-AWQ 接入 · JSON schema + bbox 后处理 · 中文指令端到端 "摘红色成熟草莓" · XGrammar FSM 解码	中文指令打通 · 草莓 ≥ 90%
W 21-24	Pilot	TensorRT 自定义导出 · 硬件 E-stop + 力限 · 一行温室草莓 Pilot · v3.0 番茄 SKU 预研（优先级 1：Helios 原生 + 学术权重多；注意番茄 v3.0 不是纯 LoRA 软件升级——需新末端硬件 (扭转头) + 新气压边界 + twist_pluck primitive，独立工程预算 +¥80-150k / 2-3 月）· v3.1 枸杞 LoRA 后续（不阻塞 v2.0 主线）	草莓 v2.0 目标：≥ 95% / ≤ 5% 破损 / ≤ 8 s 周期

CE 认证里程碑（与技术 6 个月并行）

时间	动作	交付
2026-06	NB 询价（TÜV SÜD / SGS 双线）+ EN 标准对账	NB 报价单 + 适用 EN 清单
2026-07	NB 合同签订	项目启动函
2026-10	技术文档提交（含 AI safety function 论证 + EN ISO 13849 PLd/PLe）	TD pack v1
2027-04	样机测试通过	Test Report
2027-07	CE 拿证	EC Declaration of Conformity
2027-08	EU 首发	首单交付 + Notified Body 证书附本

chapter vi

出海 · GTM 路径

国内开放果园选择性采摘的规模商业化（农场端采购）尚处早期（设施菇 / 草莓室内 0→1 已加速，长三角果林 / 西北枸杞仍空白）；欧美劳工缺口 + H-2A 工签 + 头部种植集团 3 季商业试点已积累，短期订单池形成（多以 RaaS / 多年订阅为主）——叠加 CE Machinery Regulation 2027 切换。团队选择海外优先收订单 + 国内长三角 / 卢皋落户同步打样的双轨节奏，与 §20 乔戈里 / 极飞 / 大疆出海路径同源。

17需求侧 · H-2A 缺口曲线

美国农业劳工市场已被 H-2A 工签体系深度依赖，缺口曲线持续陡峭——这是采摘机器人海外订单池的根本来源。

指标	数值	趋势	来源
FY2025 H-2A 认证岗位	398,258	10 年 +185 %	AFBF 2025-03
2030 趋势线预测	突破 50 万 (500,000+)	近 5 年 CAGR 8.7%	DOL ETA OFLC + AFBF + MPI
2025 岗位本土申请率	182 / 415,000 ≈ 0.04 %	近乎归零	Niskanen Center
典型客户决策周期	2-3 季试点 → 量产	蘑菇 / 温室更快	Tevel · Advanced.farm WA

18直接对标 · 欧美 5 家

采摘机器人海外赛道已分化为四种商业模式。学谁、避谁，由商业模式可持续性决定。本表事实截至 2026-05；海外赛道动态（Wavemaker / CNH Industrial / Oishii 等收购链）持续跟踪。

公司	作物	商业模式	定价 / ROI	融资	结局 / 状态
4AG Robotics (CA)	蘑菇	前置硬件 + 续费	~100w USD · ROI 18-30 月	C$40M Series B (2025-07, 约 US$29M)	最热 · 学这个
Tevel (IL)	苹果 / 桃 / 橙	飞行集群 + 整机伙伴	不公开	$20M Series B	飞行方案最有量产相
Advanced.farm (US, 2024-Q4 起 CNH Industrial 旗下)	草莓 + 苹果	卖断 + 服务合同	前 roadmap 2027 商业 20 台（CNH 整合后未单独重申）	前融资 $34-35M (Kubota / Yamaha)；2024-10 CNH Industrial 全资收购	并入 CNH · 退出通路验证 · 商业化通道最稳
Tortuga AgTech (US)	草莓	纯 RaaS (pay-per-pick)	现金流压力大	~$49M（PitchBook $49.29M；Crunchbase 含 SAFE+debt 宽口径约 $55M）	2025/3 核心团队与专利被室内草莓公司 Oishii 人才并购（acqui-hire）
Abundant Robotics (US)	苹果	卖断（行业估算 ~$1.5M/台）	实测 ≈ 6 vs 目标 ~10 bins/h	~$12M 累计 (GV / Yamaha / KPCB Edge)	2021/5 停运（wind-down · funding fail）· IP 售 Wavemaker Labs / Future Acres（2021/10, 后续搁置）· Advanced.farm（当时独立）拍卖得原型机独立研发

赛道 M&A 密集本身就是信号：5 家中 3 家在 2021-2025 已发生重大事件 —— Abundant 2021/5 停运 + 资产拍卖、Tortuga 2025/3 被 Oishii 收购、Advanced.farm 2024/10 被 CNH Industrial 全资收购。三起事件都发生在"工程原型成熟但还没规模化营收"的窗口期。这说明采摘机器人赛道的关键里程碑不是 IPO，而是"做出 CNH / Kubota / John Deere 愿意 M&A 的工程原型"——退出通路已被 Tortuga / Advanced.farm 两案验证。

* 货币说明：C$ = 加元；表内未前缀 $ 默认 US$。4AG Series B 公告时点 2025-07，月均 C$/US$ ≈ 0.731（Bank of Canada）。

商业模式决策

学 4AG 前置硬件 + 续费（资本最买单，C$40M Series B 是证据）；避 Tortuga 纯 RaaS（押注算量，现金流坑）；学 Tevel 整机伙伴（与本地 OEM 配套，避免单打独斗的渠道空缺）。

19认证 · 第一道硬门槛

区域	认证	关键点	影响
欧盟	CE Machinery Regulation (EU) 2023/1230	2027-01-20 application date（无双轨期）· Annex I Part A Items 5-6 + Article 25 §2 强制 Notified Body 第三方认证（非 self-declaration）· 周期典型 9-15 月含 1-2 轮返工 / AI safety 复杂场景 18+ 月 · 费用 NB €80-200K + 全包 €150-480K · 12+ 项 EN 标准（ISO 18497-1/2/3/4 + ISO 10218 + ISO/TS 15066 + ISO 13849 PLd/PLe + ISO 12100 + EN 60204-1）	硬门槛 · 2027 前必须前置 · 江苏 / 卢皋补贴对冲 30-50%
美国	ANSI/ASABE + OSHA + EPA	无统一强制；UV-C / 化学剂涉 EPA	可逐步合规
电池	UN38.3	锂电运输 + 海运强制	OEM 标配
中国出海	—	极飞 70 国 / 大疆 100 + 国农机渠道可复用	现成基础设施

20中国样本 · 乔戈里 2000 万美金

乔戈里科技（杭州 KRTECH）2024 年出口 2000 万美金，业务遍布五大洲。卖断为主，覆盖猕猴桃 / 苹果 / 番茄 / 草莓 / 梨多果种——中国采摘机器人出海最实在的样本。路径 = 多果种通用平台 + 渠道分销，不押注单果种深度。

同时极飞 / 大疆的植保无人机已建好海外农机渠道（极飞 70 国、大疆 100 +），丰疆智能插秧机用 20-30 % 低价进入欧美——这些基础设施都可被采摘机器人复用。短板是 (a) CE 认证流程未补齐 (b) 海外售后季节保障团队空白 (c) 单果种深度不及 Tevel WA 3 季试点。

中国农机出海 CE 样本

公司 / 机型	认证	认证机构	时点	覆盖
极飞 P/R150 植保无人机	CE Machinery	TÜV Rheinland	2018-2020	70 国
极智嘉 Geek+ AMR	CE Machinery	TÜV Rheinland	2019	全球仓储
高仙商用清洁机器人	CE Machinery	TÜV / SGS	2020-2023	欧美主要市场
智采·万果通（本团队）	CE Machinery Regulation (2023/1230)	TÜV SÜD / SGS（询价中）	2027-07 目标	中国农业自主移动双脑机器人 (VLM + Policy) EU CE 第一例差异化

活下来的 GTM 公式

海外订单池真实 + 4AG/Tevel 商业模式可学 + CE 认证可前置 + 乔戈里 / 极飞 / 大疆渠道可复用 + 蘑菇 / 温室决策周期短 = "先蘑菇 + 温室出海拿现金流，再果园 + 长周期拿大单" 双阶段路径。

closing

为什么这套架构

六个论点。每个都可在前面章节找到具体依据。

全栈开源 · 商用许可

核心栈 Apache 2.0 / MIT / BSD（Qwen 7B-AWQ / LeRobot / DP / ROS 2 / MoveIt2 / Nav2 等）；3 项边界 license 见 §13 module 01 footnote（Ultralytics YOLO11/v8 = AGPL-3.0 商用需购 Enterprise / DINOv3 = Meta custom + 强制 attribution / Helios PlantSim 限研发期，不分发到产品）。

Diffusion Policy 是首选

唯一同时具备 real-robot 完整栈 · ONNX 可出 · demo 规模匹配。

RTC 工程边界清楚

RTC paper ~10 Hz / 本架构 1-2 Hz · ≤ 300 ms 上游延迟可吸收。

草莓 v2.0 base · 跨作物按优先级

v1.0 草莓物理样机 91.3% 已实证 · 150-300 demo base (v1.0 reformat + 新采) · v3.0 番茄 → v3.1 枸杞 → v3.2+ 扩展 100-200 demo LoRA。

市场空白可验证

国内 5 家直接对手中 3 家无 peer-reviewed 主源 · 第一手数据机会。

SOTA 三件套清楚

≥ 85% × ≤ 5% × ≤ 8 s · 我们的工程目标。

引用

Oquab et al. DINOv2: Learning Robust Visual Features without Supervision arXiv 2304.07193 (2023). arxiv.org/abs/2304.07193
Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS 2023. arxiv.org/abs/2303.04137 · code: github.com/real-stanford/diffusion_policy
Kim et al. OpenVLA: An Open-Source Vision-Language-Action Model arXiv 2406.09246 (2024). arxiv.org/abs/2406.09246
Black et al. Real-Time Execution of Action Chunking Flow Policies arXiv 2506.07339 (2025). arxiv.org/abs/2506.07339 · code: github.com/Physical-Intelligence/real-time-chunking-kinetix
HuggingFace LeRobot v0.5.1 (commit 1396b9fab7). github.com/huggingface/lerobot
π0.5 — Physical Intelligence. pi.website/blog/pi05 · openpi: github.com/Physical-Intelligence/openpi
Qwen2.5-VL Technical Report arXiv 2502.13923 (2025) · 本架构选 7B-AWQ (Apache 2.0 商用 license), 不选 3B 系列 (Qwen-Research license 非商用) · 3B AWQ Jetson benchmark: NVIDIA Developer Forum thread 345073 (3B = 30 tok/s on AGX Orin); 7B Jetson benchmark 公开缺失, v0 期 W1-4 实测补.
NVIDIA NanoSAM. github.com/NVIDIA-AI-IOT/nanosam
PlantSimulationLab Helios v1.3.72. github.com/PlantSimulationLab/Helios · plugins/plantarchitecture/include/Assets.h
Subedi et al. Find the Fruit: Sim-to-Real Manipulation in Deformable Plant Foliage arXiv 2505.16547 (2025).
Chi et al. real-world DP demo counts: Push-T 136, Pour 90, Mug Flip 250, Shirt 284 (Table 3 + §7).
Ze et al. iDP3 arXiv 2410.10803 (2024) · 15 Hz claim contested by issue #26.
Parsa et al. Robofruit: Automated Strawberry Harvesting Robot J. Field Robotics 2024. DOI 10.1002/rob.22229
Rong et al. A Selective Harvesting Robot for Cherry Tomatoes J. Field Robotics 2024. DOI 10.1002/rob.22377
Xu, He et al. Simulation Analysis and Prototype Test of Vibration Mechanism for Lycium barbarum Picking Trans. CSAE 31(10), 2015.
NJAU sea-anemone gripper announcement. Xinhua 2026-03-30. english.news.cn (84%/20s 已验证；25%→<2% 数据无主源)
Lanxia winter jujube pilot. People's Daily Online 2025-07-17. en.people.cn (新闻稿，无 peer-reviewed paper)
Zheng et al. Multiscale computation study on bruise susceptibility of blueberries from mechanical impact Postharvest Biol. Technol. 209 (2024). sciencedirect.com/S0925521423004210 (FEA 离线损伤判据 · PEEQ ≥ 0.1 · E=0.339 MPa · σ_y=0.063 MPa)
He et al. Hidden strawberries: AI vision + silicone fingers + fan to address occlusion Computers and Electronics in Agriculture 2025, article 110684. sciencedirect.com/S0168169925007902 (WSU · 58 → 74% +15.8 pp)
Yang et al. RoboSplat: Generalizable one-shot manipulation via 3DGS augmentation RSS 2025. arxiv.org/abs/2504.13175 · github.com/OpenRobotLab/RoboSplat
Qureshi et al. SplatSim: Zero-shot sim-to-real RGB policy with Gaussian Splatting CoRL 2024. arxiv.org/abs/2409.10161
Stanford ARMLab. DexFruit / FruitSplat: dexterous fragile fruit handling with 3DGS arXiv 2508.07118 (2025). arxiv.org/abs/2508.07118
Berkeley AUTOLab. GrowSplat: 4D digital twins of growing plants CASE 2025. arxiv.org/abs/2505.10923
Gunderman et al. Tendon-driven soft robotic gripper for blackberry harvesting IEEE RA-L 2022. ieeexplore.ieee.org/9684953 (黑莓软爪 0.5 N 工作点 — "0.5N" 真正出处)
Yu et al. Visual bruise assessment and analysis of mechanical impact measurement in southern highbush blueberries ASABE Paper 44284 (2014). researchgate.net/293349787 (BIRD 法 · 120 cm 跌落 / Scintilla 76% 瘀伤)
[已删除] 此处原引用 DuoCore-FS arXiv 2512.20188 在 arXiv / Google Scholar / OpenReview 检索 0 命中，疑似幻觉来源，2026-05 audit 中移除。1-3 Hz / 25-30 Hz 频率分工的实证背书改由 [27] Hi Robot / [28] GR00T N1.5 / [29] Helix 三条共同支撑。
Physical Intelligence. Hi Robot: Hierarchical VLA with high-level reasoning arXiv 2502.19417 (2025). arxiv.org/abs/2502.19417 · pi.website/research/hirobot
NVIDIA GEAR. GR00T N1 / N1.5: A foundation model for generalist humanoid robots arXiv 2503.14734 (2025). arxiv.org/abs/2503.14734 · research.nvidia.com/labs/gear/gr00t-n1_5
Figure AI. Helix: A Vision-Language-Action model for generalist humanoid control 2025. figure.ai/news/helix (7-9 Hz VLM + 200 Hz visuomotor)
MLC AI. XGrammar: Flexible and efficient structured generation engine 2024. github.com/mlc-ai/xgrammar · OpenReview rjQfX0YgDl (FSM 压缩 · 零增量延迟)
JAKA Robotics. jaka_ros2 official ROS 2 driver. github.com/JAKARobotics/jaka_ros2 · MoveIt2 dual_arms 兼容
Dong T., Zhang Y., Luo X., Song X., Qin X., Liu Y., Bai Z. Design, Development, and Field Test Analysis of a Multiarm Tomato Harvesting Robot Journal of Field Robotics, first published online 26 January 2026, advance online publication. DOI 10.1002/rob.70168 (NUIST · 3 臂 Cartesian gantry · 91% / 4.62 s 等效 · 加速比 1.96×)
Kim et al. Behavior Cloning in Unstructured Agricultural Environments for Pepper Harvesting arXiv 2411.09929 (2024). arxiv.org/abs/2411.09929 (300 demo / 28.95% in-field · BC + scissor gripper · peduncle 失败模式 · 原描述误标 "diffusion policy"，audit 订正)
Black et al. (HarvestFlex). Strawberry VLA with 227 VR teleop demos arXiv 2603.05982 (2026). arxiv.org/abs/2603.05982 (唯一草莓采摘 VLA 公开数据)
Open-X-Embodiment Collaboration. Open X-Embodiment: Robotic learning datasets and RT-X models arXiv 2310.08864 (2023). github.com/google-deepmind/open_x_embodiment (1M+ 轨迹 · pre-training 基座)
Khazatsky et al. DROID: A large-scale in-the-wild robot manipulation dataset arXiv 2403.12945 (2024). droid-dataset.github.io (76K 轨迹 · Franka 同构 pre-train)
4AG Robotics. Series B C$40M announcement (Astanor / Cibus 领投, 2025-07). 4ag.ai/40m-series-b (蘑菇采摘 · 前置硬件 + 续费模式)
Tevel Aerobotics. Series B $20M for flying fruit harvesting robots (2021-02-09). fruitgrowersnews.com/tevel-20m (Maverick Ventures Israel 领投 · Bosch RBVC + Kubota 跟投 · 2024 Washington / Italy 试点扩张延续 · 整机伙伴模式)
AFBF. H-2A Program Use Continues to Soar — 398,258 H-2A positions projected for FY2025 Market Intel, March 2025 (accessed 2026-05-18). fb.org/market-intel/h-2a-program-use-continues-to-soar (10 年 +185%; 首手源 USDOL OFLC Annual Selected Statistics FY2025)
DOL ETA OFLC. H-2A Performance Data FY2024. dol.gov/agencies/eta/foreign-labor/performance (2024).
Migration Policy Institute. H-2A Agricultural Visa Program: Trends and Outlook. migrationpolicy.org (2023). 注："突破 50 万 by 2030"为行业外推测算，非 DOL 官方点预测。
EU. Regulation (EU) 2023/1230 on machinery. OJ L 165, 29.6.2023, p.1-102. 关键节点：Annex I Part A Items 5-6、Article 25 §2、Recital 51-55、Article 51-52。eur-lex.europa.eu/eli/reg/2023/1230
CEMA. Transition to Machinery Regulation 2023/1230: Implementation Guide for Agricultural Equipment. Brussels, 2024. cema-agri.org
EU-OSHA. Machinery Regulation 2023/1230 — Worker Safety and AI Safety Functions. Bilbao, 2024. osha.europa.eu
European Commission DG GROW. Machinery Regulation Q&A. Brussels, 2024-2025. single-market-economy.ec.europa.eu
OJ list of harmonized standards under Machinery Regulation 2023/1230（含 EN ISO 18497 · EN ISO 10218 · ISO/TS 15066 · EN ISO 13849 · EN ISO 12100 · EN 60204-1 等）。2024-2025 更新。
The Robot Report. Abundant Robotics is shutting down (2021-05-26). therobotreport.com/abundant-robotics-shutting-down
The Robot Report / dot.LA. Wavemaker Labs acquires Abundant Robotics technology (2021-10-19).
Good Fruit Grower. Advanced.farm apple harvester project · prototype acquired at Abundant auction (2022). 原文措辞 "one of the prototype units"（弱定量）。
CNH Industrial newsroom. CNH to acquire advanced.farm (2024-10-29). + The Robot Report mirror 2024-10-29.
Oishii. Strengthening our automation roadmap (2025-03-11). + AgFunderNews mirror 2025-03-12 "Oishii acquires Tortuga AgTech's robotics IP".
Tortuga AgTech 融资 ledger：Crunchbase crunchbase.com/organization/tortuga-agtech；PitchBook Tortuga AgTech profile (subscription，$49.29M ledger 主源)。
本团队柔性并联机器人动力学建模与神经网络补偿控制内部研究（2023）；内部技术资料（奇异摄动 + RBF 神经网络复合控制 / 混合轨迹 RBF 补偿，方法可迁移至 §13 末端力位混合反馈）。
本团队垄作草莓采摘机器人 v1.0 物理样机内部研究（2025）；内部技术资料（力学数据见 §01 ④；末端 spec 见 §13 module 05；整机基础线 91.3% / 6.3% / 15.1 s 见 §15 SOTA 表后段）。
Meta AI Research. DINOv3: Self-supervised vision transformers, scaled (2025-08). ai.meta.com/dinov3 · github.com/facebookresearch/dinov3 (drop-in upgrade vs DINOv2; NASA JPL / World Resources Institute production users).
Ordinal regression head for 4-class fruit ripeness (天然有序绿→粉→红→过熟): see Cao & Niu 2020 / Niu 2016 (ordinal logistic CNN), 2024-2025 在农业 ripeness 复用 (better than softmax MLP for ordered labels).
Liu et al. Grounding-DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection arXiv 2303.05499 (2023). arxiv.org/abs/2303.05499 (long-tail fallback: 文本 prompt "ripe X" 自然语言指定新作物类，无需重训分类头).
Fruit-Ripeness-MetaFruit / MaturNet (CDFRB) — 5-crop ripeness detector mAP 62.6%, 2025 closest "multi-crop foundation" attempt. 还不是真 foundation model, 但是 cross-crop baseline 参考.
Cross-VLM agriculture benchmark (arXiv 2512.15977, 2025): Gemini-3 Pro MCQ 62%, all VLMs underperform YOLO11 supervised baseline on 27 AgML datasets / 162 classes — confirms VLM zero-shot ripeness is only viable as assistive cross-check, not standalone.

声明：本白皮书所有绝对化表述（含 §15 五条件评估 · §08 数据需求曲线 · §14 中国对手对比 · §03 Hz 双层选型论证等）均以截至 2026-05-18 已检索公开材料为依据。2024-01 至 2026-05 检索源含 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg + 公司 newsroom + 行业媒体（fruitgrowersnews / agfundernews / 36Kr / 中国日报等）。2026 后半年若有新 peer-reviewed paper 或商业落地证据改变论点，将在下一版（v4.3+）更新。

set in

Noto Serif SC (display & body) · JetBrains Mono (code & numerals) · Newsreader (English italic accents)

palette

Terracotta editorial · paper #F4F1E8 · ink #1A1714 · rust accent #B85C2A · sage #5A6B3A

based on

LeRobot v0.5.1 · openpi · Diffusion Policy (Chi 2023) · RTC (Black 2025) · Helios v1.3.72 · Qwen2.5-VL technical report

for

technical due diligence

date

2026 · 05

智采·万果通

技术挑战

01五大 AI 核心问题

① 果实检测与成熟度判断

② 3D 空间定位

③ 可达性与路径规划

④ 末端柔顺控制

⑤ 跨作物泛化

02我们的架构原则

架构

系统总览 — 感知层 + AI 认知层

— 感知层 · sensing

— ai 认知层 · cognition

03双脑分层架构

03.5工程骨架：ROS 2 + 地面导航 + 续航

① ROS 2 是什么 · 为什么用

② SLAM + 自主导航

③ 北斗 / GPS / RTK 室外定位

④ 续航 + 自动归航联动

04感知栈

05Real-Time Chunking

06小脑选型矩阵

07通信总线

JSON Schema · 大脑—小脑契约

三级容错管道

数据 · 训练

08数据需求曲线

09LeRobot v0.5.1

10跨作物迁移

作物 · 仿真

11主作物 roadmap · v2.0 草莓 base → v3.0 番茄 → v3.1 枸杞 → v3.2+ 扩展

12仿真：能干什么 · 不能干什么

3DGS + Helios 双轨

13能力模块图

13.3 自助 BOM 估算器

计算单元A

机械臂 − 1 + B · ×N

深度摄像头 − 2 + C · ×N

激光雷达 + RTK GPSD

移动平台E

末端 + 力反馈 − 1 + F · ×N

电源 / BMS（可选）G

采后分级 · Y2 规划

竞品 · 路线

14中国对手 · 经核实

15SOTA 三件套

166 个月技术里程碑

CE 认证里程碑（与技术 6 个月并行）

出海 · GTM 路径

17需求侧 · H-2A 缺口曲线

18直接对标 · 欧美 5 家

19认证 · 第一道硬门槛

20中国样本 · 乔戈里 2000 万美金

中国农机出海 CE 样本

为什么这套架构

引用

机械臂 1 B · ×N

深度摄像头 2 C · ×N

末端 + 力反馈 1 F · ×N