智采·万果通
technical architecture · v4.2 · 2026.05
technical architecture whitepaper

智采·万果通

AI 草莓采摘机器人技术架构 · v1.0 → v2.0

Building on team v1.0 strawberry harvester (91.3% / 6.3% / 15.1s · lab furrow-grown, validated 2025) — v2.0 upgrades the software stack to hierarchical VLA system (VLM + Diffusion Policy + Real-Time Chunking, LeRobot v0.5.1).

91.3%
v1.0 草莓物理样机 · 已实证
150–300📋
v2.0 草莓 base demo · W1-24 目标
≤ 8 s📋
v2.0 选择性周期 · W21-24 Pilot 目标
I
chapter i

技术挑战

采摘机器人不是单一难题,而是感知、规划、控制、跨作物迁移四块叠在一起的工程系统。市场背景:中国草莓产量 2021 年 368.2 万吨、2011-2020 CAGR 6.2%,自 2007 年起世界第一——市场体量与机械化采摘空白都已就绪。本章把每块拆开——告诉你它具体卡在哪里、为什么 2024-2026 的论文还没完全解决、我们采取什么策略。

01五大 AI 核心问题

采摘机器人面对的世界比工厂机械臂复杂十倍。果实长在不规则的枝条上,会被叶子遮挡,颜色和背景相近,风一吹位置就变。下面五个问题是 2024 至今所有发表的采摘机器人论文都在回答的——每个问题对应一种独立的技术栈。

① 果实检测与成熟度判断

表面上是个目标检测问题,YOLO 类模型在 COCO 上做了多年。但农业场景有三个非标准条件:成熟度需要 4 分类(绿/粉/红/过熟,单一阈值不够),红色果实在带红反光的绿叶背景下对比度极低(枸杞最典型),同一簇果可能有 70% 被叶子遮挡。 直接用预训练 YOLO 准确率会从 95% 掉到 60% 以下。

我们的策略是分两段:YOLO11s fine-tune 做粗定位(或 Apache-2.0 友好的 RT-DETR 替代见 §13 module 01 footnote),然后 frozen DINOv3 特征 + ordinal regression head(4 类成熟度天然有序 绿→粉→红→过熟,比 softmax MLP 表达更准)做精确成熟度分类。DINOv3 (Meta 2025-08 发布,NASA JPL / WRI 已用 production,drop-in 替换 DINOv2) backbone 永远 frozen,只换分类头——单作物 200-500 张标注图就够(跨形态作物如垄作草莓 vs 蔓状枸杞取上限 500 张)[1][53][54]Long-tail fallback:作物标注图 < 100 时退到 Grounding-DINO 文本 prompt "ripe X" + Qwen2.5-VL-7B-AWQ cross-check(处理 v3.0+ 咖啡 / 茶 / 桃 / 梨 等长尾扩展场景)[55][56]。VLM 不作 standalone ripeness 判定(2025 cross-VLM benchmark 显示 zero-shot 准确率 < YOLO11 supervised baseline),仅低置信度 cross-check + 长尾兜底[57]

② 3D 空间定位

视觉知道果在哪里还不够,机械臂需要毫米级的 6D 位姿 (x, y, z, roll, pitch, yaw)。RGB-D 相机(如 RealSense D405)能给立体硬件深度,但在叶子翻动、阴影斑驳、果实表面反光的情况下会出现“幽灵深度”——某些像素的深度估错几厘米,导致机械臂去够空气或撞枝。

解法是融合两路深度:硬件立体(confident 但稀疏)+ Depth Anything V2 单目神经深度(dense 但相对)。两路一致的地方才信,不一致的地方调用 NanoSAM 重新分割再投票。最终位姿误差控制在 ±5 mm。

③ 可达性与路径规划

枝条柔软,会跟机械臂之间发生“双向影响”——你伸过去枝条被撞偏,果就跟着移动。这意味着规划阶段算出来的关节轨迹在执行 100 ms 后可能就过时了。传统做法是用 MoveIt2 + FCL 做静态规划,离接近目标 10 cm 时再切到伺服控制。

我们在 MoveIt2 上加了一层异步流式规划——大脑慢规划(1-2 Hz),小脑接管最后 10 cm(30-50 Hz)。这中间的协调由 Real-Time Chunking 处理,下面 §02 详讲。移动平台层的全局 + 局部规划(A* / Dijkstra · DWA / TEB)同样基于 ROS 2 Nav2 栈,详见 §03.5 工程骨架

④ 末端柔顺控制

水果损伤的本征参数是应变 + 模量而不是单点法向力。以蓝莓为例:果肉杨氏模量 0.339 MPa、屈服应力 σ_y ≈ 0.063 MPa、瘀伤判据 PEEQ ≥ 0.1(FEA 离线损伤判据,Zheng et al. 2024)[18];按 ø3 mm 硬指端估算接触面 A ≈ 7 mm²,均匀应力近似 F_crit ≈ σ_y × A ≈ 0.44 N(一阶量级估算;Hertz 球-平面接触应力在次表面 z ≈ 0.48a 处先达屈服,含 0.62 因子的完整 von Mises 推导仍回到 ~0.4-0.5 N 量级;A 随接触力变化、E* 不确定,综合精确值有 ±50% 区间),与 Gunderman 2022 黑莓软抓手实测工作点 0.5-0.78 N 同量级[24]。冲击破皮以 BIRD 跌落计算:硬质 120 cm / 软质 60 cm 是分级线(Yu et al. 2014 BIRD 法)[25]。这意味着夹爪不仅要软,抓取动作本身的速度、扭转角度、力的渐变都要被精确控制。传统 PID 控制器无法处理这种多维约束。

团队 v1.0 草莓力学锚点:成熟期红色草莓表层弹性模量 0.356 MPa、生物屈服应力 σ_y = 0.0045 MPa、草莓-硅胶静摩擦系数 μ = 0.76(团队 2025 实测,详 Refs [52])。自研 4 指气动柔性软爪在 16 kPa 工作气压下,末端 10 mm 处对果实表面的应力实测为 1.74-2.18 × 10⁻³ MPa(约屈服阈值 40-50%)——这是 v1.0 在实验室仿垄环境实测 6.3% 破损率的力学边界。物种说明:σ_y 数值与物种强相关(蓝莓 0.063 MPa / 草莓 0.0045 MPa,量级差 14×),蓝莓 / 黑莓数据保留作 cross-reference,工程目标针对草莓数据对齐。

解法是用 Diffusion Policy CNN U-Net 学习人类示教的抓取轨迹。150-300 个遥操作 demo(草莓基线 · v2.0 base,团队 v1.0 已有 300 次实验数据为候选样本上限,2 工程师周 reformat 后预期得 ~30-60 条 LeRobotDataset v3.0 prod-ready episodes + 新采 100-200 episodes)(用 SO-101 leader-follower,单价 $250)就能让策略学会"接近 - 包裹 - 扭转 - 撤回"四个阶段的连续动作。[2]

⑤ 跨作物泛化

每种水果都要重新收 5000 demo,团队会被数据成本拖垮。我们的设计是共享骨干 + 每作物 LoRA 适配器,按迁移成本排序——草莓做 v2.0 主基线(150-300 demo 一次性投入,含 v1.0 已有实验数据 reformat ~60 + 新采 100-200,对齐 §08 数据需求曲线);后续按优先级 v3.0 番茄 LoRA → v3.1 枸杞 LoRA → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡 / 茶(各 100-200 demo + LoRA 微调适配)。番茄优先于枸杞的工程理由:Helios cherry tomato 原生支持(vs 枸杞需自写 PhytomerCreationFunction 4-8 工程师周)、全年设施栽培无季节窗口、学术权重生态成熟(Robofruit / DexFruit fork target / MetaFruit / Apache 2.0 权重多)。详见 §III。[3] 选草莓做 v2.0 base 的理由:团队 v1.0 物理样机已完成 91.3% 综合成功率 / 6.3% 破损率 / 15.1 s 单果周期的实验室仿垄环境验证(详 §15 SOTA 表后 v1.0 baseline 与 §11 主作物战略论证)[52]

技术现状

公开论文里 2024-2026 没有任何系统同时达到 ≥ 85% 未疏遮挡成功率 + ≤ 5% 损伤率 + ≤ 8 s 周期三件套。这是我们的工程目标,也是商业窗口的来源。

02我们的架构原则

每条原则都有公开论文或源代码支撑——不是产品宣传,是工程依据。

01
经典 + 学习混合

感知层用 YOLO + SAM + 立体深度(确定性、可解释、低数据需求),规划层用 MoveIt2 + FCL(成熟、可调试),只有最后 10 cm 的抓取动作交给学习。这种分工把整体数据需求从 5000+ demo 降到 150-300 demo(小脑端)+ 规划层兜底数据,工程风险也降一个量级。[2]

02
Diffusion Policy 是首选

2024-2026 公开仓库里,Diffusion Policy CNN U-Net 是唯一同时具备完整 real-robot 代码栈(RTDE 驱动 + RealSense + SpaceMouse 遥操作)、ONNX 可导出150-300 demo 数据规模三件套的策略。Equivariant DP 的等变测试在仓库 issue #9 中被报告失败;iDP3 不在 LeRobot v0.5.1。[2][5]

03
RTC 桥接快慢

Real-Time Chunking(Black 2025)通过 ΠGDM pseudoinverse guidance 让 flow / diffusion policy 在 +200 ms 上游延迟下保持平稳。RTC paper 实测 ~10 Hz 推理 + 50 Hz 控制器(A100 + π0/π0.5);本架构 Qwen2.5-VL-7B-AWQ on Jetson Orin 工程外推 1-2 Hz(3B 公开实测 1-2 Hz, 7B 推理量 ~2× 3B, 待 v0 期实测;详见 §05 honest disclosure)。仅适用 diffusion/flow,ACT 不兼容。[4]

04
跨作物 LoRA 迁移

草莓做 v2.0 主基线(150-300 demo · v1.0 reformat ~60 + 新采 100-200),v3.0 番茄 → v3.1 枸杞 → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 按迁移成本顺序 LoRA r=32 微调 100-200 demo / 作物。骨干永远冻结,每作物加 80 MB 适配器。番茄优先:Helios cherry tomato 原生 + 全年设施 + 学术权重多;枸杞次之:Helios 自写 4-8 周 + 季节短但全国综合产值 100+ 亿元(2022)/ 宁夏单省 340 亿(2024 预期)高价值。[6]

II
chapter ii

架构

双脑分层是这套系统的骨架——大脑慢思考(1-2 Hz),小脑闭环控制(30-50 Hz),Real-Time Chunking 把两个时间尺度粘起来。本章给出每一层的模型选型、延迟预算、消息协议。

系统总览 — 感知层 + AI 认知层

两层分工:硬件传感器把世界变成数字,AI 模型把数字变成动作。每一项都对应到后面章节的技术细节。

— 感知层 · sensing

01
RGB-D 立体相机

Intel RealSense D405 + D435 双相机硬件立体深度,30 Hz · ±5 mm,果实 6D 定位主力。

02
神经深度补洞

Depth Anything V2 Small 单目神经深度填补叶遮 / 阴影 / 反光下的"幽灵深度"。两路一致才信,不一致 NanoSAM 重分割投票。

03
末端力 + IMU 反馈

六轴 F/T + IMU 30-50 Hz 闭环。蓝莓应变阈值 PEEQ ≥ 0.1 · 屈服应力 σ_y 0.063 MPa[18],按 ø3 mm 指端 A ≈ 7 mm² 估算 F_crit ≈ 0.4-0.5 N。

04
LiDAR + RTK 导航

Livox + RTK GPS仅底盘果园行间穿梭用 · 不参与果实感知(1-2 cm 果实在远距离 LiDAR 分辨率不够)。Pilot 档起配。

05
计算单元

Jetson AGX Orin 64GB(MVP / Pilot 单脑)→ AGX + RK3588 双脑(Scale 量产,续航 ×3,故障域隔离)。

— ai 认知层 · cognition

01
检测

YOLO11s fine-tune INT8,果实粗定位 · 12 ms/帧 · 200 张标注。

02
成熟度

DINOv3 frozen + ordinal regression head(4 分类天然有序 绿→粉→红→过熟,比 softmax MLP 表达更准),单作物 200-500 张标注图够(跨形态作物取上限)[1][53][54]

03
分割

NanoSAM NVIDIA 蒸馏 ViT,仅对 top-K 候选做精细 mask · 18 ms/帧(原 SAM2 仅 2 FPS 跑不动)[8]

04
跟踪

BoT-SORT 多目标跟踪 < 5 ms/帧,处理一簇果 50+ 候选。

05
VLM 大脑

Qwen2.5-VL-7B-AWQ(Apache 2.0 商用 license)目标 1-2 Hz 异步(数字为工程外推,W1-4 期实测确认),理解"摘左侧第二串成熟枸杞"等中文指令 + 输出 JSON primitive。3B 公开实测 30-50 tok/s 社区 / ~225 tok/s NVIDIA 调优栈[7];本架构选 7B (推理量 ~2× 3B),社区公开 Jetson benchmark 缺失,工程外推 ~12-20 tok/s 社区 / ~100 tok/s 优化栈,v0 期 W1-4 实测。选 7B 不选 3B 因为 3B 系列 Qwen-Research license 非商用

06
小脑策略

Diffusion Policy CNN U-Net + RTC 30-50 Hz 闭环。模仿学习(不是 RL)从 SO-101 leader-follower 收 150-300 demo · 草莓 v2.0 base(v1.0 reformat ~60 + 新采)→ v3.0 番茄 LoRA 100-200 → v3.1 枸杞 LoRA 100-200[2]

07
跨作物迁移

LoRA r=32 共享骨干冻结 · 每作物 80 MB 适配器 · 100-200 demo 适配(不是联邦学习)[3]

08
遮挡感知

主动观测 + 物理介入:amodal segmentation 推断遮挡轮廓 + NBV 换角度 + 风扇移叶(WSU 草莓 58→74%)[19]。不是"穿透叶枝"。

为什么二分层

感知层硬件可逐个升级(D405 → 高速 SWIR),AI 层模型可独立迭代(YOLO11 → YOLO12 / DINOv3 已采用 v4.1 起步,v4.2 全栈一致,未来可换 DINOv4)—— 解耦让团队能快速吸收 SOTA 而不动整套架构。下文 §03 起对每一层展开。

术语 honest disclosure · VLA system vs 严格组件

本架构在业界定义下属于 "hierarchical VLA system"(与 Hi Robot / NVIDIA GR00T N1.5 / Figure Helix 同构口径——这三家自己也都用 "VLA system / VLA model with dual-system" 标识 hierarchical 设计[27][28][29])。但严格组件层:我们大脑是 Qwen2.5-VL-7B-AWQ VLM(输出 JSON primitive 不是 action),小脑是 Diffusion Policy(输出 action 不是 vision-to-action),通过 JSON discrete-token bridge 拼接,两层独立训练——这与 GR00T / Helix 的 shared-latent joint-trained 实现有差异,也不是 π0 / RT-2 / OpenVLA 那种 end-to-end single-model VLA。v3.0+ future path:一旦 v2.0 草莓数据规模化(>1000 episodes / 1 年多客户部署),团队具备数据基座训练自有 end-to-end 农业 VLA 模型。但务实评估:(a) 训练成本 ~$50-100k+ GPU;(b) 7B end-to-end VLA 在 Jetson Orin 推理不可行(需 H100 server cloud inference);(c) 需要额外 R&D 6-12 月。当前架构选 VLM + DP 双脑是工程现实下的最优解,不是 end-to-end VLA 不诱人。

03双脑分层架构

整套系统由两台计算单元组成。MVP 阶段全跑在 Jetson AGX Orin 64GB 上;量产阶段把小脑移到 RK3588 SBC(功耗减半 + 续航 ×3 + 故障域隔离),通过千兆以太网 + ROS 2 Zenoh 共享内存通信。

1–2 Hz System 2 · slow / smart Qwen2.5-VL-7B-AWQ YOLO11s · NanoSAM · Depth-Anything-V2 BoT-SORT · MoveIt2 · FCL approach planning · target 6D pose Jetson AGX Orin 64GB · 64GB unified memory JSON · ROS 2 · Zenoh shm primitive · 6D pose · TTL ripeness_class · confidence max_force_n · shake_freq_hz ↓ 1–2 Hz TTL 500 ms 30–50 Hz System 1 · fast / certain Diffusion Policy CNN U-Net + Real-Time Chunking guidance 150–300 demo / crop · ONNX → TRT INT8 force loop + IMU feedback AGX Orin (MVP) · RK3588 distilled CNN (scale) 大脑 慢 / 聪明 VLM + 规划 小脑 快 / 确定 闭环控制 ▸ 双脑解耦(量产档) ▸ 故障隔离 ▸ 续航 ×3(8W vs 25W)
Figure 1双脑分层架构 · 信息流方向 · 频率分工

为什么大脑要慢?因为 Qwen2.5-VL-7B-AWQ 在 AGX Orin 上单次推理工程外推 ~600-800 ms(3B 公开实测 ~300 ms / 30 tok/s 社区 / 225 tok/s 优化栈,参考 NVIDIA forum thread 345073[7];7B 推理量 ~2× 3B,Jetson 社区公开 benchmark 缺失,v0 期实测补),不可能 30 Hz 跑。但大脑负责的事——读懂"摘左侧第二串成熟枸杞"、判断遮挡是否能绕过、估计采摘是否安全——这些 1-2 Hz 就够了。

为什么小脑要快?50 Hz 控制频率是机械臂闭环响应风扰、湿度变化、果实位置抖动的最低门槛。低于这个频率,外环扰动来不及补偿,会出现"过冲—回拉"的振荡,破坏果皮。

RTC 怎么让两边对得上?下文 §05 详解 chunk-inpainting 桥接。简单说就是:大脑发的动作 chunk(8 步 × 6D 草稿位姿 ∈ ℝ^{8×6},覆盖未来 250 ms)小脑按 30 Hz 逐步执行;中途新观测到达时,大脑下一帧发新 chunk,小脑用 ΠGDM 把新旧 chunk 平滑拼接,不出现关节速度跳变。

1-2 Hz + 30-50 Hz 的学术 / 工业背书

此频率分工借鉴通用人形 / manipulation VLA 双系统范式:Hi Robot(arXiv 2502.19417)Physical Intelligence ~1 Hz VLM + ~50 Hz π0[27]NVIDIA GR00T N1.5 1-5 Hz Eagle-2 VLM + 30 / 120 Hz DiT flow policy[28]Figure Helix 7-9 Hz + 200 Hz[29]——均为人形 / 通用 manipulation 场景,采摘领域 peer-reviewed VLA 双层架构暂无背书。本架构选双层基于三条采摘领域独有的工程理由:(a) Qwen2.5-VL-7B-AWQ 在 Jetson Orin 算力天花板,单体 30 Hz 物理不可达;(b) 4 臂多机协同的任务分配 1-2 Hz 重做即满足(Tortuga AgriBot 1 Hz central planner 反证);(c) 果实成熟变化时间尺度 ≥ 数小时,慢脑无需 30 Hz。反例值得参考:HarvestFlex (2026-03) 走单层 30 Hz VLA 直出动作,主动论证反对双层;RT-2 (55B) 纯单体 1-3 Hz 反证"不分层就上不去 30 Hz"。RTC 是 chunk-inpainting 类补丁方案之一,另有 latent passing / bridge buffer / language-as-bridge 三类同源做法。

03.5工程骨架:ROS 2 + 地面导航 + 续航

AI 决策层(§03 双脑)之下需要一个可靠的"地面层"承接命令:机械臂去哪里、移动平台怎么开过去、电池什么时候要回去充。这一层的栈技术早已成熟,不是 differentiator——但栈深度、算法选型、场景切换逻辑是工程能力分水岭。下面三块——ROS 2 中间件 / SLAM + RTK 导航 / 续航管理——一次性讲清楚。

AI 决策层 §03 已讲 differentiator VLM 大脑 1-2 Hz · Diffusion Policy 小脑 30-50 Hz Qwen2.5-VL-7B-AWQ · YOLO11s · DP CNN U-Net · RTC 语义理解 · 6D 草稿位姿 · 抓取轨迹 · 力反馈闭环 commands · JSON ROS 2 工程骨架 §03.5 本节 commodity ROS 2 Humble + rmw_zenoh shm · 5 μs / 1 ms ▸ MoveIt2 + FCL · 机械臂规划 ▸ Nav2 · A* / DWA / TEB ▸ FAST-LIO2 · 3D LiDAR SLAM ▸ Cartographer · 2D fallback ▸ ORB-SLAM3 · 视觉冗余 / CPU only ▸ robot_localization · EKF/UKF 融合 ▸ nmea_navsat_driver · 北斗 NMEA ▸ jaka_ros2 / dobot_ros2 · 驱动 RTK 北斗 B1I/B2a 双频 · ±2 cm · UTM 全局坐标 续航联动 · energy-aware mission planner 每 30 s 评估归航阈值 SLAM 三路融合 → robot_localization EKF → /odom_combined cmd_vel · drivers 硬件抽象层 §13 BOM 已讲 vendor lock-in EtherCAT · CAN · RS-485 · USB3 · 千兆以太网 Livox MID-360 · RealSense D405/D435 · 北斗模块 · 9 轴 IMU JAKA Zu7 驱动 · 底盘电机 · 软爪气压阀 · BMS 电池 大脑+小脑 VLM · DP 骨架 ROS 2 + 导航 + 续航 硬件 驱动 + 总线
Figure 1.5三层架构 · AI 决策(differentiator) / ROS 2 骨架(commodity) / 硬件抽象

① ROS 2 是什么 · 为什么用

ROS 2 Humble + rmw_zenoh shared memory 是整套机器人的"操作系统"——节点通信、硬件抽象、消息传递、规划框架都跑在 ROS 2 之上。AI 决策层是骨架之上的大脑 + 灵巧手,不是替代 ROS 2 的方案。这两层的关系类似 Android 系统 (ROS 2) + App (VLM + DP):没有底层 OS,每个 App 都要重写驱动 / 调度 / IPC。

为什么是 ROS 2 不是 ROS 1:(i) DDS 真实时通信,端到端延迟 5 μs(同机进程内)/ 1 ms(千兆以太网跨机),ROS 1 的 TCPROS 至少 200 μs;(ii) 原生多机架构(多臂 + 移动平台同总线管理),ROS 1 master 单点故障;(iii) 国内主流机械臂厂商 ROS 2 driver 覆盖完整(JAKA / Dobot / Aubo / Doosan 都有官方支持[42])。为什么不自研中间件:写一个跑得动的中间件需要 2-3 工程师年 + 生态绑死。"生态 > 性能微调" 在这个阶段的取舍下,ROS 2 + Zenoh 是 Pareto 最优。

② SLAM + 自主导航

SLAM 三路融合,不是单一算法兜底——温室 / 露天 / 强光眩光三场景下任何单一 SLAM 都有失效域,单点失败会卡死整机。三路并行输出统一在 robot_localization EKF 投票,给上层一个稳定的全局位姿。

SLAM 算法角色适用场景失效域
FAST-LIO2(主)3D LiDAR + IMU 紧耦合露天果园 · 农场粗糙地形 · 适配 Livox MID-360(已选型 §13 module 04)极端粉尘 · 反光面 (玻璃温室)
Cartographer(2D fallback)多传感器 2D 栅格图结构化温室 · 大棚行间3D 起伏地形
ORB-SLAM3(视觉冗余)IMU + 多地图 + 重定位CPU-only 紧急模式 / 激光模块故障兜底低纹理 · 强反光 · 单作物垄

自主导航 Nav2(不是 ROS 1 时代的 move_base):Behavior Tree navigator + behavior server 统一调度全局规划(A* / Dijkstra · 农田跨垄长路径)和局部规划(DWA · 标准;TEB · 弯道 / 窄通道 / 农具避让),输出 cmd_vel 给底盘驱动。多目标排序、归航、暂停、避障兜底全在 BT 树里描述,**改场景换 BT 文件,不改代码**。

③ 北斗 / GPS / RTK 室外定位

室内依赖 SLAM 已够;但开放果园 / 农田场景需要绝对全局坐标。RTK 北斗 B1I/B2a 双频 + GPS L1/L5 双频 + RTK 差分是国产基线选型,定位精度 ±2 cm(开阔)/ ±10 cm(弱遮挡)。

实现链:北斗模块串口 → nmea_navsat_driver 解析 NMEA-0183 → ROS 2 标准 /fix 话题 → robot_localization EKF 融合 GPS + 9 轴 IMU + 底盘里程计 + SLAM 局部位姿 → 输出 UTM 全局坐标 + 协方差。室内/室外切换:温室入口 entry-zone(GPS 锁定 + LiDAR 同时观测 5 s)触发定位栈交班,避免单一定位栈失效时机器人"瞎"了。

④ 续航 + 自动归航联动

导航栈不只为"开过去"服务——还为"回家充电"服务。Energy-aware mission planner 每 30 s 评估一次:

  1. 当前电池剩余电量 (BMS SoC);
  2. 完成当前任务 cluster(剩余果簇 × 单果能耗)所需能量;
  3. 完成后归航到充电桩所需能量(用 SLAM 持久化地图 + A* 估算路径长度 × 平均移动能耗);
  4. 叠加 30% 安全裕度;
  5. 若 (1) < (2) + (3) + 裕度 → 立即触发 Nav2 归航 to 充电桩 RTK 锚点。

详细电池规格 / 自动换电流程 / 充电桩部署见 §13 module 06 续航 + 自动换电

这一层为什么写进白皮书

ROS 2 / SLAM / RTK / 续航在工程师眼里是"标配"——但客户技术 DD 必问"用什么 SLAM / 北斗精度多少 / 怎么自动充电"。白皮书把这层写清楚 = 跳过客户 DD 第一轮反复问答 + 招聘工程师时 "懂行" 信号。差异化不在这一层,但工程深度是护城河的一部分——AI 团队 + ROS 2 工程团队同时具备的公司,在国内不超过 20 家。

04感知栈

感知层 30 Hz 跑在 Jetson AGX Orin 上,端到端延迟 28 ms 一帧。整个流水线分 6 个阶段,每个阶段在论文或工程实测中都验证过 Jetson 上的 FPS。

D405 + D435 stereo RGB-D 30 Hz YOLO11s detector · INT8 12 ms NanoSAM top-K mask 18 ms DA-V2-S depth fill 30 ms BoT-SORT MOT tracking < 5 ms Qwen-VL-3B 1–2 Hz async 330 ms * * 3B-AWQ public benchmark on AGX Orin: 30 tok/s — NVIDIA forum thread 345073. 本架构用 7B-AWQ (Apache 2.0) 工程外推 ~12-20 tok/s, v0 期实测补. 7B version unverified on this platform.
Figure 2感知层 6 阶段流水线 · Jetson 实测延迟

为什么 SAM2 原版不用?SAM2 在 AGX Orin 上只有 2 FPS,跑不动 30 Hz 主循环。NVIDIA 自己开发的 NanoSAM 把 image encoder 蒸馏到 mobile ViT 量级,AGX 上可达 30 FPS。[8]

为什么 SAM 只对 top-K 候选做?YOLO 每帧检测可能输出 50 个 bbox,但机械臂一次只能摘一个。优先级排序后取最高的 3-5 个候选送 SAM 做精细分割,剩下 45 个直接丢——节约 80% 算力。

Depth Anything V2 用 Small 不用 Base 或 Large?因为我们用立体硬件深度做 ground truth,DA 只负责"补洞"(叶子重叠、阴影区域)。Small 已经够用,Base 多 50% 延迟收益不到 2% 精度。

05Real-Time Chunking

这是整套系统最精巧的部分——把异步推理框成一个图像 inpainting 问题。

RTC 的论文是 Physical Intelligence 团队 2025 年 6 月发的 Real-Time Execution of Action Chunking Flow Policies[4]。它解决的问题是:diffusion / flow policy 一次推理出未来 H=50 步动作,但实际只执行前几步就要重新推理。如果新旧 chunk 拼接的位置不平滑,关节就会抖。

RTC 的核心 trick 是把新 chunk 的去噪过程额外加一项软约束,让前 d 步(已执行)冻结,中间 (H-s) 步软约束向旧 chunk 靠近,最后 s 步自由生成。这样新旧 chunk 在中间过渡段自然衔接。

数学上是 ΠGDM (pseudo-inverse guided diffusion model) 的移植——原本用在图像 inpainting 上,现在用在动作 chunk 的"时间维度 inpainting"上。整个修正函数的核心 15 行代码(JAX 版本):

def pinv_corrected_velocity(self, x_t, obs, y, t, inference_delay):
    # Predict clean sample x_1 via flow ODE
    def denoiser(x_t):
        v_t = self(obs[None], x_t[None], t)[0]
        return x_t + v_t * (1 - t), v_t

    x_1, vjp_fun, v_t = jax.vjp(denoiser, x_t, has_aux=True)
    weights = get_prefix_weights(inference_delay, prefix_attention_horizon,
                                  self.action_chunk_size, schedule)
    error = (y - x_1) * weights[:, None]
    pinv_correction = vjp_fun(error)[0]
    inv_r2 = (t**2 + (1 - t)**2) / ((1 - t)**2)
    c = jnp.nan_to_num((1 - t) / t, posinf=max_guidance_weight)
    guidance_weight = jnp.minimum(c * inv_r2, max_guidance_weight)
    return v_t + guidance_weight * pinv_correction

诚实的真实区间:论文 Figure 1 的"300 ms"是单条 rollout(π0.5 match-lighting),不是统计平均。系统性吞吐评估在 6 任务 × 10 episode = 60 ep 上做,注入延迟为 +0 / +100 / +200 ms(基线模型本身仅 76 ms + 10-20 ms 网络)。实测+200 ms 注入延迟下仍稳定,更高延迟未测。RTC 有效工作区间 ~10 Hz 推理 + 50 Hz 控制器;用于本架构 1-2 Hz 大脑 + 30-50 Hz 小脑场景属工程外推,需配合 §03 提到的 latent passing / bridge buffer 同源方案。

RTC 使用前提 · 四条警告

仅适用 diffusion / flow policy——ACT / OpenVLA-OFT 等确定性 chunk policy 无可注入梯度引导的 denoiser 通路,论文 §6 明文排除;② LeRobot v0.5.1 主线官方实测仅 π0 / π0.5 / SmolVLA,π0-FAST 标称兼容但缺乏验证 (PR #1698);③ predict_action_chunk 禁止与 select_actionlerobot-record 混用,HF docs 显式警告;④ 唯一公开第三方复现(Alexander Soare ALOHA, 2025-08)观察到 chunk-边界跳变,需把 σ_d 从 1.0 调到 0.2。

属性是 / 不是说明
数学本质ΠGDM pseudoinverse guidance图像 inpainting 移植到 action chunks
适用策略仅 diffusion / flowACT 无 denoiser,论文 §6 明文排除
延迟容忍+200 ms 注入实测 / fig 1 单条 rollout60 ep ±1 SEM;更高延迟未测
工作区间~10 Hz 推理 + 50 Hz 控制器本架构 1-2 Hz 大脑属工程外推
代码状态JAX-only sim repoPyTorch 端需自写 torch.autograd.grad
LeRobot 集成v0.5.1 PR #1698 已合并仅 π0 / π0.5 / SmolVLA 测过
开销每步 VJP 增加 30-50% 计算per-step backward-mode autodiff

06小脑选型矩阵

我们在 6 种主流 policy 之间做了选型,每种都读了论文 + 代码 + recent issues。Diffusion Policy CNN U-Net 是唯一同时满足三条硬指标的选择:(1) 有完整 real-robot 代码栈,(2) ONNX 可导出量化,(3) demo 规模与团队匹配。

策略状态demo 需求推理延迟RK3588结论
Diffusion Policy CNN ▲ 首选 150–300 ~100 ms 50–150 ms 唯一可行 · real_world 全栈代码
ACT 备选 100–200 10–15 ms 30–80 ms RTC 不兼容 · 跳过
iDP3 不在 LeRobot 10 × 3 task 9 Hz CPU 不可行 issue #26 不可复现 · 需 L515 EOL
Equivariant DP DISQUALIFIED 100 untested 不导 ONNX issue #9 等变测试自己失败
π0.5 + LoRA Y2 研究 200–500 76 ms 零户外数据 · LoRA PyTorch 不支持
SmolVLA 450M Y2 探索 50–200 30 Hz AGX RTC 已支持 · 需 AGX 才跑得动

07通信总线

大脑和小脑通过 ROS 2 Humble + rmw_zenoh shared memory 通信,端到端延迟 5 μs(同机进程间)或 1 ms(千兆以太网跨机)。消息格式选了"语言原语 + 6D 草稿位姿"的 JSON 形式——可调试、可日志、可审计。

{
  "instruction_zh": "摘取左侧第二串成熟枸杞",
  "target_bbox_2d": [847, 412, 923, 488],
  "target_pose_6d_hint": [0.42, -0.18, 0.95, 1.57, 0.0, 3.14],
  "primitive": "approach | grasp | twist_pluck | retract",
  "ripeness_class": "mature",
  "ripeness_confidence": 0.85,
  "max_force_n": 0.5,
  "shake_freq_hz": 25,
  "shake_amp_mm": 8,
  "stamp_ns": 1735689600000000000,
  "ttl_ms": 500
}

为什么不用 protobuf?JSON 慢、大、但人能读。在我们这个量级(1-2 Hz 消息),可调试性 ≫ 性能。等 Y2 商用扩到 100+ 机器人时再切 protobuf 不晚。

primitive 字段的妙处:把"摘"原子化成 4 个动作 (approach / grasp / twist_pluck / retract),每个原子动作绑定一个小脑专用策略 (4 个 Diffusion Policy heads,共享 backbone)。跨水果换作物时,primitive 序列变化(草莓 approach→grasp→cut_peduncle→retract · v2.0 base;番茄 approach→grasp→twist→retract · v3.0 LoRA;枸杞 approach→shake→catch→retract · v3.1 LoRA),但中层接口稳定。

JSON Schema · 大脑—小脑契约

VLM 输出长 JSON 实测仍有 2-8 % 格式错误率(社区报告,长度敏感)。我们把整套消息锁死成 JSON Schema Draft-07,用 XGrammar 在解码端强制结构合法——零额外 token 延迟,FSM 压缩,Orin 上 vLLM 默认后端验证可用[30]

{
  "$schema": "https://json-schema.org/draft-07/schema#",
  "type": "object",
  "required": ["primitive", "target_bbox_2d", "ripeness_class", "stamp_ns", "ttl_ms"],
  "properties": {
    "primitive": { "enum": ["approach","grasp","twist_pluck","shake","catch","retract"] },
    "ripeness_class": { "enum": ["green","pink","mature","overripe"] },
    "target_bbox_2d": { "type": "array", "items": {"type":"integer"}, "minItems": 4, "maxItems": 4 },
    "ripeness_confidence": { "type": "number", "minimum": 0, "maximum": 1 },
    "max_force_n": { "type": "number", "minimum": 0.1, "maximum": 10 },
    "ttl_ms": { "type": "integer", "minimum": 100, "maximum": 2000 }
  }
}
双层精化 + 三级容错

VLM 输出 6D 位姿作为草稿(基于 Qwen2.5-VL RefCOCO 82.1% IoU@0.5 + D405 深度精度 ±1-2 cm,EE 位置误差 ±15-30 mm,工业果实抓取容差 ±10-15 mm)。小脑在 30-50 Hz 闭环用 cuRobo / IK 解析 + 末端力反馈 + 视觉伺服精化至 mm 级。三级容错:L1 strict JSON 解析失败 → json-repair;L2 缺 pose 字段或置信度 < 0.7 → 回退 bbox + 深度 + 抓取规划兜底;L3 灾难故障安全停机。本架构借鉴 GR00T N1.5 / Helix 的 dual-system 范式——VLM 出草稿语义 + 几何 hint,小脑收敛到执行精度。实现差异:GR00T / Helix 是 shared latent + joint-trained end-to-end;我们用 off-the-shelf Qwen2.5-VL + JSON discrete-token bridge + 独立训练 Diffusion Policy,工程上更模块化,但放弃了 joint-train 的潜在收益。

三级容错管道

  • L1 解析strict JSON.parse 失败 → json-repair(修补尾逗号 / 未闭合括号)→ 正则抽字段兜底。
  • L2 校验:缺 target_pose_6d_hint 时退化到 bbox + depth;缺 primitive 时复用上一帧 chunk。
  • L3 看门狗ttl_ms 过期或 3 次连续失败 → 小脑切到 hold / retreat 安全 primitive;同时检查 stamp_ns 单调性防止旧 chunk 复用抓空。
III
chapter iii

数据 · 训练

公开论文里 Diffusion Policy 真实任务跨度 90-284 demo,不是营销材料里的 50。LeRobot v0.5.1 是工程级框架——成熟模块加上务实的 patch 计划即可上生产。

08数据需求曲线

每个数字都可以 trace 到论文的具体 Table 或 Figure。

论文 / 任务demo 数成功率环境引用
DP Push-T (real)13695 %tabletopChi 2023 T3
DP Pour 6DoF9079 % IoUreal-robotChi 2023 §7
DP Mug Flip250~90 %tabletopChi 2023 §7
DP Shirt Folding284deformableChi 2023 §7.5
iDP3 Pick / Pour / Wipe10 × 39–10 / 10indoorZe 2024 §IV-D
Robofruit strawberry83 % pluckpolytunnelParsa 2024 JFR
WSU strawberry + fan58 → 74 % (+15)outdoorCEA 2025 110684
Cherry tomato Rong57.7 %greenhouseRong 2024 JFR
Grape dual-arm96.7 %vineyardFrontiers 2022
π0.5 LIBERO Long-105092.4 %sim blockopenpi README
OpenVLA-OFT LIBERO5094.5 %sim blockOFT §V Tbl I
我们的预算

草莓 v2.0 主基线 150-300 demo(一次性投入,含 v1.0 已有 300 次实验数据为候选样本上限,2 工程师周 reformat 得 ~30-60 条 LeRobotDataset v3.0 prod-ready episodes + §16 W1-4 实验室仿垄新采 100 + W13-16 Pilot 100-200 demo 补集;W1-4 VERIFY 必须交付 ≥30 条可训练、可回放、schema-valid 的 LeRobot episodes)。v3.0 番茄 LoRA → v3.1 枸杞 LoRA → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡 / 茶(各 100-200 demo / 作物,rank 32 微调,单卡 4090 跑 4-6 小时;按 Helios 仿真就绪度 + 学术权重生态 + 季节窗口排序)。成本两层口径:(a) 自训现金外采成本 ~¥420-680k(数据采集 + 标注 + GPU + reformat,不含工资)vs 商业部署 ~¥2.5-3.5M,节省 65-80%;(b) 6 个月 v2.0 项目 burn = 2 FTE 工程师 × 24 周 + 现场试点 + 硬件返工 + 认证缓冲,另算。ROI 拐点:第 2 作物(番茄 LoRA 完成)现金成本回本,全项目 burn 含 v2.0 草莓 Pilot 客户付费后回本(详 §17 GTM)。

09LeRobot v0.5.1

HuggingFace LeRobot 是 2026 年 4 月发布的 v0.5.1,commit 1396b9fab7。我们对每个 policy 模块、PEFT 集成、RTC 集成都做了源码审计。下面是可以直接用 vs 需要 patch的清单。

状态模块路径 / 说明
✓ 已成熟ACT + DPsrc/lerobot/policies/{act,diffusion}/
✓ 已成熟LeRobotDataset v3.0新分片格式 · 转换器 convert_v21_to_v30
✓ 已成熟PEFT 集成pretrained.py:wrap_with_peft + peft 0.18.1
✓ 已成熟RTC 集成policies/rtc/modeling_rtc.py · π0 / π0.5 / π0F / SmolVLA
✓ 已成熟SO-100 / 101lerobot-calibrate · Feetech 真支持
✓ 已成熟Async gRPCpolicy_server.py · 真生产架构
⚠ 需 patchONNX / TRT 导出0 个 policy 有 export path · 要自写
⚠ 需 patchπ0.5 inference bugsopen issues #3439 · #3591 · #3425 · 待修
⚠ 需 patchDP-async crash#3445 stack expects non-empty TensorList
⚠ 需 patch校准越界#3585 / #3587 写超 min/max 无警告
⚠ 需 patchiDP3 不在仓库需自己 fork 集成
⚠ 需 patch无 wall-clock benchmarkbenchmarks/ 目录无数据 · 要自测

典型的训练命令(从 SO-101 收数据 → 训 Diffusion Policy → 跨水果 LoRA 微调):

# 1. 安装 v0.5.1
$ pip install lerobot[smolvla,pi0]==0.5.1

# 2. 用 SO-101 收 200 demo · 草莓 v2.0 base(含 v1.0 reformat ~60 + 新采)
$ lerobot-record \
    --robot.type=so101_follower \
    --teleop.type=so101_leader \
    --dataset.repo_id=$USER/strawberry_pick_v2 \
    --dataset.num_episodes=200 \
    --dataset.fps=30

# 3. 训 Diffusion Policy CNN U-Net · 草莓 base
$ lerobot-train \
    --dataset.repo_id=$USER/strawberry_pick_v2 \
    --policy.type=diffusion \
    --policy.horizon=16 --policy.n_action_steps=8 \
    --batch_size=64 --steps=200000

# 4. v3.0 番茄 LoRA 微调 (优先级 1: Helios 原生 + 全年设施 + 学术权重多)
$ lerobot-train \
    --policy.path=$USER/dp_strawberry \
    --peft.method_type=LORA --peft.r=32 \
    --dataset.repo_id=[$USER/tomato,$USER/strawberry] \
    --dataset.weights=[0.8,0.2] \
    --steps=20000

# 5. 导出 ONNX 给生产用(自写脚本 · 因为官方没有)
$ python scripts/custom_export_onnx.py \
    --checkpoint=$USER/dp_strawberry_tomato_lora \
    --output=models/strawberry_v2.onnx --opset=17

10跨作物迁移

跨作物迁移的关键是分清哪些层共享,哪些层 per-crop。我们的设计:

shared trunk · frozen Diffusion Policy CNN U-Net base + ResNet18 vision 0% Δparams 草莓 strawberry · v2.0 base base · frozen trunk 100% Δ on this branch data 150–300 demo · v1.0 reformat + 新采 end-effector v1.0 唇齿软爪 (16 kPa) 番茄 tomato · v3.0 LoRA (优先级 1) LoRA r=32 +0.6% Δ · 80 MB data 100–200 demo LoRA end-effector 气动软爪 + 扭转 枸杞 goji · v3.1 LoRA (优先级 2 · 全国 100+ 亿) LoRA r=32 +0.6% Δ · 80 MB data 100–200 demo LoRA end-effector AI 振摇 + 气吸软接 Helios 仿真原生支持 Strawberry + Cherry Tomato · 枸杞 / 冬枣 / 柑橘需 4-8 工程师周自写 PhytomerCreationFunction
Figure 3跨作物 LoRA 适配器架构 · 共享骨干 + 每作物分支

为什么 LoRA r=32 而不是 r=8 或 r=64?r=8 的表达力不够拟合一个新作物的动作分布(实验上成功率掉 10-15%),r=64 的参数增多但收益边际递减。32 是 OpenVLA paper 和 LeRobot 默认推荐值——我们没改。

为什么 v2.0 主基线选草莓?(1) v1.0 已实证——团队 2025 物理样机在实验室仿垄环境实测 91.3% 综合成功率 / 6.3% 破损率 / 15.1 s 单果周期(300 次重复试验),是公开范围内已有的最强工程基线 anchor,v2.0 直接继承软爪 + 移动平台 + 仿垄环境硬件资产[52]。(2) 客户 narrative 强——中国草莓产量 368.2 万吨(2021),2007 年起全球第一,单机 ROI 与销售路径明确。(3) 力学数据齐全——σ_y 0.0045 MPa / E 0.356 MPa / μ 0.76 / 软爪 16 kPa 工作点全套自测,可作为 DP small-brain 训练时的边界约束参考(具体 force-bound 加入 loss 的方式 W5-8 实验确定)。跨作物按优先级展开:v3.0 番茄(Helios 原生 + 学术权重多)→ v3.1 枸杞(全国 100+ 亿综合产值)→ v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡(云南 niche)/ 茶(需新末端硬件:剪+吸 / 微镊,独立工程预算 2-3 月),不是 v2.0 day-1 焦点;详 §11 战略论证 + §16 W21+ 路线图。

IV
chapter iv

作物 · 仿真

Helios v1.3.72 共 24 个原生物种,7 战略作物覆盖率分三档:Strawberry + Cherry Tomato 直接原生(2/7 · v2.0 base + v3.0 LoRA 即用);桃 ← Almond · 梨 ← Apple 同属可借用(2/7,约 2 工程师周 / 种);柑橘 · 枸杞 · 冬枣 完全自写 PhytomerCreationFunction(3/7,4-8 工程师周 / 种)。Isaac Lab 农业资产为零,整套场景从 Helios USD 导出。

11主作物 roadmap · v2.0 草莓 base → v3.0 番茄 → v3.1 枸杞 → v3.2+ 扩展

v2.0 base = 草莓(v1.0 物理样机继承 + AI 软件栈升级)。跨作物按迁移成本优先级排序:v3.0 番茄(Helios 原生 + 全年设施 + 学术权重多,迁移最简)→ v3.1 枸杞(全国 100+ 亿综合产值 / 宁夏 340 亿 + AI under-served 最强但 Helios 自写 + 季节短)→ v3.2+ 冬枣 / 桃 / 梨 / 柑橘(学术多但权重缺)→ v3.3+ 咖啡 / 茶(出海 + 名优茶需新末端硬件,独立工程预算)。复用 80% 代码 + 20% 替换末端 + 小脑 LoRA + 数据集。

维度草莓 · v2.0 base ★番茄 · v3.0 LoRA枸杞 · v3.1 LoRA
优先级理由v1.0 91.3% 已实证 + 客户 narrative 强 + 力学数据齐全Helios 原生 ✓ + 全年设施 + 权重生态成熟(迁移成本最低)全国 100+ 亿综合产值 / 宁夏 340 亿 ★ + AI under-served 24-27/30 但 Helios 自写 + 季节短
作业季节全年 · 实验室仿垄 → 温室 / 露天全年 · 设施6-11 月 · 50 天/年
种植方式垄作 ▲(v1.0 已验证)棚架吊蔓大田丛栽
仿真原生支持Helios Strawberry ✓Helios cherry tomato ✓需自写 PhytomerFn (4-8 周 · ¥40-80k)
主路线v1.0 唇齿软爪 + VLM + DP视觉柔爪 + 扭转AI 振摇 + 气吸软接
小脑 demo150-300 (base · v1.0 reformat ~60 + 新采)100-200 (LoRA)100-200 (LoRA)
末端硬件v1.0 4 指气动软爪(16 kPa · 已验证)气动软爪 + 扭转头多层硅胶气吸
v1.0 基础线 / SOTAv1.0 91.3% / 6.3% / 15.1s 实测Rong 2024 57.7%Xu 2015 振动 93.5% (整丛)
竞争对手Robofruit (83% 商温) / Tortuga (M&A 退出) / DexFruit (Stanford)乔戈里 (出口) + 遨博零商业对手 (学术原型) · 100+ 亿综合产值 AI under-served

* Helios v1.3.72 共 24 个原生物种(2026-05 验证,commit 锁定)。7 战略作物覆盖率:Strawberry + Cherry Tomato 直接原生 ✓(v2.0 + v3.0 即用);桃 ← Almond · 梨 ← Apple 同属借用 ⚠(~2 工程师周 / 种);柑橘 · 枸杞 · 冬枣 完全自写 ✗(4-8 工程师周 / 种)。Helios Strawberry asset 功能稍薄(仅 Fruit/Flower/PhytomerCreation 函数,无 PhytomerCallback),v2.0 阶段补 ¥40-80k sim asset 工程预算[52]。完整原生物种清单详见 §12。

自训成本锚点(B3 audit):7 作物 from-scratch 自训总成本 ~¥420-680k(数据采集 + 标注 + GPU + reformat),vs 商业部署 ~¥2.5-3.5M(节省 65-80%);GPU 4090 LoRA r=32 / 作物 ~¥3-5k;ROI 拐点第 2 作物即回本;护城河 = 2 项硬资产(v1.0 物理样机 know-how 含 σ_y + 软爪 spec + 91.3% baseline · 客户场景数据飞轮)+ 5 项配置组合(7-LoRA / 7-PhytomerFn / 中文指令 / Orin 调优 / VLM+DP 双脑工程整合)= 18-24 月 catch-up barrier(工程复刻 6-12 月 + 数据/客户场景 12 月)。

12仿真:能干什么 · 不能干什么

Helios plugins/plantarchitecture/include/Assets.h 物种清单(commit 1.3.72,2026.05 验证):

Helios 原生支持的物种

Almond · Apple · Asparagus · Strawberry ▲ v2.0 base 我们用 · Cherry Tomato ▲ v3.0 LoRA 我们用 · Tomato ▲ v3.0 LoRA 我们用 · Grapevine (4 trellis types) · Walnut · Pistachio · Olive · Bean · Cowpea · Capsicum · Maize · Rice · Wheat · Sorghum · Soybean · Butter Lettuce · Bougainvillea · Redbud · Bindweed · Cheeseweed · Puncturevine

v3.1+ 自写 PhytomerFn 路径:枸杞 Lycium barbarum (优先级 2 · 全国 100+ 亿 / 宁夏 340 亿) → 冬枣 Ziziphus → 柑橘 → 桃 / 梨 (同属借用)

不支持 · 需自写

柑橘 · Wellington 是 RAMI IV 外部几何
枸杞 Lycium barbarum · 4-8 工程师周自写
冬枣 Ziziphus · 同等工作量

Isaac Lab 农业 assets · ZERO
lab_assets/robots/ · 0 个农业机器人
manager_based/ · 0 个 agriculture / orchard / harvesting

"Find the Fruit" (arXiv 2505.16547) 的真相:Isaac Lab 农业相关最高调的论文,测试用的是塑料假果实——not real plants. 96% sim → 87% real-on-fake.[10]

3DGS + Helios 双轨

2024-2026 出现的 3D Gaussian Splatting 把 sim-to-real gap 又拉低一档。我们采用双轨而非二选一——Helios 负责程序化植株几何 + RL 训练,3DGS 负责视觉 sim-to-real 桥接 + 数字孪生 + 时序追踪

方法实证成功率场景引用
RoboSplat(RSS 2025)87.8 %桌面 6 类泛化(姿态/类别/视角/外观/光照/本体)arXiv 2504.13175[20]
SplatSim(CoRL 2024)86.25 %zero-shot sim2real RGB policyarXiv 2409.10161[21]
DexFruit / FruitSplat(Stanford 2025)92 %草莓/番茄/黑莓抓取 + 瘀伤减少 20 %arXiv 2508.07118[22]
GrowSplat(Berkeley CASE 2025)时序数字孪生Sequoia/Quinoa 76 天 55 个时间点arXiv 2505.10923[23]
3DGS 真实边界 · 四条诚实声明

① 几何精度 ~cm 级,不能直接驱动末端闭环——必须与硬件立体 / LiDAR 融合到 mm 级;② 户外强光 + 风扰 + 大尺度果园未公开实证;③ Jetson AGX 只能渲染 / SLAM,训练仍需云端 RTX 4090 / A100;④ 上述 86-92 % 数字限定桌面级 + 单物体 + 室内,不外推到田间。

结论:3DGS 作为数据增广 + 数字孪生外观层进入仿真栈;抓取闭环几何与物理仍以 Helios + 传统传感为准。二者非替代而是分层。

13能力模块图

整套系统按 6 个能力模块组织 — 感知、计算、机械臂、移动平台、末端 + 力反馈、续航 + 自动换电。每个模块给出 SOTA 主选型 + 国产可选 + 国际对照 + 阶段成熟度,主流件 80%+ 可国产替代,供应链对外脱钩可达。下文不出零售价 — 量产档采购口径由 Pilot 期议价框定,白皮书层面只锁住技术选型与阶段升级路径。

01
感知模块

主选型:Intel RealSense D405 + D435 立体 · Depth-Anything-V2 神经深度 · YOLO11s + NanoSAM。国产可选:Orbbec Gemini 335 / 镭神 LS01D / 大族机器视觉(接口与 D435 等效)。成熟度:MVP 起 · Pilot 起加 NBV 第三视角。团队前期:v1.0 视觉栈使用 HALCON 离线相机标定 + Canny 边缘 + 亚像素曲率(团队 2025 已验证),v2.0 替换为 VLM-guided 神经感知栈 (YOLO11s + DINOv3 + Depth-Anything-V2 + NanoSAM + Qwen-VL 6-stage pipeline),HALCON 退化为离线 dataset 标注辅助保留[52]License 说明:YOLO11s / YOLOv8 等 Ultralytics 系采用 AGPL-3.0,商业部署需购买 Ultralytics Enterprise license 或保留 copyleft;备选 RT-DETR (Apache 2.0) / NanoSAM (Apache 2.0) / Depth-Anything-V2 (Apache 2.0) 均无此限制,v0/Pilot 期评估是否切换。

02
计算模块

主选型:NVIDIA Jetson AGX Orin 64GB(单脑)→ AGX + RK3588 双脑(量产)。国产可选:算能 BM1684X / 寒武纪 MLU220 / 瑞芯微 RK3588 / 地平线 J6。对照:x86 + RTX 4070 工控机。成熟度:MVP 单脑 → Scale 双脑解耦(续航 ×3)。

03
机械臂模块

主选型阶梯:Dobot CR3(MVP 验证)→ Aubo i5 / Doosan M0617(Pilot)→ JAKA Zu 7 × 4(Scale)。国产可选:Aubo / 节卡 JAKA / 越疆 Dobot / 法奥 FAIR — 该模块 100% 国产可选,官方 ROS 2 + MoveIt2 dual_arms 兼容。对照:UR5e / Franka FR3。团队 v1.0 历史:v1.0 物理样机用双侧 Y-Z 直线笛卡尔臂(行程 135 mm / 重复精度 ±1.5 mm),v2.0 升级 6-DOF 串联以获更大灵巧度[52]

04
移动平台模块

主选型:AgileX Scout Mini 底盘 + Livox MID-360(3D LiDAR · 跑 FAST-LIO2 SLAM 主路)+ RealSense D435 视觉冗余(ORB-SLAM3 兜底)+ 9 轴 IMU + RTK 北斗 B1I/B2a 双频 + GPS L1/L5 双频(±2 cm 开阔 / ±10 cm 弱遮挡)。软件栈:ROS 2 Humble + Nav2(A* 全局 + DWA/TEB 局部)+ robot_localization EKF + nmea_navsat_driver,详见 §03.5 工程骨架国产可选:宇树 Unitree / 阿尔法 Alpha / 拖挂自研底盘(按温室宽度定制);北斗模块千寻 / 司南导航。对照:Clearpath Husky。成熟度:Pilot 起配 · MVP 阶段固定工位免移动。团队 v1.0 历史:v1.0 龙门跨垄移动平台尺寸 350 × 1000 × 500 mm,离地间隙 600 mm,已验证硬件 v2.0 沿用[52]

05
末端 + 力反馈

主选型:自研 4 指对称气动柔性硅胶软爪(食品级硅胶 + 增强纱网 + FDM 3D 打印模具,单指 60 mm 楔形,仿形曲率 R₁ = 10 mm / R₂ = 21 mm 双指,7 气腔室,16 kPa 闭环气压控制,单根输出力 0.263-0.334 N)+ 六轴 F/T 传感器 + IMU。国产可选:奥诺科技六维力 / 元生创新 ATI 替代 / 鑫精诚指尖传感。对照:ATI Mini40 / Robotiq FT-300。成熟度:团队 v1.0 物理样机已验证(300 次重复试验 / 91.3% 综合成功率 / 6.3% 破损率),v2.0 直接继承;Pilot 集成国产六维力 → Scale 模块化快换[52]

06
续航 + 自动换电

电池主选:48 V / 100 Ah 磷酸铁锂(LFP,IP65,热插拔 < 5 min)×2 组双仓位,连续作业 4-5 h / 组。充电桩:固定式 6.6 kW DC 快充桩(CCS-Combo2 / GB/T 双协议),机器人自归航对桩(精度 ±2 cm 由 RTK + LiDAR 视觉对准协同保证)。BMS:CAN 总线接 ROS 2 节点,SoC / 温度 / 单体电压实时发布到 /battery_state 话题。能量管理:energy-aware mission planner 每 30 s 评估"剩余电量 vs 完成任务 + 归航 + 30% 裕度",不足即触发 Nav2 归航(详 §03.5 ④)。国产可选:宁德时代 / 比亚迪 LFP 电芯 + 沃特玛 BMS / 国轩高科 PACK;充电桩特来电 / 星星充电定制 6.6 kW 版本。对照:扫地机器人 ChargeStation 逻辑(精度等级不同,原理一致)。成熟度:MVP 阶段固定工位免移动 → Pilot 单充电桩 + 单换电仓 → Scale 多桩布点 + 备用电池架共享池。

13.3 自助 BOM 估算器

读完上方能力模块图,如果你想亲手拨一拨"这套机器跑起来到底多少钱"——下方配置器允许你按类别选机型、调定价倍率、看实时毛利结构。数据源于 2026-05 京东 / 淘宝 / 厂商官网 / 海外经销实价(详见 audit-2026-05/_phase2_5/bom-real-prices.md,38 条挂牌价多源交叉)。OEM 价按 100 台/年量产折扣 30-35% 推算。

一键预设

计算单元A

机械臂 1 B · ×N

深度摄像头 2 C · ×N

激光雷达 + RTK GPSD

移动平台E

末端 + 力反馈 1 F · ×N

电源 / BMS(可选)G

勾选后并入 BOM。MVP 工位通电场景可不勾;Pilot / Scale 自带电源场景需勾入。

BOM 合计(零售) ¥— K 区间
BOM 合计(OEM 100 台/年) ¥— K 量产折扣 30-35%
国产化率 —% — 件国产 / — 件总数

两条滑条双向耦合:拖任一条另一条按 m = 1 / (0.80 − margin) 自动跟随。 可选范围 2-5×(对应毛利 30-60%)— 覆盖从中端工业品到农机机器人行业 ASP/BOM 全区间。

目标 ASP(零售口径,按当前倍率): ¥— K
目标 ASP(OEM 100 台/年): ¥— K
单台毛利(OEM 中位口径): ¥— K
公式: ¥BOM × 3.5× = ¥— K,毛利 51.4%
行业 anchor (ASP / BOM): 4AG 蘑菇 RaaS ~3-4× Tortuga 草莓 RaaS 3-4× Advanced.farm 苹果 3.5-4× Tevel 飞行采摘 ~4× 节卡 ASP 对照 ~3.5×
毛利 —%
BOM —%
人工 + 售后 15%
渠道 + 推广 5%
毛利 —%

数据来源:京东 / 淘宝 / 厂商官网 / 海外经销(DJI Store / Intel RealSense Store / Ardusimple / Devonics / Vention / Unchained Robotics)多源交叉,时点 2026-05。OEM 100 台/年口径含 25-35% 量产折扣,与节卡港股 ASP ¥4.71 万、节卡招股书 ¥5.80 万互证。最终以厂商意向报价单为准。海外部署 +12-25% 关税 / +25-40% 经销加价 / +10-20% 现场服务,总价 ×3-5 倍。完整数据见 audit-2026-05/_phase2_5/bom-real-prices.md。

阶段成熟度对照

MVP · 实验室验证(模块 01 + 02 + 03·CR3 + 05·软爪)—— 固定工位,单臂闭环跑通采摘 → 视觉伺服 → 软抓。Pilot · 首批试点(+04 移动平台 +03·Aubo/Doosan 升级 +05·国产六维力)—— 行间穿梭 + 双臂协作 + 力反馈闭环。Scale · 100 台/年量产(02 双脑解耦 + 03·JAKA × 4 + 04 拖挂平台 + 05 模块化快换)—— 续航 ×3、故障隔离、整机国产化率 80%+。三档共享相同软件栈,硬件按 ROI 渐进升级。

采后分级 · Y2 规划

末端不背 NIR — 让光谱模组留在分级线。机械臂末端要的是 < 100 ms 决策延迟 + 抗振动 + 量产成本 < 500 元;而 NIR 单果糖度商用精度依赖 50-500 ms 静态积分 + 单品种 PLS 模型,至今全球无量产末端集成。Y2 起把糖度判断后置到采后线,由 NIR 模组完成 ±0.5 °Brix 的内部品质分级,与机器视觉外观瑕疵 + 称重粒径合并出标准化结果。

层级方案精度 / 速度量级
整线 · 国际标杆TOMRA Inspectra² / Compac MLS10 fruit/s 通道千万级整线
整线 · 国产主力江西绿萌 FRUSCAN 7.0 · 合肥泰禾5-8 fruit/s 通道千万级国产整线
NIR 模组奥谱天成 NY2300 · 迅杰光远 IAS±0.5 °Brix · 5-8 fruit/s万元级 NIR 模组
手持参考Felix F-750 · Atago PAL-HIKARiR² > 0.85千元-万元级手持
芯片级 SWIRHamamatsu C12880MA · ams AS7421≤ 100 ms 静态可达千元级芯片

枸杞特殊说明:鲜枸杞蜡质反光 + 单粒 0.3-1 g 远低于 NIR 采样体积(> 5 g 等效路径),单粒 NIR 信噪比不足。Y2 走 高光谱成像 + 群体采样;等 SWIR 芯片化(trinamiX / ams-OSRAM 1-3 µm)成熟再升级单粒。

为什么写进白皮书

"整体解决方案"叙事必须给出 采→分→冷链完整链路。把 NIR 明确放在分级线(而非末端)是经过 ROI + 技术成熟度双重权衡的结果,避免被技术读者反问"采摘臂为什么不带 NIR"。

V
chapter v

竞品 · 路线

国内 5 家直接对手中 3 家声明仅出自新闻稿,缺少同行评议。SOTA 三件套在我们的 2024-01 至 2026-05 检索范围内尚未同时被任何 peer-reviewed 系统达成——窗口未关。

14中国对手 · 经核实

公司声明证据级别对我们威胁
蓝侠机器人 (深圳)冬枣 8s/果 85% <8% 损伤新华网 + 人民日报 2025大荔试点真 · 单作物 · 公开学术贡献有限
禾芯动力蘑菇 + 植保 + 除草 5 场景36Kr / 中国日报邻接威胁 · 公开口径止于"环境感知 + 农业 AI 模型 + 多机协同" · 不同子市场
乔戈里 (KRTECH)多果种通用平台 · 国内 40w/台2024 出口 2000 万美金出海样本 · 不重叠技术对手
集萃智造7-DOF + CoPickVLM 90%查无实据 · 主业非农业公开定位为生态供方 · 非直接对手
伟景智能3D 相机累计 1500 出货人形采摘仍 demo 阶段平台型 · 非直接对手
遨博智能 / 岚江科技关节臂 · 喷洒 / 除草 / 运输行业可查供应商 / 邻接 · 非采摘对手
南京农大 汪小旵草莓 66→84% / 20s 演示南农新闻办 + 新华社 2026-03产业演示 benchmark · 软爪方向公开材料有限(团队设施农业 / 智能农装方向有显著学术积累)
华南农大(番茄 / 荔枝末端执行器)YOLOv9/v10-pose · STRAW-YOLO CEA 2024CEA / TASE peer-reviewedTier-1 学术 benchmark
CAS 合肥 + 宁夏大学 Xu 2015振动 93.5% / 2.54% · 整丛非选择性Trans CSAE 2015相关学术背景 · 非同赛道

* 本表分析以截至 2026-05 公开材料 + 媒体访谈为依据;对竞品技术栈的判断以其公开口径为准,未涉及对未披露内容的推断。中国发明专利申请有自申请日起 18 个月的公开期,本表可能未涵盖该窗口内未公开材料。表中具名学者在其主要研究方向(如汪小旵团队在设施农业 / 智能农装)有显著公开学术贡献。

15SOTA 三件套

跨 12 篇 2024-2026 论文综述后的真实瓶颈——不是夹爪软硬度,是遮挡感知和周期时间

≥ 85% 成功率 在未疏果 · 遮挡条件 2024-26 高: Robofruit 草莓 83% 葡萄双臂 96.7% · 番茄 57.7% ≤ 5% 损伤率 tactile graded 已达: Xu 振动 2.54% 葡萄 3.2% · 草莓软爪 1–4% ≤ 8 s 周期 / 果 selective per-fruit 卡在: NJAU 20s · Rong 24s Ansari 24.34s · 5–10× 人工
Figure 4SOTA 三件套 · 单项已被部分跨越,五条件全满足者尚未出现
单项已被突破 · 五条件耦合窗口未关

我们 2024-01 ~ 2026-05 检索 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg(共筛 ≥ 50 篇候选),在检索范围内未发现同时满足五条件的 peer-reviewed 系统:≥ 85% 成功率 + ≤ 5% tactile-graded 损伤 + ≤ 8 s 单果周期 + 开放果园 + 同行评审。最接近者:Tiantian 3/5(损伤未披露)、Lanxia 4/5(非 peer review)、柑橘 dual-arm 3/5。单项 SOTA 均已被分别跨越,窗口正在收紧。

最接近者成功率损伤率周期差在哪出处
Tiantian 番茄 (3 臂 gantry · Dong et al.)91.0 %未披露4.62 s 等效(单臂 ~9 s)损伤未定量JFR 2026 rob.70168[32]
Lanxia 冬枣(新闻稿)85 %< 8 %8 s损伤 > 5% · 非 peer reviewPeople Daily 2025
DailyRobotics 草莓(商业试点)未披露~ 4 %4.57 s成功率未披露 · 非 peer reviewAgFunder 2026
柑橘自适应抓取未披露2.6 %成功率与周期未对齐CompAg 2025
Robofruit 草莓(商业温室)83 %损伤与周期未对齐Parsa JFR 2024[13]
葡萄双臂96.7 %3.2 %13.7 s/试周期 > 8 sFrontiers 2022

三个洞察

  • 软爪硬件不再是瓶颈——损伤率已 ≈ 人类。问题在视觉遮挡 + 周期
  • WSU 草莓加风扇移遮挡 58 → 74%(+15.8 pp)—— "物理介入感知"是新思路[19]
  • Rong 番茄 cut-point 88.5% → 抓取成功率 57.7% — 30 pp 流失在抓取/规划,不在感知前端
  • 多臂加速比双口径:Tiantian 三轴 Cartesian gantry 3 臂 1.96×(η ≈ 0.65)/ Lammers & Zhu 双 4-DOF 苹果 28% time reduction(= 1.39× speedup, η ≈ 0.695)/ Zhu et al. arxiv 2505.10028 12 臂 Cartesian gantry simulation 12.7× @ 100 fruits/m² / Lu Agronomy 15:1446 4 臂运动学。6-DOF 4 臂协作目标 2.5-2.8×(stretch, η = 0.62-0.70)/ 保守 1.8-2.4×(紧协作 baseline, η = 0.45-0.60)—— 不是 N 倍线性,BOM × N 时收益边际递减
v1.0 内部基础线 · v2.0 motivation

团队 v1.0 物理样机基础线(垄作草莓采摘机器人,实验室仿垄环境,300 次重复试验):综合成功率 91.3% / 破损率 6.3% / 单果周期 15.1 s(移动 5.9 s + 唇展 4.4 s + 齿抓 0.4 s + 唇闭 4.4 s)——已达成 "≥ 85% 成功率 + ≤ 8 s 三件套" 中的成功率项,破损率距 ≤ 5% 尚有 1.3 pp 差距,周期需要从 15.1 s 提速。v1.0 失败模式自披露:73.1% 破损可追溯到视觉坐标偏差导致唇机构擦伤;密集 / 遮挡冠层的多模态感知适应性受限——这正是 v2.0 引入 VLM 大脑 + Diffusion Policy 小脑(hierarchical VLA 双脑系统)的内部 motivation[52]v2.0 目标:硬件继承 v1.0 末端 / 移动平台 / 仿垄试验环境(已就绪),软件栈整体升级到 hierarchical VLA system (VLM + DP + RTC + LeRobot v0.5.1),目标 ≥ 95% 成功率 / ≤ 5% 破损率 / ≤ 8 s 单果周期(末端机械物理上限决定 ≤ 8 s 为现实目标)。国际 SOTA 库 cross-reference:Ya Xiong 双臂草莓 4.6 s/果(损伤未披露)/ Octinion ~5 s/果(产品宣传)/ Agrobot 24-DOF > 85% 成功率(未公开周期)—— 各 SOTA 系统在单项指标已突破,但完整五条件耦合窗口仍未关闭。

农业 VLA category 创建机会

检索结果:在 arXiv (cs.RO) + HuggingFace + GitHub 2024-2026 检索范围内,没有 agriculture-specific VLA foundation model 公开发布。HarvestFlex (草莓 crop-specific 适配, arXiv 2603.05982)[33] 与 arXiv 2601.11906 (VLM task-planning, 非 end-to-end VLA) 是最近的工作。Jetson Orin 上完整 VLA action loop latency 公开 benchmark 不存在——3B-AWQ VLM 单脑层 NVIDIA 论坛实测 30-225 tok/s(不是端到端动作环数据)。本架构 = 公开范围内最早完整披露 "v1.0 物理样机实证 + v2.0 hierarchical VLA system (VLM + DP) + 跨作物 LoRA + 中文指令" 的农业 vertical 整合尝试(不是宣称定义 category — 空白也可能是市场困难信号;同期 AgriGPT-VL / AgThinker / HarvestFlex 也在做农业 VLA 单点研究,我们的差异是 v1.0 物理样机 anchor + 完整双脑工程整合 + 中文 GTM 三件套同时具备)。我们用 W1-4 latency + W13-16 温室真草莓 ≥85% 成功率作为 "category wedge" 的发布门槛,v0 期 W1-4 实测填补 Jetson Orin 完整双脑 action loop benchmark 公开缺失这个 gap。护城河组成:2 项硬资产(v1.0 物理样机 know-how 含 σ_y + 软爪 spec + 91.3% baseline · 客户场景数据飞轮)+ 5 项配置组合(7-LoRA / 7-PhytomerFn / 中文指令 / Orin 调优 / VLM+DP 工程整合)= 18-24 月 catch-up barrier(B3 audit 估算:工程复刻 6-12 月 + 数据/客户场景 12 月)。

* 五条件定义:(1) ≥ 85% 选择性采摘成功率(开放/温室环境,未受控);(2) ≤ 5% tactile-graded 损伤率(FEA 仿真或人工评级,非外观目测);(3) ≤ 8 s 单果周期(含视觉 → 规划 → 抓取 → 放置完整链路);(4) 开放果园环境(含遮挡 / 风扰 / 光照变化);(5) peer-reviewed 期刊或顶会发表。检索方法:2024-01 至 2026-05 检索 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg,关键词 fruit harvesting / picking robot / selective harvesting / orchard robot,共筛 ≥ 50 篇候选。本声明每 3-6 个月复核。

166 个月技术里程碑

2 工程师 · 6 个月。每个里程碑都有 VERIFY 验收点。

阶段任务VERIFY
W 1-4 引导 买 SO-101 + AGX Orin · LeRobot v0.5.1 pin commit · v1.0 草莓数据 reformat(STM32+HALCON 日志 → LeRobotDataset v3.0,2 工程师周,得 ~60 等效 demo)+ 实验室仿垄环境新采 100 demo(草莓 base) · v1.0 末端 / 移动平台 / 仿垄环境直接继承(硬件 0 改动)[52] Diffusion Policy · 草莓 50% 实验室
W 5-8 基线 训 DP + ACT 对比 (草莓 base 160 demo) · RTC 仅对 π0.5 / SmolVLA 测试 · ONNX 自写 export 路径 · 集成 STRAW-YOLO keypoint (替换 v1.0 HALCON 曲率,预期缓解 v1.0 中视觉坐标偏差导致的擦伤主因,具体破损率缩减量 W13-16 实测确认) · Orin DP 50 Hz caveat:需 TensorRT INT8 + horizon trim 至 16/8 才稳定 50 Hz,否则实际 20-30 Hz(周期会从 ≤8s 推到 ~10s,v0 期实测决定是否换 small-brain CNN-only 蒸馏路径) 选 DP · 草莓 70% 实验室
W 9-12 真臂 v1.0 唇齿软爪 + 6-DOF 升级臂 (Dobot CR3) · ROS 2 + MoveIt2 + Zenoh · DP 桌面真臂集成 · DexFruit (MIT) tactile-conditioned 小脑 fork + v1.0 MPM288DI 气压替换 DenseTact (省 4 工程周) 桌面草莓 10/10 (复刻 v1.0)
W 13-16 数据 实验室仿垄 + 合作温室草莓 100-200 demo 补集(与 W1-4 累计达成 base 150-300 上限)· RoboSplat 单 demo × 5 augmentation · 70/30 真合成共训 · 把 σ_y = 0.0045 MPa 力学边界作为 DP 训练时的安全过滤参考(拒绝输出超 force budget 的轨迹) 温室真草莓 ≥ 85%(追平 v1.0)
W 17-20 VLM Qwen2.5-VL-7B-AWQ 接入 · JSON schema + bbox 后处理 · 中文指令端到端 "摘红色成熟草莓" · XGrammar FSM 解码 中文指令打通 · 草莓 ≥ 90%
W 21-24 Pilot TensorRT 自定义导出 · 硬件 E-stop + 力限 · 一行温室草莓 Pilot · v3.0 番茄 SKU 预研(优先级 1:Helios 原生 + 学术权重多;注意番茄 v3.0 不是纯 LoRA 软件升级——需新末端硬件 (扭转头) + 新气压边界 + twist_pluck primitive,独立工程预算 +¥80-150k / 2-3 月)· v3.1 枸杞 LoRA 后续(不阻塞 v2.0 主线) 草莓 v2.0 目标:≥ 95% / ≤ 5% 破损 / ≤ 8 s 周期

CE 认证里程碑(与技术 6 个月并行)

时间动作交付
2026-06NB 询价(TÜV SÜD / SGS 双线)+ EN 标准对账NB 报价单 + 适用 EN 清单
2026-07NB 合同签订项目启动函
2026-10技术文档提交(含 AI safety function 论证 + EN ISO 13849 PLd/PLe)TD pack v1
2027-04样机测试通过Test Report
2027-07CE 拿证EC Declaration of Conformity
2027-08EU 首发首单交付 + Notified Body 证书附本
VI
chapter vi

出海 · GTM 路径

国内开放果园选择性采摘的规模商业化(农场端采购)尚处早期(设施菇 / 草莓室内 0→1 已加速,长三角果林 / 西北枸杞仍空白);欧美劳工缺口 + H-2A 工签 + 头部种植集团 3 季商业试点已积累,短期订单池形成(多以 RaaS / 多年订阅为主)——叠加 CE Machinery Regulation 2027 切换。团队选择海外优先收订单 + 国内长三角 / 卢皋落户同步打样的双轨节奏,与 §20 乔戈里 / 极飞 / 大疆出海路径同源。

17需求侧 · H-2A 缺口曲线

美国农业劳工市场已被 H-2A 工签体系深度依赖,缺口曲线持续陡峭——这是采摘机器人海外订单池的根本来源。

指标数值趋势来源
FY2025 H-2A 认证岗位398,25810 年 +185 %AFBF 2025-03
2030 趋势线预测突破 50 万 (500,000+)近 5 年 CAGR 8.7%DOL ETA OFLC + AFBF + MPI
2025 岗位本土申请率182 / 415,000 ≈ 0.04 %近乎归零Niskanen Center
典型客户决策周期2-3 季试点 → 量产蘑菇 / 温室更快Tevel · Advanced.farm WA

18直接对标 · 欧美 5 家

采摘机器人海外赛道已分化为四种商业模式。学谁、避谁,由商业模式可持续性决定。本表事实截至 2026-05;海外赛道动态(Wavemaker / CNH Industrial / Oishii 等收购链)持续跟踪。

公司作物商业模式定价 / ROI融资结局 / 状态
4AG Robotics (CA) 蘑菇 前置硬件 + 续费 ~100w USD · ROI 18-30 月 C$40M Series B (2025-07, 约 US$29M) 最热 · 学这个
Tevel (IL) 苹果 / 桃 / 橙 飞行集群 + 整机伙伴 不公开 $20M Series B 飞行方案最有量产相
Advanced.farm (US, 2024-Q4 起 CNH Industrial 旗下) 草莓 + 苹果 卖断 + 服务合同 前 roadmap 2027 商业 20 台(CNH 整合后未单独重申) 前融资 $34-35M (Kubota / Yamaha);2024-10 CNH Industrial 全资收购 并入 CNH · 退出通路验证 · 商业化通道最稳
Tortuga AgTech (US) 草莓 纯 RaaS (pay-per-pick) 现金流压力大 ~$49M(PitchBook $49.29M;Crunchbase 含 SAFE+debt 宽口径约 $55M) 2025/3 核心团队与专利被室内草莓公司 Oishii 人才并购(acqui-hire)
Abundant Robotics (US) 苹果 卖断(行业估算 ~$1.5M/台) 实测 ≈ 6 vs 目标 ~10 bins/h ~$12M 累计 (GV / Yamaha / KPCB Edge) 2021/5 停运(wind-down · funding fail)· IP 售 Wavemaker Labs / Future Acres(2021/10, 后续搁置)· Advanced.farm(当时独立)拍卖得原型机独立研发

赛道 M&A 密集本身就是信号:5 家中 3 家在 2021-2025 已发生重大事件 —— Abundant 2021/5 停运 + 资产拍卖、Tortuga 2025/3 被 Oishii 收购、Advanced.farm 2024/10 被 CNH Industrial 全资收购。三起事件都发生在"工程原型成熟但还没规模化营收"的窗口期。这说明采摘机器人赛道的关键里程碑不是 IPO,而是"做出 CNH / Kubota / John Deere 愿意 M&A 的工程原型"——退出通路已被 Tortuga / Advanced.farm 两案验证。

* 货币说明:C$ = 加元;表内未前缀 $ 默认 US$。4AG Series B 公告时点 2025-07,月均 C$/US$ ≈ 0.731(Bank of Canada)。

商业模式决策

4AG 前置硬件 + 续费(资本最买单,C$40M Series B 是证据);避 Tortuga 纯 RaaS(押注算量,现金流坑);学 Tevel 整机伙伴(与本地 OEM 配套,避免单打独斗的渠道空缺)。

19认证 · 第一道硬门槛

区域认证关键点影响
欧盟CE Machinery Regulation (EU) 2023/12302027-01-20 application date(无双轨期)· Annex I Part A Items 5-6 + Article 25 §2 强制 Notified Body 第三方认证(非 self-declaration)· 周期典型 9-15 月含 1-2 轮返工 / AI safety 复杂场景 18+ 月 · 费用 NB €80-200K + 全包 €150-480K · 12+ 项 EN 标准(ISO 18497-1/2/3/4 + ISO 10218 + ISO/TS 15066 + ISO 13849 PLd/PLe + ISO 12100 + EN 60204-1)硬门槛 · 2027 前必须前置 · 江苏 / 卢皋补贴对冲 30-50%
美国ANSI/ASABE + OSHA + EPA无统一强制;UV-C / 化学剂涉 EPA可逐步合规
电池UN38.3锂电运输 + 海运强制OEM 标配
中国出海极飞 70 国 / 大疆 100 + 国农机渠道可复用现成基础设施

20中国样本 · 乔戈里 2000 万美金

乔戈里科技(杭州 KRTECH)2024 年出口 2000 万美金,业务遍布五大洲。卖断为主,覆盖猕猴桃 / 苹果 / 番茄 / 草莓 / 梨多果种——中国采摘机器人出海最实在的样本。路径 = 多果种通用平台 + 渠道分销,不押注单果种深度。

同时极飞 / 大疆的植保无人机已建好海外农机渠道(极飞 70 国、大疆 100 +),丰疆智能插秧机用 20-30 % 低价进入欧美——这些基础设施都可被采摘机器人复用。短板是 (a) CE 认证流程未补齐 (b) 海外售后季节保障团队空白 (c) 单果种深度不及 Tevel WA 3 季试点。

中国农机出海 CE 样本

公司 / 机型认证认证机构时点覆盖
极飞 P/R150 植保无人机CE MachineryTÜV Rheinland2018-202070 国
极智嘉 Geek+ AMRCE MachineryTÜV Rheinland2019全球仓储
高仙商用清洁机器人CE MachineryTÜV / SGS2020-2023欧美主要市场
智采·万果通(本团队)CE Machinery Regulation (2023/1230)TÜV SÜD / SGS(询价中)2027-07 目标中国农业自主移动双脑机器人 (VLM + Policy) EU CE 第一例差异化
活下来的 GTM 公式

海外订单池真实 + 4AG/Tevel 商业模式可学 + CE 认证可前置 + 乔戈里 / 极飞 / 大疆渠道可复用 + 蘑菇 / 温室决策周期短 = "先蘑菇 + 温室出海拿现金流,再果园 + 长周期拿大单" 双阶段路径。

closing

为什么这套架构

六个论点。每个都可在前面章节找到具体依据。

01
全栈开源 · 商用许可

核心栈 Apache 2.0 / MIT / BSD(Qwen 7B-AWQ / LeRobot / DP / ROS 2 / MoveIt2 / Nav2 等);3 项边界 license 见 §13 module 01 footnote(Ultralytics YOLO11/v8 = AGPL-3.0 商用需购 Enterprise / DINOv3 = Meta custom + 强制 attribution / Helios PlantSim 限研发期,不分发到产品)。

02
Diffusion Policy 是首选

唯一同时具备 real-robot 完整栈 · ONNX 可出 · demo 规模匹配。

03
RTC 工程边界清楚

RTC paper ~10 Hz / 本架构 1-2 Hz · ≤ 300 ms 上游延迟可吸收。

04
草莓 v2.0 base · 跨作物按优先级

v1.0 草莓物理样机 91.3% 已实证 · 150-300 demo base (v1.0 reformat + 新采) · v3.0 番茄 → v3.1 枸杞 → v3.2+ 扩展 100-200 demo LoRA。

05
市场空白可验证

国内 5 家直接对手中 3 家无 peer-reviewed 主源 · 第一手数据机会。

06
SOTA 三件套清楚

≥ 85% × ≤ 5% × ≤ 8 s · 我们的工程目标。

引用

  1. Oquab et al. DINOv2: Learning Robust Visual Features without Supervision arXiv 2304.07193 (2023). arxiv.org/abs/2304.07193
  2. Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS 2023. arxiv.org/abs/2303.04137 · code: github.com/real-stanford/diffusion_policy
  3. Kim et al. OpenVLA: An Open-Source Vision-Language-Action Model arXiv 2406.09246 (2024). arxiv.org/abs/2406.09246
  4. Black et al. Real-Time Execution of Action Chunking Flow Policies arXiv 2506.07339 (2025). arxiv.org/abs/2506.07339 · code: github.com/Physical-Intelligence/real-time-chunking-kinetix
  5. HuggingFace LeRobot v0.5.1 (commit 1396b9fab7). github.com/huggingface/lerobot
  6. π0.5 — Physical Intelligence. pi.website/blog/pi05 · openpi: github.com/Physical-Intelligence/openpi
  7. Qwen2.5-VL Technical Report arXiv 2502.13923 (2025) · 本架构选 7B-AWQ (Apache 2.0 商用 license), 不选 3B 系列 (Qwen-Research license 非商用) · 3B AWQ Jetson benchmark: NVIDIA Developer Forum thread 345073 (3B = 30 tok/s on AGX Orin); 7B Jetson benchmark 公开缺失, v0 期 W1-4 实测补.
  8. NVIDIA NanoSAM. github.com/NVIDIA-AI-IOT/nanosam
  9. PlantSimulationLab Helios v1.3.72. github.com/PlantSimulationLab/Helios · plugins/plantarchitecture/include/Assets.h
  10. Subedi et al. Find the Fruit: Sim-to-Real Manipulation in Deformable Plant Foliage arXiv 2505.16547 (2025).
  11. Chi et al. real-world DP demo counts: Push-T 136, Pour 90, Mug Flip 250, Shirt 284 (Table 3 + §7).
  12. Ze et al. iDP3 arXiv 2410.10803 (2024) · 15 Hz claim contested by issue #26.
  13. Parsa et al. Robofruit: Automated Strawberry Harvesting Robot J. Field Robotics 2024. DOI 10.1002/rob.22229
  14. Rong et al. A Selective Harvesting Robot for Cherry Tomatoes J. Field Robotics 2024. DOI 10.1002/rob.22377
  15. Xu, He et al. Simulation Analysis and Prototype Test of Vibration Mechanism for Lycium barbarum Picking Trans. CSAE 31(10), 2015.
  16. NJAU sea-anemone gripper announcement. Xinhua 2026-03-30. english.news.cn (84%/20s 已验证;25%→<2% 数据无主源)
  17. Lanxia winter jujube pilot. People's Daily Online 2025-07-17. en.people.cn (新闻稿,无 peer-reviewed paper)
  18. Zheng et al. Multiscale computation study on bruise susceptibility of blueberries from mechanical impact Postharvest Biol. Technol. 209 (2024). sciencedirect.com/S0925521423004210 (FEA 离线损伤判据 · PEEQ ≥ 0.1 · E=0.339 MPa · σ_y=0.063 MPa)
  19. He et al. Hidden strawberries: AI vision + silicone fingers + fan to address occlusion Computers and Electronics in Agriculture 2025, article 110684. sciencedirect.com/S0168169925007902 (WSU · 58 → 74% +15.8 pp)
  20. Yang et al. RoboSplat: Generalizable one-shot manipulation via 3DGS augmentation RSS 2025. arxiv.org/abs/2504.13175 · github.com/OpenRobotLab/RoboSplat
  21. Qureshi et al. SplatSim: Zero-shot sim-to-real RGB policy with Gaussian Splatting CoRL 2024. arxiv.org/abs/2409.10161
  22. Stanford ARMLab. DexFruit / FruitSplat: dexterous fragile fruit handling with 3DGS arXiv 2508.07118 (2025). arxiv.org/abs/2508.07118
  23. Berkeley AUTOLab. GrowSplat: 4D digital twins of growing plants CASE 2025. arxiv.org/abs/2505.10923
  24. Gunderman et al. Tendon-driven soft robotic gripper for blackberry harvesting IEEE RA-L 2022. ieeexplore.ieee.org/9684953 (黑莓软爪 0.5 N 工作点 — "0.5N" 真正出处)
  25. Yu et al. Visual bruise assessment and analysis of mechanical impact measurement in southern highbush blueberries ASABE Paper 44284 (2014). researchgate.net/293349787 (BIRD 法 · 120 cm 跌落 / Scintilla 76% 瘀伤)
  26. [已删除] 此处原引用 DuoCore-FS arXiv 2512.20188 在 arXiv / Google Scholar / OpenReview 检索 0 命中,疑似幻觉来源,2026-05 audit 中移除。1-3 Hz / 25-30 Hz 频率分工的实证背书改由 [27] Hi Robot / [28] GR00T N1.5 / [29] Helix 三条共同支撑。
  27. Physical Intelligence. Hi Robot: Hierarchical VLA with high-level reasoning arXiv 2502.19417 (2025). arxiv.org/abs/2502.19417 · pi.website/research/hirobot
  28. NVIDIA GEAR. GR00T N1 / N1.5: A foundation model for generalist humanoid robots arXiv 2503.14734 (2025). arxiv.org/abs/2503.14734 · research.nvidia.com/labs/gear/gr00t-n1_5
  29. Figure AI. Helix: A Vision-Language-Action model for generalist humanoid control 2025. figure.ai/news/helix (7-9 Hz VLM + 200 Hz visuomotor)
  30. MLC AI. XGrammar: Flexible and efficient structured generation engine 2024. github.com/mlc-ai/xgrammar · OpenReview rjQfX0YgDl (FSM 压缩 · 零增量延迟)
  31. JAKA Robotics. jaka_ros2 official ROS 2 driver. github.com/JAKARobotics/jaka_ros2 · MoveIt2 dual_arms 兼容
  32. Dong T., Zhang Y., Luo X., Song X., Qin X., Liu Y., Bai Z. Design, Development, and Field Test Analysis of a Multiarm Tomato Harvesting Robot Journal of Field Robotics, first published online 26 January 2026, advance online publication. DOI 10.1002/rob.70168 (NUIST · 3 臂 Cartesian gantry · 91% / 4.62 s 等效 · 加速比 1.96×)
  33. Kim et al. Behavior Cloning in Unstructured Agricultural Environments for Pepper Harvesting arXiv 2411.09929 (2024). arxiv.org/abs/2411.09929 (300 demo / 28.95% in-field · BC + scissor gripper · peduncle 失败模式 · 原描述误标 "diffusion policy",audit 订正)
  34. Black et al. (HarvestFlex). Strawberry VLA with 227 VR teleop demos arXiv 2603.05982 (2026). arxiv.org/abs/2603.05982 (唯一草莓采摘 VLA 公开数据)
  35. Open-X-Embodiment Collaboration. Open X-Embodiment: Robotic learning datasets and RT-X models arXiv 2310.08864 (2023). github.com/google-deepmind/open_x_embodiment (1M+ 轨迹 · pre-training 基座)
  36. Khazatsky et al. DROID: A large-scale in-the-wild robot manipulation dataset arXiv 2403.12945 (2024). droid-dataset.github.io (76K 轨迹 · Franka 同构 pre-train)
  37. 4AG Robotics. Series B C$40M announcement (Astanor / Cibus 领投, 2025-07). 4ag.ai/40m-series-b (蘑菇采摘 · 前置硬件 + 续费模式)
  38. Tevel Aerobotics. Series B $20M for flying fruit harvesting robots (2021-02-09). fruitgrowersnews.com/tevel-20m (Maverick Ventures Israel 领投 · Bosch RBVC + Kubota 跟投 · 2024 Washington / Italy 试点扩张延续 · 整机伙伴模式)
  39. AFBF. H-2A Program Use Continues to Soar — 398,258 H-2A positions projected for FY2025 Market Intel, March 2025 (accessed 2026-05-18). fb.org/market-intel/h-2a-program-use-continues-to-soar (10 年 +185%; 首手源 USDOL OFLC Annual Selected Statistics FY2025)
  40. DOL ETA OFLC. H-2A Performance Data FY2024. dol.gov/agencies/eta/foreign-labor/performance (2024).
  41. Migration Policy Institute. H-2A Agricultural Visa Program: Trends and Outlook. migrationpolicy.org (2023). 注:"突破 50 万 by 2030"为行业外推测算,非 DOL 官方点预测。
  42. EU. Regulation (EU) 2023/1230 on machinery. OJ L 165, 29.6.2023, p.1-102. 关键节点:Annex I Part A Items 5-6、Article 25 §2、Recital 51-55、Article 51-52。eur-lex.europa.eu/eli/reg/2023/1230
  43. CEMA. Transition to Machinery Regulation 2023/1230: Implementation Guide for Agricultural Equipment. Brussels, 2024. cema-agri.org
  44. EU-OSHA. Machinery Regulation 2023/1230 — Worker Safety and AI Safety Functions. Bilbao, 2024. osha.europa.eu
  45. European Commission DG GROW. Machinery Regulation Q&A. Brussels, 2024-2025. single-market-economy.ec.europa.eu
  46. OJ list of harmonized standards under Machinery Regulation 2023/1230(含 EN ISO 18497 · EN ISO 10218 · ISO/TS 15066 · EN ISO 13849 · EN ISO 12100 · EN 60204-1 等)。2024-2025 更新。
  47. The Robot Report. Abundant Robotics is shutting down (2021-05-26). therobotreport.com/abundant-robotics-shutting-down
  48. The Robot Report / dot.LA. Wavemaker Labs acquires Abundant Robotics technology (2021-10-19).
  49. Good Fruit Grower. Advanced.farm apple harvester project · prototype acquired at Abundant auction (2022). 原文措辞 "one of the prototype units"(弱定量)。
  50. CNH Industrial newsroom. CNH to acquire advanced.farm (2024-10-29). + The Robot Report mirror 2024-10-29.
  51. Oishii. Strengthening our automation roadmap (2025-03-11). + AgFunderNews mirror 2025-03-12 "Oishii acquires Tortuga AgTech's robotics IP".
  52. Tortuga AgTech 融资 ledger:Crunchbase crunchbase.com/organization/tortuga-agtech;PitchBook Tortuga AgTech profile (subscription,$49.29M ledger 主源)。
  53. 本团队柔性并联机器人动力学建模与神经网络补偿控制内部研究(2023);内部技术资料(奇异摄动 + RBF 神经网络复合控制 / 混合轨迹 RBF 补偿,方法可迁移至 §13 末端力位混合反馈)。
  54. 本团队垄作草莓采摘机器人 v1.0 物理样机内部研究(2025);内部技术资料(力学数据见 §01 ④;末端 spec 见 §13 module 05;整机基础线 91.3% / 6.3% / 15.1 s 见 §15 SOTA 表后段)。
  55. Meta AI Research. DINOv3: Self-supervised vision transformers, scaled (2025-08). ai.meta.com/dinov3 · github.com/facebookresearch/dinov3 (drop-in upgrade vs DINOv2; NASA JPL / World Resources Institute production users).
  56. Ordinal regression head for 4-class fruit ripeness (天然有序 绿→粉→红→过熟): see Cao & Niu 2020 / Niu 2016 (ordinal logistic CNN), 2024-2025 在农业 ripeness 复用 (better than softmax MLP for ordered labels).
  57. Liu et al. Grounding-DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection arXiv 2303.05499 (2023). arxiv.org/abs/2303.05499 (long-tail fallback: 文本 prompt "ripe X" 自然语言指定新作物类,无需重训分类头).
  58. Fruit-Ripeness-MetaFruit / MaturNet (CDFRB) — 5-crop ripeness detector mAP 62.6%, 2025 closest "multi-crop foundation" attempt. 还不是真 foundation model, 但是 cross-crop baseline 参考.
  59. Cross-VLM agriculture benchmark (arXiv 2512.15977, 2025): Gemini-3 Pro MCQ 62%, all VLMs underperform YOLO11 supervised baseline on 27 AgML datasets / 162 classes — confirms VLM zero-shot ripeness is only viable as assistive cross-check, not standalone.

声明:本白皮书所有绝对化表述(含 §15 五条件评估 · §08 数据需求曲线 · §14 中国对手对比 · §03 Hz 双层选型论证 等)均以截至 2026-05-18 已检索公开材料为依据。2024-01 至 2026-05 检索源含 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg + 公司 newsroom + 行业媒体(fruitgrowersnews / agfundernews / 36Kr / 中国日报 等)。2026 后半年若有新 peer-reviewed paper 或商业落地证据改变论点,将在下一版(v4.3+)更新。

set in
Noto Serif SC (display & body) · JetBrains Mono (code & numerals) · Newsreader (English italic accents)
palette
Terracotta editorial · paper #F4F1E8 · ink #1A1714 · rust accent #B85C2A · sage #5A6B3A
based on
LeRobot v0.5.1 · openpi · Diffusion Policy (Chi 2023) · RTC (Black 2025) · Helios v1.3.72 · Qwen2.5-VL technical report
for
technical due diligence
date
2026 · 05