智采·万果通
Building on team v1.0 strawberry harvester (91.3% / 6.3% / 15.1s · lab furrow-grown, validated 2025) — v2.0 upgrades the software stack to hierarchical VLA system (VLM + Diffusion Policy + Real-Time Chunking, LeRobot v0.5.1).
技术挑战
采摘机器人不是单一难题,而是感知、规划、控制、跨作物迁移四块叠在一起的工程系统。市场背景:中国草莓产量 2021 年 368.2 万吨、2011-2020 CAGR 6.2%,自 2007 年起世界第一——市场体量与机械化采摘空白都已就绪。本章把每块拆开——告诉你它具体卡在哪里、为什么 2024-2026 的论文还没完全解决、我们采取什么策略。
01五大 AI 核心问题
采摘机器人面对的世界比工厂机械臂复杂十倍。果实长在不规则的枝条上,会被叶子遮挡,颜色和背景相近,风一吹位置就变。下面五个问题是 2024 至今所有发表的采摘机器人论文都在回答的——每个问题对应一种独立的技术栈。
① 果实检测与成熟度判断
表面上是个目标检测问题,YOLO 类模型在 COCO 上做了多年。但农业场景有三个非标准条件:成熟度需要 4 分类(绿/粉/红/过熟,单一阈值不够),红色果实在带红反光的绿叶背景下对比度极低(枸杞最典型),同一簇果可能有 70% 被叶子遮挡。 直接用预训练 YOLO 准确率会从 95% 掉到 60% 以下。
我们的策略是分两段:YOLO11s fine-tune 做粗定位(或 Apache-2.0 友好的 RT-DETR 替代见 §13 module 01 footnote),然后 frozen DINOv3 特征 + ordinal regression head(4 类成熟度天然有序 绿→粉→红→过熟,比 softmax MLP 表达更准)做精确成熟度分类。DINOv3 (Meta 2025-08 发布,NASA JPL / WRI 已用 production,drop-in 替换 DINOv2) backbone 永远 frozen,只换分类头——单作物 200-500 张标注图就够(跨形态作物如垄作草莓 vs 蔓状枸杞取上限 500 张)[1][53][54]。Long-tail fallback:作物标注图 < 100 时退到 Grounding-DINO 文本 prompt "ripe X" + Qwen2.5-VL-7B-AWQ cross-check(处理 v3.0+ 咖啡 / 茶 / 桃 / 梨 等长尾扩展场景)[55][56]。VLM 不作 standalone ripeness 判定(2025 cross-VLM benchmark 显示 zero-shot 准确率 < YOLO11 supervised baseline),仅低置信度 cross-check + 长尾兜底[57]。
② 3D 空间定位
视觉知道果在哪里还不够,机械臂需要毫米级的 6D 位姿 (x, y, z, roll, pitch, yaw)。RGB-D 相机(如 RealSense D405)能给立体硬件深度,但在叶子翻动、阴影斑驳、果实表面反光的情况下会出现“幽灵深度”——某些像素的深度估错几厘米,导致机械臂去够空气或撞枝。
解法是融合两路深度:硬件立体(confident 但稀疏)+ Depth Anything V2 单目神经深度(dense 但相对)。两路一致的地方才信,不一致的地方调用 NanoSAM 重新分割再投票。最终位姿误差控制在 ±5 mm。
③ 可达性与路径规划
枝条柔软,会跟机械臂之间发生“双向影响”——你伸过去枝条被撞偏,果就跟着移动。这意味着规划阶段算出来的关节轨迹在执行 100 ms 后可能就过时了。传统做法是用 MoveIt2 + FCL 做静态规划,离接近目标 10 cm 时再切到伺服控制。
我们在 MoveIt2 上加了一层异步流式规划——大脑慢规划(1-2 Hz),小脑接管最后 10 cm(30-50 Hz)。这中间的协调由 Real-Time Chunking 处理,下面 §02 详讲。移动平台层的全局 + 局部规划(A* / Dijkstra · DWA / TEB)同样基于 ROS 2 Nav2 栈,详见 §03.5 工程骨架。
④ 末端柔顺控制
水果损伤的本征参数是应变 + 模量而不是单点法向力。以蓝莓为例:果肉杨氏模量 0.339 MPa、屈服应力 σ_y ≈ 0.063 MPa、瘀伤判据 PEEQ ≥ 0.1(FEA 离线损伤判据,Zheng et al. 2024)[18];按 ø3 mm 硬指端估算接触面 A ≈ 7 mm²,均匀应力近似 F_crit ≈ σ_y × A ≈ 0.44 N(一阶量级估算;Hertz 球-平面接触应力在次表面 z ≈ 0.48a 处先达屈服,含 0.62 因子的完整 von Mises 推导仍回到 ~0.4-0.5 N 量级;A 随接触力变化、E* 不确定,综合精确值有 ±50% 区间),与 Gunderman 2022 黑莓软抓手实测工作点 0.5-0.78 N 同量级[24]。冲击破皮以 BIRD 跌落计算:硬质 120 cm / 软质 60 cm 是分级线(Yu et al. 2014 BIRD 法)[25]。这意味着夹爪不仅要软,抓取动作本身的速度、扭转角度、力的渐变都要被精确控制。传统 PID 控制器无法处理这种多维约束。
团队 v1.0 草莓力学锚点:成熟期红色草莓表层弹性模量 0.356 MPa、生物屈服应力 σ_y = 0.0045 MPa、草莓-硅胶静摩擦系数 μ = 0.76(团队 2025 实测,详 Refs [52])。自研 4 指气动柔性软爪在 16 kPa 工作气压下,末端 10 mm 处对果实表面的应力实测为 1.74-2.18 × 10⁻³ MPa(约屈服阈值 40-50%)——这是 v1.0 在实验室仿垄环境实测 6.3% 破损率的力学边界。物种说明:σ_y 数值与物种强相关(蓝莓 0.063 MPa / 草莓 0.0045 MPa,量级差 14×),蓝莓 / 黑莓数据保留作 cross-reference,工程目标针对草莓数据对齐。
解法是用 Diffusion Policy CNN U-Net 学习人类示教的抓取轨迹。150-300 个遥操作 demo(草莓基线 · v2.0 base,团队 v1.0 已有 300 次实验数据为候选样本上限,2 工程师周 reformat 后预期得 ~30-60 条 LeRobotDataset v3.0 prod-ready episodes + 新采 100-200 episodes)(用 SO-101 leader-follower,单价 $250)就能让策略学会"接近 - 包裹 - 扭转 - 撤回"四个阶段的连续动作。[2]
⑤ 跨作物泛化
每种水果都要重新收 5000 demo,团队会被数据成本拖垮。我们的设计是共享骨干 + 每作物 LoRA 适配器,按迁移成本排序——草莓做 v2.0 主基线(150-300 demo 一次性投入,含 v1.0 已有实验数据 reformat ~60 + 新采 100-200,对齐 §08 数据需求曲线);后续按优先级 v3.0 番茄 LoRA → v3.1 枸杞 LoRA → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡 / 茶(各 100-200 demo + LoRA 微调适配)。番茄优先于枸杞的工程理由:Helios cherry tomato 原生支持(vs 枸杞需自写 PhytomerCreationFunction 4-8 工程师周)、全年设施栽培无季节窗口、学术权重生态成熟(Robofruit / DexFruit fork target / MetaFruit / Apache 2.0 权重多)。详见 §III。[3] 选草莓做 v2.0 base 的理由:团队 v1.0 物理样机已完成 91.3% 综合成功率 / 6.3% 破损率 / 15.1 s 单果周期的实验室仿垄环境验证(详 §15 SOTA 表后 v1.0 baseline 与 §11 主作物战略论证)[52]。
公开论文里 2024-2026 没有任何系统同时达到 ≥ 85% 未疏遮挡成功率 + ≤ 5% 损伤率 + ≤ 8 s 周期三件套。这是我们的工程目标,也是商业窗口的来源。
02我们的架构原则
每条原则都有公开论文或源代码支撑——不是产品宣传,是工程依据。
感知层用 YOLO + SAM + 立体深度(确定性、可解释、低数据需求),规划层用 MoveIt2 + FCL(成熟、可调试),只有最后 10 cm 的抓取动作交给学习。这种分工把整体数据需求从 5000+ demo 降到 150-300 demo(小脑端)+ 规划层兜底数据,工程风险也降一个量级。[2]
2024-2026 公开仓库里,Diffusion Policy CNN U-Net 是唯一同时具备完整 real-robot 代码栈(RTDE 驱动 + RealSense + SpaceMouse 遥操作)、ONNX 可导出、150-300 demo 数据规模三件套的策略。Equivariant DP 的等变测试在仓库 issue #9 中被报告失败;iDP3 不在 LeRobot v0.5.1。[2][5]
Real-Time Chunking(Black 2025)通过 ΠGDM pseudoinverse guidance 让 flow / diffusion policy 在 +200 ms 上游延迟下保持平稳。RTC paper 实测 ~10 Hz 推理 + 50 Hz 控制器(A100 + π0/π0.5);本架构 Qwen2.5-VL-7B-AWQ on Jetson Orin 工程外推 1-2 Hz(3B 公开实测 1-2 Hz, 7B 推理量 ~2× 3B, 待 v0 期实测;详见 §05 honest disclosure)。仅适用 diffusion/flow,ACT 不兼容。[4]
草莓做 v2.0 主基线(150-300 demo · v1.0 reformat ~60 + 新采 100-200),v3.0 番茄 → v3.1 枸杞 → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 按迁移成本顺序 LoRA r=32 微调 100-200 demo / 作物。骨干永远冻结,每作物加 80 MB 适配器。番茄优先:Helios cherry tomato 原生 + 全年设施 + 学术权重多;枸杞次之:Helios 自写 4-8 周 + 季节短但全国综合产值 100+ 亿元(2022)/ 宁夏单省 340 亿(2024 预期)高价值。[6]
架构
双脑分层是这套系统的骨架——大脑慢思考(1-2 Hz),小脑闭环控制(30-50 Hz),Real-Time Chunking 把两个时间尺度粘起来。本章给出每一层的模型选型、延迟预算、消息协议。
系统总览 — 感知层 + AI 认知层
两层分工:硬件传感器把世界变成数字,AI 模型把数字变成动作。每一项都对应到后面章节的技术细节。
— 感知层 · sensing
Intel RealSense D405 + D435 双相机硬件立体深度,30 Hz · ±5 mm,果实 6D 定位主力。
Depth Anything V2 Small 单目神经深度填补叶遮 / 阴影 / 反光下的"幽灵深度"。两路一致才信,不一致 NanoSAM 重分割投票。
六轴 F/T + IMU 30-50 Hz 闭环。蓝莓应变阈值 PEEQ ≥ 0.1 · 屈服应力 σ_y 0.063 MPa[18],按 ø3 mm 指端 A ≈ 7 mm² 估算 F_crit ≈ 0.4-0.5 N。
Livox + RTK GPS,仅底盘果园行间穿梭用 · 不参与果实感知(1-2 cm 果实在远距离 LiDAR 分辨率不够)。Pilot 档起配。
Jetson AGX Orin 64GB(MVP / Pilot 单脑)→ AGX + RK3588 双脑(Scale 量产,续航 ×3,故障域隔离)。
— ai 认知层 · cognition
YOLO11s fine-tune INT8,果实粗定位 · 12 ms/帧 · 200 张标注。
DINOv3 frozen + ordinal regression head(4 分类天然有序 绿→粉→红→过熟,比 softmax MLP 表达更准),单作物 200-500 张标注图够(跨形态作物取上限)[1][53][54]。
BoT-SORT 多目标跟踪 < 5 ms/帧,处理一簇果 50+ 候选。
Qwen2.5-VL-7B-AWQ(Apache 2.0 商用 license)目标 1-2 Hz 异步(数字为工程外推,W1-4 期实测确认),理解"摘左侧第二串成熟枸杞"等中文指令 + 输出 JSON primitive。3B 公开实测 30-50 tok/s 社区 / ~225 tok/s NVIDIA 调优栈[7];本架构选 7B (推理量 ~2× 3B),社区公开 Jetson benchmark 缺失,工程外推 ~12-20 tok/s 社区 / ~100 tok/s 优化栈,v0 期 W1-4 实测。选 7B 不选 3B 因为 3B 系列 Qwen-Research license 非商用。
Diffusion Policy CNN U-Net + RTC 30-50 Hz 闭环。模仿学习(不是 RL)从 SO-101 leader-follower 收 150-300 demo · 草莓 v2.0 base(v1.0 reformat ~60 + 新采)→ v3.0 番茄 LoRA 100-200 → v3.1 枸杞 LoRA 100-200[2]。
感知层硬件可逐个升级(D405 → 高速 SWIR),AI 层模型可独立迭代(YOLO11 → YOLO12 / DINOv3 已采用 v4.1 起步,v4.2 全栈一致,未来可换 DINOv4)—— 解耦让团队能快速吸收 SOTA 而不动整套架构。下文 §03 起对每一层展开。
本架构在业界定义下属于 "hierarchical VLA system"(与 Hi Robot / NVIDIA GR00T N1.5 / Figure Helix 同构口径——这三家自己也都用 "VLA system / VLA model with dual-system" 标识 hierarchical 设计[27][28][29])。但严格组件层:我们大脑是 Qwen2.5-VL-7B-AWQ VLM(输出 JSON primitive 不是 action),小脑是 Diffusion Policy(输出 action 不是 vision-to-action),通过 JSON discrete-token bridge 拼接,两层独立训练——这与 GR00T / Helix 的 shared-latent joint-trained 实现有差异,也不是 π0 / RT-2 / OpenVLA 那种 end-to-end single-model VLA。v3.0+ future path:一旦 v2.0 草莓数据规模化(>1000 episodes / 1 年多客户部署),团队具备数据基座训练自有 end-to-end 农业 VLA 模型。但务实评估:(a) 训练成本 ~$50-100k+ GPU;(b) 7B end-to-end VLA 在 Jetson Orin 推理不可行(需 H100 server cloud inference);(c) 需要额外 R&D 6-12 月。当前架构选 VLM + DP 双脑是工程现实下的最优解,不是 end-to-end VLA 不诱人。
03双脑分层架构
整套系统由两台计算单元组成。MVP 阶段全跑在 Jetson AGX Orin 64GB 上;量产阶段把小脑移到 RK3588 SBC(功耗减半 + 续航 ×3 + 故障域隔离),通过千兆以太网 + ROS 2 Zenoh 共享内存通信。
为什么大脑要慢?因为 Qwen2.5-VL-7B-AWQ 在 AGX Orin 上单次推理工程外推 ~600-800 ms(3B 公开实测 ~300 ms / 30 tok/s 社区 / 225 tok/s 优化栈,参考 NVIDIA forum thread 345073[7];7B 推理量 ~2× 3B,Jetson 社区公开 benchmark 缺失,v0 期实测补),不可能 30 Hz 跑。但大脑负责的事——读懂"摘左侧第二串成熟枸杞"、判断遮挡是否能绕过、估计采摘是否安全——这些 1-2 Hz 就够了。
为什么小脑要快?50 Hz 控制频率是机械臂闭环响应风扰、湿度变化、果实位置抖动的最低门槛。低于这个频率,外环扰动来不及补偿,会出现"过冲—回拉"的振荡,破坏果皮。
RTC 怎么让两边对得上?下文 §05 详解 chunk-inpainting 桥接。简单说就是:大脑发的动作 chunk(8 步 × 6D 草稿位姿 ∈ ℝ^{8×6},覆盖未来 250 ms)小脑按 30 Hz 逐步执行;中途新观测到达时,大脑下一帧发新 chunk,小脑用 ΠGDM 把新旧 chunk 平滑拼接,不出现关节速度跳变。
此频率分工借鉴通用人形 / manipulation VLA 双系统范式:Hi Robot(arXiv 2502.19417)Physical Intelligence ~1 Hz VLM + ~50 Hz π0[27];NVIDIA GR00T N1.5 1-5 Hz Eagle-2 VLM + 30 / 120 Hz DiT flow policy[28];Figure Helix 7-9 Hz + 200 Hz[29]——均为人形 / 通用 manipulation 场景,采摘领域 peer-reviewed VLA 双层架构暂无背书。本架构选双层基于三条采摘领域独有的工程理由:(a) Qwen2.5-VL-7B-AWQ 在 Jetson Orin 算力天花板,单体 30 Hz 物理不可达;(b) 4 臂多机协同的任务分配 1-2 Hz 重做即满足(Tortuga AgriBot 1 Hz central planner 反证);(c) 果实成熟变化时间尺度 ≥ 数小时,慢脑无需 30 Hz。反例值得参考:HarvestFlex (2026-03) 走单层 30 Hz VLA 直出动作,主动论证反对双层;RT-2 (55B) 纯单体 1-3 Hz 反证"不分层就上不去 30 Hz"。RTC 是 chunk-inpainting 类补丁方案之一,另有 latent passing / bridge buffer / language-as-bridge 三类同源做法。
03.5工程骨架:ROS 2 + 地面导航 + 续航
AI 决策层(§03 双脑)之下需要一个可靠的"地面层"承接命令:机械臂去哪里、移动平台怎么开过去、电池什么时候要回去充。这一层的栈技术早已成熟,不是 differentiator——但栈深度、算法选型、场景切换逻辑是工程能力分水岭。下面三块——ROS 2 中间件 / SLAM + RTK 导航 / 续航管理——一次性讲清楚。
① ROS 2 是什么 · 为什么用
ROS 2 Humble + rmw_zenoh shared memory 是整套机器人的"操作系统"——节点通信、硬件抽象、消息传递、规划框架都跑在 ROS 2 之上。AI 决策层是骨架之上的大脑 + 灵巧手,不是替代 ROS 2 的方案。这两层的关系类似 Android 系统 (ROS 2) + App (VLM + DP):没有底层 OS,每个 App 都要重写驱动 / 调度 / IPC。
为什么是 ROS 2 不是 ROS 1:(i) DDS 真实时通信,端到端延迟 5 μs(同机进程内)/ 1 ms(千兆以太网跨机),ROS 1 的 TCPROS 至少 200 μs;(ii) 原生多机架构(多臂 + 移动平台同总线管理),ROS 1 master 单点故障;(iii) 国内主流机械臂厂商 ROS 2 driver 覆盖完整(JAKA / Dobot / Aubo / Doosan 都有官方支持[42])。为什么不自研中间件:写一个跑得动的中间件需要 2-3 工程师年 + 生态绑死。"生态 > 性能微调" 在这个阶段的取舍下,ROS 2 + Zenoh 是 Pareto 最优。
② SLAM + 自主导航
SLAM 三路融合,不是单一算法兜底——温室 / 露天 / 强光眩光三场景下任何单一 SLAM 都有失效域,单点失败会卡死整机。三路并行输出统一在 robot_localization EKF 投票,给上层一个稳定的全局位姿。
| SLAM 算法 | 角色 | 适用场景 | 失效域 |
|---|---|---|---|
| FAST-LIO2(主) | 3D LiDAR + IMU 紧耦合 | 露天果园 · 农场粗糙地形 · 适配 Livox MID-360(已选型 §13 module 04) | 极端粉尘 · 反光面 (玻璃温室) |
| Cartographer(2D fallback) | 多传感器 2D 栅格图 | 结构化温室 · 大棚行间 | 3D 起伏地形 |
| ORB-SLAM3(视觉冗余) | IMU + 多地图 + 重定位 | CPU-only 紧急模式 / 激光模块故障兜底 | 低纹理 · 强反光 · 单作物垄 |
自主导航 Nav2(不是 ROS 1 时代的 move_base):Behavior Tree navigator + behavior server 统一调度全局规划(A* / Dijkstra · 农田跨垄长路径)和局部规划(DWA · 标准;TEB · 弯道 / 窄通道 / 农具避让),输出 cmd_vel 给底盘驱动。多目标排序、归航、暂停、避障兜底全在 BT 树里描述,**改场景换 BT 文件,不改代码**。
③ 北斗 / GPS / RTK 室外定位
室内依赖 SLAM 已够;但开放果园 / 农田场景需要绝对全局坐标。RTK 北斗 B1I/B2a 双频 + GPS L1/L5 双频 + RTK 差分是国产基线选型,定位精度 ±2 cm(开阔)/ ±10 cm(弱遮挡)。
实现链:北斗模块串口 → nmea_navsat_driver 解析 NMEA-0183 → ROS 2 标准 /fix 话题 → robot_localization EKF 融合 GPS + 9 轴 IMU + 底盘里程计 + SLAM 局部位姿 → 输出 UTM 全局坐标 + 协方差。室内/室外切换:温室入口 entry-zone(GPS 锁定 + LiDAR 同时观测 5 s)触发定位栈交班,避免单一定位栈失效时机器人"瞎"了。
④ 续航 + 自动归航联动
导航栈不只为"开过去"服务——还为"回家充电"服务。Energy-aware mission planner 每 30 s 评估一次:
- 当前电池剩余电量 (BMS SoC);
- 完成当前任务 cluster(剩余果簇 × 单果能耗)所需能量;
- 完成后归航到充电桩所需能量(用 SLAM 持久化地图 + A* 估算路径长度 × 平均移动能耗);
- 叠加 30% 安全裕度;
- 若 (1) < (2) + (3) + 裕度 → 立即触发 Nav2 归航 to 充电桩 RTK 锚点。
详细电池规格 / 自动换电流程 / 充电桩部署见 §13 module 06 续航 + 自动换电。
ROS 2 / SLAM / RTK / 续航在工程师眼里是"标配"——但客户技术 DD 必问"用什么 SLAM / 北斗精度多少 / 怎么自动充电"。白皮书把这层写清楚 = 跳过客户 DD 第一轮反复问答 + 招聘工程师时 "懂行" 信号。差异化不在这一层,但工程深度是护城河的一部分——AI 团队 + ROS 2 工程团队同时具备的公司,在国内不超过 20 家。
04感知栈
感知层 30 Hz 跑在 Jetson AGX Orin 上,端到端延迟 28 ms 一帧。整个流水线分 6 个阶段,每个阶段在论文或工程实测中都验证过 Jetson 上的 FPS。
为什么 SAM2 原版不用?SAM2 在 AGX Orin 上只有 2 FPS,跑不动 30 Hz 主循环。NVIDIA 自己开发的 NanoSAM 把 image encoder 蒸馏到 mobile ViT 量级,AGX 上可达 30 FPS。[8]
为什么 SAM 只对 top-K 候选做?YOLO 每帧检测可能输出 50 个 bbox,但机械臂一次只能摘一个。优先级排序后取最高的 3-5 个候选送 SAM 做精细分割,剩下 45 个直接丢——节约 80% 算力。
Depth Anything V2 用 Small 不用 Base 或 Large?因为我们用立体硬件深度做 ground truth,DA 只负责"补洞"(叶子重叠、阴影区域)。Small 已经够用,Base 多 50% 延迟收益不到 2% 精度。
05Real-Time Chunking
这是整套系统最精巧的部分——把异步推理框成一个图像 inpainting 问题。
RTC 的论文是 Physical Intelligence 团队 2025 年 6 月发的 Real-Time Execution of Action Chunking Flow Policies[4]。它解决的问题是:diffusion / flow policy 一次推理出未来 H=50 步动作,但实际只执行前几步就要重新推理。如果新旧 chunk 拼接的位置不平滑,关节就会抖。
RTC 的核心 trick 是把新 chunk 的去噪过程额外加一项软约束,让前 d 步(已执行)冻结,中间 (H-s) 步软约束向旧 chunk 靠近,最后 s 步自由生成。这样新旧 chunk 在中间过渡段自然衔接。
数学上是 ΠGDM (pseudo-inverse guided diffusion model) 的移植——原本用在图像 inpainting 上,现在用在动作 chunk 的"时间维度 inpainting"上。整个修正函数的核心 15 行代码(JAX 版本):
def pinv_corrected_velocity(self, x_t, obs, y, t, inference_delay): # Predict clean sample x_1 via flow ODE def denoiser(x_t): v_t = self(obs[None], x_t[None], t)[0] return x_t + v_t * (1 - t), v_t x_1, vjp_fun, v_t = jax.vjp(denoiser, x_t, has_aux=True) weights = get_prefix_weights(inference_delay, prefix_attention_horizon, self.action_chunk_size, schedule) error = (y - x_1) * weights[:, None] pinv_correction = vjp_fun(error)[0] inv_r2 = (t**2 + (1 - t)**2) / ((1 - t)**2) c = jnp.nan_to_num((1 - t) / t, posinf=max_guidance_weight) guidance_weight = jnp.minimum(c * inv_r2, max_guidance_weight) return v_t + guidance_weight * pinv_correction
诚实的真实区间:论文 Figure 1 的"300 ms"是单条 rollout(π0.5 match-lighting),不是统计平均。系统性吞吐评估在 6 任务 × 10 episode = 60 ep 上做,注入延迟为 +0 / +100 / +200 ms(基线模型本身仅 76 ms + 10-20 ms 网络)。实测+200 ms 注入延迟下仍稳定,更高延迟未测。RTC 有效工作区间 ~10 Hz 推理 + 50 Hz 控制器;用于本架构 1-2 Hz 大脑 + 30-50 Hz 小脑场景属工程外推,需配合 §03 提到的 latent passing / bridge buffer 同源方案。
① 仅适用 diffusion / flow policy——ACT / OpenVLA-OFT 等确定性 chunk policy 无可注入梯度引导的 denoiser 通路,论文 §6 明文排除;② LeRobot v0.5.1 主线官方实测仅 π0 / π0.5 / SmolVLA,π0-FAST 标称兼容但缺乏验证 (PR #1698);③ predict_action_chunk 禁止与 select_action 或 lerobot-record 混用,HF docs 显式警告;④ 唯一公开第三方复现(Alexander Soare ALOHA, 2025-08)观察到 chunk-边界跳变,需把 σ_d 从 1.0 调到 0.2。
| 属性 | 是 / 不是 | 说明 |
|---|---|---|
| 数学本质 | ΠGDM pseudoinverse guidance | 图像 inpainting 移植到 action chunks |
| 适用策略 | 仅 diffusion / flow | ACT 无 denoiser,论文 §6 明文排除 |
| 延迟容忍 | +200 ms 注入实测 / fig 1 单条 rollout | 60 ep ±1 SEM;更高延迟未测 |
| 工作区间 | ~10 Hz 推理 + 50 Hz 控制器 | 本架构 1-2 Hz 大脑属工程外推 |
| 代码状态 | JAX-only sim repo | PyTorch 端需自写 torch.autograd.grad |
| LeRobot 集成 | v0.5.1 PR #1698 已合并 | 仅 π0 / π0.5 / SmolVLA 测过 |
| 开销 | 每步 VJP 增加 30-50% 计算 | per-step backward-mode autodiff |
06小脑选型矩阵
我们在 6 种主流 policy 之间做了选型,每种都读了论文 + 代码 + recent issues。Diffusion Policy CNN U-Net 是唯一同时满足三条硬指标的选择:(1) 有完整 real-robot 代码栈,(2) ONNX 可导出量化,(3) demo 规模与团队匹配。
| 策略 | 状态 | demo 需求 | 推理延迟 | RK3588 | 结论 |
|---|---|---|---|---|---|
| Diffusion Policy CNN | ▲ 首选 | 150–300 | ~100 ms | 50–150 ms | 唯一可行 · real_world 全栈代码 |
| ACT | 备选 | 100–200 | 10–15 ms | 30–80 ms | RTC 不兼容 · 跳过 |
| iDP3 | 不在 LeRobot | 10 × 3 task | 9 Hz CPU | 不可行 | issue #26 不可复现 · 需 L515 EOL |
| Equivariant DP | DISQUALIFIED | 100 | untested | 不导 ONNX | issue #9 等变测试自己失败 |
| π0.5 + LoRA | Y2 研究 | 200–500 | 76 ms | — | 零户外数据 · LoRA PyTorch 不支持 |
| SmolVLA 450M | Y2 探索 | 50–200 | 30 Hz AGX | — | RTC 已支持 · 需 AGX 才跑得动 |
07通信总线
大脑和小脑通过 ROS 2 Humble + rmw_zenoh shared memory 通信,端到端延迟 5 μs(同机进程间)或 1 ms(千兆以太网跨机)。消息格式选了"语言原语 + 6D 草稿位姿"的 JSON 形式——可调试、可日志、可审计。
{ "instruction_zh": "摘取左侧第二串成熟枸杞", "target_bbox_2d": [847, 412, 923, 488], "target_pose_6d_hint": [0.42, -0.18, 0.95, 1.57, 0.0, 3.14], "primitive": "approach | grasp | twist_pluck | retract", "ripeness_class": "mature", "ripeness_confidence": 0.85, "max_force_n": 0.5, "shake_freq_hz": 25, "shake_amp_mm": 8, "stamp_ns": 1735689600000000000, "ttl_ms": 500 }
为什么不用 protobuf?JSON 慢、大、但人能读。在我们这个量级(1-2 Hz 消息),可调试性 ≫ 性能。等 Y2 商用扩到 100+ 机器人时再切 protobuf 不晚。
primitive 字段的妙处:把"摘"原子化成 4 个动作 (approach / grasp / twist_pluck / retract),每个原子动作绑定一个小脑专用策略 (4 个 Diffusion Policy heads,共享 backbone)。跨水果换作物时,primitive 序列变化(草莓 approach→grasp→cut_peduncle→retract · v2.0 base;番茄 approach→grasp→twist→retract · v3.0 LoRA;枸杞 approach→shake→catch→retract · v3.1 LoRA),但中层接口稳定。
JSON Schema · 大脑—小脑契约
VLM 输出长 JSON 实测仍有 2-8 % 格式错误率(社区报告,长度敏感)。我们把整套消息锁死成 JSON Schema Draft-07,用 XGrammar 在解码端强制结构合法——零额外 token 延迟,FSM 压缩,Orin 上 vLLM 默认后端验证可用[30]。
{ "$schema": "https://json-schema.org/draft-07/schema#", "type": "object", "required": ["primitive", "target_bbox_2d", "ripeness_class", "stamp_ns", "ttl_ms"], "properties": { "primitive": { "enum": ["approach","grasp","twist_pluck","shake","catch","retract"] }, "ripeness_class": { "enum": ["green","pink","mature","overripe"] }, "target_bbox_2d": { "type": "array", "items": {"type":"integer"}, "minItems": 4, "maxItems": 4 }, "ripeness_confidence": { "type": "number", "minimum": 0, "maximum": 1 }, "max_force_n": { "type": "number", "minimum": 0.1, "maximum": 10 }, "ttl_ms": { "type": "integer", "minimum": 100, "maximum": 2000 } } }
VLM 输出 6D 位姿作为草稿(基于 Qwen2.5-VL RefCOCO 82.1% IoU@0.5 + D405 深度精度 ±1-2 cm,EE 位置误差 ±15-30 mm,工业果实抓取容差 ±10-15 mm)。小脑在 30-50 Hz 闭环用 cuRobo / IK 解析 + 末端力反馈 + 视觉伺服精化至 mm 级。三级容错:L1 strict JSON 解析失败 → json-repair;L2 缺 pose 字段或置信度 < 0.7 → 回退 bbox + 深度 + 抓取规划兜底;L3 灾难故障安全停机。本架构借鉴 GR00T N1.5 / Helix 的 dual-system 范式——VLM 出草稿语义 + 几何 hint,小脑收敛到执行精度。实现差异:GR00T / Helix 是 shared latent + joint-trained end-to-end;我们用 off-the-shelf Qwen2.5-VL + JSON discrete-token bridge + 独立训练 Diffusion Policy,工程上更模块化,但放弃了 joint-train 的潜在收益。
三级容错管道
- L1 解析:strict JSON.parse 失败 → json-repair(修补尾逗号 / 未闭合括号)→ 正则抽字段兜底。
- L2 校验:缺 target_pose_6d_hint 时退化到 bbox + depth;缺 primitive 时复用上一帧 chunk。
- L3 看门狗:ttl_ms 过期或 3 次连续失败 → 小脑切到 hold / retreat 安全 primitive;同时检查 stamp_ns 单调性防止旧 chunk 复用抓空。
数据 · 训练
公开论文里 Diffusion Policy 真实任务跨度 90-284 demo,不是营销材料里的 50。LeRobot v0.5.1 是工程级框架——成熟模块加上务实的 patch 计划即可上生产。
08数据需求曲线
每个数字都可以 trace 到论文的具体 Table 或 Figure。
| 论文 / 任务 | demo 数 | 成功率 | 环境 | 引用 |
|---|---|---|---|---|
| DP Push-T (real) | 136 | 95 % | tabletop | Chi 2023 T3 |
| DP Pour 6DoF | 90 | 79 % IoU | real-robot | Chi 2023 §7 |
| DP Mug Flip | 250 | ~90 % | tabletop | Chi 2023 §7 |
| DP Shirt Folding | 284 | — | deformable | Chi 2023 §7.5 |
| iDP3 Pick / Pour / Wipe | 10 × 3 | 9–10 / 10 | indoor | Ze 2024 §IV-D |
| Robofruit strawberry | — | 83 % pluck | polytunnel | Parsa 2024 JFR |
| WSU strawberry + fan | — | 58 → 74 % (+15) | outdoor | CEA 2025 110684 |
| Cherry tomato Rong | — | 57.7 % | greenhouse | Rong 2024 JFR |
| Grape dual-arm | — | 96.7 % | vineyard | Frontiers 2022 |
| π0.5 LIBERO Long-10 | 50 | 92.4 % | sim block | openpi README |
| OpenVLA-OFT LIBERO | 50 | 94.5 % | sim block | OFT §V Tbl I |
草莓 v2.0 主基线 150-300 demo(一次性投入,含 v1.0 已有 300 次实验数据为候选样本上限,2 工程师周 reformat 得 ~30-60 条 LeRobotDataset v3.0 prod-ready episodes + §16 W1-4 实验室仿垄新采 100 + W13-16 Pilot 100-200 demo 补集;W1-4 VERIFY 必须交付 ≥30 条可训练、可回放、schema-valid 的 LeRobot episodes)。v3.0 番茄 LoRA → v3.1 枸杞 LoRA → v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡 / 茶(各 100-200 demo / 作物,rank 32 微调,单卡 4090 跑 4-6 小时;按 Helios 仿真就绪度 + 学术权重生态 + 季节窗口排序)。成本两层口径:(a) 自训现金外采成本 ~¥420-680k(数据采集 + 标注 + GPU + reformat,不含工资)vs 商业部署 ~¥2.5-3.5M,节省 65-80%;(b) 6 个月 v2.0 项目 burn = 2 FTE 工程师 × 24 周 + 现场试点 + 硬件返工 + 认证缓冲,另算。ROI 拐点:第 2 作物(番茄 LoRA 完成)现金成本回本,全项目 burn 含 v2.0 草莓 Pilot 客户付费后回本(详 §17 GTM)。
09LeRobot v0.5.1
HuggingFace LeRobot 是 2026 年 4 月发布的 v0.5.1,commit 1396b9fab7。我们对每个 policy 模块、PEFT 集成、RTC 集成都做了源码审计。下面是可以直接用 vs 需要 patch的清单。
| 状态 | 模块 | 路径 / 说明 |
|---|---|---|
| ✓ 已成熟 | ACT + DP | src/lerobot/policies/{act,diffusion}/ |
| ✓ 已成熟 | LeRobotDataset v3.0 | 新分片格式 · 转换器 convert_v21_to_v30 |
| ✓ 已成熟 | PEFT 集成 | pretrained.py:wrap_with_peft + peft 0.18.1 |
| ✓ 已成熟 | RTC 集成 | policies/rtc/modeling_rtc.py · π0 / π0.5 / π0F / SmolVLA |
| ✓ 已成熟 | SO-100 / 101 | lerobot-calibrate · Feetech 真支持 |
| ✓ 已成熟 | Async gRPC | policy_server.py · 真生产架构 |
| ⚠ 需 patch | ONNX / TRT 导出 | 0 个 policy 有 export path · 要自写 |
| ⚠ 需 patch | π0.5 inference bugs | open issues #3439 · #3591 · #3425 · 待修 |
| ⚠ 需 patch | DP-async crash | #3445 stack expects non-empty TensorList |
| ⚠ 需 patch | 校准越界 | #3585 / #3587 写超 min/max 无警告 |
| ⚠ 需 patch | iDP3 不在仓库 | 需自己 fork 集成 |
| ⚠ 需 patch | 无 wall-clock benchmark | benchmarks/ 目录无数据 · 要自测 |
典型的训练命令(从 SO-101 收数据 → 训 Diffusion Policy → 跨水果 LoRA 微调):
# 1. 安装 v0.5.1 $ pip install lerobot[smolvla,pi0]==0.5.1 # 2. 用 SO-101 收 200 demo · 草莓 v2.0 base(含 v1.0 reformat ~60 + 新采) $ lerobot-record \ --robot.type=so101_follower \ --teleop.type=so101_leader \ --dataset.repo_id=$USER/strawberry_pick_v2 \ --dataset.num_episodes=200 \ --dataset.fps=30 # 3. 训 Diffusion Policy CNN U-Net · 草莓 base $ lerobot-train \ --dataset.repo_id=$USER/strawberry_pick_v2 \ --policy.type=diffusion \ --policy.horizon=16 --policy.n_action_steps=8 \ --batch_size=64 --steps=200000 # 4. v3.0 番茄 LoRA 微调 (优先级 1: Helios 原生 + 全年设施 + 学术权重多) $ lerobot-train \ --policy.path=$USER/dp_strawberry \ --peft.method_type=LORA --peft.r=32 \ --dataset.repo_id=[$USER/tomato,$USER/strawberry] \ --dataset.weights=[0.8,0.2] \ --steps=20000 # 5. 导出 ONNX 给生产用(自写脚本 · 因为官方没有) $ python scripts/custom_export_onnx.py \ --checkpoint=$USER/dp_strawberry_tomato_lora \ --output=models/strawberry_v2.onnx --opset=17
10跨作物迁移
跨作物迁移的关键是分清哪些层共享,哪些层 per-crop。我们的设计:
为什么 LoRA r=32 而不是 r=8 或 r=64?r=8 的表达力不够拟合一个新作物的动作分布(实验上成功率掉 10-15%),r=64 的参数增多但收益边际递减。32 是 OpenVLA paper 和 LeRobot 默认推荐值——我们没改。
为什么 v2.0 主基线选草莓?(1) v1.0 已实证——团队 2025 物理样机在实验室仿垄环境实测 91.3% 综合成功率 / 6.3% 破损率 / 15.1 s 单果周期(300 次重复试验),是公开范围内已有的最强工程基线 anchor,v2.0 直接继承软爪 + 移动平台 + 仿垄环境硬件资产[52]。(2) 客户 narrative 强——中国草莓产量 368.2 万吨(2021),2007 年起全球第一,单机 ROI 与销售路径明确。(3) 力学数据齐全——σ_y 0.0045 MPa / E 0.356 MPa / μ 0.76 / 软爪 16 kPa 工作点全套自测,可作为 DP small-brain 训练时的边界约束参考(具体 force-bound 加入 loss 的方式 W5-8 实验确定)。跨作物按优先级展开:v3.0 番茄(Helios 原生 + 学术权重多)→ v3.1 枸杞(全国 100+ 亿综合产值)→ v3.2+ 冬枣 / 桃 / 梨 / 柑橘 → v3.3+ 咖啡(云南 niche)/ 茶(需新末端硬件:剪+吸 / 微镊,独立工程预算 2-3 月),不是 v2.0 day-1 焦点;详 §11 战略论证 + §16 W21+ 路线图。
作物 · 仿真
Helios v1.3.72 共 24 个原生物种,7 战略作物覆盖率分三档:Strawberry + Cherry Tomato 直接原生(2/7 · v2.0 base + v3.0 LoRA 即用);桃 ← Almond · 梨 ← Apple 同属可借用(2/7,约 2 工程师周 / 种);柑橘 · 枸杞 · 冬枣 完全自写 PhytomerCreationFunction(3/7,4-8 工程师周 / 种)。Isaac Lab 农业资产为零,整套场景从 Helios USD 导出。
11主作物 roadmap · v2.0 草莓 base → v3.0 番茄 → v3.1 枸杞 → v3.2+ 扩展
v2.0 base = 草莓(v1.0 物理样机继承 + AI 软件栈升级)。跨作物按迁移成本优先级排序:v3.0 番茄(Helios 原生 + 全年设施 + 学术权重多,迁移最简)→ v3.1 枸杞(全国 100+ 亿综合产值 / 宁夏 340 亿 + AI under-served 最强但 Helios 自写 + 季节短)→ v3.2+ 冬枣 / 桃 / 梨 / 柑橘(学术多但权重缺)→ v3.3+ 咖啡 / 茶(出海 + 名优茶需新末端硬件,独立工程预算)。复用 80% 代码 + 20% 替换末端 + 小脑 LoRA + 数据集。
| 维度 | 草莓 · v2.0 base ★ | 番茄 · v3.0 LoRA | 枸杞 · v3.1 LoRA |
|---|---|---|---|
| 优先级理由 | v1.0 91.3% 已实证 + 客户 narrative 强 + 力学数据齐全 | Helios 原生 ✓ + 全年设施 + 权重生态成熟(迁移成本最低) | 全国 100+ 亿综合产值 / 宁夏 340 亿 ★ + AI under-served 24-27/30 但 Helios 自写 + 季节短 |
| 作业季节 | 全年 · 实验室仿垄 → 温室 / 露天 | 全年 · 设施 | 6-11 月 · 50 天/年 |
| 种植方式 | 垄作 ▲(v1.0 已验证) | 棚架吊蔓 | 大田丛栽 |
| 仿真原生支持 | Helios Strawberry ✓ | Helios cherry tomato ✓ | 需自写 PhytomerFn (4-8 周 · ¥40-80k) |
| 主路线 | v1.0 唇齿软爪 + VLM + DP | 视觉柔爪 + 扭转 | AI 振摇 + 气吸软接 |
| 小脑 demo | 150-300 (base · v1.0 reformat ~60 + 新采) | 100-200 (LoRA) | 100-200 (LoRA) |
| 末端硬件 | v1.0 4 指气动软爪(16 kPa · 已验证) | 气动软爪 + 扭转头 | 多层硅胶气吸 |
| v1.0 基础线 / SOTA | v1.0 91.3% / 6.3% / 15.1s 实测 | Rong 2024 57.7% | Xu 2015 振动 93.5% (整丛) |
| 竞争对手 | Robofruit (83% 商温) / Tortuga (M&A 退出) / DexFruit (Stanford) | 乔戈里 (出口) + 遨博 | 零商业对手 (学术原型) · 100+ 亿综合产值 AI under-served |
* Helios v1.3.72 共 24 个原生物种(2026-05 验证,commit 锁定)。7 战略作物覆盖率:Strawberry + Cherry Tomato 直接原生 ✓(v2.0 + v3.0 即用);桃 ← Almond · 梨 ← Apple 同属借用 ⚠(~2 工程师周 / 种);柑橘 · 枸杞 · 冬枣 完全自写 ✗(4-8 工程师周 / 种)。Helios Strawberry asset 功能稍薄(仅 Fruit/Flower/PhytomerCreation 函数,无 PhytomerCallback),v2.0 阶段补 ¥40-80k sim asset 工程预算[52]。完整原生物种清单详见 §12。
自训成本锚点(B3 audit):7 作物 from-scratch 自训总成本 ~¥420-680k(数据采集 + 标注 + GPU + reformat),vs 商业部署 ~¥2.5-3.5M(节省 65-80%);GPU 4090 LoRA r=32 / 作物 ~¥3-5k;ROI 拐点第 2 作物即回本;护城河 = 2 项硬资产(v1.0 物理样机 know-how 含 σ_y + 软爪 spec + 91.3% baseline · 客户场景数据飞轮)+ 5 项配置组合(7-LoRA / 7-PhytomerFn / 中文指令 / Orin 调优 / VLM+DP 双脑工程整合)= 18-24 月 catch-up barrier(工程复刻 6-12 月 + 数据/客户场景 12 月)。
12仿真:能干什么 · 不能干什么
Helios plugins/plantarchitecture/include/Assets.h 物种清单(commit 1.3.72,2026.05 验证):
Almond · Apple · Asparagus · Strawberry ▲ v2.0 base 我们用 · Cherry Tomato ▲ v3.0 LoRA 我们用 · Tomato ▲ v3.0 LoRA 我们用 · Grapevine (4 trellis types) · Walnut · Pistachio · Olive · Bean · Cowpea · Capsicum · Maize · Rice · Wheat · Sorghum · Soybean · Butter Lettuce · Bougainvillea · Redbud · Bindweed · Cheeseweed · Puncturevine
v3.1+ 自写 PhytomerFn 路径:枸杞 Lycium barbarum (优先级 2 · 全国 100+ 亿 / 宁夏 340 亿) → 冬枣 Ziziphus → 柑橘 → 桃 / 梨 (同属借用)
柑橘 · Wellington 是 RAMI IV 外部几何
枸杞 Lycium barbarum · 4-8 工程师周自写
冬枣 Ziziphus · 同等工作量
Isaac Lab 农业 assets · ZERO
lab_assets/robots/ · 0 个农业机器人
manager_based/ · 0 个 agriculture / orchard / harvesting
"Find the Fruit" (arXiv 2505.16547) 的真相:Isaac Lab 农业相关最高调的论文,测试用的是塑料假果实——not real plants. 96% sim → 87% real-on-fake.[10]
3DGS + Helios 双轨
2024-2026 出现的 3D Gaussian Splatting 把 sim-to-real gap 又拉低一档。我们采用双轨而非二选一——Helios 负责程序化植株几何 + RL 训练,3DGS 负责视觉 sim-to-real 桥接 + 数字孪生 + 时序追踪。
| 方法 | 实证成功率 | 场景 | 引用 |
|---|---|---|---|
| RoboSplat(RSS 2025) | 87.8 % | 桌面 6 类泛化(姿态/类别/视角/外观/光照/本体) | arXiv 2504.13175[20] |
| SplatSim(CoRL 2024) | 86.25 % | zero-shot sim2real RGB policy | arXiv 2409.10161[21] |
| DexFruit / FruitSplat(Stanford 2025) | 92 % | 草莓/番茄/黑莓抓取 + 瘀伤减少 20 % | arXiv 2508.07118[22] |
| GrowSplat(Berkeley CASE 2025) | 时序数字孪生 | Sequoia/Quinoa 76 天 55 个时间点 | arXiv 2505.10923[23] |
① 几何精度 ~cm 级,不能直接驱动末端闭环——必须与硬件立体 / LiDAR 融合到 mm 级;② 户外强光 + 风扰 + 大尺度果园未公开实证;③ Jetson AGX 只能渲染 / SLAM,训练仍需云端 RTX 4090 / A100;④ 上述 86-92 % 数字限定桌面级 + 单物体 + 室内,不外推到田间。
结论:3DGS 作为数据增广 + 数字孪生外观层进入仿真栈;抓取闭环几何与物理仍以 Helios + 传统传感为准。二者非替代而是分层。
13能力模块图
整套系统按 6 个能力模块组织 — 感知、计算、机械臂、移动平台、末端 + 力反馈、续航 + 自动换电。每个模块给出 SOTA 主选型 + 国产可选 + 国际对照 + 阶段成熟度,主流件 80%+ 可国产替代,供应链对外脱钩可达。下文不出零售价 — 量产档采购口径由 Pilot 期议价框定,白皮书层面只锁住技术选型与阶段升级路径。
主选型:Intel RealSense D405 + D435 立体 · Depth-Anything-V2 神经深度 · YOLO11s + NanoSAM。国产可选:Orbbec Gemini 335 / 镭神 LS01D / 大族机器视觉(接口与 D435 等效)。成熟度:MVP 起 · Pilot 起加 NBV 第三视角。团队前期:v1.0 视觉栈使用 HALCON 离线相机标定 + Canny 边缘 + 亚像素曲率(团队 2025 已验证),v2.0 替换为 VLM-guided 神经感知栈 (YOLO11s + DINOv3 + Depth-Anything-V2 + NanoSAM + Qwen-VL 6-stage pipeline),HALCON 退化为离线 dataset 标注辅助保留[52]。License 说明:YOLO11s / YOLOv8 等 Ultralytics 系采用 AGPL-3.0,商业部署需购买 Ultralytics Enterprise license 或保留 copyleft;备选 RT-DETR (Apache 2.0) / NanoSAM (Apache 2.0) / Depth-Anything-V2 (Apache 2.0) 均无此限制,v0/Pilot 期评估是否切换。
主选型:NVIDIA Jetson AGX Orin 64GB(单脑)→ AGX + RK3588 双脑(量产)。国产可选:算能 BM1684X / 寒武纪 MLU220 / 瑞芯微 RK3588 / 地平线 J6。对照:x86 + RTX 4070 工控机。成熟度:MVP 单脑 → Scale 双脑解耦(续航 ×3)。
主选型阶梯:Dobot CR3(MVP 验证)→ Aubo i5 / Doosan M0617(Pilot)→ JAKA Zu 7 × 4(Scale)。国产可选:Aubo / 节卡 JAKA / 越疆 Dobot / 法奥 FAIR — 该模块 100% 国产可选,官方 ROS 2 + MoveIt2 dual_arms 兼容。对照:UR5e / Franka FR3。团队 v1.0 历史:v1.0 物理样机用双侧 Y-Z 直线笛卡尔臂(行程 135 mm / 重复精度 ±1.5 mm),v2.0 升级 6-DOF 串联以获更大灵巧度[52]。
主选型:AgileX Scout Mini 底盘 + Livox MID-360(3D LiDAR · 跑 FAST-LIO2 SLAM 主路)+ RealSense D435 视觉冗余(ORB-SLAM3 兜底)+ 9 轴 IMU + RTK 北斗 B1I/B2a 双频 + GPS L1/L5 双频(±2 cm 开阔 / ±10 cm 弱遮挡)。软件栈:ROS 2 Humble + Nav2(A* 全局 + DWA/TEB 局部)+ robot_localization EKF + nmea_navsat_driver,详见 §03.5 工程骨架。国产可选:宇树 Unitree / 阿尔法 Alpha / 拖挂自研底盘(按温室宽度定制);北斗模块千寻 / 司南导航。对照:Clearpath Husky。成熟度:Pilot 起配 · MVP 阶段固定工位免移动。团队 v1.0 历史:v1.0 龙门跨垄移动平台尺寸 350 × 1000 × 500 mm,离地间隙 600 mm,已验证硬件 v2.0 沿用[52]。
主选型:自研 4 指对称气动柔性硅胶软爪(食品级硅胶 + 增强纱网 + FDM 3D 打印模具,单指 60 mm 楔形,仿形曲率 R₁ = 10 mm / R₂ = 21 mm 双指,7 气腔室,16 kPa 闭环气压控制,单根输出力 0.263-0.334 N)+ 六轴 F/T 传感器 + IMU。国产可选:奥诺科技六维力 / 元生创新 ATI 替代 / 鑫精诚指尖传感。对照:ATI Mini40 / Robotiq FT-300。成熟度:团队 v1.0 物理样机已验证(300 次重复试验 / 91.3% 综合成功率 / 6.3% 破损率),v2.0 直接继承;Pilot 集成国产六维力 → Scale 模块化快换[52]。
电池主选:48 V / 100 Ah 磷酸铁锂(LFP,IP65,热插拔 < 5 min)×2 组双仓位,连续作业 4-5 h / 组。充电桩:固定式 6.6 kW DC 快充桩(CCS-Combo2 / GB/T 双协议),机器人自归航对桩(精度 ±2 cm 由 RTK + LiDAR 视觉对准协同保证)。BMS:CAN 总线接 ROS 2 节点,SoC / 温度 / 单体电压实时发布到 /battery_state 话题。能量管理:energy-aware mission planner 每 30 s 评估"剩余电量 vs 完成任务 + 归航 + 30% 裕度",不足即触发 Nav2 归航(详 §03.5 ④)。国产可选:宁德时代 / 比亚迪 LFP 电芯 + 沃特玛 BMS / 国轩高科 PACK;充电桩特来电 / 星星充电定制 6.6 kW 版本。对照:扫地机器人 ChargeStation 逻辑(精度等级不同,原理一致)。成熟度:MVP 阶段固定工位免移动 → Pilot 单充电桩 + 单换电仓 → Scale 多桩布点 + 备用电池架共享池。
13.3 自助 BOM 估算器
读完上方能力模块图,如果你想亲手拨一拨"这套机器跑起来到底多少钱"——下方配置器允许你按类别选机型、调定价倍率、看实时毛利结构。数据源于 2026-05 京东 / 淘宝 / 厂商官网 / 海外经销实价(详见 audit-2026-05/_phase2_5/bom-real-prices.md,38 条挂牌价多源交叉)。OEM 价按 100 台/年量产折扣 30-35% 推算。
计算单元A
机械臂 1 B · ×N
深度摄像头 2 C · ×N
激光雷达 + RTK GPSD
移动平台E
末端 + 力反馈 1 F · ×N
电源 / BMS(可选)G
勾选后并入 BOM。MVP 工位通电场景可不勾;Pilot / Scale 自带电源场景需勾入。
数据来源:京东 / 淘宝 / 厂商官网 / 海外经销(DJI Store / Intel RealSense Store / Ardusimple / Devonics / Vention / Unchained Robotics)多源交叉,时点 2026-05。OEM 100 台/年口径含 25-35% 量产折扣,与节卡港股 ASP ¥4.71 万、节卡招股书 ¥5.80 万互证。最终以厂商意向报价单为准。海外部署 +12-25% 关税 / +25-40% 经销加价 / +10-20% 现场服务,总价 ×3-5 倍。完整数据见 audit-2026-05/_phase2_5/bom-real-prices.md。
MVP · 实验室验证(模块 01 + 02 + 03·CR3 + 05·软爪)—— 固定工位,单臂闭环跑通采摘 → 视觉伺服 → 软抓。Pilot · 首批试点(+04 移动平台 +03·Aubo/Doosan 升级 +05·国产六维力)—— 行间穿梭 + 双臂协作 + 力反馈闭环。Scale · 100 台/年量产(02 双脑解耦 + 03·JAKA × 4 + 04 拖挂平台 + 05 模块化快换)—— 续航 ×3、故障隔离、整机国产化率 80%+。三档共享相同软件栈,硬件按 ROI 渐进升级。
采后分级 · Y2 规划
末端不背 NIR — 让光谱模组留在分级线。机械臂末端要的是 < 100 ms 决策延迟 + 抗振动 + 量产成本 < 500 元;而 NIR 单果糖度商用精度依赖 50-500 ms 静态积分 + 单品种 PLS 模型,至今全球无量产末端集成。Y2 起把糖度判断后置到采后线,由 NIR 模组完成 ±0.5 °Brix 的内部品质分级,与机器视觉外观瑕疵 + 称重粒径合并出标准化结果。
| 层级 | 方案 | 精度 / 速度 | 量级 |
|---|---|---|---|
| 整线 · 国际标杆 | TOMRA Inspectra² / Compac MLS | 10 fruit/s 通道 | 千万级整线 |
| 整线 · 国产主力 | 江西绿萌 FRUSCAN 7.0 · 合肥泰禾 | 5-8 fruit/s 通道 | 千万级国产整线 |
| NIR 模组 | 奥谱天成 NY2300 · 迅杰光远 IAS | ±0.5 °Brix · 5-8 fruit/s | 万元级 NIR 模组 |
| 手持参考 | Felix F-750 · Atago PAL-HIKARi | R² > 0.85 | 千元-万元级手持 |
| 芯片级 SWIR | Hamamatsu C12880MA · ams AS7421 | ≤ 100 ms 静态可达 | 千元级芯片 |
枸杞特殊说明:鲜枸杞蜡质反光 + 单粒 0.3-1 g 远低于 NIR 采样体积(> 5 g 等效路径),单粒 NIR 信噪比不足。Y2 走 高光谱成像 + 群体采样;等 SWIR 芯片化(trinamiX / ams-OSRAM 1-3 µm)成熟再升级单粒。
"整体解决方案"叙事必须给出 采→分→冷链完整链路。把 NIR 明确放在分级线(而非末端)是经过 ROI + 技术成熟度双重权衡的结果,避免被技术读者反问"采摘臂为什么不带 NIR"。
竞品 · 路线
国内 5 家直接对手中 3 家声明仅出自新闻稿,缺少同行评议。SOTA 三件套在我们的 2024-01 至 2026-05 检索范围内尚未同时被任何 peer-reviewed 系统达成——窗口未关。
14中国对手 · 经核实
| 公司 | 声明 | 证据级别 | 对我们威胁 |
|---|---|---|---|
| 蓝侠机器人 (深圳) | 冬枣 8s/果 85% <8% 损伤 | 新华网 + 人民日报 2025 | 大荔试点真 · 单作物 · 公开学术贡献有限 |
| 禾芯动力 | 蘑菇 + 植保 + 除草 5 场景 | 36Kr / 中国日报 | 邻接威胁 · 公开口径止于"环境感知 + 农业 AI 模型 + 多机协同" · 不同子市场 |
| 乔戈里 (KRTECH) | 多果种通用平台 · 国内 40w/台 | 2024 出口 2000 万美金 | 出海样本 · 不重叠技术对手 |
| 集萃智造 | 查无实据 · 主业非农业 | 公开定位为生态供方 · 非直接对手 | |
| 伟景智能 | 3D 相机累计 1500 出货 | 人形采摘仍 demo 阶段 | 平台型 · 非直接对手 |
| 遨博智能 / 岚江科技 | 关节臂 · 喷洒 / 除草 / 运输 | 行业可查 | 供应商 / 邻接 · 非采摘对手 |
| 南京农大 汪小旵 | 草莓 66→84% / 20s 演示 | 南农新闻办 + 新华社 2026-03 | 产业演示 benchmark · 软爪方向公开材料有限(团队设施农业 / 智能农装方向有显著学术积累) |
| 华南农大(番茄 / 荔枝末端执行器) | YOLOv9/v10-pose · STRAW-YOLO CEA 2024 | CEA / TASE peer-reviewed | Tier-1 学术 benchmark |
| CAS 合肥 + 宁夏大学 Xu 2015 | 振动 93.5% / 2.54% · 整丛非选择性 | Trans CSAE 2015 | 相关学术背景 · 非同赛道 |
* 本表分析以截至 2026-05 公开材料 + 媒体访谈为依据;对竞品技术栈的判断以其公开口径为准,未涉及对未披露内容的推断。中国发明专利申请有自申请日起 18 个月的公开期,本表可能未涵盖该窗口内未公开材料。表中具名学者在其主要研究方向(如汪小旵团队在设施农业 / 智能农装)有显著公开学术贡献。
15SOTA 三件套
跨 12 篇 2024-2026 论文综述后的真实瓶颈——不是夹爪软硬度,是遮挡感知和周期时间。
我们 2024-01 ~ 2026-05 检索 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg(共筛 ≥ 50 篇候选),在检索范围内未发现同时满足五条件的 peer-reviewed 系统:≥ 85% 成功率 + ≤ 5% tactile-graded 损伤 + ≤ 8 s 单果周期 + 开放果园 + 同行评审。最接近者:Tiantian 3/5(损伤未披露)、Lanxia 4/5(非 peer review)、柑橘 dual-arm 3/5。单项 SOTA 均已被分别跨越,窗口正在收紧。
| 最接近者 | 成功率 | 损伤率 | 周期 | 差在哪 | 出处 |
|---|---|---|---|---|---|
| Tiantian 番茄 (3 臂 gantry · Dong et al.) | 91.0 % | 未披露 | 4.62 s 等效(单臂 ~9 s) | 损伤未定量 | JFR 2026 rob.70168[32] |
| Lanxia 冬枣(新闻稿) | 85 % | < 8 % | 8 s | 损伤 > 5% · 非 peer review | People Daily 2025 |
| DailyRobotics 草莓(商业试点) | 未披露 | ~ 4 % | 4.57 s | 成功率未披露 · 非 peer review | AgFunder 2026 |
| 柑橘自适应抓取 | 未披露 | 2.6 % | — | 成功率与周期未对齐 | CompAg 2025 |
| Robofruit 草莓(商业温室) | 83 % | — | — | 损伤与周期未对齐 | Parsa JFR 2024[13] |
| 葡萄双臂 | 96.7 % | 3.2 % | 13.7 s/试 | 周期 > 8 s | Frontiers 2022 |
三个洞察:
- 软爪硬件不再是瓶颈——损伤率已 ≈ 人类。问题在视觉遮挡 + 周期
- WSU 草莓加风扇移遮挡 58 → 74%(+15.8 pp)—— "物理介入感知"是新思路[19]
- Rong 番茄 cut-point 88.5% → 抓取成功率 57.7% — 30 pp 流失在抓取/规划,不在感知前端
- 多臂加速比双口径:Tiantian 三轴 Cartesian gantry 3 臂 1.96×(η ≈ 0.65)/ Lammers & Zhu 双 4-DOF 苹果 28% time reduction(= 1.39× speedup, η ≈ 0.695)/ Zhu et al. arxiv 2505.10028 12 臂 Cartesian gantry simulation 12.7× @ 100 fruits/m² / Lu Agronomy 15:1446 4 臂运动学。6-DOF 4 臂协作目标 2.5-2.8×(stretch, η = 0.62-0.70)/ 保守 1.8-2.4×(紧协作 baseline, η = 0.45-0.60)—— 不是 N 倍线性,BOM × N 时收益边际递减
团队 v1.0 物理样机基础线(垄作草莓采摘机器人,实验室仿垄环境,300 次重复试验):综合成功率 91.3% / 破损率 6.3% / 单果周期 15.1 s(移动 5.9 s + 唇展 4.4 s + 齿抓 0.4 s + 唇闭 4.4 s)——已达成 "≥ 85% 成功率 + ≤ 8 s 三件套" 中的成功率项,破损率距 ≤ 5% 尚有 1.3 pp 差距,周期需要从 15.1 s 提速。v1.0 失败模式自披露:73.1% 破损可追溯到视觉坐标偏差导致唇机构擦伤;密集 / 遮挡冠层的多模态感知适应性受限——这正是 v2.0 引入 VLM 大脑 + Diffusion Policy 小脑(hierarchical VLA 双脑系统)的内部 motivation[52]。v2.0 目标:硬件继承 v1.0 末端 / 移动平台 / 仿垄试验环境(已就绪),软件栈整体升级到 hierarchical VLA system (VLM + DP + RTC + LeRobot v0.5.1),目标 ≥ 95% 成功率 / ≤ 5% 破损率 / ≤ 8 s 单果周期(末端机械物理上限决定 ≤ 8 s 为现实目标)。国际 SOTA 库 cross-reference:Ya Xiong 双臂草莓 4.6 s/果(损伤未披露)/ Octinion ~5 s/果(产品宣传)/ Agrobot 24-DOF > 85% 成功率(未公开周期)—— 各 SOTA 系统在单项指标已突破,但完整五条件耦合窗口仍未关闭。
检索结果:在 arXiv (cs.RO) + HuggingFace + GitHub 2024-2026 检索范围内,没有 agriculture-specific VLA foundation model 公开发布。HarvestFlex (草莓 crop-specific 适配, arXiv 2603.05982)[33] 与 arXiv 2601.11906 (VLM task-planning, 非 end-to-end VLA) 是最近的工作。Jetson Orin 上完整 VLA action loop latency 公开 benchmark 不存在——3B-AWQ VLM 单脑层 NVIDIA 论坛实测 30-225 tok/s(不是端到端动作环数据)。本架构 = 公开范围内最早完整披露 "v1.0 物理样机实证 + v2.0 hierarchical VLA system (VLM + DP) + 跨作物 LoRA + 中文指令" 的农业 vertical 整合尝试(不是宣称定义 category — 空白也可能是市场困难信号;同期 AgriGPT-VL / AgThinker / HarvestFlex 也在做农业 VLA 单点研究,我们的差异是 v1.0 物理样机 anchor + 完整双脑工程整合 + 中文 GTM 三件套同时具备)。我们用 W1-4 latency + W13-16 温室真草莓 ≥85% 成功率作为 "category wedge" 的发布门槛,v0 期 W1-4 实测填补 Jetson Orin 完整双脑 action loop benchmark 公开缺失这个 gap。护城河组成:2 项硬资产(v1.0 物理样机 know-how 含 σ_y + 软爪 spec + 91.3% baseline · 客户场景数据飞轮)+ 5 项配置组合(7-LoRA / 7-PhytomerFn / 中文指令 / Orin 调优 / VLM+DP 工程整合)= 18-24 月 catch-up barrier(B3 audit 估算:工程复刻 6-12 月 + 数据/客户场景 12 月)。
* 五条件定义:(1) ≥ 85% 选择性采摘成功率(开放/温室环境,未受控);(2) ≤ 5% tactile-graded 损伤率(FEA 仿真或人工评级,非外观目测);(3) ≤ 8 s 单果周期(含视觉 → 规划 → 抓取 → 放置完整链路);(4) 开放果园环境(含遮挡 / 风扰 / 光照变化);(5) peer-reviewed 期刊或顶会发表。检索方法:2024-01 至 2026-05 检索 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg,关键词 fruit harvesting / picking robot / selective harvesting / orchard robot,共筛 ≥ 50 篇候选。本声明每 3-6 个月复核。
166 个月技术里程碑
2 工程师 · 6 个月。每个里程碑都有 VERIFY 验收点。
| 周 | 阶段 | 任务 | VERIFY |
|---|---|---|---|
| W 1-4 | 引导 | 买 SO-101 + AGX Orin · LeRobot v0.5.1 pin commit · v1.0 草莓数据 reformat(STM32+HALCON 日志 → LeRobotDataset v3.0,2 工程师周,得 ~60 等效 demo)+ 实验室仿垄环境新采 100 demo(草莓 base) · v1.0 末端 / 移动平台 / 仿垄环境直接继承(硬件 0 改动)[52] | Diffusion Policy · 草莓 50% 实验室 |
| W 5-8 | 基线 | 训 DP + ACT 对比 (草莓 base 160 demo) · RTC 仅对 π0.5 / SmolVLA 测试 · ONNX 自写 export 路径 · 集成 STRAW-YOLO keypoint (替换 v1.0 HALCON 曲率,预期缓解 v1.0 中视觉坐标偏差导致的擦伤主因,具体破损率缩减量 W13-16 实测确认) · Orin DP 50 Hz caveat:需 TensorRT INT8 + horizon trim 至 16/8 才稳定 50 Hz,否则实际 20-30 Hz(周期会从 ≤8s 推到 ~10s,v0 期实测决定是否换 small-brain CNN-only 蒸馏路径) | 选 DP · 草莓 70% 实验室 |
| W 9-12 | 真臂 | v1.0 唇齿软爪 + 6-DOF 升级臂 (Dobot CR3) · ROS 2 + MoveIt2 + Zenoh · DP 桌面真臂集成 · DexFruit (MIT) tactile-conditioned 小脑 fork + v1.0 MPM288DI 气压替换 DenseTact (省 4 工程周) | 桌面草莓 10/10 (复刻 v1.0) |
| W 13-16 | 数据 | 实验室仿垄 + 合作温室草莓 100-200 demo 补集(与 W1-4 累计达成 base 150-300 上限)· RoboSplat 单 demo × 5 augmentation · 70/30 真合成共训 · 把 σ_y = 0.0045 MPa 力学边界作为 DP 训练时的安全过滤参考(拒绝输出超 force budget 的轨迹) | 温室真草莓 ≥ 85%(追平 v1.0) |
| W 17-20 | VLM | Qwen2.5-VL-7B-AWQ 接入 · JSON schema + bbox 后处理 · 中文指令端到端 "摘红色成熟草莓" · XGrammar FSM 解码 | 中文指令打通 · 草莓 ≥ 90% |
| W 21-24 | Pilot | TensorRT 自定义导出 · 硬件 E-stop + 力限 · 一行温室草莓 Pilot · v3.0 番茄 SKU 预研(优先级 1:Helios 原生 + 学术权重多;注意番茄 v3.0 不是纯 LoRA 软件升级——需新末端硬件 (扭转头) + 新气压边界 + twist_pluck primitive,独立工程预算 +¥80-150k / 2-3 月)· v3.1 枸杞 LoRA 后续(不阻塞 v2.0 主线) | 草莓 v2.0 目标:≥ 95% / ≤ 5% 破损 / ≤ 8 s 周期 |
CE 认证里程碑(与技术 6 个月并行)
| 时间 | 动作 | 交付 |
|---|---|---|
| 2026-06 | NB 询价(TÜV SÜD / SGS 双线)+ EN 标准对账 | NB 报价单 + 适用 EN 清单 |
| 2026-07 | NB 合同签订 | 项目启动函 |
| 2026-10 | 技术文档提交(含 AI safety function 论证 + EN ISO 13849 PLd/PLe) | TD pack v1 |
| 2027-04 | 样机测试通过 | Test Report |
| 2027-07 | CE 拿证 | EC Declaration of Conformity |
| 2027-08 | EU 首发 | 首单交付 + Notified Body 证书附本 |
出海 · GTM 路径
国内开放果园选择性采摘的规模商业化(农场端采购)尚处早期(设施菇 / 草莓室内 0→1 已加速,长三角果林 / 西北枸杞仍空白);欧美劳工缺口 + H-2A 工签 + 头部种植集团 3 季商业试点已积累,短期订单池形成(多以 RaaS / 多年订阅为主)——叠加 CE Machinery Regulation 2027 切换。团队选择海外优先收订单 + 国内长三角 / 卢皋落户同步打样的双轨节奏,与 §20 乔戈里 / 极飞 / 大疆出海路径同源。
17需求侧 · H-2A 缺口曲线
美国农业劳工市场已被 H-2A 工签体系深度依赖,缺口曲线持续陡峭——这是采摘机器人海外订单池的根本来源。
| 指标 | 数值 | 趋势 | 来源 |
|---|---|---|---|
| FY2025 H-2A 认证岗位 | 398,258 | 10 年 +185 % | AFBF 2025-03 |
| 2030 趋势线预测 | 突破 50 万 (500,000+) | 近 5 年 CAGR 8.7% | DOL ETA OFLC + AFBF + MPI |
| 2025 岗位本土申请率 | 182 / 415,000 ≈ 0.04 % | 近乎归零 | Niskanen Center |
| 典型客户决策周期 | 2-3 季试点 → 量产 | 蘑菇 / 温室更快 | Tevel · Advanced.farm WA |
18直接对标 · 欧美 5 家
采摘机器人海外赛道已分化为四种商业模式。学谁、避谁,由商业模式可持续性决定。本表事实截至 2026-05;海外赛道动态(Wavemaker / CNH Industrial / Oishii 等收购链)持续跟踪。
| 公司 | 作物 | 商业模式 | 定价 / ROI | 融资 | 结局 / 状态 |
|---|---|---|---|---|---|
| 4AG Robotics (CA) | 蘑菇 | 前置硬件 + 续费 | ~100w USD · ROI 18-30 月 | C$40M Series B (2025-07, 约 US$29M) | 最热 · 学这个 |
| Tevel (IL) | 苹果 / 桃 / 橙 | 飞行集群 + 整机伙伴 | 不公开 | $20M Series B | 飞行方案最有量产相 |
| Advanced.farm (US, 2024-Q4 起 CNH Industrial 旗下) | 草莓 + 苹果 | 卖断 + 服务合同 | 前 roadmap 2027 商业 20 台(CNH 整合后未单独重申) | 前融资 $34-35M (Kubota / Yamaha);2024-10 CNH Industrial 全资收购 | 并入 CNH · 退出通路验证 · 商业化通道最稳 |
| Tortuga AgTech (US) | 草莓 | 纯 RaaS (pay-per-pick) | 现金流压力大 | ~$49M(PitchBook $49.29M;Crunchbase 含 SAFE+debt 宽口径约 $55M) | 2025/3 核心团队与专利被室内草莓公司 Oishii 人才并购(acqui-hire) |
| Abundant Robotics (US) | 苹果 | 卖断(行业估算 ~$1.5M/台) | 实测 ≈ 6 vs 目标 ~10 bins/h | ~$12M 累计 (GV / Yamaha / KPCB Edge) | 2021/5 停运(wind-down · funding fail)· IP 售 Wavemaker Labs / Future Acres(2021/10, 后续搁置)· Advanced.farm(当时独立)拍卖得原型机独立研发 |
赛道 M&A 密集本身就是信号:5 家中 3 家在 2021-2025 已发生重大事件 —— Abundant 2021/5 停运 + 资产拍卖、Tortuga 2025/3 被 Oishii 收购、Advanced.farm 2024/10 被 CNH Industrial 全资收购。三起事件都发生在"工程原型成熟但还没规模化营收"的窗口期。这说明采摘机器人赛道的关键里程碑不是 IPO,而是"做出 CNH / Kubota / John Deere 愿意 M&A 的工程原型"——退出通路已被 Tortuga / Advanced.farm 两案验证。
* 货币说明:C$ = 加元;表内未前缀 $ 默认 US$。4AG Series B 公告时点 2025-07,月均 C$/US$ ≈ 0.731(Bank of Canada)。
学 4AG 前置硬件 + 续费(资本最买单,C$40M Series B 是证据);避 Tortuga 纯 RaaS(押注算量,现金流坑);学 Tevel 整机伙伴(与本地 OEM 配套,避免单打独斗的渠道空缺)。
19认证 · 第一道硬门槛
| 区域 | 认证 | 关键点 | 影响 |
|---|---|---|---|
| 欧盟 | CE Machinery Regulation (EU) 2023/1230 | 2027-01-20 application date(无双轨期)· Annex I Part A Items 5-6 + Article 25 §2 强制 Notified Body 第三方认证(非 self-declaration)· 周期典型 9-15 月含 1-2 轮返工 / AI safety 复杂场景 18+ 月 · 费用 NB €80-200K + 全包 €150-480K · 12+ 项 EN 标准(ISO 18497-1/2/3/4 + ISO 10218 + ISO/TS 15066 + ISO 13849 PLd/PLe + ISO 12100 + EN 60204-1) | 硬门槛 · 2027 前必须前置 · 江苏 / 卢皋补贴对冲 30-50% |
| 美国 | ANSI/ASABE + OSHA + EPA | 无统一强制;UV-C / 化学剂涉 EPA | 可逐步合规 |
| 电池 | UN38.3 | 锂电运输 + 海运强制 | OEM 标配 |
| 中国出海 | — | 极飞 70 国 / 大疆 100 + 国农机渠道可复用 | 现成基础设施 |
20中国样本 · 乔戈里 2000 万美金
乔戈里科技(杭州 KRTECH)2024 年出口 2000 万美金,业务遍布五大洲。卖断为主,覆盖猕猴桃 / 苹果 / 番茄 / 草莓 / 梨多果种——中国采摘机器人出海最实在的样本。路径 = 多果种通用平台 + 渠道分销,不押注单果种深度。
同时极飞 / 大疆的植保无人机已建好海外农机渠道(极飞 70 国、大疆 100 +),丰疆智能插秧机用 20-30 % 低价进入欧美——这些基础设施都可被采摘机器人复用。短板是 (a) CE 认证流程未补齐 (b) 海外售后季节保障团队空白 (c) 单果种深度不及 Tevel WA 3 季试点。
中国农机出海 CE 样本
| 公司 / 机型 | 认证 | 认证机构 | 时点 | 覆盖 |
|---|---|---|---|---|
| 极飞 P/R150 植保无人机 | CE Machinery | TÜV Rheinland | 2018-2020 | 70 国 |
| 极智嘉 Geek+ AMR | CE Machinery | TÜV Rheinland | 2019 | 全球仓储 |
| 高仙商用清洁机器人 | CE Machinery | TÜV / SGS | 2020-2023 | 欧美主要市场 |
| 智采·万果通(本团队) | CE Machinery Regulation (2023/1230) | TÜV SÜD / SGS(询价中) | 2027-07 目标 | 中国农业自主移动双脑机器人 (VLM + Policy) EU CE 第一例差异化 |
海外订单池真实 + 4AG/Tevel 商业模式可学 + CE 认证可前置 + 乔戈里 / 极飞 / 大疆渠道可复用 + 蘑菇 / 温室决策周期短 = "先蘑菇 + 温室出海拿现金流,再果园 + 长周期拿大单" 双阶段路径。
为什么这套架构
六个论点。每个都可在前面章节找到具体依据。
核心栈 Apache 2.0 / MIT / BSD(Qwen 7B-AWQ / LeRobot / DP / ROS 2 / MoveIt2 / Nav2 等);3 项边界 license 见 §13 module 01 footnote(Ultralytics YOLO11/v8 = AGPL-3.0 商用需购 Enterprise / DINOv3 = Meta custom + 强制 attribution / Helios PlantSim 限研发期,不分发到产品)。
唯一同时具备 real-robot 完整栈 · ONNX 可出 · demo 规模匹配。
RTC paper ~10 Hz / 本架构 1-2 Hz · ≤ 300 ms 上游延迟可吸收。
v1.0 草莓物理样机 91.3% 已实证 · 150-300 demo base (v1.0 reformat + 新采) · v3.0 番茄 → v3.1 枸杞 → v3.2+ 扩展 100-200 demo LoRA。
国内 5 家直接对手中 3 家无 peer-reviewed 主源 · 第一手数据机会。
≥ 85% × ≤ 5% × ≤ 8 s · 我们的工程目标。
引用
- Oquab et al. DINOv2: Learning Robust Visual Features without Supervision arXiv 2304.07193 (2023). arxiv.org/abs/2304.07193
- Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS 2023. arxiv.org/abs/2303.04137 · code: github.com/real-stanford/diffusion_policy
- Kim et al. OpenVLA: An Open-Source Vision-Language-Action Model arXiv 2406.09246 (2024). arxiv.org/abs/2406.09246
- Black et al. Real-Time Execution of Action Chunking Flow Policies arXiv 2506.07339 (2025). arxiv.org/abs/2506.07339 · code: github.com/Physical-Intelligence/real-time-chunking-kinetix
- HuggingFace LeRobot v0.5.1 (commit 1396b9fab7). github.com/huggingface/lerobot
- π0.5 — Physical Intelligence. pi.website/blog/pi05 · openpi: github.com/Physical-Intelligence/openpi
- Qwen2.5-VL Technical Report arXiv 2502.13923 (2025) · 本架构选 7B-AWQ (Apache 2.0 商用 license), 不选 3B 系列 (Qwen-Research license 非商用) · 3B AWQ Jetson benchmark: NVIDIA Developer Forum thread 345073 (3B = 30 tok/s on AGX Orin); 7B Jetson benchmark 公开缺失, v0 期 W1-4 实测补.
- NVIDIA NanoSAM. github.com/NVIDIA-AI-IOT/nanosam
- PlantSimulationLab Helios v1.3.72. github.com/PlantSimulationLab/Helios · plugins/plantarchitecture/include/Assets.h
- Subedi et al. Find the Fruit: Sim-to-Real Manipulation in Deformable Plant Foliage arXiv 2505.16547 (2025).
- Chi et al. real-world DP demo counts: Push-T 136, Pour 90, Mug Flip 250, Shirt 284 (Table 3 + §7).
- Ze et al. iDP3 arXiv 2410.10803 (2024) · 15 Hz claim contested by issue #26.
- Parsa et al. Robofruit: Automated Strawberry Harvesting Robot J. Field Robotics 2024. DOI 10.1002/rob.22229
- Rong et al. A Selective Harvesting Robot for Cherry Tomatoes J. Field Robotics 2024. DOI 10.1002/rob.22377
- Xu, He et al. Simulation Analysis and Prototype Test of Vibration Mechanism for Lycium barbarum Picking Trans. CSAE 31(10), 2015.
- NJAU sea-anemone gripper announcement. Xinhua 2026-03-30. english.news.cn (84%/20s 已验证;25%→<2% 数据无主源)
- Lanxia winter jujube pilot. People's Daily Online 2025-07-17. en.people.cn (新闻稿,无 peer-reviewed paper)
- Zheng et al. Multiscale computation study on bruise susceptibility of blueberries from mechanical impact Postharvest Biol. Technol. 209 (2024). sciencedirect.com/S0925521423004210 (FEA 离线损伤判据 · PEEQ ≥ 0.1 · E=0.339 MPa · σ_y=0.063 MPa)
- He et al. Hidden strawberries: AI vision + silicone fingers + fan to address occlusion Computers and Electronics in Agriculture 2025, article 110684. sciencedirect.com/S0168169925007902 (WSU · 58 → 74% +15.8 pp)
- Yang et al. RoboSplat: Generalizable one-shot manipulation via 3DGS augmentation RSS 2025. arxiv.org/abs/2504.13175 · github.com/OpenRobotLab/RoboSplat
- Qureshi et al. SplatSim: Zero-shot sim-to-real RGB policy with Gaussian Splatting CoRL 2024. arxiv.org/abs/2409.10161
- Stanford ARMLab. DexFruit / FruitSplat: dexterous fragile fruit handling with 3DGS arXiv 2508.07118 (2025). arxiv.org/abs/2508.07118
- Berkeley AUTOLab. GrowSplat: 4D digital twins of growing plants CASE 2025. arxiv.org/abs/2505.10923
- Gunderman et al. Tendon-driven soft robotic gripper for blackberry harvesting IEEE RA-L 2022. ieeexplore.ieee.org/9684953 (黑莓软爪 0.5 N 工作点 — "0.5N" 真正出处)
- Yu et al. Visual bruise assessment and analysis of mechanical impact measurement in southern highbush blueberries ASABE Paper 44284 (2014). researchgate.net/293349787 (BIRD 法 · 120 cm 跌落 / Scintilla 76% 瘀伤)
- [已删除] 此处原引用 DuoCore-FS arXiv 2512.20188 在 arXiv / Google Scholar / OpenReview 检索 0 命中,疑似幻觉来源,2026-05 audit 中移除。1-3 Hz / 25-30 Hz 频率分工的实证背书改由 [27] Hi Robot / [28] GR00T N1.5 / [29] Helix 三条共同支撑。
- Physical Intelligence. Hi Robot: Hierarchical VLA with high-level reasoning arXiv 2502.19417 (2025). arxiv.org/abs/2502.19417 · pi.website/research/hirobot
- NVIDIA GEAR. GR00T N1 / N1.5: A foundation model for generalist humanoid robots arXiv 2503.14734 (2025). arxiv.org/abs/2503.14734 · research.nvidia.com/labs/gear/gr00t-n1_5
- Figure AI. Helix: A Vision-Language-Action model for generalist humanoid control 2025. figure.ai/news/helix (7-9 Hz VLM + 200 Hz visuomotor)
- MLC AI. XGrammar: Flexible and efficient structured generation engine 2024. github.com/mlc-ai/xgrammar · OpenReview rjQfX0YgDl (FSM 压缩 · 零增量延迟)
- JAKA Robotics. jaka_ros2 official ROS 2 driver. github.com/JAKARobotics/jaka_ros2 · MoveIt2 dual_arms 兼容
- Dong T., Zhang Y., Luo X., Song X., Qin X., Liu Y., Bai Z. Design, Development, and Field Test Analysis of a Multiarm Tomato Harvesting Robot Journal of Field Robotics, first published online 26 January 2026, advance online publication. DOI 10.1002/rob.70168 (NUIST · 3 臂 Cartesian gantry · 91% / 4.62 s 等效 · 加速比 1.96×)
- Kim et al. Behavior Cloning in Unstructured Agricultural Environments for Pepper Harvesting arXiv 2411.09929 (2024). arxiv.org/abs/2411.09929 (300 demo / 28.95% in-field · BC + scissor gripper · peduncle 失败模式 · 原描述误标 "diffusion policy",audit 订正)
- Black et al. (HarvestFlex). Strawberry VLA with 227 VR teleop demos arXiv 2603.05982 (2026). arxiv.org/abs/2603.05982 (唯一草莓采摘 VLA 公开数据)
- Open-X-Embodiment Collaboration. Open X-Embodiment: Robotic learning datasets and RT-X models arXiv 2310.08864 (2023). github.com/google-deepmind/open_x_embodiment (1M+ 轨迹 · pre-training 基座)
- Khazatsky et al. DROID: A large-scale in-the-wild robot manipulation dataset arXiv 2403.12945 (2024). droid-dataset.github.io (76K 轨迹 · Franka 同构 pre-train)
- 4AG Robotics. Series B C$40M announcement (Astanor / Cibus 领投, 2025-07). 4ag.ai/40m-series-b (蘑菇采摘 · 前置硬件 + 续费模式)
- Tevel Aerobotics. Series B $20M for flying fruit harvesting robots (2021-02-09). fruitgrowersnews.com/tevel-20m (Maverick Ventures Israel 领投 · Bosch RBVC + Kubota 跟投 · 2024 Washington / Italy 试点扩张延续 · 整机伙伴模式)
- AFBF. H-2A Program Use Continues to Soar — 398,258 H-2A positions projected for FY2025 Market Intel, March 2025 (accessed 2026-05-18). fb.org/market-intel/h-2a-program-use-continues-to-soar (10 年 +185%; 首手源 USDOL OFLC Annual Selected Statistics FY2025)
- DOL ETA OFLC. H-2A Performance Data FY2024. dol.gov/agencies/eta/foreign-labor/performance (2024).
- Migration Policy Institute. H-2A Agricultural Visa Program: Trends and Outlook. migrationpolicy.org (2023). 注:"突破 50 万 by 2030"为行业外推测算,非 DOL 官方点预测。
- EU. Regulation (EU) 2023/1230 on machinery. OJ L 165, 29.6.2023, p.1-102. 关键节点:Annex I Part A Items 5-6、Article 25 §2、Recital 51-55、Article 51-52。eur-lex.europa.eu/eli/reg/2023/1230
- CEMA. Transition to Machinery Regulation 2023/1230: Implementation Guide for Agricultural Equipment. Brussels, 2024. cema-agri.org
- EU-OSHA. Machinery Regulation 2023/1230 — Worker Safety and AI Safety Functions. Bilbao, 2024. osha.europa.eu
- European Commission DG GROW. Machinery Regulation Q&A. Brussels, 2024-2025. single-market-economy.ec.europa.eu
- OJ list of harmonized standards under Machinery Regulation 2023/1230(含 EN ISO 18497 · EN ISO 10218 · ISO/TS 15066 · EN ISO 13849 · EN ISO 12100 · EN 60204-1 等)。2024-2025 更新。
- The Robot Report. Abundant Robotics is shutting down (2021-05-26). therobotreport.com/abundant-robotics-shutting-down
- The Robot Report / dot.LA. Wavemaker Labs acquires Abundant Robotics technology (2021-10-19).
- Good Fruit Grower. Advanced.farm apple harvester project · prototype acquired at Abundant auction (2022). 原文措辞 "one of the prototype units"(弱定量)。
- CNH Industrial newsroom. CNH to acquire advanced.farm (2024-10-29). + The Robot Report mirror 2024-10-29.
- Oishii. Strengthening our automation roadmap (2025-03-11). + AgFunderNews mirror 2025-03-12 "Oishii acquires Tortuga AgTech's robotics IP".
- Tortuga AgTech 融资 ledger:Crunchbase crunchbase.com/organization/tortuga-agtech;PitchBook Tortuga AgTech profile (subscription,$49.29M ledger 主源)。
- 本团队柔性并联机器人动力学建模与神经网络补偿控制内部研究(2023);内部技术资料(奇异摄动 + RBF 神经网络复合控制 / 混合轨迹 RBF 补偿,方法可迁移至 §13 末端力位混合反馈)。
- 本团队垄作草莓采摘机器人 v1.0 物理样机内部研究(2025);内部技术资料(力学数据见 §01 ④;末端 spec 见 §13 module 05;整机基础线 91.3% / 6.3% / 15.1 s 见 §15 SOTA 表后段)。
- Meta AI Research. DINOv3: Self-supervised vision transformers, scaled (2025-08). ai.meta.com/dinov3 · github.com/facebookresearch/dinov3 (drop-in upgrade vs DINOv2; NASA JPL / World Resources Institute production users).
- Ordinal regression head for 4-class fruit ripeness (天然有序 绿→粉→红→过熟): see Cao & Niu 2020 / Niu 2016 (ordinal logistic CNN), 2024-2025 在农业 ripeness 复用 (better than softmax MLP for ordered labels).
- Liu et al. Grounding-DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection arXiv 2303.05499 (2023). arxiv.org/abs/2303.05499 (long-tail fallback: 文本 prompt "ripe X" 自然语言指定新作物类,无需重训分类头).
- Fruit-Ripeness-MetaFruit / MaturNet (CDFRB) — 5-crop ripeness detector mAP 62.6%, 2025 closest "multi-crop foundation" attempt. 还不是真 foundation model, 但是 cross-crop baseline 参考.
- Cross-VLM agriculture benchmark (arXiv 2512.15977, 2025): Gemini-3 Pro MCQ 62%, all VLMs underperform YOLO11 supervised baseline on 27 AgML datasets / 162 classes — confirms VLM zero-shot ripeness is only viable as assistive cross-check, not standalone.
声明:本白皮书所有绝对化表述(含 §15 五条件评估 · §08 数据需求曲线 · §14 中国对手对比 · §03 Hz 双层选型论证 等)均以截至 2026-05-18 已检索公开材料为依据。2024-01 至 2026-05 检索源含 arXiv (cs.RO) + IEEE Xplore + Google Scholar + 知网 CNKI + Springer JFR/CompAg + 公司 newsroom + 行业媒体(fruitgrowersnews / agfundernews / 36Kr / 中国日报 等)。2026 后半年若有新 peer-reviewed paper 或商业落地证据改变论点,将在下一版(v4.3+)更新。