智采·万果通
technical architecture · v3.0 · 2026.05
technical architecture whitepaper

智采·万果通

AI 采摘机器人技术架构

A reading of Diffusion Policy, Real-Time Chunking, cross-crop LoRA migration, and edge-AI deployment — grounded in papers and source code.

36 亿
枸杞采摘 TAM / 年
150–300
demo / crop · DP CNN
≤ 8 s
selective 周期目标 / 果
I
chapter i

技术挑战

采摘机器人不是单一难题,而是感知、规划、控制、跨作物迁移四块叠在一起的工程系统。本章把每块拆开——告诉你它具体卡在哪里、为什么 2024-2026 的论文还没完全解决、我们采取什么策略。

01五大 AI 核心问题

采摘机器人面对的世界比工厂机械臂复杂十倍。果实长在不规则的枝条上,会被叶子遮挡,颜色和背景相近,风一吹位置就变。下面五个问题是 2024 至今所有发表的采摘机器人论文都在回答的——每个问题对应一种独立的技术栈。

① 果实检测与成熟度判断

表面上是个目标检测问题,YOLO 类模型在 COCO 上做了多年。但农业场景有三个非标准条件:成熟度需要 4 分类(绿/粉/红/过熟,单一阈值不够),红色果实在带红反光的绿叶背景下对比度极低(枸杞最典型),同一簇果可能有 70% 被叶子遮挡。 直接用预训练 YOLO 准确率会从 95% 掉到 60% 以下。

我们的策略是分两段:YOLO11s fine-tune 做粗定位,然后 frozen DINOv2 特征 + 单层 MLP 做精确成熟度分类。DINOv2 的 backbone 不变,只换分类头——这样 200 张标注图就够。[1]

② 3D 空间定位

视觉知道果在哪里还不够,机械臂需要毫米级的 6D 位姿 (x, y, z, roll, pitch, yaw)。RGB-D 相机(如 RealSense D405)能给立体硬件深度,但在叶子翻动、阴影斑驳、果实表面反光的情况下会出现“幽灵深度”——某些像素的深度估错几厘米,导致机械臂去够空气或撞枝。

解法是融合两路深度:硬件立体(confident 但稀疏)+ Depth Anything V2 单目神经深度(dense 但相对)。两路一致的地方才信,不一致的地方调用 NanoSAM 重新分割再投票。最终位姿误差控制在 ±5 mm。

③ 可达性与路径规划

枝条柔软,会跟机械臂之间发生“双向影响”——你伸过去枝条被撞偏,果就跟着移动。这意味着规划阶段算出来的关节轨迹在执行 100 ms 后可能就过时了。传统做法是用 MoveIt2 + FCL 做静态规划,离接近目标 10 cm 时再切到伺服控制。

我们在 MoveIt2 上加了一层异步流式规划——大脑慢规划(5 Hz),小脑接管最后 10 cm(30-50 Hz)。这中间的协调由 Real-Time Chunking 处理,下面 §02 详讲。

④ 末端柔顺控制

蓝莓表皮压力 ≥ 0.5 N 就会出现可见瘀伤,冲击能量 ≥ 120 g 直接破皮。这意味着夹爪不仅要软,抓取动作本身的速度、扭转角度、力的渐变都要被精确控制。传统 PID 控制器无法处理这种多维约束。

解法是用 Diffusion Policy CNN U-Net 学习人类示教的抓取轨迹。50-200 个遥操作 demo(用 SO-101 leader-follower,单价 $250)就能让策略学会“接近 - 包裹 - 扭转 - 撤回”四个阶段的连续动作。[2]

⑤ 跨作物泛化

每种水果都要重新收 5000 demo,团队会被数据成本拖垮。我们的设计是共享骨干 + 每作物 LoRA 适配器——番茄做主基线(5000 demo 一次性投入),枸杞/冬枣/草莓各 100-200 demo + LoRA 微调即可。详见 §III。[3]

技术现状

公开论文里 2024-2026 没有任何系统同时达到 ≥ 85% 未疏遮挡成功率 + ≤ 5% 损伤率 + ≤ 8 s 周期三件套。这是我们的工程目标,也是商业窗口的来源。

02我们的架构原则

每条原则都有公开论文或源代码支撑——不是产品宣传,是工程依据。

01
经典 + 学习混合

感知层用 YOLO + SAM + 立体深度(确定性、可解释、低数据需求),规划层用 MoveIt2 + FCL(成熟、可调试),只有最后 10 cm 的抓取动作交给学习。这种分工把整体数据需求从 5000+ demo 降到 200-500 demo,工程风险也降一个量级。[2]

02
Diffusion Policy 是首选

2024-2026 公开仓库里,Diffusion Policy CNN U-Net 是唯一同时具备完整 real-robot 代码栈(RTDE 驱动 + RealSense + SpaceMouse 遥操作)、ONNX 可导出150-300 demo 数据规模三件套的策略。Equivariant DP 的等变测试在仓库 issue #9 中被报告失败;iDP3 不在 LeRobot v0.5.1。[2][5]

03
RTC 桥接快慢

Real-Time Chunking(Black 2025)通过 ΠGDM pseudoinverse guidance 让 flow / diffusion policy 在 +200 ms 上游延迟下保持平稳。它工作的真实区间是 3-12 Hz 大脑 + 50 Hz 控制器——不是 1 Hz VLM 万能桥。仅适用 diffusion/flow,ACT 不兼容。[4]

04
跨作物 LoRA 迁移

番茄做主基线(150-300 demo),枸杞 / 冬枣通过 LoRA r=32 微调 100-200 demo 完成迁移。骨干永远冻结,每作物加 80 MB 适配器。Helios v1.3.72 原生支持 cherry tomato,枸杞 / 冬枣需 4-8 工程师周自写 PhytomerCreationFunction。[6]

II
chapter ii

架构

双脑分层是这套系统的骨架——大脑慢思考(1-2 Hz),小脑闭环控制(30-50 Hz),Real-Time Chunking 把两个时间尺度粘起来。本章给出每一层的模型选型、延迟预算、消息协议。

03双脑分层架构

整套系统由两台计算单元组成。MVP 阶段全跑在 Jetson AGX Orin 64GB 上;量产阶段把小脑移到 RK3588 SBC(省 50% BOM),通过千兆以太网 + ROS 2 Zenoh 共享内存通信。

1–2 Hz System 2 · slow / smart Qwen2.5-VL-3B-AWQ YOLO11s · NanoSAM · Depth-Anything-V2 BoT-SORT · MoveIt2 · FCL approach planning · target 6D pose Jetson AGX Orin 64GB · ~¥18K JSON · ROS 2 · Zenoh shm primitive · 6D pose · TTL ripeness_class · confidence max_force_n · shake_freq_hz ↓ 1–2 Hz TTL 500 ms 30–50 Hz System 1 · fast / certain Diffusion Policy CNN U-Net + Real-Time Chunking guidance 150–300 demo / crop · ONNX → TRT INT8 force loop + IMU feedback AGX Orin (MVP) · RK3588 distilled CNN (scale) 大脑 慢 / 聪明 VLM + 规划 小脑 快 / 确定 闭环控制 ▸ BOM 省 50%(量产档) ▸ 故障隔离 ▸ 续航 ×3(8W vs 25W)
Figure 1双脑分层架构 · 信息流方向 · 频率分工

为什么大脑要慢?因为 Qwen2.5-VL-3B-AWQ 在 AGX Orin 上单次推理 ~300 ms(论坛实测 30 tok/s,参考 NVIDIA forum thread 345073[7]),不可能 30 Hz 跑。但大脑负责的事——读懂"摘左侧第二串成熟枸杞"、判断遮挡是否能绕过、估计采摘是否安全——这些 1-2 Hz 就够了。

为什么小脑要快?50 Hz 控制频率是机械臂闭环响应风扰、湿度变化、果实位置抖动的最低门槛。低于这个频率,外环扰动来不及补偿,会出现"过冲—回拉"的振荡,破坏果皮。

RTC 怎么让两边对得上?下文 §05 详解,简单说就是:大脑发的动作 chunk(8 步 × 6D 位姿,覆盖未来 250 ms)小脑按 30 Hz 逐步执行;中途新观测到达时,大脑下一帧发新 chunk,小脑用 ΠGDM 把新旧 chunk 平滑拼接,不出现关节速度跳变。

04感知栈

感知层 30 Hz 跑在 Jetson AGX Orin 上,端到端延迟 28 ms 一帧。整个流水线分 6 个阶段,每个阶段在论文或工程实测中都验证过 Jetson 上的 FPS。

D405 + D435 stereo RGB-D 30 Hz YOLO11s detector · INT8 12 ms NanoSAM top-K mask 18 ms DA-V2-S depth fill 30 ms BoT-SORT MOT tracking < 5 ms Qwen-VL-3B 1–2 Hz async 330 ms * * Qwen-VL-3B-AWQ public benchmark on AGX Orin: 30 tok/s — NVIDIA forum thread 345073. 7B version unverified on this platform.
Figure 2感知层 6 阶段流水线 · Jetson 实测延迟

为什么 SAM2 原版不用?SAM2 在 AGX Orin 上只有 2 FPS,跑不动 30 Hz 主循环。NVIDIA 自己开发的 NanoSAM 把 image encoder 蒸馏到 mobile ViT 量级,AGX 上可达 30 FPS。[8]

为什么 SAM 只对 top-K 候选做?YOLO 每帧检测可能输出 50 个 bbox,但机械臂一次只能摘一个。优先级排序后取最高的 3-5 个候选送 SAM 做精细分割,剩下 45 个直接丢——节约 80% 算力。

Depth Anything V2 用 Small 不用 Base 或 Large?因为我们用立体硬件深度做 ground truth,DA 只负责"补洞"(叶子重叠、阴影区域)。Small 已经够用,Base 多 50% 延迟收益不到 2% 精度。

05Real-Time Chunking

这是整套系统最精巧的部分——把异步推理框成一个图像 inpainting 问题。

RTC 的论文是 Physical Intelligence 团队 2025 年 6 月发的 Real-Time Execution of Action Chunking Flow Policies[4]。它解决的问题是:diffusion / flow policy 一次推理出未来 H=50 步动作,但实际只执行前几步就要重新推理。如果新旧 chunk 拼接的位置不平滑,关节就会抖。

RTC 的核心 trick 是把新 chunk 的去噪过程额外加一项软约束,让前 d 步(已执行)冻结,中间 (H-s) 步软约束向旧 chunk 靠近,最后 s 步自由生成。这样新旧 chunk 在中间过渡段自然衔接。

数学上是 ΠGDM (pseudo-inverse guided diffusion model) 的移植——原本用在图像 inpainting 上,现在用在动作 chunk 的"时间维度 inpainting"上。整个修正函数的核心 15 行代码(JAX 版本):

def pinv_corrected_velocity(self, x_t, obs, y, t, inference_delay):
    # Predict clean sample x_1 via flow ODE
    def denoiser(x_t):
        v_t = self(obs[None], x_t[None], t)[0]
        return x_t + v_t * (1 - t), v_t

    x_1, vjp_fun, v_t = jax.vjp(denoiser, x_t, has_aux=True)
    weights = get_prefix_weights(inference_delay, prefix_attention_horizon,
                                  self.action_chunk_size, schedule)
    error = (y - x_1) * weights[:, None]
    pinv_correction = vjp_fun(error)[0]
    inv_r2 = (t**2 + (1 - t)**2) / ((1 - t)**2)
    c = jnp.nan_to_num((1 - t) / t, posinf=max_guidance_weight)
    guidance_weight = jnp.minimum(c * inv_r2, max_guidance_weight)
    return v_t + guidance_weight * pinv_correction

诚实的真实区间:论文 Figure 1 给的 300 ms 延迟数字是经验上限,不是理论保证。实测做到 +200 ms 延迟(约 270 ms 总)保持稳定,更高的延迟没测。RTC 的有效工作区间是3-12 Hz 大脑 + 50 Hz 控制器,不是 1 Hz VLM 桥(这个常见误读我们之前犯过)。

属性是 / 不是说明
数学本质ΠGDM pseudoinverse guidance图像 inpainting 移植到 action chunks
适用策略仅 diffusion / flowACT 无 denoiser,论文 §6 明文排除
延迟容忍+200 ms 实测 / +300 ms fig 1更高延迟未测试
真实区间3–12 Hz 大脑 + 50 Hz 控制器不是 1 Hz VLM 桥
代码状态JAX-only sim repoPyTorch 端需自写 torch.autograd.grad
LeRobot 集成v0.5.1 已集成π0 / π0.5 / π0-FAST / SmolVLA
开销每步 VJP 增加 30-50% 计算per-step backward-mode autodiff

06小脑选型矩阵

我们在 6 种主流 policy 之间做了选型,每种都读了论文 + 代码 + recent issues。Diffusion Policy CNN U-Net 是唯一同时满足三条硬指标的选择:(1) 有完整 real-robot 代码栈,(2) ONNX 可导出量化,(3) demo 规模与团队匹配。

策略状态demo 需求推理延迟RK3588结论
Diffusion Policy CNN ▲ 首选 150–300 ~100 ms 50–150 ms 唯一可行 · real_world 全栈代码
ACT 备选 100–200 10–15 ms 30–80 ms RTC 不兼容 · 跳过
iDP3 不在 LeRobot 10 × 3 task 9 Hz CPU 不可行 issue #26 不可复现 · 需 L515 EOL
Equivariant DP DISQUALIFIED 100 untested 不导 ONNX issue #9 等变测试自己失败
π0.5 + LoRA Y2 研究 200–500 76 ms 零户外数据 · LoRA PyTorch 不支持
SmolVLA 450M Y2 探索 50–200 30 Hz AGX RTC 已支持 · 需 AGX 才跑得动

07通信总线

大脑和小脑通过 ROS 2 Humble + rmw_zenoh shared memory 通信,端到端延迟 5 μs(同机进程间)或 1 ms(千兆以太网跨机)。消息格式选了"语言原语 + 6D 位姿"的 JSON 形式——可调试、可日志、可审计。

{
  "instruction_zh": "摘取左侧第二串成熟枸杞",
  "target_bbox_2d": [847, 412, 923, 488],
  "target_pose_6d": [0.42, -0.18, 0.95, 1.57, 0.0, 3.14],
  "primitive": "approach | grasp | twist_pluck | retract",
  "ripeness_class": "mature",
  "ripeness_confidence": 0.85,
  "max_force_n": 0.5,
  "shake_freq_hz": 25,
  "shake_amp_mm": 8,
  "stamp_ns": 1735689600000000000,
  "ttl_ms": 500
}

为什么不用 protobuf?JSON 慢、大、但人能读。在我们这个量级(1-2 Hz 消息),可调试性 ≫ 性能。等 Y2 商用扩到 100+ 机器人时再切 protobuf 不晚。

primitive 字段的妙处:把"摘"原子化成 4 个动作 (approach / grasp / twist_pluck / retract),每个原子动作绑定一个小脑专用策略 (4 个 Diffusion Policy heads,共享 backbone)。跨水果换作物时,primitive 序列变化(番茄是 approach→grasp→twist→retract,枸杞是 approach→shake→catch→retract),但中层接口稳定。

III
chapter iii

数据 · 训练

公开论文里 Diffusion Policy 真实任务跨度 90-284 demo,不是营销材料里的 50。LeRobot v0.5.1 是工程级框架——成熟模块加上务实的 patch 计划即可上生产。

08数据需求曲线

每个数字都可以 trace 到论文的具体 Table 或 Figure。

论文 / 任务demo 数成功率环境引用
DP Push-T (real)13695 %tabletopChi 2023 T3
DP Pour 6DoF9079 % IoUreal-robotChi 2023 §7
DP Mug Flip250~90 %tabletopChi 2023 §7
DP Shirt Folding284deformableChi 2023 §7.5
iDP3 Pick / Pour / Wipe10 × 39–10 / 10indoorZe 2024 §IV-D
Robofruit strawberry83 % pluckpolytunnelParsa 2024 JFR
WSU strawberry + fan58 → 74 % (+15)outdoorCEA 2025 110684
Cherry tomato Rong57.7 %greenhouseRong 2024 JFR
Grape dual-arm96.7 %vineyardFrontiers 2022
π0.5 LIBERO Long-105092.4 %sim blockopenpi README
OpenVLA-OFT LIBERO5094.5 %sim blockOFT §V Tbl I
我们的预算

番茄主基线 150-300 demo(一次性投入,用 SO-101 leader-follower 收集,3 周 × 2 人)。枸杞 / 冬枣 LoRA 100-200 demo(rank 32 微调,单卡 4090 跑 4-6 小时)。我们承诺的真实成本和论文数据匹配——不是 marketing 上的 50。

09LeRobot v0.5.1

HuggingFace LeRobot 是 2026 年 4 月发布的 v0.5.1,commit 1396b9fab7。我们对每个 policy 模块、PEFT 集成、RTC 集成都做了源码审计。下面是可以直接用 vs 需要 patch的清单。

状态模块路径 / 说明
✓ 已成熟ACT + DPsrc/lerobot/policies/{act,diffusion}/
✓ 已成熟LeRobotDataset v3.0新分片格式 · 转换器 convert_v21_to_v30
✓ 已成熟PEFT 集成pretrained.py:wrap_with_peft + peft 0.18.1
✓ 已成熟RTC 集成policies/rtc/modeling_rtc.py · π0 / π0.5 / π0F / SmolVLA
✓ 已成熟SO-100 / 101lerobot-calibrate · Feetech 真支持
✓ 已成熟Async gRPCpolicy_server.py · 真生产架构
⚠ 需 patchONNX / TRT 导出0 个 policy 有 export path · 要自写
⚠ 需 patchπ0.5 inference bugsopen issues #3439 · #3591 · #3425 · 待修
⚠ 需 patchDP-async crash#3445 stack expects non-empty TensorList
⚠ 需 patch校准越界#3585 / #3587 写超 min/max 无警告
⚠ 需 patchiDP3 不在仓库需自己 fork 集成
⚠ 需 patch无 wall-clock benchmarkbenchmarks/ 目录无数据 · 要自测

典型的训练命令(从 SO-101 收数据 → 训 Diffusion Policy → 跨水果 LoRA 微调):

# 1. 安装 v0.5.1
$ pip install lerobot[smolvla,pi0]==0.5.1

# 2. 用 SO-101 收 200 demo(番茄基线)
$ lerobot-record \
    --robot.type=so101_follower \
    --teleop.type=so101_leader \
    --dataset.repo_id=$USER/tomato_pick_v1 \
    --dataset.num_episodes=200 \
    --dataset.fps=30

# 3. 训 Diffusion Policy CNN U-Net
$ lerobot-train \
    --dataset.repo_id=$USER/tomato_pick_v1 \
    --policy.type=diffusion \
    --policy.horizon=16 --policy.n_action_steps=8 \
    --batch_size=64 --steps=200000

# 4. 跨作物 LoRA 微调(枸杞 200 demo + 番茄 50 replay)
$ lerobot-train \
    --policy.path=$USER/dp_tomato \
    --peft.method_type=LORA --peft.r=32 \
    --dataset.repo_id=[$USER/goji,$USER/tomato] \
    --dataset.weights=[0.8,0.2] \
    --steps=20000

# 5. 导出 ONNX 给生产用(自写脚本 · 因为官方没有)
$ python scripts/custom_export_onnx.py \
    --checkpoint=$USER/dp_tomato_goji_lora \
    --output=models/goji_v1.onnx --opset=17

10跨作物迁移

跨作物迁移的关键是分清哪些层共享,哪些层 per-crop。我们的设计:

shared trunk · frozen Diffusion Policy CNN U-Net base + ResNet18 vision 0% Δparams 番茄 tomato LoRA r=32 +0.6% Δ · 80 MB data 150–300 demo (base) end-effector 气动软爪 + 扭转 枸杞 goji LoRA r=32 +0.6% Δ · 80 MB data 100–200 demo LoRA end-effector AI 振摇 + 气吸软接 冬枣 winter jujube LoRA r=32 +0.6% Δ · 80 MB data 100–200 demo LoRA end-effector 振摇 + 收集网 Helios 仿真原生支持 cherry tomato · 枸杞 / 冬枣需 4-8 工程师周自写 PhytomerCreationFunction
Figure 3跨作物 LoRA 适配器架构 · 共享骨干 + 每作物分支

为什么 LoRA r=32 而不是 r=8 或 r=64?r=8 的表达力不够拟合一个新作物的动作分布(实验上成功率掉 10-15%),r=64 的参数增多但收益边际递减。32 是 OpenVLA paper 和 LeRobot 默认推荐值——我们没改。

为什么主基线选番茄不选枸杞?(1) Helios 仿真有 cherry tomato 原生支持,可以预训练。(2) 温室番茄全年可采,遥操作数据收集周期不受季节限制。(3) 番茄遮挡结构跟枸杞类似,可作"接近"的迁移源。

IV
chapter iv

作物 · 仿真

三作物路径基于仿真原生支持划分。Helios 程序生成器原生有 cherry tomato,枸杞 / 冬枣需自写组织模型。Isaac Lab 农业资产为零,整套场景要从 Helios USD 导出。

11三作物方案 · 路径合并

80% 代码复用,20% 是末端硬件 + 小脑 LoRA + 数据集。每作物路径标"仿真原生 / 自写"状态。

维度番茄 · base枸杞 · LoRA冬枣 · LoRA
作业季节全年 · 设施6-11 月 · 50 天/年9-10 月 · 30 天/年
种植方式棚架吊蔓 ▲大田丛栽乔化稀植
仿真原生支持Helios cherry tomato ✓需自写 PhytomerFn需自写 PhytomerFn
主路线视觉柔爪 + 扭转AI 振摇 + 气吸软接AI 选择性振落 + 分级
小脑 demo150-300 (base)100-200 (LoRA)100-200 (LoRA)
末端硬件海葵气动软爪多层硅胶气吸金属指 + 振摇头
竞争对手乔戈里 (出口) + 遨博零商业对手 (学术原型)蓝侠 (仅新闻稿)
真 SOTA 数字Rong 2024 57.7%Xu 2015 振动 93.5% (整丛)无 peer-reviewed paper

12仿真:能干什么 · 不能干什么

Helios plugins/plantarchitecture/include/Assets.h 物种清单(commit 1.3.72,2026.05 验证):

Helios 原生支持的物种

Almond · Apple · Cherry Tomato ▲ 我们用 · Tomato ▲ 我们用 · Strawberry · Grapevine (4 trellis types) · Walnut · Pistachio · Olive · Bean · Cowpea · Capsicum · Maize · Rice · Wheat · Sorghum · Soybean · Bougainvillea · Redbud · Bindweed

不支持 · 需自写

柑橘 · Wellington 是 RAMI IV 外部几何
枸杞 Lycium barbarum · 4-8 工程师周自写
冬枣 Ziziphus · 同等工作量

Isaac Lab 农业 assets · ZERO
lab_assets/robots/ · 0 个农业机器人
manager_based/ · 0 个 agriculture / orchard / harvesting

"Find the Fruit" (arXiv 2505.16547) 的真相:Isaac Lab 农业相关最高调的论文,测试用的是塑料假果实——not real plants. 96% sim → 87% real-on-fake.

13硬件 BOM

三档配置覆盖从实验室验证到 Y2 量产。Qwen-VL 改用 3B-AWQ(不是 7B)[7],RK3588 只在量产档跑蒸馏 CNN,双脑省 BOM 但需要工程一季度。

MVP
实验室 · M1-M4

Jetson AGX Orin 64GB  ¥22K
Dobot CR3  ¥28K
D405 + D435  ¥4.1K
自研软爪  ¥1K
铝架 + 电源  ¥2K

台 / 总  ¥57K

Pilot
首批试点 · M5-M12

AGX 单脑  ¥22K
CR3 × 2  ¥56K
3 × 深度相机  ¥6K
软爪 + 振摇  ¥3K
Scout Mini  ¥48K
Livox + RTK  ¥8.3K
台 / 总  ¥143K

Scale
100 台/年 · Y2+

AGX + RK3588 双脑  ¥23K
国产 CR3-OEM × 4  ¥80K
8 × Orbbec  ¥14K
末端模块  ¥6K
拖挂平台  ¥30K
BMS + 电池  ¥10K
台 / 总  ¥163K

V
chapter v

竞品 · 路线

国内 5 家直接对手中 3 家声明仅出自新闻稿,缺少同行评议。SOTA 三件套尚未同时被任何 2024-2026 论文达成——窗口开放。

14中国对手 · 经核实

公司声明证据级别对我们威胁
集萃智造7-DOF + CoPickVLM 90% 成功零主源 · 仅企业稿国家级实验室 · 机构信用
蓝侠机器人 (深圳)冬枣 8s/果 85% <8% 损伤仅 People Daily / Hortidaily冬枣实际对手
乔戈里 (杭州)番茄温室 · 欧洲 EMUS部分可验 · 俄罗斯未验番茄间接对手
遨博智能协作臂 22-33% 市占行业报告可查供应商不是对手
禾芯动力2025.11 · 5 亿估值36Kr / EqualOcean故事股 · 零部署
伟景智能晓唯人形 · 1500 出货通用人形 · 不专采摘平台型
岚江科技S500Pro 5D 导航是喷洒不是采摘误列 · 不是对手
南京农大 汪小旵草莓 84% / 20s · 25%→<2%84%/20s ✓ · 损伤数无源可合作授权
CAS 合肥 + 宁夏大学Xu 2015 振动 93.5% / 2.54%Trans CSAE 2015 论文技术参考 (整丛非选择性)

15SOTA 三件套

跨 12 篇 2024-2026 论文综述后的真实瓶颈——不是夹爪软硬度,是遮挡感知和周期时间

≥ 85% 成功率 在未疏果 · 遮挡条件 2024-26 高: Robofruit 草莓 83% 葡萄双臂 96.7% · 番茄 57.7% ≤ 5% 损伤率 tactile graded 已达: Xu 振动 2.54% 葡萄 3.2% · 草莓软爪 1–4% ≤ 8 s 周期 / 果 selective per-fruit 卡在: NJAU 20s · Rong 24s Ansari 24.34s · 5–10× 人工
Figure 4SOTA 三件套 · 2024-2026 零论文同时达成

三个洞察

  • 软爪硬件不再是瓶颈——损伤率已 ≈ 人类。问题在视觉遮挡 + 周期
  • WSU 草莓加风扇移遮挡 58 → 74%(+15.8 pp)—— "物理介入感知"是新思路
  • Rong 番茄 cut-point 88.5% → 抓取成功率 57.7% — 30 pp 流失在抓取/规划,不在感知前端

166 个月技术里程碑

P50 预算 ¥456K · 2 工程师 · 6 个月。每个里程碑都有 VERIFY 验收点。

阶段任务VERIFY
W 1-4 引导 买 SO-101 + AGX Orin · LeRobot v0.5.1 pin commit · 盆栽番茄收 100 demo Diffusion Policy · 50% 实验室
W 5-8 基线 训 DP + ACT 对比 · RTC 仅对 π0.5 / SmolVLA 测试 · ONNX 自写 export 路径 选 DP · 70% 实验室
W 9-12 真臂 买 Dobot CR3 + 自研软爪 · ROS 2 + MoveIt2 + Zenoh · DP 桌面真臂集成 桌面假番茄 10/10
W 13-16 数据 寿光温室 200-300 demo · RoboSplat 单 demo × 5 augmentation · 70/30 真合成共训 温室真番茄 60-70%
W 17-20 VLM Qwen2.5-VL-3B-AWQ 接入 · JSON schema + bbox 后处理 · 中文指令端到端 中文指令打通
W 21-24 Pilot TensorRT 自定义导出 · 硬件 E-stop + 力限 · 一行温室 pilot 10 颗 · <10% 损伤
closing

为什么这套架构

六个论点。每个都可在前面章节找到具体依据。

01
全栈开源 · 商用许可

22 个核心仓库 · Apache 2.0 / MIT / BSD · 零供应链锁定风险。

02
Diffusion Policy 是首选

唯一同时具备 real-robot 完整栈 · ONNX 可出 · demo 规模匹配。

03
RTC 工程边界清楚

3-12 Hz model + 50 Hz controller · ≤ 300 ms 上游延迟可吸收。

04
番茄 base · LoRA 扩展

Helios cherry tomato 原生 · 100-300 demo / 跨作物。

05
市场空白可验证

国内 5 家直接对手中 3 家无 peer-reviewed 主源 · 第一手数据机会。

06
SOTA 三件套清楚

≥ 85% × ≤ 5% × ≤ 8 s · 我们的工程目标。

引用

  1. Oquab et al. DINOv2: Learning Robust Visual Features without Supervision arXiv 2304.07193 (2023). arxiv.org/abs/2304.07193
  2. Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS 2023. arxiv.org/abs/2303.04137 · code: github.com/real-stanford/diffusion_policy
  3. Kim et al. OpenVLA: An Open-Source Vision-Language-Action Model arXiv 2406.09246 (2024). arxiv.org/abs/2406.09246
  4. Black et al. Real-Time Execution of Action Chunking Flow Policies arXiv 2506.07339 (2025). arxiv.org/abs/2506.07339 · code: github.com/Physical-Intelligence/real-time-chunking-kinetix
  5. HuggingFace LeRobot v0.5.1 (commit 1396b9fab7). github.com/huggingface/lerobot
  6. π0.5 — Physical Intelligence. pi.website/blog/pi05 · openpi: github.com/Physical-Intelligence/openpi
  7. Qwen2.5-VL Technical Report arXiv 2502.13923 (2025) · AWQ Jetson benchmark: NVIDIA Developer Forum thread 345073 (Qwen2.5-VL-3B = 30 tok/s on AGX Orin)
  8. NVIDIA NanoSAM. github.com/NVIDIA-AI-IOT/nanosam
  9. PlantSimulationLab Helios v1.3.72. github.com/PlantSimulationLab/Helios · plugins/plantarchitecture/include/Assets.h
  10. Subedi et al. Find the Fruit: Sim-to-Real Manipulation in Deformable Plant Foliage arXiv 2505.16547 (2025).
  11. Chi et al. real-world DP demo counts: Push-T 136, Pour 90, Mug Flip 250, Shirt 284 (Table 3 + §7).
  12. Ze et al. iDP3 arXiv 2410.10803 (2024) · 15 Hz claim contested by issue #26.
  13. Parsa et al. Robofruit: Automated Strawberry Harvesting Robot J. Field Robotics 2024. DOI 10.1002/rob.22229
  14. Rong et al. A Selective Harvesting Robot for Cherry Tomatoes J. Field Robotics 2024. DOI 10.1002/rob.22377
  15. Xu, He et al. Simulation Analysis and Prototype Test of Vibration Mechanism for Lycium barbarum Picking Trans. CSAE 31(10), 2015.
  16. NJAU sea-anemone gripper announcement. Xinhua 2026-03-30. english.news.cn (84%/20s 已验证;25%→<2% 数据无主源)
  17. Lanxia winter jujube pilot. People's Daily Online 2025-07-17. en.people.cn (新闻稿,无 peer-reviewed paper)
set in
Noto Serif SC (display & body) · JetBrains Mono (code & numerals) · Newsreader (English italic accents)
palette
Terracotta editorial · paper #F4F1E8 · ink #1A1714 · rust accent #B85C2A · sage #5A6B3A
based on
LeRobot v0.5.1 · openpi · Diffusion Policy (Chi 2023) · RTC (Black 2025) · Helios v1.3.72 · Qwen2.5-VL technical report
for
technical due diligence
date
2026 · 05