technical architecture whitepaper

智采·万果通

AI 采摘机器人技术架构

A reading of Diffusion Policy, Real-Time Chunking, cross-crop LoRA migration, and edge-AI deployment — grounded in papers and source code.

36 亿

枸杞采摘 TAM / 年

150–300

demo / crop · DP CNN

≤ 8 s

selective 周期目标 / 果

chapter i

技术挑战

采摘机器人不是单一难题，而是感知、规划、控制、跨作物迁移四块叠在一起的工程系统。本章把每块拆开——告诉你它具体卡在哪里、为什么 2024-2026 的论文还没完全解决、我们采取什么策略。

01五大 AI 核心问题

采摘机器人面对的世界比工厂机械臂复杂十倍。果实长在不规则的枝条上，会被叶子遮挡，颜色和背景相近，风一吹位置就变。下面五个问题是 2024 至今所有发表的采摘机器人论文都在回答的——每个问题对应一种独立的技术栈。

① 果实检测与成熟度判断

表面上是个目标检测问题，YOLO 类模型在 COCO 上做了多年。但农业场景有三个非标准条件：成熟度需要 4 分类（绿/粉/红/过熟，单一阈值不够），红色果实在带红反光的绿叶背景下对比度极低（枸杞最典型），同一簇果可能有 70% 被叶子遮挡。直接用预训练 YOLO 准确率会从 95% 掉到 60% 以下。

我们的策略是分两段：YOLO11s fine-tune 做粗定位，然后 frozen DINOv2 特征 + 单层 MLP 做精确成熟度分类。DINOv2 的 backbone 不变，只换分类头——这样 200 张标注图就够。[1]

② 3D 空间定位

视觉知道果在哪里还不够，机械臂需要毫米级的 6D 位姿 (x, y, z, roll, pitch, yaw)。RGB-D 相机（如 RealSense D405）能给立体硬件深度，但在叶子翻动、阴影斑驳、果实表面反光的情况下会出现“幽灵深度”——某些像素的深度估错几厘米，导致机械臂去够空气或撞枝。

解法是融合两路深度：硬件立体（confident 但稀疏）+ Depth Anything V2 单目神经深度（dense 但相对）。两路一致的地方才信，不一致的地方调用 NanoSAM 重新分割再投票。最终位姿误差控制在 ±5 mm。

③ 可达性与路径规划

枝条柔软，会跟机械臂之间发生“双向影响”——你伸过去枝条被撞偏，果就跟着移动。这意味着规划阶段算出来的关节轨迹在执行 100 ms 后可能就过时了。传统做法是用 MoveIt2 + FCL 做静态规划，离接近目标 10 cm 时再切到伺服控制。

我们在 MoveIt2 上加了一层异步流式规划——大脑慢规划（5 Hz），小脑接管最后 10 cm（30-50 Hz）。这中间的协调由 Real-Time Chunking 处理，下面 §02 详讲。

④ 末端柔顺控制

蓝莓表皮压力 ≥ 0.5 N 就会出现可见瘀伤，冲击能量 ≥ 120 g 直接破皮。这意味着夹爪不仅要软，抓取动作本身的速度、扭转角度、力的渐变都要被精确控制。传统 PID 控制器无法处理这种多维约束。

解法是用 Diffusion Policy CNN U-Net 学习人类示教的抓取轨迹。50-200 个遥操作 demo（用 SO-101 leader-follower，单价 $250）就能让策略学会“接近 - 包裹 - 扭转 - 撤回”四个阶段的连续动作。[2]

⑤ 跨作物泛化

每种水果都要重新收 5000 demo，团队会被数据成本拖垮。我们的设计是共享骨干 + 每作物 LoRA 适配器——番茄做主基线（5000 demo 一次性投入），枸杞/冬枣/草莓各 100-200 demo + LoRA 微调即可。详见 §III。[3]

技术现状

公开论文里 2024-2026 没有任何系统同时达到 ≥ 85% 未疏遮挡成功率 + ≤ 5% 损伤率 + ≤ 8 s 周期三件套。这是我们的工程目标，也是商业窗口的来源。

02我们的架构原则

每条原则都有公开论文或源代码支撑——不是产品宣传，是工程依据。

经典 + 学习混合

感知层用 YOLO + SAM + 立体深度（确定性、可解释、低数据需求），规划层用 MoveIt2 + FCL（成熟、可调试），只有最后 10 cm 的抓取动作交给学习。这种分工把整体数据需求从 5000+ demo 降到 200-500 demo，工程风险也降一个量级。[2]

Diffusion Policy 是首选

2024-2026 公开仓库里，Diffusion Policy CNN U-Net 是唯一同时具备完整 real-robot 代码栈（RTDE 驱动 + RealSense + SpaceMouse 遥操作）、ONNX 可导出、150-300 demo 数据规模三件套的策略。Equivariant DP 的等变测试在仓库 issue #9 中被报告失败；iDP3 不在 LeRobot v0.5.1。[2][5]

RTC 桥接快慢

Real-Time Chunking（Black 2025）通过 ΠGDM pseudoinverse guidance 让 flow / diffusion policy 在 +200 ms 上游延迟下保持平稳。它工作的真实区间是 3-12 Hz 大脑 + 50 Hz 控制器——不是 1 Hz VLM 万能桥。仅适用 diffusion/flow，ACT 不兼容。[4]

跨作物 LoRA 迁移

番茄做主基线（150-300 demo），枸杞 / 冬枣通过 LoRA r=32 微调 100-200 demo 完成迁移。骨干永远冻结，每作物加 80 MB 适配器。Helios v1.3.72 原生支持 cherry tomato，枸杞 / 冬枣需 4-8 工程师周自写 PhytomerCreationFunction。[6]

chapter ii

架构

双脑分层是这套系统的骨架——大脑慢思考（1-2 Hz），小脑闭环控制（30-50 Hz），Real-Time Chunking 把两个时间尺度粘起来。本章给出每一层的模型选型、延迟预算、消息协议。

03双脑分层架构

整套系统由两台计算单元组成。MVP 阶段全跑在 Jetson AGX Orin 64GB 上；量产阶段把小脑移到 RK3588 SBC（省 50% BOM），通过千兆以太网 + ROS 2 Zenoh 共享内存通信。

Figure 1双脑分层架构 · 信息流方向 · 频率分工

为什么大脑要慢？因为 Qwen2.5-VL-3B-AWQ 在 AGX Orin 上单次推理 ~300 ms（论坛实测 30 tok/s，参考 NVIDIA forum thread 345073[7]），不可能 30 Hz 跑。但大脑负责的事——读懂"摘左侧第二串成熟枸杞"、判断遮挡是否能绕过、估计采摘是否安全——这些 1-2 Hz 就够了。

为什么小脑要快？50 Hz 控制频率是机械臂闭环响应风扰、湿度变化、果实位置抖动的最低门槛。低于这个频率，外环扰动来不及补偿，会出现"过冲—回拉"的振荡，破坏果皮。

RTC 怎么让两边对得上？下文 §05 详解，简单说就是：大脑发的动作 chunk（8 步 × 6D 位姿，覆盖未来 250 ms）小脑按 30 Hz 逐步执行；中途新观测到达时，大脑下一帧发新 chunk，小脑用 ΠGDM 把新旧 chunk 平滑拼接，不出现关节速度跳变。

04感知栈

感知层 30 Hz 跑在 Jetson AGX Orin 上，端到端延迟 28 ms 一帧。整个流水线分 6 个阶段，每个阶段在论文或工程实测中都验证过 Jetson 上的 FPS。

Figure 2感知层 6 阶段流水线 · Jetson 实测延迟

为什么 SAM2 原版不用？SAM2 在 AGX Orin 上只有 2 FPS，跑不动 30 Hz 主循环。NVIDIA 自己开发的 NanoSAM 把 image encoder 蒸馏到 mobile ViT 量级，AGX 上可达 30 FPS。[8]

为什么 SAM 只对 top-K 候选做？YOLO 每帧检测可能输出 50 个 bbox，但机械臂一次只能摘一个。优先级排序后取最高的 3-5 个候选送 SAM 做精细分割，剩下 45 个直接丢——节约 80% 算力。

Depth Anything V2 用 Small 不用 Base 或 Large？因为我们用立体硬件深度做 ground truth，DA 只负责"补洞"（叶子重叠、阴影区域）。Small 已经够用，Base 多 50% 延迟收益不到 2% 精度。

05Real-Time Chunking

这是整套系统最精巧的部分——把异步推理框成一个图像 inpainting 问题。

RTC 的论文是 Physical Intelligence 团队 2025 年 6 月发的 Real-Time Execution of Action Chunking Flow Policies[4]。它解决的问题是：diffusion / flow policy 一次推理出未来 H=50 步动作，但实际只执行前几步就要重新推理。如果新旧 chunk 拼接的位置不平滑，关节就会抖。

RTC 的核心 trick 是把新 chunk 的去噪过程额外加一项软约束，让前 d 步（已执行）冻结，中间 (H-s) 步软约束向旧 chunk 靠近，最后 s 步自由生成。这样新旧 chunk 在中间过渡段自然衔接。

数学上是 ΠGDM (pseudo-inverse guided diffusion model) 的移植——原本用在图像 inpainting 上，现在用在动作 chunk 的"时间维度 inpainting"上。整个修正函数的核心 15 行代码（JAX 版本）：

def pinv_corrected_velocity(self, x_t, obs, y, t, inference_delay):
    # Predict clean sample x_1 via flow ODE
    def denoiser(x_t):
        v_t = self(obs[None], x_t[None], t)[0]
        return x_t + v_t * (1 - t), v_t

    x_1, vjp_fun, v_t = jax.vjp(denoiser, x_t, has_aux=True)
    weights = get_prefix_weights(inference_delay, prefix_attention_horizon,
                                  self.action_chunk_size, schedule)
    error = (y - x_1) * weights[:, None]
    pinv_correction = vjp_fun(error)[0]
    inv_r2 = (t**2 + (1 - t)**2) / ((1 - t)**2)
    c = jnp.nan_to_num((1 - t) / t, posinf=max_guidance_weight)
    guidance_weight = jnp.minimum(c * inv_r2, max_guidance_weight)
    return v_t + guidance_weight * pinv_correction

诚实的真实区间：论文 Figure 1 给的 300 ms 延迟数字是经验上限，不是理论保证。实测做到 +200 ms 延迟（约 270 ms 总）保持稳定，更高的延迟没测。RTC 的有效工作区间是3-12 Hz 大脑 + 50 Hz 控制器，不是 1 Hz VLM 桥（这个常见误读我们之前犯过）。

属性	是 / 不是	说明
数学本质	ΠGDM pseudoinverse guidance	图像 inpainting 移植到 action chunks
适用策略	仅 diffusion / flow	ACT 无 denoiser，论文 §6 明文排除
延迟容忍	+200 ms 实测 / +300 ms fig 1	更高延迟未测试
真实区间	3–12 Hz 大脑 + 50 Hz 控制器	不是 1 Hz VLM 桥
代码状态	JAX-only sim repo	PyTorch 端需自写 torch.autograd.grad
LeRobot 集成	v0.5.1 已集成	π0 / π0.5 / π0-FAST / SmolVLA
开销	每步 VJP 增加 30-50% 计算	per-step backward-mode autodiff

06小脑选型矩阵

我们在 6 种主流 policy 之间做了选型，每种都读了论文 + 代码 + recent issues。Diffusion Policy CNN U-Net 是唯一同时满足三条硬指标的选择：(1) 有完整 real-robot 代码栈，(2) ONNX 可导出量化，(3) demo 规模与团队匹配。

策略	状态	demo 需求	推理延迟	RK3588	结论
Diffusion Policy CNN	▲ 首选	150–300	~100 ms	50–150 ms	唯一可行 · real_world 全栈代码
ACT	备选	100–200	10–15 ms	30–80 ms	RTC 不兼容 · 跳过
iDP3	不在 LeRobot	10 × 3 task	9 Hz CPU	不可行	issue #26 不可复现 · 需 L515 EOL
Equivariant DP	DISQUALIFIED	100	untested	不导 ONNX	issue #9 等变测试自己失败
π0.5 + LoRA	Y2 研究	200–500	76 ms	—	零户外数据 · LoRA PyTorch 不支持
SmolVLA 450M	Y2 探索	50–200	30 Hz AGX	—	RTC 已支持 · 需 AGX 才跑得动

07通信总线

大脑和小脑通过 ROS 2 Humble + rmw_zenoh shared memory 通信，端到端延迟 5 μs（同机进程间）或 1 ms（千兆以太网跨机）。消息格式选了"语言原语 + 6D 位姿"的 JSON 形式——可调试、可日志、可审计。

{
  "instruction_zh": "摘取左侧第二串成熟枸杞",
  "target_bbox_2d": [847, 412, 923, 488],
  "target_pose_6d": [0.42, -0.18, 0.95, 1.57, 0.0, 3.14],
  "primitive": "approach | grasp | twist_pluck | retract",
  "ripeness_class": "mature",
  "ripeness_confidence": 0.85,
  "max_force_n": 0.5,
  "shake_freq_hz": 25,
  "shake_amp_mm": 8,
  "stamp_ns": 1735689600000000000,
  "ttl_ms": 500
}

为什么不用 protobuf？JSON 慢、大、但人能读。在我们这个量级（1-2 Hz 消息），可调试性 ≫ 性能。等 Y2 商用扩到 100+ 机器人时再切 protobuf 不晚。

primitive 字段的妙处：把"摘"原子化成 4 个动作 (approach / grasp / twist_pluck / retract)，每个原子动作绑定一个小脑专用策略 (4 个 Diffusion Policy heads，共享 backbone)。跨水果换作物时，primitive 序列变化（番茄是 approach→grasp→twist→retract，枸杞是 approach→shake→catch→retract），但中层接口稳定。

III

chapter iii

数据 · 训练

公开论文里 Diffusion Policy 真实任务跨度 90-284 demo，不是营销材料里的 50。LeRobot v0.5.1 是工程级框架——成熟模块加上务实的 patch 计划即可上生产。

08数据需求曲线

每个数字都可以 trace 到论文的具体 Table 或 Figure。

论文 / 任务	demo 数	成功率	环境	引用
DP Push-T (real)	136	95 %	tabletop	Chi 2023 T3
DP Pour 6DoF	90	79 % IoU	real-robot	Chi 2023 §7
DP Mug Flip	250	~90 %	tabletop	Chi 2023 §7
DP Shirt Folding	284	—	deformable	Chi 2023 §7.5
iDP3 Pick / Pour / Wipe	10 × 3	9–10 / 10	indoor	Ze 2024 §IV-D
Robofruit strawberry	—	83 % pluck	polytunnel	Parsa 2024 JFR
WSU strawberry + fan	—	58 → 74 % (+15)	outdoor	CEA 2025 110684
Cherry tomato Rong	—	57.7 %	greenhouse	Rong 2024 JFR
Grape dual-arm	—	96.7 %	vineyard	Frontiers 2022
π0.5 LIBERO Long-10	50	92.4 %	sim block	openpi README
OpenVLA-OFT LIBERO	50	94.5 %	sim block	OFT §V Tbl I

我们的预算

番茄主基线 150-300 demo（一次性投入，用 SO-101 leader-follower 收集，3 周 × 2 人）。枸杞 / 冬枣 LoRA 100-200 demo（rank 32 微调，单卡 4090 跑 4-6 小时）。我们承诺的真实成本和论文数据匹配——不是 marketing 上的 50。

09LeRobot v0.5.1

HuggingFace LeRobot 是 2026 年 4 月发布的 v0.5.1，commit 1396b9fab7。我们对每个 policy 模块、PEFT 集成、RTC 集成都做了源码审计。下面是可以直接用 vs 需要 patch的清单。

状态	模块	路径 / 说明
✓ 已成熟	ACT + DP	src/lerobot/policies/{act,diffusion}/
✓ 已成熟	LeRobotDataset v3.0	新分片格式 · 转换器 convert_v21_to_v30
✓ 已成熟	PEFT 集成	pretrained.py:wrap_with_peft + peft 0.18.1
✓ 已成熟	RTC 集成	policies/rtc/modeling_rtc.py · π0 / π0.5 / π0F / SmolVLA
✓ 已成熟	SO-100 / 101	lerobot-calibrate · Feetech 真支持
✓ 已成熟	Async gRPC	policy_server.py · 真生产架构
⚠ 需 patch	ONNX / TRT 导出	0 个 policy 有 export path · 要自写
⚠ 需 patch	π0.5 inference bugs	open issues #3439 · #3591 · #3425 · 待修
⚠ 需 patch	DP-async crash	#3445 stack expects non-empty TensorList
⚠ 需 patch	校准越界	#3585 / #3587 写超 min/max 无警告
⚠ 需 patch	iDP3 不在仓库	需自己 fork 集成
⚠ 需 patch	无 wall-clock benchmark	benchmarks/ 目录无数据 · 要自测

典型的训练命令（从 SO-101 收数据 → 训 Diffusion Policy → 跨水果 LoRA 微调）：

# 1. 安装 v0.5.1
$ pip install lerobot[smolvla,pi0]==0.5.1

# 2. 用 SO-101 收 200 demo（番茄基线）
$ lerobot-record \
    --robot.type=so101_follower \
    --teleop.type=so101_leader \
    --dataset.repo_id=$USER/tomato_pick_v1 \
    --dataset.num_episodes=200 \
    --dataset.fps=30

# 3. 训 Diffusion Policy CNN U-Net
$ lerobot-train \
    --dataset.repo_id=$USER/tomato_pick_v1 \
    --policy.type=diffusion \
    --policy.horizon=16 --policy.n_action_steps=8 \
    --batch_size=64 --steps=200000

# 4. 跨作物 LoRA 微调（枸杞 200 demo + 番茄 50 replay）
$ lerobot-train \
    --policy.path=$USER/dp_tomato \
    --peft.method_type=LORA --peft.r=32 \
    --dataset.repo_id=[$USER/goji,$USER/tomato] \
    --dataset.weights=[0.8,0.2] \
    --steps=20000

# 5. 导出 ONNX 给生产用（自写脚本 · 因为官方没有）
$ python scripts/custom_export_onnx.py \
    --checkpoint=$USER/dp_tomato_goji_lora \
    --output=models/goji_v1.onnx --opset=17

10跨作物迁移

跨作物迁移的关键是分清哪些层共享，哪些层 per-crop。我们的设计：

Figure 3跨作物 LoRA 适配器架构 · 共享骨干 + 每作物分支

为什么 LoRA r=32 而不是 r=8 或 r=64？r=8 的表达力不够拟合一个新作物的动作分布（实验上成功率掉 10-15%），r=64 的参数增多但收益边际递减。32 是 OpenVLA paper 和 LeRobot 默认推荐值——我们没改。

为什么主基线选番茄不选枸杞？(1) Helios 仿真有 cherry tomato 原生支持，可以预训练。(2) 温室番茄全年可采，遥操作数据收集周期不受季节限制。(3) 番茄遮挡结构跟枸杞类似，可作"接近"的迁移源。

chapter iv

作物 · 仿真

三作物路径基于仿真原生支持划分。Helios 程序生成器原生有 cherry tomato，枸杞 / 冬枣需自写组织模型。Isaac Lab 农业资产为零，整套场景要从 Helios USD 导出。

11三作物方案 · 路径合并

80% 代码复用，20% 是末端硬件 + 小脑 LoRA + 数据集。每作物路径标"仿真原生 / 自写"状态。

维度	番茄 · base	枸杞 · LoRA	冬枣 · LoRA
作业季节	全年 · 设施	6-11 月 · 50 天/年	9-10 月 · 30 天/年
种植方式	棚架吊蔓 ▲	大田丛栽	乔化稀植
仿真原生支持	Helios cherry tomato ✓	需自写 PhytomerFn	需自写 PhytomerFn
主路线	视觉柔爪 + 扭转	AI 振摇 + 气吸软接	AI 选择性振落 + 分级
小脑 demo	150-300 (base)	100-200 (LoRA)	100-200 (LoRA)
末端硬件	海葵气动软爪	多层硅胶气吸	金属指 + 振摇头
竞争对手	乔戈里 (出口) + 遨博	零商业对手 (学术原型)	蓝侠 (仅新闻稿)
真 SOTA 数字	Rong 2024 57.7%	Xu 2015 振动 93.5% (整丛)	无 peer-reviewed paper

12仿真：能干什么 · 不能干什么

Helios plugins/plantarchitecture/include/Assets.h 物种清单（commit 1.3.72，2026.05 验证）：

✓

Helios 原生支持的物种

Almond · Apple · Cherry Tomato ▲ 我们用 · Tomato ▲ 我们用 · Strawberry · Grapevine (4 trellis types) · Walnut · Pistachio · Olive · Bean · Cowpea · Capsicum · Maize · Rice · Wheat · Sorghum · Soybean · Bougainvillea · Redbud · Bindweed

✗

不支持 · 需自写

柑橘 · Wellington 是 RAMI IV 外部几何
枸杞 Lycium barbarum · 4-8 工程师周自写
冬枣 Ziziphus · 同等工作量

Isaac Lab 农业 assets · ZERO
lab_assets/robots/ · 0 个农业机器人
manager_based/ · 0 个 agriculture / orchard / harvesting

"Find the Fruit" (arXiv 2505.16547) 的真相：Isaac Lab 农业相关最高调的论文，测试用的是塑料假果实——not real plants. 96% sim → 87% real-on-fake.

13硬件 BOM

三档配置覆盖从实验室验证到 Y2 量产。Qwen-VL 改用 3B-AWQ（不是 7B）[7]，RK3588 只在量产档跑蒸馏 CNN，双脑省 BOM 但需要工程一季度。

MVP

实验室 · M1-M4

Jetson AGX Orin 64GB ¥22K
Dobot CR3 ¥28K
D405 + D435 ¥4.1K
自研软爪 ¥1K
铝架 + 电源 ¥2K

台 / 总 ¥57K

Pilot

首批试点 · M5-M12

AGX 单脑 ¥22K
CR3 × 2 ¥56K
3 × 深度相机 ¥6K
软爪 + 振摇 ¥3K
Scout Mini ¥48K
Livox + RTK ¥8.3K
台 / 总 ¥143K

Scale

100 台/年 · Y2+

AGX + RK3588 双脑 ¥23K
国产 CR3-OEM × 4 ¥80K
8 × Orbbec ¥14K
末端模块 ¥6K
拖挂平台 ¥30K
BMS + 电池 ¥10K
台 / 总 ¥163K

chapter v

竞品 · 路线

国内 5 家直接对手中 3 家声明仅出自新闻稿，缺少同行评议。SOTA 三件套尚未同时被任何 2024-2026 论文达成——窗口开放。

14中国对手 · 经核实

公司	声明	证据级别	对我们威胁
集萃智造	7-DOF + CoPickVLM 90% 成功	零主源 · 仅企业稿	国家级实验室 · 机构信用
蓝侠机器人 (深圳)	冬枣 8s/果 85% <8% 损伤	仅 People Daily / Hortidaily	冬枣实际对手
乔戈里 (杭州)	番茄温室 · 欧洲 EMUS	部分可验 · 俄罗斯未验	番茄间接对手
遨博智能	协作臂 22-33% 市占	行业报告可查	供应商不是对手
禾芯动力	2025.11 · 5 亿估值	36Kr / EqualOcean	故事股 · 零部署
伟景智能	晓唯人形 · 1500 出货	通用人形 · 不专采摘	平台型
岚江科技	S500Pro 5D 导航	是喷洒不是采摘	误列 · 不是对手
南京农大汪小旵	草莓 84% / 20s · 25%→<2%	84%/20s ✓ · 损伤数无源	可合作授权
CAS 合肥 + 宁夏大学	Xu 2015 振动 93.5% / 2.54%	Trans CSAE 2015 论文	技术参考 (整丛非选择性)

15SOTA 三件套

跨 12 篇 2024-2026 论文综述后的真实瓶颈——不是夹爪软硬度，是遮挡感知和周期时间。

Figure 4SOTA 三件套 · 2024-2026 零论文同时达成

三个洞察：

软爪硬件不再是瓶颈——损伤率已 ≈ 人类。问题在视觉遮挡 + 周期
WSU 草莓加风扇移遮挡 58 → 74%（+15.8 pp）—— "物理介入感知"是新思路
Rong 番茄 cut-point 88.5% → 抓取成功率 57.7% — 30 pp 流失在抓取/规划，不在感知前端

166 个月技术里程碑

P50 预算 ¥456K · 2 工程师 · 6 个月。每个里程碑都有 VERIFY 验收点。

周	阶段	任务	VERIFY
W 1-4	引导	买 SO-101 + AGX Orin · LeRobot v0.5.1 pin commit · 盆栽番茄收 100 demo	Diffusion Policy · 50% 实验室
W 5-8	基线	训 DP + ACT 对比 · RTC 仅对 π0.5 / SmolVLA 测试 · ONNX 自写 export 路径	选 DP · 70% 实验室
W 9-12	真臂	买 Dobot CR3 + 自研软爪 · ROS 2 + MoveIt2 + Zenoh · DP 桌面真臂集成	桌面假番茄 10/10
W 13-16	数据	寿光温室 200-300 demo · RoboSplat 单 demo × 5 augmentation · 70/30 真合成共训	温室真番茄 60-70%
W 17-20	VLM	Qwen2.5-VL-3B-AWQ 接入 · JSON schema + bbox 后处理 · 中文指令端到端	中文指令打通
W 21-24	Pilot	TensorRT 自定义导出 · 硬件 E-stop + 力限 · 一行温室 pilot	10 颗 · <10% 损伤

closing

为什么这套架构

六个论点。每个都可在前面章节找到具体依据。

全栈开源 · 商用许可

22 个核心仓库 · Apache 2.0 / MIT / BSD · 零供应链锁定风险。

Diffusion Policy 是首选

唯一同时具备 real-robot 完整栈 · ONNX 可出 · demo 规模匹配。

RTC 工程边界清楚

3-12 Hz model + 50 Hz controller · ≤ 300 ms 上游延迟可吸收。

番茄 base · LoRA 扩展

Helios cherry tomato 原生 · 100-300 demo / 跨作物。

市场空白可验证

国内 5 家直接对手中 3 家无 peer-reviewed 主源 · 第一手数据机会。

SOTA 三件套清楚

≥ 85% × ≤ 5% × ≤ 8 s · 我们的工程目标。

引用

Oquab et al. DINOv2: Learning Robust Visual Features without Supervision arXiv 2304.07193 (2023). arxiv.org/abs/2304.07193
Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS 2023. arxiv.org/abs/2303.04137 · code: github.com/real-stanford/diffusion_policy
Kim et al. OpenVLA: An Open-Source Vision-Language-Action Model arXiv 2406.09246 (2024). arxiv.org/abs/2406.09246
Black et al. Real-Time Execution of Action Chunking Flow Policies arXiv 2506.07339 (2025). arxiv.org/abs/2506.07339 · code: github.com/Physical-Intelligence/real-time-chunking-kinetix
HuggingFace LeRobot v0.5.1 (commit 1396b9fab7). github.com/huggingface/lerobot
π0.5 — Physical Intelligence. pi.website/blog/pi05 · openpi: github.com/Physical-Intelligence/openpi
Qwen2.5-VL Technical Report arXiv 2502.13923 (2025) · AWQ Jetson benchmark: NVIDIA Developer Forum thread 345073 (Qwen2.5-VL-3B = 30 tok/s on AGX Orin)
NVIDIA NanoSAM. github.com/NVIDIA-AI-IOT/nanosam
PlantSimulationLab Helios v1.3.72. github.com/PlantSimulationLab/Helios · plugins/plantarchitecture/include/Assets.h
Subedi et al. Find the Fruit: Sim-to-Real Manipulation in Deformable Plant Foliage arXiv 2505.16547 (2025).
Chi et al. real-world DP demo counts: Push-T 136, Pour 90, Mug Flip 250, Shirt 284 (Table 3 + §7).
Ze et al. iDP3 arXiv 2410.10803 (2024) · 15 Hz claim contested by issue #26.
Parsa et al. Robofruit: Automated Strawberry Harvesting Robot J. Field Robotics 2024. DOI 10.1002/rob.22229
Rong et al. A Selective Harvesting Robot for Cherry Tomatoes J. Field Robotics 2024. DOI 10.1002/rob.22377
Xu, He et al. Simulation Analysis and Prototype Test of Vibration Mechanism for Lycium barbarum Picking Trans. CSAE 31(10), 2015.
NJAU sea-anemone gripper announcement. Xinhua 2026-03-30. english.news.cn (84%/20s 已验证；25%→<2% 数据无主源)
Lanxia winter jujube pilot. People's Daily Online 2025-07-17. en.people.cn (新闻稿，无 peer-reviewed paper)

set in

Noto Serif SC (display & body) · JetBrains Mono (code & numerals) · Newsreader (English italic accents)

palette

Terracotta editorial · paper #F4F1E8 · ink #1A1714 · rust accent #B85C2A · sage #5A6B3A

based on

LeRobot v0.5.1 · openpi · Diffusion Policy (Chi 2023) · RTC (Black 2025) · Helios v1.3.72 · Qwen2.5-VL technical report

for

technical due diligence

date

2026 · 05