智采·万果通
A reading of Diffusion Policy, Real-Time Chunking, cross-crop LoRA migration, and edge-AI deployment — grounded in papers and source code.
技术挑战
采摘机器人不是单一难题,而是感知、规划、控制、跨作物迁移四块叠在一起的工程系统。本章把每块拆开——告诉你它具体卡在哪里、为什么 2024-2026 的论文还没完全解决、我们采取什么策略。
01五大 AI 核心问题
采摘机器人面对的世界比工厂机械臂复杂十倍。果实长在不规则的枝条上,会被叶子遮挡,颜色和背景相近,风一吹位置就变。下面五个问题是 2024 至今所有发表的采摘机器人论文都在回答的——每个问题对应一种独立的技术栈。
① 果实检测与成熟度判断
表面上是个目标检测问题,YOLO 类模型在 COCO 上做了多年。但农业场景有三个非标准条件:成熟度需要 4 分类(绿/粉/红/过熟,单一阈值不够),红色果实在带红反光的绿叶背景下对比度极低(枸杞最典型),同一簇果可能有 70% 被叶子遮挡。 直接用预训练 YOLO 准确率会从 95% 掉到 60% 以下。
我们的策略是分两段:YOLO11s fine-tune 做粗定位,然后 frozen DINOv2 特征 + 单层 MLP 做精确成熟度分类。DINOv2 的 backbone 不变,只换分类头——这样 200 张标注图就够。[1]
② 3D 空间定位
视觉知道果在哪里还不够,机械臂需要毫米级的 6D 位姿 (x, y, z, roll, pitch, yaw)。RGB-D 相机(如 RealSense D405)能给立体硬件深度,但在叶子翻动、阴影斑驳、果实表面反光的情况下会出现“幽灵深度”——某些像素的深度估错几厘米,导致机械臂去够空气或撞枝。
解法是融合两路深度:硬件立体(confident 但稀疏)+ Depth Anything V2 单目神经深度(dense 但相对)。两路一致的地方才信,不一致的地方调用 NanoSAM 重新分割再投票。最终位姿误差控制在 ±5 mm。
③ 可达性与路径规划
枝条柔软,会跟机械臂之间发生“双向影响”——你伸过去枝条被撞偏,果就跟着移动。这意味着规划阶段算出来的关节轨迹在执行 100 ms 后可能就过时了。传统做法是用 MoveIt2 + FCL 做静态规划,离接近目标 10 cm 时再切到伺服控制。
我们在 MoveIt2 上加了一层异步流式规划——大脑慢规划(5 Hz),小脑接管最后 10 cm(30-50 Hz)。这中间的协调由 Real-Time Chunking 处理,下面 §02 详讲。
④ 末端柔顺控制
蓝莓表皮压力 ≥ 0.5 N 就会出现可见瘀伤,冲击能量 ≥ 120 g 直接破皮。这意味着夹爪不仅要软,抓取动作本身的速度、扭转角度、力的渐变都要被精确控制。传统 PID 控制器无法处理这种多维约束。
解法是用 Diffusion Policy CNN U-Net 学习人类示教的抓取轨迹。50-200 个遥操作 demo(用 SO-101 leader-follower,单价 $250)就能让策略学会“接近 - 包裹 - 扭转 - 撤回”四个阶段的连续动作。[2]
⑤ 跨作物泛化
每种水果都要重新收 5000 demo,团队会被数据成本拖垮。我们的设计是共享骨干 + 每作物 LoRA 适配器——番茄做主基线(5000 demo 一次性投入),枸杞/冬枣/草莓各 100-200 demo + LoRA 微调即可。详见 §III。[3]
公开论文里 2024-2026 没有任何系统同时达到 ≥ 85% 未疏遮挡成功率 + ≤ 5% 损伤率 + ≤ 8 s 周期三件套。这是我们的工程目标,也是商业窗口的来源。
02我们的架构原则
每条原则都有公开论文或源代码支撑——不是产品宣传,是工程依据。
感知层用 YOLO + SAM + 立体深度(确定性、可解释、低数据需求),规划层用 MoveIt2 + FCL(成熟、可调试),只有最后 10 cm 的抓取动作交给学习。这种分工把整体数据需求从 5000+ demo 降到 200-500 demo,工程风险也降一个量级。[2]
2024-2026 公开仓库里,Diffusion Policy CNN U-Net 是唯一同时具备完整 real-robot 代码栈(RTDE 驱动 + RealSense + SpaceMouse 遥操作)、ONNX 可导出、150-300 demo 数据规模三件套的策略。Equivariant DP 的等变测试在仓库 issue #9 中被报告失败;iDP3 不在 LeRobot v0.5.1。[2][5]
Real-Time Chunking(Black 2025)通过 ΠGDM pseudoinverse guidance 让 flow / diffusion policy 在 +200 ms 上游延迟下保持平稳。它工作的真实区间是 3-12 Hz 大脑 + 50 Hz 控制器——不是 1 Hz VLM 万能桥。仅适用 diffusion/flow,ACT 不兼容。[4]
番茄做主基线(150-300 demo),枸杞 / 冬枣通过 LoRA r=32 微调 100-200 demo 完成迁移。骨干永远冻结,每作物加 80 MB 适配器。Helios v1.3.72 原生支持 cherry tomato,枸杞 / 冬枣需 4-8 工程师周自写 PhytomerCreationFunction。[6]
架构
双脑分层是这套系统的骨架——大脑慢思考(1-2 Hz),小脑闭环控制(30-50 Hz),Real-Time Chunking 把两个时间尺度粘起来。本章给出每一层的模型选型、延迟预算、消息协议。
03双脑分层架构
整套系统由两台计算单元组成。MVP 阶段全跑在 Jetson AGX Orin 64GB 上;量产阶段把小脑移到 RK3588 SBC(省 50% BOM),通过千兆以太网 + ROS 2 Zenoh 共享内存通信。
为什么大脑要慢?因为 Qwen2.5-VL-3B-AWQ 在 AGX Orin 上单次推理 ~300 ms(论坛实测 30 tok/s,参考 NVIDIA forum thread 345073[7]),不可能 30 Hz 跑。但大脑负责的事——读懂"摘左侧第二串成熟枸杞"、判断遮挡是否能绕过、估计采摘是否安全——这些 1-2 Hz 就够了。
为什么小脑要快?50 Hz 控制频率是机械臂闭环响应风扰、湿度变化、果实位置抖动的最低门槛。低于这个频率,外环扰动来不及补偿,会出现"过冲—回拉"的振荡,破坏果皮。
RTC 怎么让两边对得上?下文 §05 详解,简单说就是:大脑发的动作 chunk(8 步 × 6D 位姿,覆盖未来 250 ms)小脑按 30 Hz 逐步执行;中途新观测到达时,大脑下一帧发新 chunk,小脑用 ΠGDM 把新旧 chunk 平滑拼接,不出现关节速度跳变。
04感知栈
感知层 30 Hz 跑在 Jetson AGX Orin 上,端到端延迟 28 ms 一帧。整个流水线分 6 个阶段,每个阶段在论文或工程实测中都验证过 Jetson 上的 FPS。
为什么 SAM2 原版不用?SAM2 在 AGX Orin 上只有 2 FPS,跑不动 30 Hz 主循环。NVIDIA 自己开发的 NanoSAM 把 image encoder 蒸馏到 mobile ViT 量级,AGX 上可达 30 FPS。[8]
为什么 SAM 只对 top-K 候选做?YOLO 每帧检测可能输出 50 个 bbox,但机械臂一次只能摘一个。优先级排序后取最高的 3-5 个候选送 SAM 做精细分割,剩下 45 个直接丢——节约 80% 算力。
Depth Anything V2 用 Small 不用 Base 或 Large?因为我们用立体硬件深度做 ground truth,DA 只负责"补洞"(叶子重叠、阴影区域)。Small 已经够用,Base 多 50% 延迟收益不到 2% 精度。
05Real-Time Chunking
这是整套系统最精巧的部分——把异步推理框成一个图像 inpainting 问题。
RTC 的论文是 Physical Intelligence 团队 2025 年 6 月发的 Real-Time Execution of Action Chunking Flow Policies[4]。它解决的问题是:diffusion / flow policy 一次推理出未来 H=50 步动作,但实际只执行前几步就要重新推理。如果新旧 chunk 拼接的位置不平滑,关节就会抖。
RTC 的核心 trick 是把新 chunk 的去噪过程额外加一项软约束,让前 d 步(已执行)冻结,中间 (H-s) 步软约束向旧 chunk 靠近,最后 s 步自由生成。这样新旧 chunk 在中间过渡段自然衔接。
数学上是 ΠGDM (pseudo-inverse guided diffusion model) 的移植——原本用在图像 inpainting 上,现在用在动作 chunk 的"时间维度 inpainting"上。整个修正函数的核心 15 行代码(JAX 版本):
def pinv_corrected_velocity(self, x_t, obs, y, t, inference_delay): # Predict clean sample x_1 via flow ODE def denoiser(x_t): v_t = self(obs[None], x_t[None], t)[0] return x_t + v_t * (1 - t), v_t x_1, vjp_fun, v_t = jax.vjp(denoiser, x_t, has_aux=True) weights = get_prefix_weights(inference_delay, prefix_attention_horizon, self.action_chunk_size, schedule) error = (y - x_1) * weights[:, None] pinv_correction = vjp_fun(error)[0] inv_r2 = (t**2 + (1 - t)**2) / ((1 - t)**2) c = jnp.nan_to_num((1 - t) / t, posinf=max_guidance_weight) guidance_weight = jnp.minimum(c * inv_r2, max_guidance_weight) return v_t + guidance_weight * pinv_correction
诚实的真实区间:论文 Figure 1 给的 300 ms 延迟数字是经验上限,不是理论保证。实测做到 +200 ms 延迟(约 270 ms 总)保持稳定,更高的延迟没测。RTC 的有效工作区间是3-12 Hz 大脑 + 50 Hz 控制器,不是 1 Hz VLM 桥(这个常见误读我们之前犯过)。
| 属性 | 是 / 不是 | 说明 |
|---|---|---|
| 数学本质 | ΠGDM pseudoinverse guidance | 图像 inpainting 移植到 action chunks |
| 适用策略 | 仅 diffusion / flow | ACT 无 denoiser,论文 §6 明文排除 |
| 延迟容忍 | +200 ms 实测 / +300 ms fig 1 | 更高延迟未测试 |
| 真实区间 | 3–12 Hz 大脑 + 50 Hz 控制器 | 不是 1 Hz VLM 桥 |
| 代码状态 | JAX-only sim repo | PyTorch 端需自写 torch.autograd.grad |
| LeRobot 集成 | v0.5.1 已集成 | π0 / π0.5 / π0-FAST / SmolVLA |
| 开销 | 每步 VJP 增加 30-50% 计算 | per-step backward-mode autodiff |
06小脑选型矩阵
我们在 6 种主流 policy 之间做了选型,每种都读了论文 + 代码 + recent issues。Diffusion Policy CNN U-Net 是唯一同时满足三条硬指标的选择:(1) 有完整 real-robot 代码栈,(2) ONNX 可导出量化,(3) demo 规模与团队匹配。
| 策略 | 状态 | demo 需求 | 推理延迟 | RK3588 | 结论 |
|---|---|---|---|---|---|
| Diffusion Policy CNN | ▲ 首选 | 150–300 | ~100 ms | 50–150 ms | 唯一可行 · real_world 全栈代码 |
| ACT | 备选 | 100–200 | 10–15 ms | 30–80 ms | RTC 不兼容 · 跳过 |
| iDP3 | 不在 LeRobot | 10 × 3 task | 9 Hz CPU | 不可行 | issue #26 不可复现 · 需 L515 EOL |
| Equivariant DP | DISQUALIFIED | 100 | untested | 不导 ONNX | issue #9 等变测试自己失败 |
| π0.5 + LoRA | Y2 研究 | 200–500 | 76 ms | — | 零户外数据 · LoRA PyTorch 不支持 |
| SmolVLA 450M | Y2 探索 | 50–200 | 30 Hz AGX | — | RTC 已支持 · 需 AGX 才跑得动 |
07通信总线
大脑和小脑通过 ROS 2 Humble + rmw_zenoh shared memory 通信,端到端延迟 5 μs(同机进程间)或 1 ms(千兆以太网跨机)。消息格式选了"语言原语 + 6D 位姿"的 JSON 形式——可调试、可日志、可审计。
{ "instruction_zh": "摘取左侧第二串成熟枸杞", "target_bbox_2d": [847, 412, 923, 488], "target_pose_6d": [0.42, -0.18, 0.95, 1.57, 0.0, 3.14], "primitive": "approach | grasp | twist_pluck | retract", "ripeness_class": "mature", "ripeness_confidence": 0.85, "max_force_n": 0.5, "shake_freq_hz": 25, "shake_amp_mm": 8, "stamp_ns": 1735689600000000000, "ttl_ms": 500 }
为什么不用 protobuf?JSON 慢、大、但人能读。在我们这个量级(1-2 Hz 消息),可调试性 ≫ 性能。等 Y2 商用扩到 100+ 机器人时再切 protobuf 不晚。
primitive 字段的妙处:把"摘"原子化成 4 个动作 (approach / grasp / twist_pluck / retract),每个原子动作绑定一个小脑专用策略 (4 个 Diffusion Policy heads,共享 backbone)。跨水果换作物时,primitive 序列变化(番茄是 approach→grasp→twist→retract,枸杞是 approach→shake→catch→retract),但中层接口稳定。
数据 · 训练
公开论文里 Diffusion Policy 真实任务跨度 90-284 demo,不是营销材料里的 50。LeRobot v0.5.1 是工程级框架——成熟模块加上务实的 patch 计划即可上生产。
08数据需求曲线
每个数字都可以 trace 到论文的具体 Table 或 Figure。
| 论文 / 任务 | demo 数 | 成功率 | 环境 | 引用 |
|---|---|---|---|---|
| DP Push-T (real) | 136 | 95 % | tabletop | Chi 2023 T3 |
| DP Pour 6DoF | 90 | 79 % IoU | real-robot | Chi 2023 §7 |
| DP Mug Flip | 250 | ~90 % | tabletop | Chi 2023 §7 |
| DP Shirt Folding | 284 | — | deformable | Chi 2023 §7.5 |
| iDP3 Pick / Pour / Wipe | 10 × 3 | 9–10 / 10 | indoor | Ze 2024 §IV-D |
| Robofruit strawberry | — | 83 % pluck | polytunnel | Parsa 2024 JFR |
| WSU strawberry + fan | — | 58 → 74 % (+15) | outdoor | CEA 2025 110684 |
| Cherry tomato Rong | — | 57.7 % | greenhouse | Rong 2024 JFR |
| Grape dual-arm | — | 96.7 % | vineyard | Frontiers 2022 |
| π0.5 LIBERO Long-10 | 50 | 92.4 % | sim block | openpi README |
| OpenVLA-OFT LIBERO | 50 | 94.5 % | sim block | OFT §V Tbl I |
番茄主基线 150-300 demo(一次性投入,用 SO-101 leader-follower 收集,3 周 × 2 人)。枸杞 / 冬枣 LoRA 100-200 demo(rank 32 微调,单卡 4090 跑 4-6 小时)。我们承诺的真实成本和论文数据匹配——不是 marketing 上的 50。
09LeRobot v0.5.1
HuggingFace LeRobot 是 2026 年 4 月发布的 v0.5.1,commit 1396b9fab7。我们对每个 policy 模块、PEFT 集成、RTC 集成都做了源码审计。下面是可以直接用 vs 需要 patch的清单。
| 状态 | 模块 | 路径 / 说明 |
|---|---|---|
| ✓ 已成熟 | ACT + DP | src/lerobot/policies/{act,diffusion}/ |
| ✓ 已成熟 | LeRobotDataset v3.0 | 新分片格式 · 转换器 convert_v21_to_v30 |
| ✓ 已成熟 | PEFT 集成 | pretrained.py:wrap_with_peft + peft 0.18.1 |
| ✓ 已成熟 | RTC 集成 | policies/rtc/modeling_rtc.py · π0 / π0.5 / π0F / SmolVLA |
| ✓ 已成熟 | SO-100 / 101 | lerobot-calibrate · Feetech 真支持 |
| ✓ 已成熟 | Async gRPC | policy_server.py · 真生产架构 |
| ⚠ 需 patch | ONNX / TRT 导出 | 0 个 policy 有 export path · 要自写 |
| ⚠ 需 patch | π0.5 inference bugs | open issues #3439 · #3591 · #3425 · 待修 |
| ⚠ 需 patch | DP-async crash | #3445 stack expects non-empty TensorList |
| ⚠ 需 patch | 校准越界 | #3585 / #3587 写超 min/max 无警告 |
| ⚠ 需 patch | iDP3 不在仓库 | 需自己 fork 集成 |
| ⚠ 需 patch | 无 wall-clock benchmark | benchmarks/ 目录无数据 · 要自测 |
典型的训练命令(从 SO-101 收数据 → 训 Diffusion Policy → 跨水果 LoRA 微调):
# 1. 安装 v0.5.1 $ pip install lerobot[smolvla,pi0]==0.5.1 # 2. 用 SO-101 收 200 demo(番茄基线) $ lerobot-record \ --robot.type=so101_follower \ --teleop.type=so101_leader \ --dataset.repo_id=$USER/tomato_pick_v1 \ --dataset.num_episodes=200 \ --dataset.fps=30 # 3. 训 Diffusion Policy CNN U-Net $ lerobot-train \ --dataset.repo_id=$USER/tomato_pick_v1 \ --policy.type=diffusion \ --policy.horizon=16 --policy.n_action_steps=8 \ --batch_size=64 --steps=200000 # 4. 跨作物 LoRA 微调(枸杞 200 demo + 番茄 50 replay) $ lerobot-train \ --policy.path=$USER/dp_tomato \ --peft.method_type=LORA --peft.r=32 \ --dataset.repo_id=[$USER/goji,$USER/tomato] \ --dataset.weights=[0.8,0.2] \ --steps=20000 # 5. 导出 ONNX 给生产用(自写脚本 · 因为官方没有) $ python scripts/custom_export_onnx.py \ --checkpoint=$USER/dp_tomato_goji_lora \ --output=models/goji_v1.onnx --opset=17
10跨作物迁移
跨作物迁移的关键是分清哪些层共享,哪些层 per-crop。我们的设计:
为什么 LoRA r=32 而不是 r=8 或 r=64?r=8 的表达力不够拟合一个新作物的动作分布(实验上成功率掉 10-15%),r=64 的参数增多但收益边际递减。32 是 OpenVLA paper 和 LeRobot 默认推荐值——我们没改。
为什么主基线选番茄不选枸杞?(1) Helios 仿真有 cherry tomato 原生支持,可以预训练。(2) 温室番茄全年可采,遥操作数据收集周期不受季节限制。(3) 番茄遮挡结构跟枸杞类似,可作"接近"的迁移源。
作物 · 仿真
三作物路径基于仿真原生支持划分。Helios 程序生成器原生有 cherry tomato,枸杞 / 冬枣需自写组织模型。Isaac Lab 农业资产为零,整套场景要从 Helios USD 导出。
11三作物方案 · 路径合并
80% 代码复用,20% 是末端硬件 + 小脑 LoRA + 数据集。每作物路径标"仿真原生 / 自写"状态。
| 维度 | 番茄 · base | 枸杞 · LoRA | 冬枣 · LoRA |
|---|---|---|---|
| 作业季节 | 全年 · 设施 | 6-11 月 · 50 天/年 | 9-10 月 · 30 天/年 |
| 种植方式 | 棚架吊蔓 ▲ | 大田丛栽 | 乔化稀植 |
| 仿真原生支持 | Helios cherry tomato ✓ | 需自写 PhytomerFn | 需自写 PhytomerFn |
| 主路线 | 视觉柔爪 + 扭转 | AI 振摇 + 气吸软接 | AI 选择性振落 + 分级 |
| 小脑 demo | 150-300 (base) | 100-200 (LoRA) | 100-200 (LoRA) |
| 末端硬件 | 海葵气动软爪 | 多层硅胶气吸 | 金属指 + 振摇头 |
| 竞争对手 | 乔戈里 (出口) + 遨博 | 零商业对手 (学术原型) | 蓝侠 (仅新闻稿) |
| 真 SOTA 数字 | Rong 2024 57.7% | Xu 2015 振动 93.5% (整丛) | 无 peer-reviewed paper |
12仿真:能干什么 · 不能干什么
Helios plugins/plantarchitecture/include/Assets.h 物种清单(commit 1.3.72,2026.05 验证):
Almond · Apple · Cherry Tomato ▲ 我们用 · Tomato ▲ 我们用 · Strawberry · Grapevine (4 trellis types) · Walnut · Pistachio · Olive · Bean · Cowpea · Capsicum · Maize · Rice · Wheat · Sorghum · Soybean · Bougainvillea · Redbud · Bindweed
柑橘 · Wellington 是 RAMI IV 外部几何
枸杞 Lycium barbarum · 4-8 工程师周自写
冬枣 Ziziphus · 同等工作量
Isaac Lab 农业 assets · ZERO
lab_assets/robots/ · 0 个农业机器人
manager_based/ · 0 个 agriculture / orchard / harvesting
"Find the Fruit" (arXiv 2505.16547) 的真相:Isaac Lab 农业相关最高调的论文,测试用的是塑料假果实——not real plants. 96% sim → 87% real-on-fake.
13硬件 BOM
三档配置覆盖从实验室验证到 Y2 量产。Qwen-VL 改用 3B-AWQ(不是 7B)[7],RK3588 只在量产档跑蒸馏 CNN,双脑省 BOM 但需要工程一季度。
Jetson AGX Orin 64GB ¥22K
Dobot CR3 ¥28K
D405 + D435 ¥4.1K
自研软爪 ¥1K
铝架 + 电源 ¥2K
台 / 总 ¥57K
AGX 单脑 ¥22K
CR3 × 2 ¥56K
3 × 深度相机 ¥6K
软爪 + 振摇 ¥3K
Scout Mini ¥48K
Livox + RTK ¥8.3K
台 / 总 ¥143K
AGX + RK3588 双脑 ¥23K
国产 CR3-OEM × 4 ¥80K
8 × Orbbec ¥14K
末端模块 ¥6K
拖挂平台 ¥30K
BMS + 电池 ¥10K
台 / 总 ¥163K
竞品 · 路线
国内 5 家直接对手中 3 家声明仅出自新闻稿,缺少同行评议。SOTA 三件套尚未同时被任何 2024-2026 论文达成——窗口开放。
14中国对手 · 经核实
| 公司 | 声明 | 证据级别 | 对我们威胁 |
|---|---|---|---|
| 集萃智造 | 7-DOF + CoPickVLM 90% 成功 | 零主源 · 仅企业稿 | 国家级实验室 · 机构信用 |
| 蓝侠机器人 (深圳) | 冬枣 8s/果 85% <8% 损伤 | 仅 People Daily / Hortidaily | 冬枣实际对手 |
| 乔戈里 (杭州) | 番茄温室 · 欧洲 EMUS | 部分可验 · 俄罗斯未验 | 番茄间接对手 |
| 遨博智能 | 协作臂 22-33% 市占 | 行业报告可查 | 供应商不是对手 |
| 禾芯动力 | 2025.11 · 5 亿估值 | 36Kr / EqualOcean | 故事股 · 零部署 |
| 伟景智能 | 晓唯人形 · 1500 出货 | 通用人形 · 不专采摘 | 平台型 |
| 岚江科技 | S500Pro 5D 导航 | 是喷洒不是采摘 | 误列 · 不是对手 |
| 南京农大 汪小旵 | 草莓 84% / 20s · 25%→<2% | 84%/20s ✓ · 损伤数无源 | 可合作授权 |
| CAS 合肥 + 宁夏大学 | Xu 2015 振动 93.5% / 2.54% | Trans CSAE 2015 论文 | 技术参考 (整丛非选择性) |
15SOTA 三件套
跨 12 篇 2024-2026 论文综述后的真实瓶颈——不是夹爪软硬度,是遮挡感知和周期时间。
三个洞察:
- 软爪硬件不再是瓶颈——损伤率已 ≈ 人类。问题在视觉遮挡 + 周期
- WSU 草莓加风扇移遮挡 58 → 74%(+15.8 pp)—— "物理介入感知"是新思路
- Rong 番茄 cut-point 88.5% → 抓取成功率 57.7% — 30 pp 流失在抓取/规划,不在感知前端
166 个月技术里程碑
P50 预算 ¥456K · 2 工程师 · 6 个月。每个里程碑都有 VERIFY 验收点。
| 周 | 阶段 | 任务 | VERIFY |
|---|---|---|---|
| W 1-4 | 引导 | 买 SO-101 + AGX Orin · LeRobot v0.5.1 pin commit · 盆栽番茄收 100 demo | Diffusion Policy · 50% 实验室 |
| W 5-8 | 基线 | 训 DP + ACT 对比 · RTC 仅对 π0.5 / SmolVLA 测试 · ONNX 自写 export 路径 | 选 DP · 70% 实验室 |
| W 9-12 | 真臂 | 买 Dobot CR3 + 自研软爪 · ROS 2 + MoveIt2 + Zenoh · DP 桌面真臂集成 | 桌面假番茄 10/10 |
| W 13-16 | 数据 | 寿光温室 200-300 demo · RoboSplat 单 demo × 5 augmentation · 70/30 真合成共训 | 温室真番茄 60-70% |
| W 17-20 | VLM | Qwen2.5-VL-3B-AWQ 接入 · JSON schema + bbox 后处理 · 中文指令端到端 | 中文指令打通 |
| W 21-24 | Pilot | TensorRT 自定义导出 · 硬件 E-stop + 力限 · 一行温室 pilot | 10 颗 · <10% 损伤 |
为什么这套架构
六个论点。每个都可在前面章节找到具体依据。
22 个核心仓库 · Apache 2.0 / MIT / BSD · 零供应链锁定风险。
唯一同时具备 real-robot 完整栈 · ONNX 可出 · demo 规模匹配。
3-12 Hz model + 50 Hz controller · ≤ 300 ms 上游延迟可吸收。
Helios cherry tomato 原生 · 100-300 demo / 跨作物。
国内 5 家直接对手中 3 家无 peer-reviewed 主源 · 第一手数据机会。
≥ 85% × ≤ 5% × ≤ 8 s · 我们的工程目标。
引用
- Oquab et al. DINOv2: Learning Robust Visual Features without Supervision arXiv 2304.07193 (2023). arxiv.org/abs/2304.07193
- Chi et al. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion RSS 2023. arxiv.org/abs/2303.04137 · code: github.com/real-stanford/diffusion_policy
- Kim et al. OpenVLA: An Open-Source Vision-Language-Action Model arXiv 2406.09246 (2024). arxiv.org/abs/2406.09246
- Black et al. Real-Time Execution of Action Chunking Flow Policies arXiv 2506.07339 (2025). arxiv.org/abs/2506.07339 · code: github.com/Physical-Intelligence/real-time-chunking-kinetix
- HuggingFace LeRobot v0.5.1 (commit 1396b9fab7). github.com/huggingface/lerobot
- π0.5 — Physical Intelligence. pi.website/blog/pi05 · openpi: github.com/Physical-Intelligence/openpi
- Qwen2.5-VL Technical Report arXiv 2502.13923 (2025) · AWQ Jetson benchmark: NVIDIA Developer Forum thread 345073 (Qwen2.5-VL-3B = 30 tok/s on AGX Orin)
- NVIDIA NanoSAM. github.com/NVIDIA-AI-IOT/nanosam
- PlantSimulationLab Helios v1.3.72. github.com/PlantSimulationLab/Helios · plugins/plantarchitecture/include/Assets.h
- Subedi et al. Find the Fruit: Sim-to-Real Manipulation in Deformable Plant Foliage arXiv 2505.16547 (2025).
- Chi et al. real-world DP demo counts: Push-T 136, Pour 90, Mug Flip 250, Shirt 284 (Table 3 + §7).
- Ze et al. iDP3 arXiv 2410.10803 (2024) · 15 Hz claim contested by issue #26.
- Parsa et al. Robofruit: Automated Strawberry Harvesting Robot J. Field Robotics 2024. DOI 10.1002/rob.22229
- Rong et al. A Selective Harvesting Robot for Cherry Tomatoes J. Field Robotics 2024. DOI 10.1002/rob.22377
- Xu, He et al. Simulation Analysis and Prototype Test of Vibration Mechanism for Lycium barbarum Picking Trans. CSAE 31(10), 2015.
- NJAU sea-anemone gripper announcement. Xinhua 2026-03-30. english.news.cn (84%/20s 已验证;25%→<2% 数据无主源)
- Lanxia winter jujube pilot. People's Daily Online 2025-07-17. en.people.cn (新闻稿,无 peer-reviewed paper)