项目背景
优必选人形机器人挑战赛要求围绕人形机器人操作任务完成数据采集、训练和推理链路。项目重点不是单点 demo,而是能把数据格式、任务适配和模型推理串起来。
Engineering Case Study
把 baseline 复现、LeRobot v2.1 到 v3.0 迁移、100 条操作数据、ACT / Pi0 / SmolVLA 的分工整理成可复盘工程页。
数据规模
100 条
四类任务操作数据,分布细节建议继续补 dataset metadata
任务覆盖
4 类
拣选、流水线分拣、零件嵌入、装箱
模型链路
ACT / Pi0 / SmolVLA
分别用于模仿学习、VLA 策略尝试和推理演示
比赛状态
结果待公布
页面避免写成已获奖项目
01
优必选人形机器人挑战赛要求围绕人形机器人操作任务完成数据采集、训练和推理链路。项目重点不是单点 demo,而是能把数据格式、任务适配和模型推理串起来。
我独立完成官方 baseline 复现、四类任务配置理解、LeRobot 数据采集链路整理、ACT/Pi0 训练尝试与 SmolVLA 推理演示。
建立从仿真任务配置、操作数据采集、LeRobot 数据集整理、策略训练到推理视频展示的可验证链路。
02
四类任务由 UBTECH 仿真配置文件承载,包含流水线分拣、零件嵌入、装箱和零件拣选等场景。
DataLogger 负责把仿真过程中的图像、状态、动作和 episode 信息记录下来,再整理到 LeRobot 可读取的数据结构中。
ACT 主要验证行为克隆 baseline;Pi0 用于测试 VLA policy 训练与配置;SmolVLA 用于把图像输入和语言/任务条件接到推理演示中。
迁移重点在数据集 API、policy 配置、训练脚本入口和兼容字段。页面保留代码链接,后续可补充具体报错截图和修复 commit。
我完成官方 baseline 的本地复现、四类任务配置梳理、100 条操作数据采集、ACT/Pi0 训练链路尝试、SmolVLA 推理演示,以及 LeRobot v2.1 到 v3.0 迁移时的数据结构和脚本入口排查。
证据应优先指向任务 YAML、DataLogger、LeRobot 数据集读取、训练脚本和模型策略入口;这些文件能回答“任务怎么适配、数据怎么记录、模型怎么跑起来”。
仓库中的 Docker 环境、基础 README、Isaac Sim/LeRobot 通用入口、官方预训练权重说明和大段任务规则说明来自官方 baseline 或上游框架。作品集页面明确把这些作为复现基础,不把官方说明文档等同于个人贡献。
03
STEP 1
选择 Conveyor / Foam / Packing / Part Sorting YAML 场景。
STEP 2
在 UBTECH sim 中执行操作任务并记录机器人状态。
STEP 3
保存图像帧、动作、状态、episode 边界和任务 metadata。
STEP 4
转换为训练脚本可消费的数据集结构。
STEP 5
ACT、Pi0 训练尝试,SmolVLA 推理视频验证链路。
04
05
LeRobot 版本迁移导致脚本入口、配置字段和数据集结构不完全一致。
把 v2.1 与 v3.0 的数据集、policy、训练脚本拆开检查,优先保证数据读取和可视化能跑通。
通过 visualize_dataset、train.py 和推理视频验证数据能被后续模型链路消费。
100 条数据如果只报总数,无法说明是否覆盖任务分布和失败场景。
在页面中明确四类任务来源,并预留 dataset metadata、任务分布和成功率位置。
后续补齐每类任务条数、成功/失败标记和代表 episode 后,可直接作为面试追问材料。
ACT、Pi0、SmolVLA 容易变成关键词堆叠。
把三者放进同一训练/推理链路,分别说明 baseline、VLA policy 适配和推理演示作用。
页面能回答“每个模型分别做了什么”,比单个项目卡片更像工程作品集。
06
视频用于展示 UBTECH 操作任务场景中的推理链路。当前可作为推理演示证据,建议后续补字幕标注任务名、输入视角和动作输出。
视频展示数据采集过程,可用于说明 100 条操作数据不是纯文本描述,而是有实际采集链路支撑。
08
这个项目的价值在于数据、训练和推理链路的完整性。作品集页面要让招聘方看到数据长什么样、模型各自做什么、推理视频验证了什么。
后续最该补的是数据分布与成功率:四类任务各多少条、每类成功率、失败案例截图、SmolVLA 视频对应的具体任务名和输入输出说明。