
具身智能比赛项目:Motrixarena / 谋先飞
VBot 四足机器人全场景导航任务。将训练划分为平地导航、障碍导航、复杂地形、滚球+随机地形四个赛段,通过课程学习逐级迁移权重,并针对每段设计差异化奖励重塑策略。
- 技术栈
- PythonPPOMotrixSimSKRL课程学习奖励重塑MuJoCoGit
- 我的角色
- 单人参赛者
- 我的贡献
- 独立完成全部 4 个赛段的环境配置与奖励函数设计(54 维观测空间、Actor-Critic 256-128-64 网络),实现破除安全港效应、密集导航引导、抗冲击策略等定制化 Reward Shaping,并完成跨赛段课程学习迁移。
- 项目结果
- 获得 Motrixarena 三等奖。采用端到端深度强化学习,分 4 个赛段独立训练,支持跨赛段课程学习权重迁移,总训练步数约 61M steps(2048 并行环境)。
