项目背景
Motrixarena 是面向 VBot 四足机器人的仿真导航比赛。任务不只是让机器人能走,还要在不同赛段地形、障碍和目标变化下保持稳定导航。
Engineering Case Study
从奖励函数、观测空间、Actor-Critic 网络到四赛段课程学习迁移,整理成招聘方可追问的工程细节页。

观测空间
54 维
机器人状态、目标相对位置、速度与姿态等输入
网络结构
256-128-64
Actor-Critic 多层感知机配置
训练规模
约 61M steps
4 个赛段累计训练,2048 并行环境
结果
三等奖
最终比赛截图已作为可验证证据展示
01
Motrixarena 是面向 VBot 四足机器人的仿真导航比赛。任务不只是让机器人能走,还要在不同赛段地形、障碍和目标变化下保持稳定导航。
我作为单人参赛者,独立完成环境配置、奖励函数设计、训练配置调试、课程学习迁移和最终提交。
让 VBot 从平地导航逐步迁移到障碍、复杂地形、滚球与随机地形组合任务,并降低卡在局部安全区域、摔倒和无效徘徊的概率。
02
核心改动集中在 VBot 导航环境、不同赛段 XML 场景和配置文件中,用不同赛段文件承载平地、障碍、复杂地形与组合扰动。
把导航目标拆成进度、朝向、距离、姿态、存活、动作平滑等信号,并针对安全港效应加入停滞惩罚,避免模型只学到保守不动。
按赛段逐步增加难度:先稳定走到目标,再加入障碍和地形扰动,最后迁移到滚球与随机地形组合。每个阶段用前一阶段权重初始化。
我用回合奖励、到达率、摔倒率、轨迹稳定性和最终比赛成绩共同判断策略,而不是只看单一 reward 数值。
我作为单人参赛者完成 VBot 导航任务的环境配置、奖励函数调试、训练参数调整、课程学习迁移和最终提交。仓库中的 checkpoints、训练日志、技术说明文档和 vbot 相关环境文件共同支撑这部分经历。
项目基于 MotrixLab / MotrixSim 和 SKRL 训练框架。我在作品集中只把 VBot 赛题适配、奖励设计、课程迁移和训练复盘作为个人贡献,不把通用框架能力包装成个人从零实现。
03
STEP 1
平地导航:先让机器人学会朝目标移动并保持基础步态。
STEP 2
障碍赛段:加入碰撞风险,强化绕障和目标进度奖励。
STEP 3
复杂地形:迁移已有步态,增加姿态稳定和抗摔约束。
STEP 4
滚球 + 随机地形:在扰动下验证导航、避障和稳定性的综合能力。
04
05
安全港效应:模型发现不动或小范围徘徊比继续探索更安全。
把目标距离差分、停滞惩罚和到达奖励组合起来,让无进展策略持续扣分。
通过回放观察到机器人更少停在局部安全区,轨迹更主动地朝目标推进。
后续赛段直接训练不稳定,容易摔倒或陷入随机动作。
采用课程学习迁移,先保证基础运动能力,再逐步增加障碍、复杂地形和动态扰动。
迁移后可复用前一赛段步态,后续赛段早期回放更稳定。
单看 reward 不足以判断真实比赛表现。
同时看训练曲线、日志、回放、到达率、摔倒率和最终排名证据。
最终获得 Motrixarena 三等奖,比赛截图和仓库链接可复核。
06

当前页面已嵌入真实比赛结果截图,作为结果层面的直接证据。
08
这类强化学习项目不能只写“使用 PPO 获奖”,更关键的是解释奖励如何设计、失败策略如何被发现,以及为什么迁移流程能减少训练风险。
后续最值得补的是实验对比材料:原始奖励 vs reward shaping、从零训练 vs 迁移训练、不同赛段的到达率和失败案例截图。