Engineering Case Study

Motrixarena 四足机器人强化学习比赛

从奖励函数、观测空间、Actor-Critic 网络到四赛段课程学习迁移，整理成招聘方可追问的工程细节页。

单人参赛三等奖PPO / SKRL61M steps2048 并行环境

观测空间

54 维

机器人状态、目标相对位置、速度与姿态等输入

网络结构

256-128-64

Actor-Critic 多层感知机配置

训练规模

约 61M steps

4 个赛段累计训练，2048 并行环境

结果

三等奖

最终比赛截图已作为可验证证据展示

背景、角色与目标

项目背景

Motrixarena 是面向 VBot 四足机器人的仿真导航比赛。任务不只是让机器人能走，还要在不同赛段地形、障碍和目标变化下保持稳定导航。

我的角色

我作为单人参赛者，独立完成环境配置、奖励函数设计、训练配置调试、课程学习迁移和最终提交。

任务目标

让 VBot 从平地导航逐步迁移到障碍、复杂地形、滚球与随机地形组合任务，并降低卡在局部安全区域、摔倒和无效徘徊的概率。

任务目标

把稀疏目标奖励拆成更密集的导航反馈，缩短早期探索时间。
通过安全港效应惩罚和进度奖励，减少原地徘徊或保守不动策略。
保留跨赛段可迁移的运动能力，让后续赛段在已有权重上继续学习。
在复杂地形和滚球干扰下提升姿态稳定性与抗冲击能力。

技术方案

算法上使用 PPO + Actor-Critic，并保持网络结构稳定，避免每个赛段都从零重建策略。
训练上采用平地到障碍再到复杂扰动的课程学习，把前一赛段权重作为后一赛段初始化。
奖励上把目标进度、朝向、存活、姿态、速度平滑和碰撞风险拆成可调权重。
验证上结合训练日志、仿真回放和最终比赛结果判断策略是否真的变好。

关键实现

赛段环境与配置

核心改动集中在 VBot 导航环境、不同赛段 XML 场景和配置文件中，用不同赛段文件承载平地、障碍、复杂地形与组合扰动。

vbot/cfg.py vbot_section001_np.py vbot_section012_np.py vbot_section013_np.py

Reward Shaping

把导航目标拆成进度、朝向、距离、姿态、存活、动作平滑等信号，并针对安全港效应加入停滞惩罚，避免模型只学到保守不动。

课程学习迁移

按赛段逐步增加难度：先稳定走到目标，再加入障碍和地形扰动，最后迁移到滚球与随机地形组合。每个阶段用前一阶段权重初始化。

结果判定

我用回合奖励、到达率、摔倒率、轨迹稳定性和最终比赛成绩共同判断策略，而不是只看单一 reward 数值。

个人贡献与 baseline 边界

我完成的部分

我作为单人参赛者完成 VBot 导航任务的环境配置、奖励函数调试、训练参数调整、课程学习迁移和最终提交。仓库中的 checkpoints、训练日志、技术说明文档和 vbot 相关环境文件共同支撑这部分经历。

技术说明文档训练日志 train_v3.log checkpoints

基于的框架

项目基于 MotrixLab / MotrixSim 和 SKRL 训练框架。我在作品集中只把 VBot 赛题适配、奖励设计、课程迁移和训练复盘作为个人贡献，不把通用框架能力包装成个人从零实现。

课程学习迁移流程

STEP 1

Stage 1

平地导航：先让机器人学会朝目标移动并保持基础步态。

STEP 2

Stage 2

障碍赛段：加入碰撞风险，强化绕障和目标进度奖励。

STEP 3

Stage 3

复杂地形：迁移已有步态，增加姿态稳定和抗摔约束。

STEP 4

Stage 4

滚球 + 随机地形：在扰动下验证导航、避障和稳定性的综合能力。

奖励函数设计对比

项目

改动前 / 风险

改动后 / 处理方式

目标奖励

只在接近终点时反馈，早期探索效率低。

加入距离差分和朝向奖励，每一步都能获得导航方向信号。

安全港效应

模型倾向停在安全区域，避免摔倒但不完成任务。

增加停滞/无进展惩罚，让保守不动的策略代价变高。

复杂地形

迁移后容易在高度变化处摔倒或动作过激。

加入姿态稳定、速度平滑和冲击惩罚，压低不稳定动作。

跨赛段迁移

每段从零训练，训练时间长，早期策略不稳定。

以前一赛段权重初始化，保留已有运动能力再学习新约束。

问题、解决方案与判断标准

问题

安全港效应：模型发现不动或小范围徘徊比继续探索更安全。

解决方案

把目标距离差分、停滞惩罚和到达奖励组合起来，让无进展策略持续扣分。

怎么判断变好

通过回放观察到机器人更少停在局部安全区，轨迹更主动地朝目标推进。

问题

后续赛段直接训练不稳定，容易摔倒或陷入随机动作。

解决方案

采用课程学习迁移，先保证基础运动能力，再逐步增加障碍、复杂地形和动态扰动。

怎么判断变好

迁移后可复用前一赛段步态，后续赛段早期回放更稳定。

问题

单看 reward 不足以判断真实比赛表现。

解决方案

同时看训练曲线、日志、回放、到达率、摔倒率和最终排名证据。

怎么判断变好

最终获得 Motrixarena 三等奖，比赛截图和仓库链接可复核。

可验证证据

最终比赛截图

当前页面已嵌入真实比赛结果截图，作为结果层面的直接证据。

代码位置

比赛仓库 VBot 导航目录 VBot 配置文件 MotrixLab 仓库

复盘

这类强化学习项目不能只写“使用 PPO 获奖”，更关键的是解释奖励如何设计、失败策略如何被发现，以及为什么迁移流程能减少训练风险。

后续最值得补的是实验对比材料：原始奖励 vs reward shaping、从零训练 vs 迁移训练、不同赛段的到达率和失败案例截图。