仿人机械手解魔方（下）：控制策略、训练方法及实验结果

来源：https://zhuanlan.zhihu.com/p/2018385854960268437

摘要：本文分为“上、下”两个部分：此为“下部分”，我们将在第6、7节分别阐述控制策略和视觉状态估计器的训练方法；第8节展示两项任务的核心定量和定性实验结果；第9节系统性分析策略中涌现式元学习的特征；第10节综述相关研究；第11节为结论。

该文的“上”部分已发布，可点击查阅：仿人机械手解魔方（上）：物理实验平台、建模方式和新型算法

06仿真中的策略训练

本节将介绍如何利用近端策略优化（PPO）和强化学习训练控制策略，实验设置采用“上部分”第5节介绍的自动域随机化，在大规模的随机化环境分布上进行训练。

6.1 动作、奖励与目标

本研究中动作空间和奖励函数的设置仅作简要回顾。采用离散动作空间，每个驱动关节（共20个）设置11个离散区间，动作分布为多分类分布，动作表示广义关节位置坐标的相对变化。

训练过程中，为智能体提供三类奖励：（a）系统状态与目标状态的距离变化量（距离减小则获得正奖励）；（b）每次完成目标后，额外给予5的奖励；（c）每次掉落方块 / 魔方时，给予-20的惩罚。

训练过程中随机生成目标状态：对于方块重定向任务，随机采样目标旋转角度，但限制为某一面严格朝上；对于魔方还原任务，目标生成过程更为复杂，取决于生成目标时的魔方状态：若魔方各面未对齐，则先将其对齐，再像方块重定向任务一样随机旋转整个魔方（即“翻转”）；若魔方各面已对齐，则以50%的概率将顶面顺时针或逆时针旋转，否则执行翻转操作。

当满足以下任一条件时，判定单轮训练实验结束：（a）智能体连续50次成功完成目标（误差在阈值范围内）；（b）智能体掉落魔方/方块；（c）智能体在尝试完成下一个目标时超时。其中，方块重定向任务的超时限制为400个时间步，魔方还原任务为800个时间步（从头开始训练时设置为1600个时间步）。

6.2 策略架构

本研究的策略架构进行了多项重要扩展。策略仍为循环结构，因为只有具备记忆能力的策略才能实现元学习；仍采用ReLU激活函数的单层前馈层，后接单层长短期记忆网络（LSTM），但扩大了网络容量，将神经元数量翻倍：前馈层的神经元数量从1024增至2048，LSTM层从512增至1024。

价值网络与策略网络相互独立（但架构相同），将LSTM的输出投影为标量价值；同时添加L2正则化（系数为10−6），避免在长时间运行的实验中权重范数持续增大。

架构的一个重要区别在于输入的处理方式：策略和价值网络的输入包括不同的观测值（如指尖位置、方块位姿等）的含噪和无噪版本，所有观测字段拼接为单个向量后输入网络——策略网络使用含噪观测值，价值网络使用无噪观测值（价值网络在机器人的策略滚动中无需使用，因此可利用特权信息）。本研究仍采用非对称（Actor-Critic）架构，但将拼接操作替换为我们称之为“嵌入-相加”的方法：首先将每种观测值独立嵌入至512维的隐空间（无权重共享），然后将所有输入的隐表示相加，并在其后应用ReLU非线性激活。这一改进的主要目的是便于为现有策略添加新的观测值，同时为同时输入价值网络和策略网络的观测值共享嵌入表示。控制策略的网络架构如图12所示。

6.3 基于Rapid的分布式训练

我们使用自研的分布式训练框架Rapid，该框架此前被用于训练OpenAI Five的模型。

对于方块重定向任务，使用4×8=32块NVIDIA V100 GPU，以及4×100=400台工作机（每台32核CPU）；对于魔方还原任务，使用8×8=64块NVIDIA V100 GPU，以及8×115=920台工作机（每台32核CPU）。我们以该规模对魔方还原策略进行了长达数月的持续训练，同时不断提升仿真保真度、优化ADR算法、调优超参数，甚至修改网络架构。在此期间，用于魔方还原策略训练的累计经验约为1.3万年，与OpenAI Five使用的4万年处于同一数量级。

6.4 策略克隆

研究发现，利用自动域随机化对同一策略进行长时间训练能带来显著收益，因为自动域随机化始终能提供具有挑战性的训练分布。因此，我们极少从头开始训练新实验，而是更新现有实验，并从先前的检查点初始化ADR参数和策略参数。图12中采用的新“嵌入-相加”方法，使调整智能体的观测空间更为简便，但无法支持策略架构的修改（如调整各层神经元数量、添加第二层LSTM等）。从头开始训练未初始化的模型会导致数周甚至数月的训练进度丢失，使得架构修改的成本极高。因此，我们成功实现了基于DAGGER算法思想的行为克隆（有时也称为策略蒸馏），能高效地将新策略的性能初始化至与教师策略接近的水平。

我们的克隆设置与强化学习高度相似，不同之处在于内存中同时加载教师策略和学生策略。在滚动过程中，使用学生策略的动作与环境交互，同时最小化学生策略与教师策略的动作分布差异（通过最小化KL散度）和价值预测差异（通过最小化L2损失）。该方法的效果远超预期，使我们能够快速迭代策略架构，而不会丢失累积的训练进度。只要动作空间保持不变，我们的克隆方法可适用于任意策略架构的修改。

本研究中使用的最优ADR策略均通过该方法获得：我们对策略进行了数月的训练，期间多次修改模型架构、训练环境和超参数。

07基于视觉的状态估计

第6节描述的控制策略通过由三台相机和神经网络预测器组成的视觉系统，获取物体的状态估计值。本研究中，策略除需要魔方的位置和姿态估计值外，还需要六个面的角度估计值。

注意，策略需要魔方每个面在[−π,π]范围内的绝对旋转角度。由于标准魔方贴纸的旋转对称性，无法从单张相机图像中预测这些绝对面角度；要实现这一目标，系统要么具备时间上的状态跟踪能力，要么需要对魔方进行改装。

因此，本研究中采用两种不同的方案实现魔方的状态估计：

1. 纯视觉方案（非对称中心贴纸）：视觉模型同时预测魔方的位置、姿态和六个面的角度。我们将魔方每个中心贴纸的一个角切除（见图13），打破其旋转对称性，使模型能够从单张图像中确定绝对面角度，魔方无其他定制化改装。我们使用该模型评估纯视觉方案完成魔方还原的最终性能。

2. 视觉+ Giiker魔方方案：视觉模型预测魔方的位置和姿态，六个面的角度则由前文所述的定制化Giiker魔方（见第3节）通过内置传感器获取。该方案用于本研究的大多数实验，避免了极具挑战性的纯视觉面角度估计误差与策略误差叠加。

由于我们的长期目标是打造能与现实世界中任意物体交互的机器人，理想情况下希望通过纯视觉方案（使用标准魔方，无特殊贴纸）完全解决状态估计问题。我们认为这一目标是可以实现的，可能需要构建更完善的循环模型，或采用端到端的训练方案（即视觉模型与策略联合训练），这也是我们目前的重点研究方向。

图13：中心贴纸切角的魔方：（a）仿真模型；（b）真实魔方。我们在部分视觉状态估计实验和纯视觉策略的魔方还原性能评估中，使用该魔方替代Giiker魔方

7.1 视觉模型

本研究的视觉模型设置，输入为安装在实验舱左侧、右侧和顶部的三台RGB巴斯勒相机的拍摄图像（见“上部分”图4a），模型的完整架构如图14所示。通过参数完全相同的ResNet50网络（权重共享）对每张图像进行处理，生成特征图；将三张特征图展平并拼接后，输入堆叠的全连接层，最终输出足以跟踪魔方全状态的预测值，包括位置、姿态和各面角度。

图14：视觉模型架构，以ResNet50为核心骨干网络，三台相机图像的处理网络权重共享（虚线表示）。模型输出魔方的位置、姿态，以及六个面角度的特定表征形式，方括号表示范围，圆括号表示维度

直接预测位置和姿态的效果良好，但即使使用带非对称中心贴纸的魔方，由于严重的遮挡问题，直接预测六个面的角度仍极具挑战性。为解决这一问题，我们将面角度预测分解为多个独立的子预测任务：

1. 活动轴：我们做一个轻微的简化假设——魔方的三个轴中仅有一个为“活动轴”（即处于未对齐状态），模型预测当前的活动轴为三个轴中的哪一个；

2. 活动面角度：预测与活动轴相关的两个面的角度（以π/2为模，即范围在[−π/4,π/4]）。由于严重的遮挡（如某一面位于底部，被手掌遮挡），直接预测[−π,π]范围内的绝对角度难度极大；而预测以π/2为模的角度仅需识别魔方边缘的形状和相对位置，任务难度更低；

3. 顶面角度：预测 “顶面”（即由实验舱顶部相机直接拍摄的面）在[−π,π]范围内的绝对角度。得益于非对称中心贴纸（见图13），仅需单一时序的图像即可实现该预测。我们将模型配置为仅预测顶面角度，因为顶面的中心小立方体极少被遮挡，这使我们能够在实验过程中校正跟踪的绝对面角度状态。例如，若某一面角度的跟踪误差达到π/2的整数倍，当该面通过翻转调整至顶面后，模型的无状态绝对角度预测可对其进行校正。

将这些分解后的面角度预测结果输入后处理逻辑，跟踪所有面的旋转角度，最终将结果输入策略网络。其中，顶面角度预测尤为重要，使其能够在实验过程中校正跟踪的绝对面角度状态。例如，若某一面角度的跟踪误差达到π/2的整数倍，当该面通过翻转调整至顶面后，模型的无状态绝对角度预测可对其进行校正。而活动轴和活动面角度的预测主要用于避免魔方因活动面角度过大而导致非活动轴锁死，使策略无法旋转非活动面。

对于所有角度预测任务，研究发现将角度离散为每π弧度90个区间的预测效果，优于直接通过回归预测角度值，详细结果见表2。

同时，渲染过程中的域随机化仍是实现优异仿真到现实迁移的关键。如表2所示，未使用域随机化训练的模型在仿真中能实现极低的误差，但在现实数据上的表现极差。

姿态误差通过四元数的旋转距离计算，位置误差为3D空间中的欧氏距离（单位：毫米），面角度误差以度（°）为单位。“真实”误差通过多次物理实验的采集数据计算，位置和姿态的真实值来自PhaseSpace运动捕捉系统（“上部分”第 3节），所有面角度的真实值来自Giiker魔方

7.2 基于 Rapid 的分布式训练

与控制策略训练（第6节）一致，视觉模型完全基于合成数据训练，未使用任何真实图像，这使得训练设置更为复杂——合成图像的生成必须与模型优化过程耦合。为管理这一复杂性，我们采用与策略训练相同的Rapid框架进行分布式训练。

图11b为典型视觉模型实验的设置概述，在视觉训练中，“数据工作线程”为独立的Unity渲染器，负责通过OpenAI远程渲染后端（ORRB）渲染仿真图像，渲染过程根据从ADR子系统获取的ADR参数进行（见“上部分”第5节）。每个渲染节点使用1块NVIDIA V100 GPU和8核CPU，渲染池的规模经过调优，确保渲染过程不会成为训练的瓶颈。渲染节点生成的数据被传输至Redis节点集群，分别存储在训练和评估队列中；训练数据由优化器节点池读取，每个优化器节点使用8块NVIDIA V100 GPU和64核CPU，以数据并行的方式执行优化；同时，评估数据由“ADR评估工作线程”读取，为ADR参数的更新提供反馈（见“上部分”第5节）。

如前所述，视觉模型输出多个独立的预测结果，每个结果都有对应的损失函数进行优化：位置和姿态采用均方误差损失，分解后的每个面角度预测采用交叉熵损失。为平衡这些不同尺度的损失函数，我们使用描述的焦点损失加权方法，动态、自动地分配损失权重。为更好地适配多回归任务，我们对该方法进行了一项改进：为每个预测任务设置低目标误差，将误差低于目标值的样本占比作为焦点损失中的概率p，即即FL(p;γ)=−(1−p)γlog(p)，本研究中所有实验的γ均设置为 1。这一改进不仅省去了人工调优损失权重的步骤，还提升了优化效果，使损失权重能随训练过程动态调整（性能细节见表 2）。

基于该聚合损失，采用LARS优化器执行优化。研究发现，在使用更大批次和更高学习率时，LARS比Adam优化器更稳定（本研究中批次大小最大为1024，峰值学习率为6.0）。

08实验结果

本节将研究自动域随机化对仿真到现实迁移的影响（8.1节），实证验证课程训练对策略训练的重要性（8.2节），量化视觉模型的性能（8.3节），最终展示本研究的核心成果——利用真实的Shadow灵巧手完成魔方还原，突破仿真到现实迁移的难度极限（8.4节）。

8.1 自动域随机化对策略迁移的影响

为探究基于自动域随机化训练的策略对迁移性能的提升效果，我们在相对简单的方块重定向任务上进行研究。选择该任务的原因是其计算成本更低，且已建立基准性能。以连续成功次数衡量性能，当方块掉落或连续50次成功完成目标时，终止单轮实验，最优策略的平均连续成功次数应为50。

8.1.1 仿真到仿真（Sim2Sim）

首先研究仿真到仿真的迁移场景：在自动域随机化上训练策略，并持续在人工调参的随机化环境分布上评估其性能。注意，所有ADR实验均未在该分布上直接训练，而是由 ADR 自主决定训练分布，因此将该人工设计的环境分布作为仿真到仿真迁移的测试集，实验结果如图15所示。

可见，基于ADR训练的策略能成功迁移至人工随机化分布，且随着ADR不断提升随机化水平，仿真到仿真的迁移性能持续提高

如图15所示，基于ADR训练的策略能成功迁移至人工调参的随机化分布，且ADR 熵越高，仿真到仿真的迁移性能越好。

8.1.2 仿真到现实（Sim2Real）

接下来,评估策略的仿真到现实迁移能力。由于机器人上的滚动实验成本较高，我们仅选择7个不同的策略进行评估，每个策略在机器人上进行10次实验，记录连续成功次数；同时，为提供参考，在仿真中对每个策略进行500次实验，测量成功次数（仿真评估使用人工设计随机化分布）。实验结果汇总于表3。

分别在仿真（500次实验）和真实机器人（10次实验）上评估，报告平均成功次数±标准误差和中位数成功次数；对于 ADR 策略，报告每维度的熵（npd）；对于“人工DR”策略，通过固定策略运行ADR，当分布停止变化时，记录其 ADR 熵的上限（标记为“*”）

表中前两行将本研究结果与先前结果关联：第一行重复报告的数据，第二行在当前实验平台上重新部署该研究的原始策略。结果显示，同一策略在当前平台上的性能显著下降，推测原因是物理平台和仿真模型均较研究发生了变化（见“上部分”第3、4节）。

表中中间部分对比了ADR训练的策略与人工域随机化（“人工DR”）训练的策略：“人工DR”采用基准模型相同的随机化设置，但在当前实验平台上训练，且模型架构和超参数与ADR策略一致；ADR策略选择训练过程中不同熵水平的快照，分别标记为小型、中型和大型。结果呈现明确的规律：ADR熵越高，仿真到仿真和仿真到现实的迁移性能越好。人工DR策略在仿真中表现优异，但部署到机器人上时完全失效——结果不同，原因是本研究未通过人工调优使仿真和随机化设置匹配硬件变化；而ADR策略能实现有效迁移，因为ADR自动化了这一过程，生成的训练分布范围远超人工调优的分布。注意，“ADR（大型）”和“人工 DR” 的训练墙钟时间相同，且除环境分布外所有训练超参数一致，具有完全可比性（受计算资源限制，这些策略的计算规模为常规规模的1/4，见第6节）。

表中最后部分展示了ADR规模化训练的结果：“ADR（超大）”和“ADR（特大）” 是经过长时间、大规模持续训练的策略，其仿真到仿真和仿真到现实的迁移性能均为最优，再次验证了ADR熵与迁移性能的正相关关系。最优策略的性能显著优于基准模型——即使未针对方块重定向任务优化仿真和机器人设置，平均性能提升近2倍，中位数性能提升超过3倍。此外，基于ADR训练的策略最终在仿真到仿真迁移中也实现了接近完美的性能。

综上，ADR能显著提升迁移性能，且无需大量人工设计的随机化参数。我们的结果大幅超越了先前通过数月迭代式人工调优获得的最佳成绩。

8.2 课程训练对策略训练的影响

ADR的设计初衷是逐步扩展训练分布的复杂度，其核心逻辑是：从单一环境开始，随着智能体性能提升逐步扩展环境分布，通过这种课程训练最终使模型掌握高度多样化的环境。但该课程训练的特性是否重要？能否在找到合适的域随机化参数后，直接使用固定参数训练？

为验证这一问题，我们设计如下实验：在方块重定向任务上训练一个ADR策略，同时训练多个使用不同固定随机化参数的策略，固定参数分为四个级别（小型、中型、大型、超大），对应前一节中ADR策略的参数（见表3）。注意，仅使用ADR参数，而非表3中的策略，所有固定参数策略均从头开始训练，且训练墙钟时间相同。所有策略均持续在人工随机化分布上评估，即所有场景均测试仿真到仿真的迁移性能，结果如图16所示（所有DR训练的随机化熵保持恒定，仅ADR的熵逐步提升）。

ADR为常规训练（从无随机化开始，逐步扩展随机化水平），对比不同固定随机化水平的DR训练。可见，得益于课程训练特性，ADR 的训练进度远快于其他所有固定随机化熵的训练

结果明确表明，自适应提升随机化熵至关重要：ADR训练的策略达到高仿真到仿真迁移性能的速度，远快于所有固定随机化熵的训练；且存在清晰的规律——固定随机化熵越大，从头训练的难度越高。我们推测，对于难度足够高的任务和随机化熵，从头训练将完全不可行：环境复杂度过高会导致强化学习信号不足，策略永远无法学会任务。

8.3 自动域随机化对视觉模型性能的影响

训练视觉模型时，ADR同时控制ORRB中的随机化范围（如光源距离、材质的金属感和光泽度）和TensorFlow的失真操作（如添加高斯噪声和通道噪声）。我们将ADR增强的视觉模型用于方块重定向和魔方还原任务的状态估计，结果如表4所示：与人工域随机化结果相比，ADR进一步降低了方块姿态和位置的预测误差，且再次验证了“ADR熵越高，仿真到现实迁移性能越好”的规律。

表4：不同ADR熵水平的视觉模型在方块重定向状态估计任务上的性能。基准模型采用与相关研究相同的人工域随机化设置，但在新采集的真实图像数据集上评估（与表2的真实数据集相同）

魔方的全状态预测难度更高，需要更长的训练时间。如表5所示，在相近的训练时间内，ADR增强的视觉模型的误差低于人工DR配置的基准模型，且ADR熵与真实图像的误差呈负相关，再次证明ADR优于人工调优的随机化设置（基准模型）。注意，随着ADR生成的合成任务难度增加，仿真中的误差会有所上升。

表5：不同ADR熵水平的视觉模型在魔方预测任务上的性能（见第7节）。评估使用的真实图像数据集与表2相同

8.4 魔方还原实验

本节将突破仿真到现实迁移的难度极限，研究复杂度前所未有的操作任务：利用真实的Shadow灵巧手完成魔方还原。该任务极具挑战性，原因是魔方的复杂性及其与机械手的交互特性——与方块重定向任务不同，我们无法在仿真中精准建模魔方的所有细节。尽管我们构建了魔方的仿真模型（见“上部分”第4节），但并未对其动力学特性进行校准，而是完全依赖ADR自动化环境的随机化过程。

此外，魔方的状态感知也远比方块重定向复杂：魔方的位姿始终通过视觉估计，而六个面的角度则采用两种不同的方案进行实验（见第7节）：Giiker魔方（见“上部分”第3节）和视觉模型预测。本节首先定量评估该任务的性能，随后展示定性发现。

8.4.1 定量结果

我们对比四种不同的策略：

1. 人工域随机化训练的策略（“人工DR”）：使用随机化设置，训练约2周；

2. ADR训练的策略（“ADR”）：训练约2周；

ADR长期训练的策略（“ADR（超大）”、“ADR（特大）”）：经过数月的持续训练和更新。

评估流程如下：每个策略重复10次实验，每次实验均从还原状态的魔方开始，要求机械手将其打乱为公平打乱状态（由于问题的对称性，这与从公平打乱状态还原为初始状态的难度一致）。该流程能显著降低人为误差和操作成本，因为确保魔方初始状态为还原态远比确保其为特定打乱态更简单。所有10次实验均使用相同的固定打乱序列，该序列通过世界魔方协会的“TNoodle”应用随机生成（非刻意挑选）：

完成该序列需要43次成功操作（26次面旋转和17次魔方翻转）；若成功完成序列，实验将继续执行反向序列（即还原魔方）。当满足以下任一条件时，终止单轮实验：

1. 成功完成50次操作；

2. 魔方掉落；

3. 策略在1600个时间步（对应128秒）内未完成下一个目标。

每次实验记录成功完成的目标数量（翻转和旋转），并定义两个阈值：

· “一半”：成功完成至少一半的公平打乱操作（≥22次成功）；

· “完整”：成功完成全部公平打乱操作（≥43次成功）。

4.计算10次实验中达到两个阈值的平均成功率，分别标记为“一半”和“完整”——达到“完整”阈值即等效于完成魔方还原，因为从还原态到打乱态的难度与从打乱态到还原态一致。实验结果汇总于表6。

在真实机器人上评估（10次实验），报告平均成功次数 ± 标准误差和中位数成功次数（成功完成的旋转和翻转总数）；同时报告完成一半公平打乱（“一半”）和完整公平打乱（“完整”）的成功率；对于 ADR 策略，报告每维度的熵（npd）；对于“人工 DR”策略，通过固定策略运行ADR，当分布停止变化时，记录其ADR熵的上限（标记为“*”）

结果呈现与前序实验一致的规律：人工域随机化策略无法实现有效迁移；ADR训练的策略中，仿真到现实的迁移性能与每维度熵呈显著正相关。“人工 DR”和“ADR”均在14天内训练，计算规模为常规规模的1/4（见第6节），具有完全可比性。最优策略（经过数月大规模持续训练）在10次实验中的平均成功次数为26.8次，对应：

· 60%的实验能成功完成需要15次面旋转的魔方打乱/还原；

· 20%的实验能成功完成需要26次面旋转的魔方打乱/还原。

注意，26次1/4面旋转是魔方还原的最坏情况——仅约3种魔方配置需要这么多步骤，即几乎所有魔方的还原序列都少于26次面旋转。

8.4.2 定性结果

使用最优策略（“ADR（特大）”）进行魔方还原时，我们观察到许多有趣的涌现行为。
例如：

· 机器人偶尔会意外旋转错误的面，但最优策略通常能自主恢复——先将错误旋转的面旋转回原状态，再继续执行原始子目标，无需修改子目标序列；

· 机器人在执行翻转操作后，会先将魔方的面对齐，再尝试旋转，避免因未对齐导致的锁死；

· 尽管如此，面旋转有时仍具挑战性，策略可能陷入停滞，此时通常会调整抓握方式，以不同的角度尝试旋转，最终往往能成功；

· 有时策略尝试旋转面时会出现魔方滑动，导致整个魔方旋转而非单一面向旋转，此时策略会重新调整抓握并再次尝试，通常能成功。

我们还观察到一些规律：

· 策略在某个复杂面旋转上停滞过久后，掉落魔方的概率会增加——推测原因是策略的循环状态在数秒内仅观测到几乎静止的魔方，“忘记” 了翻转操作所需的魔方动力学信息；

· 策略在实验初期掉落魔方的概率更高，可能是因为尚未在循环状态中捕获足够的魔方动力学特性信息。

此外，我们进行了多项扰动实验，测试策略的鲁棒性：

· 给机械手戴上橡胶手套，显著改变手部的摩擦力和表面几何形状；

· 用带子将多个手指绑在一起；

· 用毯子遮挡机械手和魔方；

· 用钢笔和毛绒长颈鹿玩具触碰魔方。

尽管未针对这些扰动进行训练，但策略在所有场景下仍能完成多次面旋转和魔方翻转，展现出极强的鲁棒性。图17展示了部分扰动场景。

图17：魔方还原过程中对真实机器人施加的扰动示例：（a）无扰动；（b）戴橡胶手套；（c）手指绑在一起；（d）毯子遮挡和触碰扰动；（e）毛绒长颈鹿触碰扰动；（f）钢笔触碰扰动。策略未针对这些扰动训练，但对所有扰动均具有鲁棒性

09涌现式元学习的特征

我们认为，足够多样化的环境分布与记忆增强型策略（如LSTM）相结合，会产生涌现式元学习。本节将系统性研究基于ADR训练的策略，验证其元学习特征。

9.1 元学习的定义

由于每个策略仅针对单个特定任务训练（方块重定向或魔方还原），本研究中的元学习定义为：学习底层马尔可夫决策过程（MDP）的动力学特性。

具体而言，我们关注策略是否能通过观测数据，实时更新对真实转移概率P(st+1∣st,at)的信念。

换言之，本研究中的“元学习”本质上是学习如何学习环境动力学，在其他研究领域也被称为在线系统辨识（on-line system identification），而在本研究中，这是一种涌现的特性。

9.2 对扰动的响应

首先研究策略的行为及其对多种环境动力学扰动的响应，所有实验在仿真中进行，采用魔方还原任务。实验中，子目标固定为魔方翻转或面旋转，策略运行至完成第10次翻转（或旋转）后施加扰动，继续运行至完成第30次翻转（或旋转）后施加第二次扰动，最终记录完成第1至50次翻转（或旋转）的时间（称为“完成时间”），以及策略在第几次翻转（或旋转）时失败。通过对多次仿真实验的结果取平均，计算每次翻转（或旋转）的平均完成时间和失败概率。

若策略在测试阶段具有学习能力，我们预期：

· 平均完成时间会随实验推进逐渐下降——策略通过积累信息，逐步识别当前环境的动力学特性，效率不断提升；

· 施加扰动后，完成时间会出现峰值——策略需要更新对环境的信念，因此完成下一次翻转（或旋转）的时间会延长，但随后会再次下降；

· 失败概率在实验初期更高——策略尚未充分学习环境信息；

· 施加扰动后，失败概率会出现峰值。

我们测试了三种扰动类型：

1. 重置隐藏状态：实验过程中重置策略的隐藏状态，环境动力学保持不变，但策略的记忆被清除，需要重新学习环境；

2. 重新采样环境动力学：突然改变环境动力学（重新采样所有随机化参数），但保持仿真状态 ¹⁸和策略隐藏状态不变；

3. 随机关节失效：随机禁用机器人手的一个关节（使其无法运动），环境动力学整体不变，但机器人与环境的交互方式发生改变。

实验结果如图18所示。计算平均完成时间时，仅包含成功完成50次翻转的实验，避免结果失真。

记录每次翻转（第1至50次）的平均完成时间（秒）和平均失败概率，误差条表示估计标准误差。“基准”指无扰动的实验；“关节失效基准”指从实验开始就随机禁用一个关节的实验；对比实验为初始无扰动，在第10次和第30次翻转后施加扰动：（a）重置策略隐藏状态；（b）重新采样环境动力学；（c）随机关节失效

结果呈现明确的趋势：

· 所有实验中，策略在最初几次翻转中均存在明显的适应期：第一次翻转的完成时间最长，后续逐渐缩短，最终收敛至平均约4秒/次，较第一次翻转缩短约1.6秒——与我们的预测完全一致，策略通过更新循环状态，在测试阶段持续学习，效率不断提升；

· 失败概率同样呈现初期较高的规律，验证了策略需要通过积累信息降低失败风险。

具体来看三种扰动的影响：

1. 重置隐藏状态（图18a）：扰动后完成时间显著上升 —— 策略的记忆被清除，需要重新识别环境；但峰值低于初始完成时间，原因是扰动前机械手已对魔方进行操作，魔方的位置更利于后续翻转，因此失败概率即使在扰动后也接近零。

2. 重新采样环境动力学（图18b）：扰动后完成时间上升，随后逐渐下降；与重置隐藏状态相比，失败概率更高——策略对环境动力学的突然变化感到“意外”，其针对原环境的动作在新环境中可能导致失败。

3. 随机关节失效（图18c）：“关节失效基准”实验中，策略在50次翻转的整个过程中均呈现性能提升（完成时间缩短、失败概率下降）；“关节失效扰动” 实验中，扰动后失败概率显著上升，随后逐渐下降，但性能始终未追上“关节失效基准”——推测原因是策略的循环状态已“锁定”部分信息，适应性下降，或仅积累了 10 次翻转的信息，而“关节失效基准”具有信息优势（至少完成10次翻转）。值得注意的是，策略能通过内部学习适应关节失效，这与先前研究中通过显式搜索适配失效机器人的策略形成鲜明对比；但“关节失效基准”的性能始终未达到无扰动基准，表明策略无法完全弥补硬件损伤带来的性能损失。

综上，实验结果提供了明确的证据：策略能学习环境动力学特性，并通过调整行为提升效率，这一学习过程完全通过更新策略的循环状态实现，是一种涌现的特性。

9.3 循环状态分析

我们通过实验研究策略是否能在循环状态中推断并存储关于环境的有用信息——这是元学习的强证据，因为训练过程中并未向策略提供任何关于环境参数的显式信息。

核心方法是：通过策略LSTM的隐藏状态h和细胞状态c，预测环境参数（如魔方尺寸、重力加速度）。定义z=h+c作为预测模型的输入，针对每个环境参数p，训练一个简单的预测模型fp(z)：包含一个64神经元的隐藏层（ReLU激活）和一个sigmoid输出层，输出p的值大于或小于随机化平均值的概率。

预测模型的训练数据来自策略滚动过程中t时刻的隐藏状态，数据采集自环境集Et（每个环境e∈Et的参数p值不同，根据随机化范围采样）。为观察信息随时间的变化，数据采集自t∈{1,30,60,120}时刻（每个时间步对应仿真中的Δt=0.08秒）。模型采用交叉熵损失训练至收敛，在新的环境集Ft（参数p重新采样）上测试性能。

9.3.1 预测精度随时间的变化

我们研究了四个环境参数（见表7），随机化范围来自ADR训练结束时的设置，参数值通过均匀分布采样。

表7：预测的环境参数及其物理单位的随机化范围，预测目标为参数值是否大于或小于平均值

图19展示了方块重定向和魔方还原策略的预测模型测试精度：

· 实验初期（t=0），预测精度接近随机猜测——隐藏状态中未存储有用信息；

· 随着实验推进，策略与环境持续交互，预测精度迅速提升，部分参数的精度超过80%——证明策略成功推断并存储了关于环境参数的有用信息，且这一过程是隐式的（未通过训练显式要求策略存储这些信息）。

预测精度在不同参数和任务间存在差异：

· 魔方尺寸的预测精度（超过80%）始终高于魔方质量（50-60%）——推测原因是魔方尺寸对方块旋转难度的影响大于质量；

· 同一参数在不同任务中的预测精度不同：方块重定向策略对魔方质量的预测精度高于魔方还原策略——推测原因是方块重定向策略采用动态操作方式（将方块抛起后翻转），需要精准控制力度，因此魔方质量更重要；而魔方还原策略的翻转操作更为谨慎，避免魔方面的意外错位，对质量的敏感度较低。

我们认为，其他参数和任务间的预测精度差异，同样反映了参数对策略和任务的相对重要性。

图19：基于（a）方块重定向策略和（b）魔方还原策略的隐藏状态，预测环境参数的测试精度，误差条表示标准误差

9.3.2 信息增益随时间的变化

为进一步研究策略隐藏状态中的信息及其随实验的演化，我们扩展了上述预测模型，将参数的随机化范围离散为8个等间隔的区间（“bins”），预测模型的输出为参数属于每个区间的概率分布。我们将该分布近似视为策略对环境参数的后验分布。

图20展示了测试环境中，预测模型输出分布的熵随实验时间的变化（预测参数为魔方尺寸）。结果清晰表明：

· 随着实验推进，后验分布逐渐收敛至稳定状态，收敛速度较快（不到5.0秒）；

· 这与扰动实验的结果一致（见图19）：第一次翻转的完成时间约为5-6秒，之后速度显著提升；

· 在此期间，魔方尺寸参数的信息增益约为0.9比特；

· 熵最终收敛至2.0比特后停止下降——表明策略仅存储优化动作所需的必要信息，无需过度学习环境细节。

图20：8区间输出预测模型的平均预测熵随实验时间的变化，误差条表示标准误差。预测模型在实验进行4.8秒时训练，预测参数为魔方尺寸，信息增益在不到5.0秒内达到0.9比特。参考：随机猜测（8个区间的概率均匀分布）的熵为3比特

9.3.3 预测精度与ADR熵的关系

我们对不同ADR熵的方块重定向策略进行了隐藏状态预测实验。由于我们认为策略推断和存储环境参数信息（即元学习）的能力与训练环境的多样性相关，因此预期预测精度与ADR熵呈正相关。

实验中，四个方块重定向策略的ADR熵依次递增，预测目标为魔方尺寸，数据采集自实验进行60个时间步（对应4.8秒仿真时间）时的隐藏状态，结果如表8所示。结果明确表明，预测精度（即隐藏状态中存储的信息）与ADR熵呈强正相关。

表8：不同ADR熵的方块重定向策略的隐藏状态预测结果，预测参数为魔方尺寸，ADR 熵的单位为每环境参数化维度奈特（npd），所有预测在实验进行60个时间步（4.8秒仿真时间）时进行，报告平均预测精度±标准误差

9.3.4 循环状态可视化

我们采用神经网络可解释性技术，可视化实验过程中策略的循环状态，发现了与机器人手高级技能对应的独特激活模式。

10相关研究

10.1 灵巧操作

灵巧操作是机器人领域数十年的研究热点，研究者提出了多种方法和策略，包括滚动操作、滑动操作、手指步态、手指跟踪、推操作、重新抓握等；对于特定类型的机械手，还可采用旋转操作、倾斜操作、翻滚操作、轻敲操作、两点操作、双掌操作等策略。这些方法基于规划，需要精准的机械手和物体模型，计算轨迹后通常采用开环执行，因此若模型不准确，容易导致失败。

其他方法采用闭环方式实现灵巧操作，在执行过程中整合传感器反馈（如触觉传感），能在运行时纠正错误，但仍需要合理的机器人运动学和动力学模型，而对于自由度多的欠驱动机械手，获取这些模型具有挑战性。

深度强化学习也已成功应用于物理机器人的复杂操作技能学习：引导策略搜索（Guided Policy Search）直接在机器人上学习简单的局部策略，并将其提炼为神经网络表示的全局策略；Soft Actor-Critic是最新的无模型算法，同时优化期望奖励和动作熵，能直接在现实世界中学习复杂行为。

其他研究方向包括：

· 利用多台物理机器人同时收集数据，解决数据量不足的问题；

· 采用基于模型的学习算法，利用其更优的样本复杂度；

· 利用人类专家演示指导智能体的训练过程。

10.2 手内灵巧操作

由于灵巧操作的相关研究成果繁多，本节仅聚焦与本研究最相关的手内灵巧操作研究。

Mordatch和Bai等人提出了复杂动态手内操作的轨迹生成方法，但结果仅限于仿真；深度学习在复杂手内灵巧操作、工具使用甚至小型魔方还原等任务上也取得了进展，但同样仅在仿真中进行评估。

相比之下，已有研究者直接在机器人上学习手内灵巧操作的策略：Hoof等人为简单的三指夹持器学习手内操作策略；Kumar和Falco等人为更复杂的仿人机械手学习此类策略；研究者学习前向动力学模型，并利用模型预测控制，实现Shadow手对两个保定球的操作。直接在机器人上学习的优势是无需建模系统，但数据量有限，仅能学习简单（如线性或局部）的策略，无法展现复杂的行为。

10.3 仿真到现实迁移

领域自适应方法、渐进式网络和逆动力学模型学习均被用于促进仿真到现实迁移，这些方法均假设能获取真实数据。另一种思路是在仿真中训练具有自适应能力的策略，核心技术是域随机化：

· 域随机化已成功应用于物体位姿估计器和无人机视觉策略的迁移；

· 动力学随机化进一步扩展了域随机化的范围，能学习鲁棒性更强的策略，迁移至动力学特性不同的环境；

· 域随机化还被用于鲁棒抓握规划，以及相对简单机器人的运动和抓握策略迁移；

· Pinto等人提出对抗训练方法，提升策略的鲁棒性，并证明其对物理机器人的迁移效果；

· Hwangbo等人利用真实数据学习驱动模型，结合域随机化，成功实现运动策略的迁移。

近期的多项研究聚焦于优化域随机化的环境分布，提升仿真到现实迁移性能：

· 策略训练中，采用双层优化、真实轨迹和差异度量引导分布搜索、判别器引导仿真分布等方法；

· 视觉模型训练中，通过增强图像内容多样性、对抗网络自适应分布等方式改进域随机化。

10.4 强化学习中的元学习

尽管深度强化学习领域的元学习研究尚处于起步阶段，但已涌现出大量成果：

· 提出了MAML、SNAIL等算法，提升强化学习智能体的样本效率；

· 核心研究思路是利用环境分布中的共享结构，快速适应未见过的场景；

· 部分研究将元学习直接视为环境动力学模型的辨识，另一些研究则聚焦于训练任务的自动发现；

· 元学习在多智能体场景中也得到了研究。

本研究的方法直接基RL2，通过通用优化算法训练具有记忆增强的模型，在内部循环中实现独立的学习算法。本研究的创新之处在于将自动课程生成（ADR）、高难度任务（魔方还原）和完全分布外的测试环境（仿真到现实）相结合。

这一思路与Jeff Clune提出的AI生成算法（AI-GA）一致，该框架的三大支柱之一是生成有效且多样化的学习环境。与ADR思路相似的研究包括PowerPlay、POET和多种自对弈方法。

10.5 魔方还原机器人系统

目前已有多种能完成魔方还原的机器人，但据我们所知，这些机器人均为魔方还原任务专门设计，无法泛化到其他操作任务。

11结论

本研究提出了一种强大的仿真到现实迁移算法——自动域随机化（ADR），实验证明，ADR在视觉模型和控制策略的训练中，均优于传统的人工域随机化方法。将ADR与定制化机器人平台相结合，我们成功解决了复杂度前所未有的操作任务：利用真实的仿人机械手（Shadow灵巧手）完成魔方还原。通过对学习策略的系统性分析，我们发现了明确的涌现式元学习特征——基于ADR训练的策略能在部署时，通过更新循环状态，自适应从未见过的物理现实。

智行时代编者：AutoGo，智子原文作者：Ilge Akkaya，Marcin Andrychowicz，Maciek Chociej，Mateusz Litwin，Bob McGrew，Arthur Petron，Alex Paino，Matthias Plappert，Glenn Powell，Raphael Ribas，Jonas Schneider，Nikolas Tezak，Jerry Tworek，Peter Welinder，Lilian Weng，Qiming Yuan，Wojciech Zaremba，Lei Zhang（免责声明：文中观点仅供分享交流，文章版权及解释权归原作者及发布单位所有）

仿人机械手解魔方（下）：控制策略、训练方法及实验结果

猜你喜欢

清华、哈工大团队做灵巧手，成本降到三分之一，三个月融资近亿元

超越人手！中国第一家脑机接口独角兽，要把仿生手带给机器人

仿人机械手解魔方（上）：物理实验平台、建模方式和新型算法

人形机器人：为何灵巧手是迈不过去的门槛？

让马斯克焦头烂额的“手”，这家中国公司已在九年前进行布局

灵巧手常见的传动方案都有哪些？

评论0