SelfD,一个从网上数据自学习大规模的BEV空间驾驶策略

语言: CN / TW / HK

arXiv上在2022年4月上传论文“SelfD: Self-Learning Large-Scale Driving Policies From the Web“,作者来自波士顿大学团队。

有效利用互联网免费提供的、大量自车为中心的导航数据可以推进通用智能系统,即跨视角、跨平台、跨环境条件、跨场景和地理位置,鲁棒地扩展。然而,很难直接利用如此大量的未标注和高度多样化的数据来执行复杂的 3D 推理和规划任务。因此,研究人员主要专注于各种辅助的、不考虑最终导航目标、像素级和图像级计算机视觉任务。

这项工作, SelfD ,是一个通过大量在线单目图像来学习可扩展驾驶的框架。关键思想是以迭代半监督训练方式从 未标注数据 中学习如何模仿智体。为了处理不受约束的视点、场景和摄像头参数等问题,其训练一个基于图像的模型,直接学习在 BEV空间 中进行规划。

作者用未标注的数据通过 自训练(self-training) 来增强决策知识和初始训练模型的鲁棒性。特别是,提出一个 伪标签(pseudo-labeling ) 步骤,基于“假设”规划的数据增强,充分利用高度多样化的演示数据。

用大量公开可用的 YouTube 视频数据集来训练 SelfD,并全面分析在有挑战性的导航场景中的泛化优势。无需任何额外的数据收集或标注工作,SelfD 在 nuScenes、Argoverse、Waymo 和 CARLA 等的驾驶性能评估方面表现出持续(高达 24%)改进。

如何在复杂和动态的环境中学习基于视觉的鲁棒导航通用模型?虽然人类可以轻松地在各种设置和平台之间传递通用导航知识,但当前导航智体的真实开发通常部署在固定的预设设置(如地理位置和用例)和经过仔细标定的传感器配置内。因此,每个自动驾驶用例通常需要自己的高昂的 数据收集 和特定于平台的 标注工作

由于这些开发瓶颈存在,不同开发人员内部训练的脆弱导航模型(例如,特斯拉的Autopilot、Waymo的Driver、亚马逊的Astro、联邦快递的Roxo等)很容易被现实世界导航任务的复杂性搞僵,例如,罕见的场景、新的环境、地理位置和摄像头安装的扰动。然而,每一分钟都有包含此类场景的、大量高度多样化的、免费提供的、自车为中心的导航数据被上传到网络上。

大量无约束和未标注的在线数据,用来训练鲁棒的基于视觉的导航策略,有两个关键挑战。

  • 首先,虽然在线图像可以在各种布局和摄像头设置中收集,但现有基于单目的预测和决策方法往往依赖于 已知摄像头参数和平面场景的限制假设 。对于和数据集和平台无关的导航智体,本文架构没有明确依赖于此类假设。
  • 其次,由于安全-紧要的需求,在复杂导航环境中学习决策的方法通常也假设可以使用 有清晰标注的高度精确基准

因此,在学习无标注和多样化的互联网视频(例如,通过各种质量的演示)时,必须重新审视这些方法。本文致力于有效利用这些免费可用的演示数据,提高通用真实世界导航智体的效率、安全性和可扩展性。

工作的目标是促进大规模训练驾驶决策。为了有效地利用大量未标注视频中广泛而多样的经验,遵循三个主要步骤如下:

  • 1)基于单目图像的 行为克隆(Behavior Cloning) 规划器,直接在BEV中进行推理;因此这个规划器可以更全面地泛化任意视角;
  • 2)接下来是一个数据增强步骤,在未标注互联网数据进行自训练时,其获得多个合理的伪标注;
  • 3)最后,在更大的数据集上重新训练模型,学习更鲁棒和更通用的基于视觉的导航策略。

导航演示可以通过记录人工操作的传感器数据来收集,然后通过各种学习技巧从这些演示训练决策的策略。在其最直接的实现中,映射函数fθ的训练,可以简化为通过i.i.d.数据假设的监督学习。不是在线和交互学习策略方案,而采用更好的方法(离线演示和无交互环境),训练更鲁棒的策略。

如图所示:目标是制定鲁棒、通用且易于部署的导航决策策略,主要利用网络上免费提供的、高度多样化的导航数据,增强一个最初经过训练的导航策略的知识和鲁棒性。

给定一个收集的观察数据集和相应的动作D,可以通过优化模拟目标来实现监督训练

其中L是一个L1回归函数。为了在包含不同导航经验的演示中充分利用未标注的数据,开发一个 从观测进行条件模仿学习(CILfO) 的框架。在这项更泛化但更困难的学习任务中,一个关键挑战在于,去恢复合适的标签目标yˆ、导航命令cˆ和速度vˆ,以构建一个数据集去训练一个策略

为了解决具有挑战性的CILfO学习任务,关键想法是利用一个小标注数据集,使用专家演示学习初始策略映射。然后,从这个经过训练的函数中采样,获得未标注数据的伪标注。考虑到有几个包含动作标签的公开驾驶数据集,该假设是合理的。或者,可以最初收集具有一个新平台设置或用例的一个初步数据集。

这个通用且可扩展的CILfO,并不假定可以访问时域数据。原因有三个:

  • 首先,虽然连续观察可能有助于澄清各种决策因素,但学习时域感觉运动驾驶策略的泛化结果,尚未得出结论。
  • 其次,虽然在大多数先验观察模仿学习设置中都假设了序列数据,但在任意场景恢复根本演示动作(例如,单目视觉里程计)是一项挑战。
  • 第三,没有对未标注数据集U中的演示最优性做出任何假设。因此,这个泛化方法适用于从复杂场景、环境条件、任意视点和不同演示质量的视频中进行可扩展学习。

通过半监督的策略训练过程,所提出的SelfD导航策略模型可以通过三个概述步骤来学习:

  • 1、用一个小标注域特定的数据集D,通过模仿学习一个初始的观测-到-BEV(observations-to-BEV)策略fθ。
  • 2、利用fθ的采样获得一个大型伪标注数据集Dˆ。
  • 3、在Dˆ上预训练泛化策略fθ,并对D的干净标签进行微调。

注意,在整个步骤中重复使用参数符号θ来简化记号。迭代半监督训练能够有效地增强初始训练策略的知识和鲁棒性。

BEV规划网络

提出一种输出表示法,用于解释任意摄像头、视点和场景布局。当前的单目规划器通常预测图像平面中的航路点,以与输入图像对齐。然后,使用仔细标定的摄像头内外参(例如旋转、高度)参数将航路点转换为BEV规划。因此,通常在固定的预设设置内对策略模型进行训练和评估。

相反,SelfD直接在BEV规划空间中预测由航路点参数化的一个未来规划。预测的广义BEV航路点可与一个低级控制器配对,例如PID控制器。由于学习单目-到-BEV(monocular-to-BEV)平面映射的困难,采用一个可信度-觉察(confidence-aware)学习的方法训练一个增强模型fθ:X→ Y×R,其中质量估计σ∈ R。 训练损失函数定义为

其中Lplan是航路点和真值之间的距离,Lquality是二值交叉熵损失。

如图是BEV规划网络架构:为了处理视点和布局的多样性,提出的网络模型没有假定固定的已知BEV透视变换。多分支投影模型(c)在ns Singapore上的ADE值为1.14时效果最好,而CIL基准方法(a)和单分支投影模型的BEV规划器(b)的ADE值分别为1.86和1.21。SelfD采用条件航路点投影模块(c)。

无标注数据的“what- if”伪标注

给定一组未标注图像U,在半监督训练过程中,从训练的条件策略fθ中采样。虽然可以通过视觉里程计技术恢复fθ的速度和指令输入,但是在线视频设置中,这会导致高度含噪轨迹。由于数据中的演示可能不安全或难以恢复,建议用单帧伪标注机制。

关键的洞察点是,利用条件模型fθ,在一个“what if”增强的过程中,生成多个假设的未来轨迹。除了解决丢失的速度和命令输入外,增强方法还提供了额外的监督,即一个条件智体可以更好地说明其可能需要做什么,例如,如果必须在十字路口左转而不是右转。与策略学习和蒸馏方面的相关工作相比,从教师智体中取样更具挑战性,因为这个智体没有接触到关于世界的广泛3D感知知识,并且在其训练环境之外被评估。

如图所示:对条件规划器进行采样,为每个未标注帧生成多个看似合理的未来轨迹(单位为BEV中的米)作为伪标签;从数据集中描述两个场景,对各种输入进行推断。速度以米/秒为单位,条件命令为左(1)、前(2)或右(3)。

重复对速度vˆ和命令cˆ进行统一采样,并依赖条件模型提供伪标注(yˆ,σˆ)=fθ(I,vˆ,cˆ),以便对所有条件分支和速度观测进行额外监督。通过这种方式,查询“教师”模型fθ,能够生成原始演示之外的各种场景。特别是,在没有“what if”数据增强步骤的情况下,自训练策略可以提供有限的泛化收益。这种增强策略使单帧伪标注方法能够显著优于更精细的大规模训练方法,因为可能涉及额外模块,去依赖视频中的近似标签yˆ、命令cˆ和速度vˆ。最后,为了避免引入可能的噪声轨迹,可以用相应的质量估计值σˆ来处理和过滤伪标注数据集Dˆ中的示例。

模型重训练和细调整

最后,从头开始在大型和多样的数据集Dˆ上重新训练航路点网络fθ。然后,可以在原始数据集D上进一步微调预训练的策略,利用从Dˆ获得的额外知识来提高其性能。对两个数据集Dˆ和D进行单独的训练,并依靠学习的表征进行知识迁移,减少了任何超出整体学习率的超参细调需要。因此,通过预训练机制,避免了仔细混合干净标注和伪标注数据集的需要。

为获得大量的驾驶数据,从YouTube上的热门驾驶频道下载了100小时的前视驾驶视频(跨越城市、天气和时间)。在实际评估中,用nuScenes、Waymo和Argoverse数据集。虽然nuScenes是一个高度工具化和标注的数据集,但主要用于感知任务,没有用于未来航路点规划的官方基准。

将nuScenes Boston和nuScenes Singapore划分为两个地理区域,这是一个具有挑战性的领域迁移。为了进一步评估泛化,利用在8个不同城市收集的Waymo和Argoverse数据集。具体而言,从Waymo感知测试集和Argoverse 3D跟踪训练集构建了未来航路点预测基准。总的来说,我们的拆分结果分别来自nuScenes Boston、nuScenes Singapore、Argoverse和Waymo的13K、11K、11K和26K样本。

开环真实世界评估将预测与复杂交互中的老练驾驶员进行比较(即,各种机动、让行、汇入、不规则交叉口)。为了分析闭环驾驶期间所提方法的影响,进一步在CARLA中执行交互式政策评估。在模拟中复制训练设置,并采用PID控制器预测最终的低级动作。特别是,用town 1的标记数据进行训练,对town 2的常规交通进行评估(遵循NoCrash)。为了解伪标注对闭环驾驶指标的影响,保留了一部分用于伪标注的城镇训练数据。在四种不同的天气条件下,对Town 2的25条预定义路线进行了评估,其中一条未在注注数据中显示。

实验结果如下:

如图比较BEV中真实轨迹、基线模型(在nS Boston上训练)和SelfD(在YouTube上预先训练,在nS Boston上微调)的预测航路点。结果显示在Waymo(左)和nS Singapore(右)上。由于所提出的伪标注机制,SelfD模型(绿色)可以很好地泛化不寻常的场景。对罕见的指令和速度输入的鲁棒性有所提高。