为了自动驾驶安全的感知模块处理率估计模型-Zhuyi

语言: CN / TW / HK

2022年5月6日arXiv上传论文“Zhuyi: Perception Processing Rate Estimation for Safety in Autonomous Vehicles“,是哈佛大学学生在英伟达公司的实习工作。

在复杂场景中,自动驾驶车(AVs)对高精度感知的处理要求可能超过车载计算机提供的资源,从而降低安全性和舒适性。本文提出一种传感器帧处理率(FPR)估计模型 Zhuyi (中文意思“主意”?),在驾驶场景中该模型可以连续量化最小安全FPR。Zhuyi可以在部署后作为在线安全检查和对工作排列优先。行业SOA多摄像头AV系统的实验表明,Zhuyi估计的FPR是保守的,但与测试场景中默认的30-FPR系统相比,该系统只需处理相比36%或更少的帧,从而保持安全性。

仅在12摄像头系统上实现高质量感知处理能力,就可能超过最先进的SoC提供的资源。如图显示SOA模型运行感知任务的吞吐量需求,以及单个NVIDIA DRIVE AGX Xavier和NVIDIA Jetson AGX Orin SoCs提供的吞吐量。

假设在12台摄像头1200x1200图像帧运行SSD- Large目标检测模型,可估计每秒Tera操作数(TOPS)(运行所需来自MLPerf)。由于精确感知还需要运行其他视觉模型(例如,车道线检测、自由空间感知、遮挡检测),假设这些模型可以重用提取特征,那么TOPS需求会增加20%。考虑到激光雷达、雷达以及定位和规划算法,计算需求可能会更高。更高输入分辨率的感知算法可能需要数倍计算量。

此外,要做的工作可能会根据场景增加。例如,最近的一项研究表明,AV周围障碍物较高的密度会间歇性地增加计算需求。由于实时AV系统产生的计算需求可能非常高,因此为安全操作必须量化感知需求,车内计算机要提供固定资源以确定重要任务的优先级,并将剩余资源用于进一步提高安全性和舒适性的任务。

Zhuyi用于量化多摄像头设置下可容忍的摄像头处理延迟,以确保安全操作。安全操作或安全,定义为自车与周围参与者之间没有碰撞。基于自车和周围参与者的当前和未来状态,用一个考虑碰撞可能性的运动学模型来量化安全驾驶的最大容许延迟。

最大容许延迟的倒数,是摄像机传感器的最小帧处理速率或FPR要求。因此,与典型AV系统中的固定传感器设置(例如,摄像头30 FPR)不同,AV系统可以分配硬件资源来处理安全-紧要感知任务,避免做出不及时的决定或增加系统反应时间。

例如,当没有足够的资源来处理来自更重要传感器的数据时,对于不太重要的摄像头,主要感知/跟踪不重要障碍物,其处理速度可能会设置很低,从而优化AV系统,实现舒适性和安全性。当硬件系统因操作条件或某些延迟增加而受到限制时,动态FPR调整尤为关键。

在AV软件系统的开发阶段,Zhuyi 可以验证不同AV任务的资源分配是否足够安全,并用来设计更有效的系统。AV软件在部署前,针对不同的ODD对一组不同的驾驶场景进行测试。对于每个驾驶场景,Zhuyi可以为每个摄像头提供最大可容忍延迟要求,以避免碰撞。

Zhuyi 也可以作为回归测试的一部分。Zhuyi可以利用延迟估计的分析来更好地设计AV系统。例如,延迟边界可以加速设计空间探索,并帮助架构师为不同ODD发现新的优化机会。

Zhuyi模型采用基于运动学的计算来估计每个参与者的处理延迟需求,并根据摄像头的视野(FOV)聚合所有需求获得FPR。

如图显示自车和其他参与者的在时刻t0和tn的位置:将世界坐标系定义为二维俯视图,其中 是自车的纵向, 是自车的横向。两个状态 0和 如2-D 框架。在 时刻(为简单起见,假设 0 = 0 和 = ),不希望发生任何安全事故,即自车和参与者之间在纵向或横向都不会发生碰撞。

为了让自车对障碍作出反应,必须感知到障碍存在并作出反应。自车感知和确认障碍的时间称为反应时间( ) ,在这段时间内行驶的距离为 1。在这段时间之后,自车采用安全程序来避免潜在碰撞。

假设制动的动作为安全程序,自车可以用减速 达到速度 行驶 2。 = ( 3, 4× 0),其中C3表示最小制动减速度,C4说明制动减速度可能高于当前值。

要使自车在 内无碰撞,其行进的距离必须小于自车在 0位置和参与者在 位置之间的距离( ), 自车的速度必须小于其他参与者的速度。这两个约束分别显示在如下方程式1和2中:

反应时间( ) 定义为 + , 其中 是可容忍的延迟, 解释参与者确认的延迟。本文中建模 为 ×( − 0),其中 是感知系统确认参与者的帧数, 0 是系统在 t0 的处理延迟。基于感知解决方案采用的平滑/滤波算法,可以用不同的模型来估计参与者确认的延迟。在反应时间 , 假设自车的加速度不变。

目标是找到最大延迟,对于任何 满足公式(1)和(2)的约束,因此 ≥ > 0。一种用于找到可容忍延迟的算法,是迭代减少 (从允许的最大值开始,例如1秒)并搜索 满足这两个约束条件。

一旦满足约束条件,终止搜索。对于一个 , 算法设定 ′ = + (其中 2 = 0),用自车和参与者的位置、速度和加速度检查是否满足约束。如果不满足限制条件,一种简单的方法是增加 ′ 一个时间步(例如,0.01秒)并重新检查。为了提高性能,可以根据要未满足的约束,调整 去计算 ′ 用于下一次迭代。对于基于距离和速度的约束,此优化分别计算自车覆盖间隙( = × 1 − 1 − 2)和相应达到目标速度( × 2 − )所需的时间。如下显示 的计算公式:

使用此 ,对 ′ 更新 ′ = ′ + ,做约束检查和 ′ 更新步骤,重复 次数(例如, = 10) 。M次尝试之后如果未满足约束,通过 减少 (例如, = 33毫秒) 再重复该过程,直到 达到最小允许值(例如33毫秒),实现最大步数 = ( )/ 。

到目前为止,已经估计每个参与者在假设一条未来轨迹的情况下可以忍受的延迟。在操作过程中,AV可以预测场景中每个参与者的多个未来轨迹,每个轨迹都有相关的概率。

Zhuyi估计所有预测轨迹的可容忍延迟,并考虑不同聚合函数获得每个参与者的单个估计。例如, 最大值 提供了最悲观的估计,而 平均值 为最有可能的未来轨迹提供更多的权重。

也可以用容许延迟的第 个百分位(例如, = 99)如下等式所示:

其中 是由轨迹预测给出的预测轨迹集。这说明,在不太悲观的情况下自车要保持谨慎。

这项工作用轨道预测模型MultiPath、PredictionNet和Multiple Futures Prediction等进行了重要的研究。

Zhuyi推导每个参与者可容忍的延迟估计模型,考虑每个摄像头视野(FOV)内的所有周围参与者,获得每个摄像头的FPR要求。如下公式可用于获得每个摄像头的FPR:

其中 是摄像机视野中的一组参与者。

因此,Zhuyi可以估计每个摄像头的FPR,使AV可以安全运行(无碰撞),同时使用更少的计算资源。

在AV开发阶段,基于驾驶场景的AV测试,在开发多驾驶条件下安全方面,起着关键作用,尽管这很耗时。在AV中添加新功能或重新设计系统时,必须重新测试AV。这些测试用一组考虑天气、路况、交通和碰撞前场景等因素的驾驶场景,在模拟或真实世界中运行最新的AV系统。每个测试失败,即基于驾驶场景的测试期间所发生的碰撞,都会向系统设计者提供反馈,以诊断失败的来源,并修复错误或重新设计系统,以便在下一次迭代中清除该测试。

Zhuyi模型可以作为一个模块化的独立安全评估器来实现,该评估器可以在每次最新AV系统执行驾驶场景测试中运行,也可以在每次测试之后运行。该测试模块化评估将在测试场景中的每个时间步提供每个摄像头的处理速率要求,这也可以包含在系统设计师的反馈中,以帮助设计更安全、更高效的AV系统。

已经实现测试后运行的Zhuyi模型。对于每个经过AV测试的场景,都会收集场景踪迹,其中包括所有时间步的自车和所有参与者的状态。测试通常以预定义处理速率运行(例如, 0=30)。从场景开始到场景结束,在场景踪迹中的每个时间步都会执行Zhuyi模型。当每次计算每个参与者的可容忍延迟时,参与者在未来时间步的位置是已知的,即集合T的大小是1。因此,通过公式(5)获得每个摄像头帧处理率估计。这一估计为AV架构师提供每个摄像头的动态处理率要求以及每个测试驾驶场景中每个摄像头最小处理速率信息。这些信息可以帮助系统架构师确定ODD,其中不同传感器的不同资源分配可以提供安全驾驶。例如,如果AV位于最右侧车道,且右侧摄像头没有目标和遮挡,则可以使用更多资源来处理来自前/左/后摄像头的数据。

在部署AV系统后,也可以在线使用Zhuyi模型,检查操作帧处理率是否满足安全操作所需的最低速率,并在需要时安排工作优先级。如图显示一个典型的AV系统(使用黑框/线),该系统具有建议的安全功能(使用绿框/线)。

当前的AV系统处理每个传感器的数据以获得环境模型,该模型构成轨迹预测模块的输入。环境模型和预测路径(轨迹预测的输出)构成规划器的输入。规划器设置发送到车辆的执行器数值。可能的改变是利用环境模型(当前状态)和预测轨迹作为输入,在线执行Zhuyi模型。

安全检查 : 根据Zhuyi估计的每台摄像头要求,系统可以检查当前的每台摄像头处理率是否高于估计值。如果没有,则存在与一个或多个周围参与者发生高可能性碰撞的安全问题。因此,安全检查块可以向AV系统发送警报,AV系统可以采取以下措施之一来维护道路安全:(1)激活紧急备用系统(如果可用),(2)在有限功能模式下运行,这会影响非必要任务,如舱内信息娱乐和用户辅助系统,或(3)请求系统提高低于估计值的摄像头处理速率。

工作优先级 :Zhuyi的摄像头处理率估计值,可以指导上图中感知框中传感器工作优先级。估计的处理率越高,来自改摄像头的图像就越重要。如果当前处理速度足以保证安全时,系统可以进行舒适性优化。AV系统不需要以相同的频率处理每个摄像头的图像,而是可以按照估计的速率比例处理这些图像。如果安全检查模块触发报警,则感知模块可以以高于各自估计的速率运行,让摄像机处理较少的帧,提高未能达到需求的摄像机处理速率。根据每个摄像头的处理速率估计,可以将较少的图像从传感器传输到车内计算机,从而减少AV软件传输不打算处理图像的浪费。

Zhuyi的每个参与者可忍受的延迟估计值可用于确定场景中目标优先级。每个参与者可容忍的延迟估计值的倒数,与参与者的重要性成正比(延迟估计值越高,目标越不重要)。例如,通过截断不太重要的目标对应的工作,每个参与者的优先级可以用于优化场景中每个参与者执行的任务。

当扩展到考虑感知不确定性时,Zhuyi可用于确定感知模块的必要精度。由于DNN模型自然会呈现精度与计算需求之间的权衡(通过量化和修剪),Zhuyi可以告知何时权衡精度以减少计算量。

如下表是验证所涉及的9个驾驶场景:

车辆切入-切出场景的延迟估计:

在固定容忍距离条件下,传感器帧处理率FPR结果如下: