TIV2023 | PiH：规划和轨迹预测的碰撞能擦出怎样的火花？

1,017次阅读

论文作者 | 李丁

编辑 | 自动驾驶之心

轨迹预测任务在自动驾驶系统中起到了承接感知和规划的重要作用。该任务需要对周围环境中其他交通参与者的未来行为意图和运动轨迹进行精准建模，以便更好地帮助下游规划模块作出安全、舒适且高效的驾驶行为。现有绝大多数方法均是在时空耦合空间下直接预测未来运动轨迹，忽略了置信度较高且可解释的中间层横向路径意图。受横纵向解耦规划思想的启发，中科院自动化所深度强化学习团队联合百度网讯提出规划启发式-横纵向分层轨迹预测方法PiH(Planning-inspired Hierarchical Trajectory Prediction)。该方法在Argoverse基准数据集下开展了广泛实验，验证了所提出的分层解耦方式在提升轨迹预测性能的同时，也提供了高置信度且可解释的中间层横向路径意图信息。该方法同时经百度阿波罗大规模离线数据验证有效，目前已发表在国际权威期刊IEEE Transactions on Intelligent Vehicles[1]。代码正在整理中，开源信息请关注后续报道。

1. 引言

基于锚点的轨迹预测方法是准确建模未来行为意图分布的有效手段。如图1-(a)所示，该类方法首先设计不同的锚点形式用以离散化具备时空耦合特性的多模态未来意图空间，进而建立场景表征与未来意图外部输入之间的概率分布映射关系；随后根据概率分布选择合适的锚点信息指导未来运动轨迹生成。一方面，道路拓扑结构对于多模态轨迹预测具有重要指导意义，TNT[2]和DenseTNT[3]通过细粒度采样道路段上的路径点序列作为目标锚点来丰富未来行为意图的表达。另一方面，Multipath[4]和PRIME[5]则通过设计预定义的静态轨迹锚来实现轨迹预测多模态性。

然而，现有方法却存在以下两点局限性: (1)在时空耦合空间下的锚点设计与人类驾驶行为固有的随机性与主观性紧密交织在一起，使得准确捕获未来行为意图十分困难；(2)现有基于锚点的轨迹预测方法在高度时空耦合空间下的可解释性十分有限，难以解释预测过程中的不合法或者不准确行为。针对上述存在的问题与挑战，我们提出了规划启发式-横纵向分层轨迹预测方法(如图1-(b)所示)，该方法将轨迹预测任务分解为固定空间距离的横向路径预测与固定时间步长的纵向目标点预测。横向路径意图的引入不仅有效缓解了耦合解空间下未来意图的高度不确定性，而且高效限定了纵向目标点选择的搜索空间范围。

TIV2023 | PiH：规划和轨迹预测的碰撞能擦出怎样的火花？图1: 基于锚点的轨迹预测方法与PiH方法的区别

2. 方法

图2展示了规划启发式-横纵向分层轨迹预测方法PiH的完整框架。首先，基于Multipath++[6]提出的MCG(Multi-Context Gating)模块构建了空间编码网络和时间编码网络，分别用于捕获障碍物与驾驶场景之间的交互关系以及与障碍物之间的时序依赖关系。随后，我们采用基于锚点的分层预测头用以预测固定空间距离的横向路径意图和固定时间步长的纵向目标点意图。最后，通过融合横纵向意图信息，生成基于纵向目标点为导向的未来运动轨迹以及可解释的中间层横向路径，预测得到的未来运动轨迹可严格遵循横向路径约束。

TIV2023 | PiH：规划和轨迹预测的碰撞能擦出怎样的火花？图2: 规划启发式-横纵向分层轨迹预测方法PiH的完整框架

2.1 场景编码

我们采用VectorNet[7]向量化表征方式将场景输入抽象为附带语义标签及其当前状态等属性信息的向量化编码特征，即预测障碍物历史特征，交互障碍物历史特征，以及道路拓扑特征。针对空间编码网络，首先将上述特征经一维卷积层和最大池化层后获得空间信息聚合特征，即，，以及；随后采用多层MCG模块捕捉预测障碍物与交互障碍物以及道路拓扑结构之间的空间交互关系，并输出空间编码特征：

。

针对时间编码网络，则首先将预测障碍物历史特征和交互障碍物历史特征经深度交叉网络和最大池化层后获得时间信息聚合特征；随后采用多层MCG模块挖掘时序依赖关系，并输出时间编码特征：

。

我们将空间编码特征和时间编码特征聚合并经多层感知机后输出场景编码特征。

2.2 基于锚点的分层预测头

我们将未来轨迹行为意图递进式地解耦为横向路径意图和纵向目标点意图。鉴于此，给定场景输入，未来运动轨迹概率分布可以被设定为横纵向意图概率分布的乘积形式：

横向分布纵向分布。

2.2.1 混合横向意图预测

剥离时间维度的横向意图预测为未来行为意图预测提供了更直接的方向引导属性。为了更完备地考虑人类驾驶行为潜在的横向意图，我们设计了一种新颖的混合横向路径锚，其由固定空间距离的后继路径集合和自由路径集合组成。其中，后继路径集合通过深度优先搜索算法在高精地图上进行检索而得到，自由路径集合则通过K均值(K-means)算法对训练集中横向路径真值信息进行聚类而得到。我们通过一组具有连续偏移量的混合横向路径锚建模固定空间距离的横向路径意图：，并进一步地设计混合横向意图预测网络，用以输出横向路径意图概率分布及其偏移量均值信息。

针对混合横向意图预测网络，首先将混合横向路径锚经多层感知机和最大池化层后获得横向路径锚初始编码特征，随后将其与场景编码特征作为输入，经过MCG模块和多层感知机后输出横向意图概率分布及其偏移量均值信息：

。

在训练过程中，我们将横向意图预测任务拆分为横向意图分类子任务和横向偏移回归子任务，因此横向损失值函数被定义为：

横向分类横向偏移回归，

其中，表示二元交叉熵损失值函数，表示平滑L1(Smooth-L1)损失值函数，表示横向意图标签信息。在推理过程中，我们对横向意图概率预测值进行排序选择合适的横向路径锚，并相应地将均值作为连续偏移量, 二者作矢量和输出横向路径意图预测信息。

2.2.2 纵向意图预测

一旦横向路径意图被确定，纵向意图预测为未来行为意图预测赋予速度属性信息。我们通过遍历横向路径意图上的路径点序列获得纵向目标锚，并设计纵向意图预测网络，用以输出未来最后一个时间步的纵向目标点意图概率分布及其偏移量均值信息。

针对纵向意图预测网络，首先将纵向目标锚经多层感知机后获得纵向目标锚初始编码特征，随后将其与横向意图预测网络中MCG模块更新后的横向路径锚特征作为输入，经过MCG模块和多层感知机后输出纵向意图概率分布及其偏移量均值信息：

。

类似地，在训练过程中，纵向损失值函数被定义为：

纵向分类纵向偏移回归，

其中，表示纵向意图标签信息。纵向训练过程采用教师强迫(Teacher-forcing)训练策略，将横向路径真值信息作为网络输入引导纵向目标点意图预测。在推理过程中，则以横向路径意图预测信息作为网络输入进一步获得纵向意图概率预测值及其偏移量均值信息，并选择合适的纵向目标锚及其连续偏移量, 二者作矢量和输出纵向目标点意图预测信息。

2.3 多模态轨迹预测

对于横向路径与纵向目标点的每一种意图组合形式，我们设计了多模态轨迹预测网络用以生成以纵向目标点为导向的未来运动轨迹，并且预测轨迹严格遵循横向路径约束。首先，聚合场景编码特征以及MCG模块更新后的横纵向锚点特征和，随后经多层感知机后预测障碍物未来个时间步的坐标信息。在训练过程中，我们采用平滑L1(Smooth-L1)损失值函数予以约束，从而轨迹预测损失值函数被定义为：

其中, 表示第个未来时间步的真值坐标信息。轨迹预测训练过程仍然采用教师强迫(Teacher-forcing)训练策略，将横纵向意图真值信息作为网络输入引导最终的未来运动轨迹回归过程。在推理过程中，则将横纵向意图预测信息作为网络输入以获得未来轨迹预测信息；于此同时，将横纵向意图概率预测值作乘积得到相应的预测轨迹概率值，并经K均值(K-means)算法聚类条未来轨迹作为最终输出。除此之外，我们还提供了横向意图概率预测值前2的中间层路径预测信息作为最终输出。

3. 实验与结果

论文从轨迹预测性能和横向预测性能两个方面定量分析了PiH方法的优越性，并进一步结合预测结果可视化的定性评价方式来衡量所产生的可解释性增益。其中，轨迹预测性能评估指标主要包括minADE，minFDE以及MR。我们将以上三个指标分别赋予权重0.5，0.25和0.25，并进行加权求和获得轨迹预测综合评价指标AM。横向预测性能评价指标则以10m为间隔评估最优预测轨迹(概率值最大)与横向路径真值之间的距离误差DE。

3.1 轨迹预测性能分析

表1给出了PiH与最先进的基线算法在Argoverse验证数据集上的定量结果。实验结果显示，与最先进的基线算法相比，PiH取得了较为全面的轨迹预测性能。与隐式轨迹预测方法DESIRE，R2P2以及DiversityGAN相比，PiH在minADE和minFDE指标上性能提升显著。与最新的分层隐式预测方法HLSTF相比，PiH获得了更好的minFDE。更为重要的是，PiH所提出的基于锚点的分层预测方法可以提供显式的具有实际物理意义的横向路径意图和纵向目标点意图信息。表1中也列出了PiH与现有基于锚点的轨迹预测方法的实验对比，如轨迹锚方法PRIME和目标锚方法DenseTNT。PiH在minADE和minFDE明显优于PRIME；在minADE上优于DenseTNT，这归功于横向路径意图在PiH模型中的应用。

表1: 轨迹预测在Argoverse验证数据集上的性能对比

TIV2023 | PiH：规划和轨迹预测的碰撞能擦出怎样的火花？

3.2 横向预测性能对比

为了进一步验证横向路径意图预测所发挥的重要作用，将PiH与基于锚点的Argoverse开源轨迹预测方法PRIME和DenseTNT进行横向预测性能比较。实验结果如表2所示，PiH在所有横向指标上均取得最佳表现。这也充分解释了PiH通过横向约束相比于DenseTNT在轨迹预测指标minADE上的独特优势。更为值得注意的是，PiH在较长空间距离下的距离误差指标(50m_DE)降低了17%，相比于其他模型在横向预测性能上呈现显著提升。

表2: 横向预测在Argoverse验证数据集上的性能对比

TIV2023 | PiH：规划和轨迹预测的碰撞能擦出怎样的火花？

除此之外，我们也在百度阿波罗大规模离线数据集上验证了PiH横向预测性能的优势。如表3所示，与基线算法Multipath++相比，PiH横向预测性能提升显著。其中，机动车横向距离误差指标总体降低20%以上，非机动车横向距离误差指标总体降低15%以上。

表3: 横向预测在百度阿波罗大规模离线数据集上的性能对比

TIV2023 | PiH：规划和轨迹预测的碰撞能擦出怎样的火花？

3.3 可解释性增益

PiH的分层解耦方式提供了高置信度且可解释的中间层横向路径意图，这对于自动驾驶系统在强交互场景中作出安全且合理的规划行为具有强有力的推动作用。为了更加直观地展示算法的性能，我们在Argoverse路口/非路口典型交互场景下将PiH与当前基于锚点的最先进轨迹预测方法DenseTNT进行了定性对比，如图3所示。与此同时，我们列出了每一组预测轨迹的概率值，并使用熵值用以衡量未来运动轨迹概率分布估计的不确定性。实验结果显示，DenseTNT预测轨迹具有相对近似的概率和较高的熵值，这种高度不确定性会带来连续时间帧间未来行为意图不一致现象，进而影响或误导下游规划任务。相反的是，剥离时间维度的横向意图摆脱了主观性和随机性对模型预测带来的潜在影响，并通过引入高置信度的横向意图有效缓解了未来轨迹行为意图概率分布估计的不确定性。进一步地，高置信度的横向路径意图使我们的模型可以通过检测重叠的横向路径来准确辨识自动驾驶车辆周围的交互障碍物，并使用MPC(Model Predictive Control)模块进行下游运动规划。

TIV2023 | PiH：规划和轨迹预测的碰撞能擦出怎样的火花？图3: PiH与DenseTNT在Argoverse交互场景中的可视化比较

4. 结论

本文提出了规划启发式-横纵向分层轨迹预测方法PiH，将未来轨迹行为意图建模递进式地分解为固定空间距离的横向路径意图预测和固定时间步长的纵向目标点意图预测。其中，我们设计了一种新型的混合横向意图预测网络，其可以完备的囊括后继路径和自由路径两类横向模态。实验结果表明，与Argoverse基准的最先进方法相比，PiH取得了较为全面的轨迹预测性能，并在横向预测性能上获得显著优势。横向意图预测的引入剥离了时间维度所带来的主观性与随机性影响，提供了高置信度且可解释的中间层横向路径，并有效缓解了纵向目标点意图的预测负担。

参考文献

[1] D. Li, Q. Zhang, Z. Xia, Y. Zheng, K. Zhang, M. Yi, W. Jin, and D. Zhao, “Planning-Inspired Hierarchical Trajectory Prediction Via Lateral-Longitudinal Decomposition for Autonomous Driving,” in IEEE Transactions on Intelligent Vehicles, doi: 10.1109/TIV.2023.3307116.
[2] H. Zhao, J. Gao, T. Lan, and et al., “TNT: Target-driven trajectory prediction,” in Conference on Robot Learning (CoRL), 2020, pp. 895–904.
[3] J. Gu, C. Sun, and H. Zhao, “DenseTNT: End-to-end trajectory prediction from dense goal sets,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 15 303–15 312.
[4] Y. Chai, B. Sapp, M. Bansal, and D. Anguelov, “MultiPath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction,” in Conference on Robot Learning (CoRL), 2019, pp. 86-89.
[5] H. Song, D. Luan, W. Ding, and et al., “Learning to predict vehicle trajectories with model-based planning,” in Conference on Robot Learning (CoRL), 2021, pp. 1035–1045.
[6] B. Varadarajan, A. Hefny, A. Srivastava, K. S. Refaat, N. Nayakanti, A. Cornman, K. Chen, B. Douillard, C. P. Lam, D. Anguelov, and B. Sapp, “MultiPath++: Efficient information fusion and trajectory aggregation for behavior prediction,” in 2022 IEEE International Conference on Robotics and Automation (ICRA), 2022, pp. 7814–7821.
[7] J. Gao, C. Sun, H. Zhao, and et al., “VectorNet: Encoding hd maps and agent dynamics from vectorized representation,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 11 525–11 533.