这篇博客介绍了清华 Traffic-IT: Enhancing traffic scene understanding for multimodal large language models 论文的阅读笔记。
摘要
近年来,人工智能与城市基础设施的融合,极大地推动了智能交通系统 (ITS) 的转型发展。这些系统利用复杂的神经网络模型,在增强交通管理、道路安全和城市出行方面发挥着关键作用(Zhang et al., 2024a; Yang et al., 2025; Wang et al., 2024; Zhou et al., 2024b; Qu et al., 2023; Zhou et al., 2024; Wang and Yang, 2024)。
尽管神经网络模型在提升 ITS 方面表现出卓越的能力,但一个经常遇到的关键局限是这些模型的泛化能力受限。通常情况下,在一个特定交通场景下训练的模型,在应用于不同场景时,其表现会大打折扣。这种缺乏适应性带来了重大挑战,尤其是在交通环境日益复杂和多样化的背景下。在快速发展的智能交通领域,为每一个独特的场景训练一个新模型既不切实际也不可持续,这与 ITS 发展中追求可扩展性和效率的更广泛目标相悖。
最近,由于多模态大语言模型(MLLMs)的出现(Huang et al., 2023; Zhu et al., 2023; Li et al., 2023a; Liu et al., 2023b; Dai et al., 2023; Zhang et al., 2023b; Zhao et al., 2024; Chen et al., 2023; Liu et al., 2023; OpenAI, 2023; Li et al., 2023b),计算机视觉领域见证了一场新的范式转变。这些模型旨在超越传统的特定任务专家,充当通用基础模型,能够协助人类完成各种视觉任务。因此,这些基础模型也为交通视觉感知与理解领域带来了令人兴奋的潜力。这种适应性不仅增强了模型在不同城市环境中的适用性,也符合开发更稳健、高效和多功能交通系统的目标。
虽然现有的 MLLMs 在理解复杂交通场景方面展示出潜力,但它们主要是在通用文本-图像对上进行训练的,这些数据往往缺乏针对交通背景的特定设计。这种局限性主要归因于专门为交通场景策划的大规模数据集的稀缺性。这意味着这些 MLLMs 在交通场景中的性能可以得到进一步提升。
因此,为了解决这一局限性,在本文中,我们提出了 Traffic-IT 数据集,这是第一个大规模交通指令微调数据集,包含约 *220k 个文本-图像对。此外,为了确保我们提出的数据集能够有效地增强现有 MLLMs 在交通场景中的感知能力,我们设计了一个专用于交通场景的新颖数据收集流程。
收集流程:第一步——图像收集 第一步是图像收集。为了有效确保所收集的数据能增强 MLLMs,我们从互联网、现有数据集和行车记录仪录像中收集了总计 30k 张、涵盖各种交通状况的高质量图像。此外,为了模拟现实世界的交通场景,我们选择了来自各种环境的图像,例如晴天、雨天和雪天。这种多样性和高质量的图像确保了后续指令微调的有效性。
收集流程:第二步——问题与回答生成 第二步包括咨询三位交通领域专家,设计 30 个交通场景中常用的问题。随后,我们使用 GPT-4 为每张图像随机选择 6-10 个问题,并获得相应的回答。此外,为了进一步增强我们数据的实用性,我们不仅生成理解性回答,还要求模型对当前场景提供洞察,以提供进一步的驾驶规划。这种方法实际上更符合现实世界智能交通场景的需求,因为理解当前交通场景的目的是为了规划接下来的步骤。
最后,为确保回答的准确性,共有 10 位专家对 GPT-4 生成的回复进行了审查和进一步修正。最终,Traffic-IT 数据集包含了约 220k 个问答对,这些问答对源自 30k 张图像。如此庞大的数据量确保了对各种交通场景的全面和均衡表示,为在真实交通场景分析中训练和评估 MLLMs 提供了广泛的资源。
如图 1 中的词云所示,所提出的 Traffic-IT 数据集特别强调交通场景中与车辆和道路安全相关的问题,从而促进了智能交通系统(ITS)的进步。此外,图 2 表明 Traffic-IT 数据集提供了多样化的图像和广泛的精心设计的问题。这种多样性使数据集能够适应各种交通场景,并进一步促进了交通场景理解领域的发展。
💡 本文的贡献: 我们引入了一个大规模的指令微调数据集 Traffic-IT,该数据集专为交通场景设计。这一举措代表了该领域最早的尝试之一,旨在定制一个数据集来增强 MLLMs 在交通场景分析中的能力。我们提出的数据集不仅推动了 MLLMs 在理解交通场景中的应用,同时也对智能交通系统的发展做出了重大贡献。
为了确保我们提出的数据集能够有效地增强 MLLMs 理解交通场景的能力,我们开发了一个全面的数据收集流程。该流程包含了关于如何收集和标注高质量数据的详细指南,这对于训练稳健和准确的模型至关重要。通过提供一个清晰的数据收集框架,我们不仅用多样化和具有代表性的交通场景丰富了数据集,还树立了一个可以启发进一步研究的标准。
我们通过在三种广泛使用的开源 MLLMs 上进行评估,验证了我们提出的指令微调数据集的有效性。实验结果表明,我们的数据集显著增强了 MLLMs 在理解交通场景中的性能。
