采访：Geiger教授——端到端训练

Andreas Geiger博士是马克斯-普朗克智能系统研究所 (MPI-IS) 自主视觉研究小组的负责人，也是图宾根大学基于学习的计算机视觉和自主视觉领域的教授。在这次访谈中，他谈到了自动驾驶汽车开发所面临的挑战，说明了德国大学与其他大学相比所具有的独特吸引力，并阐述了如何才能留住年轻人才。

该奖项到底表彰了什么？

我是因为在自动驾驶汽车方面的研究工作而获奖。我在卡尔斯鲁厄理工学院的论文中首次提出了实现场景理解的算法和方法。我想使用真实数据，所以我给一辆测试车辆配备了全面的传感器技术工具 – 几个摄像头、激光雷达和 GPS。在某个时候，我们决定向公众开放这些海量数据。我的论文产生了一个意外收获：KITTI 基准，该基准创建于2012 年，目前已成为自动驾驶领域最具影响力的数据集之一。如今，KITTI 基准是计算机视觉领域用于评估算法的先进基准。

您能谈谈控制工程和机器学习之间有什么区别吗？

很多人不清楚机器学习和控制工程之间有何区别，这是个视角问题。对于控制工程师来说，感知是次要的，对于计算机科学家来说，控制工程是次要的。就个人而言，我认为自动驾驶面临的更严峻的挑战是感知和基于人工智能的决策。与具有50 个执行器和触觉传感器的仿生机器人的控制技术相比，车辆的控制系统相对简单。基本上，汽车只能由转向装置、加速装置和制动器控制。此外，该行业长期以来一直致力于车辆控制，因此积累了大量的专业知识。

您目前是否愿意乘坐自动驾驶车辆？

为什么不呢？如果有机会，我不介意乘坐Level-4车辆。车内通常有一名服务人员，必要时其可以进行辅助驾驶。

您认为第一辆没有服务人员的自动驾驶车辆何时会上路行驶？

许多行业代表曾承诺，这一愿景在2021年将会成为现实。然而，许多人已经收回了他们的承诺，并且变得更加现实。我不指望未来十年会出现Level-5自动驾驶车辆，因为人工智能领域的基本问题还没有得到解决。Level 4驾驶是否成功取决于定义的框架条件。在特定区域，在特定天气条件下，可能会在未来几年实现，对此可以参照Waymo公司的成果。我想我们将从远程操作和速度限制方面着手。特斯拉是这一领域的先驱，但我不太相信在未来五年内市场上会出现一款具有Level 5功能的特斯拉自动驾驶汽车。

最大的障碍是什么？

目前，我们的统计数据表明每一亿英里才发生一起交通死亡事故。这表明我们人类已经很好地掌握了驾驶技术。自动驾驶汽车要做到比人类驾驶员犯的错误更少，最好是降至 1/10 甚至 1/100。因此，它必须在各种不同的场景下保证安全性：例如，汽车必须在晚上、雨天和下雪时感知周围的环境。尽管摄像头还远不如人眼，但近年来我们在传感器技术领域取得了长足的进步。自动驾驶车辆必须能够应对车流量大或拥堵的道路。它们还必须能够处理难以预料的行人行为、反光以及不可预测和罕见的事件。因此针对这些罕见事件，我们需要大量的数据对算法进行相关训练。另一个障碍是算法不能执行因果推断，这意味着它们不能得出结论。因此，系统中需要手动进行大量的重新编程。此外，还必须解决道德和法律问题。正如我们所看到的，仍有许多工作要做。

您主要关注哪些领域？

我们的研究小组关注经典的计算机视觉课题。例如，我们正在研究如何改善深度感知并使其更加可靠。我们还将研究如何让算法利用更少的数据进行学习。而且我们正在努力提高仿真的效率，因为我坚信，在未来，尽可能逼真的仿真对于验证和训练而言将变得越来越重要。最后，我们会训练自动驾驶算法。与目前按照传统模块化方法工作的汽车行业不同，我们寻求的是可全面训练的系统。

端到端训练是如何工作的？有哪些优势？

在端到端训练中，我们尝试将整个系统看作一个过程（从感知到控制），并在一个神经网络中进行表示。系统收集车辆的感知和控制数据，即转向、加速和制动数据。这给我们带来的优势是可以直接针对目标训练系统，而不是针对子任务（例如对象识别）训练单个模块。我们认为，这些综合模型能够更好地扩展自动驾驶。目前，这些模型并不像工业中使用的模块化概念那样精确和可靠，为此，很多工程师正在研究单个模块。一旦我们解决了数据复杂性的问题，通过机器学习，我们能够更快地将系统迁移到新的城市、新的环境中。

您与这个行业有怎样的密切合作呢？

尽管该行业遵循模块化方法，但我们仍在许多子项目中与当地的供应商和汽车制造商合作。我们对端到端方法的研究引起了业内的极大兴趣，即使大家还不能立即进行应用。我们目前正在进行 KI Delta Learning项目，该项目旨在分析自动驾驶环境中环境传感器数据自动处理的自学方法。该项目由联邦经济事务和能源部委托，由汽车行业的主要工业公司以及包括图宾根大学在内的几所大学协作进行。

KI Delta Learning

KI Delta Learning研究项目旨在评估各个领域之间的差异并设计新方法，并通过人工智能将现有知识从一个领域转移到另一个领域，并且只需了解附加要求，即特定的“差量”。这减少了对测试数据的需求，并在需要增加知识时加速了学习过程。Andreas Geiger教授是自主视觉研究小组的负责人。

是什么让您留在图宾根的Cyber Valley？在国际大学中，德国大学有什么样的吸引力？

欧洲在学术研究领域发挥着重要作用，同时汽车行业对人工智能有着浓厚的兴趣。图宾根大学和马克斯-普朗克研究所拥有众多研究人员，并实现了网络化的学术交流。他们不仅研究计算机视觉课题，还将人工智能应用于相关学科，例如神经科学。在这个网络中，我们可以跨学科相互学习。因此这里的工作非常有吸引力。我们还将继续在欧洲范围内进行多样化交流。其中之一是 ELLIS（欧洲学习和智能系统实验室），它致力于促进研究所和博士生之间关于机器学习和人工智能的信息交流。我们即使不在硅谷也能与那里的大公司合作。Amazon目前正在扩大其在这里的工作室，Bosch正在我们附近建立一个新的工作点，NVIDIA正在赞助我们，而我也正与Intel进行密切合作。但是，在与初创企业的交流方面，我们确实需要迎头赶上。

这具体是指哪些方面？

首先，我们需要改变公众心态。其次，初创企业需要更多支持。创始人的心态目前正在改变，但我们需要提供能够激发创新思维的环境，并减少官僚作风，这样有才华的年轻人才会在这里把他们的想法变成现实，而不会被美国的科技巨头挖走。一旦他们离开，他们可能永远不会回来了。留住人才至关重要。

感谢您接受采访。

关于专访对象：

Andreas Geiger教授

Andreas Geiger教授是马克斯-普朗克智能系统研究所 (MPI-IS) 自主视觉研究小组的负责人，也是图宾根大学基于学习的计算机视觉和自主视觉领域的教授。

《dSPACE杂志》，2020年11月出版

Further Information

人工智能(AI)

dSPACE是您开发和测试人工智能（AI）的可靠合作伙伴。我们会帮助您提高数据的质量和数量。

more