由此,假定我们站在特斯拉和马斯克的角度来思考:作为自动驾驶汽车品牌的领导者和自动驾驶概念的最大商业受益者,特斯拉已经有一套视觉摄像头方案量产,获得了市场的认可,同时积累了大量的数据;作为摄像头自动驾驶最成功的商业案例,特斯拉对单独摄像头方案充满信心,并输出这个信心给市场和用户,是完全必须和应该的逻辑。相反,如果这个时候站出来说多传感器融合,多少有可能被“误读”成单独摄像头方案还有些许缺陷和不足,将来需要其他传感器来补充。
对于汽车这种长生命周期的产品而言,这种信息导向,很可能打击一些潜在用户的买车欲望,而客观上市场上又确实没有性价比足够高的固态激光雷达可以供特斯拉采用,作为一个成熟、务实的著名汽车厂,这显然是特斯拉时下不希望看到的“死循环”局面。
既然人类可以只靠肉眼这样单一传感器完成汽车驾驶,为什么AI不能通过视觉摄像头完成自动驾驶?
要想回答这个问题,我们还要对人眼的视觉识别进行稍微深入一点儿的分析。
首先,人眼的视觉是个高度智能化、自动化的复杂系统,具有定焦、对焦、变焦、多区域视觉等等功能。
比如驾驶过程中,我们的视线会在远景、近景切换焦距和成像,并且在即便是近景的情况下,对远景的目标,特别是运动目标也具备检测功能,从而在远处有运动目标的时候,通过调整眼球晶状体将成像面快速切换到远距离目标。
与此同时,我们对于需要特别关注的目标,比如路面障碍物,我们可以“定睛一看”,进行特定区域的细致成像,提供局部目标视觉分辨率。
此外,我们还可以通过颈部、头部的动作,调整我们眼睛的视角和视觉范围,避免视觉死角,同时把视网膜有限的成像分辨率用在特别关注的目标区域的成像。
我们还有高度智能化、自动化的瞳孔“光圈”,控制眼睛的进光量,适用于不同的外界光照情况。
而车载自动驾驶电子摄像头,基本都是固定焦距、固定FOV、固定光圈、固定位置安装的,完全不具备人眼的自动化和灵活性。这也解释了为什么人类可以两只眼睛“包打天下”,而自动驾驶要用十几个甚至二十几个摄像头的原因。
举个例子,安装在车头位置的前向摄像头就需要配置多个,用以负责近距离、中距离,远距离的视觉成像。之所以采用多摄像头分工,而不是采用人眼这种“通用”摄像头,除了成本的考量之外,关键还是要实现人眼类似的智能化、自动化,必然使用大量电机、机械运动、控制部件,比如调整焦距的电机,在汽车这种使用环境里是非常有技术挑战的。原因是,汽车的使用环境高低温工作范围大,运动与震动强烈,而无故障运行时间要求很长。
小结一下,由于汽车使用环境的严酷性,大家最终选择了“固态”摄像头,而当前这个“固态”摄像头的智能化、自动化、灵活性水平,和人眼相对比还有很大的差距。
另外,在测量距离这个指标上,摄像头视觉甚至包括人眼,对比起激光雷达都有巨大的劣势。因为从获取距离(深度)信息的原理上,不同于激光雷达的直接测量法,视觉测距的实际精度和准确性都与被测物体,以及背景图像的特点有很大的相关性,这种测距原理,在特殊的背景和目标场景下,就有可能会出现测距算法失效的可能性。而人眼还可以通过歪歪头等“机械”动作,调整一下视角,获取不同角度的图像,提高三角测距法的准确性。
即便如此,人眼对距离感知,对低照度也有先天的不足。好在从进化论的角度,人眼的视觉能力足以“应付”我们进化历史上漫长的“靠腿运动”的“低速” 时代。而汽车这种高速运动的机器诞生的时间,与人类的历史相比极其短暂。
那么,在人类的视觉还没有进化出(或许也不可能进化出)新的传感器功能之前,我们借用一下激光雷达、毫米波雷达这样有专长的传感器测测距离,也许是合理和聪明的选择。就像我们在没有野生动物夜视能力的情况下,可以借用手电筒、汽车大灯,来走暗夜中的漫漫长路一样。
所以,多传感器融合对自动驾驶应该是一个合理和几乎必然的趋势。至于哪种传感器在自动驾驶算法上起的的作用更大,可能不是传感器企业最关心的事情,而是做算法的人更关心的事情。
2、传感的原理:摄像头、毫米波雷达和激光雷达