李采潭三级在线观看

自动驾驶中提到的“深度相机”是个啥?

发布日期:2025-12-13 02:21点击次数:92

[首发于智驾最前沿微信公众号]自动驾驶的完结离不开各类的复旧,其中纯视觉决议成为许多时间决议的遴荐,但由于录像头无法感知到环境深度信息,因此有部分时间决议提到了“深度相机”的时间。深度相机,指的是那些除了拍姿色(RGB)之外,还能平直或波折给出“每个像素到录像头距离”信息的传感器。简便走漏等于,平方相机告诉你“这像素看起来是什么姿色、有什么纹理”,而深度相机还会告诉你“这点离车有多远”。正因为在自动驾驶里,知说念距离比知说念姿色更迫切,车辆要判断碰不碰得上、要多早刹车、奈何规链接旅途等都要依赖深度信息或与其它传感器和会后的三维感知结束。

深度相机常见的三种责任旨趣

深度相机的体式许多,常见的有基于两个镜头的立体相机(stereo camera)、投影结构光或编码光的相机、以及航行时间(Time-of-Flight,ToF)相机。它们产生的深度暗示往往是一张“深度图”(depth map)大要寥落的点云,与激光雷达(LiDAR)产生的点云在用途上有杂乱,但在旨趣、精度、老本和适用场景上都有彰着离别。

1)立体视觉(Stereo)

立体视觉的想路等于师法东说念主眼。把两台同类的彩色或是非相机同框装配,它们之间有一个固定的“基线”(baseline,两个镜头中心之间的距离)。当看到消释场景时,图像中的消释个物体点在两幅图像上的横向位置会有相反,这个相反叫作念视差(disparity)。通过已知的基线长度和录像头的表里参,视差可以反算成深度(距离)。

车载录像头 图片源自汇集

立体法的关键在于“匹配”,算法要在傍边图像里准确找到消释像素对应的点;匹配贫困的所在包括无纹理名义、重迭纹理、强反光或庇荫区域等场景。立体视觉的上风是可以用平方相机硬件完结,老本低、像素高,表面上鉴识率和鸿沟可以通过更大基线、更高鉴识率相机提高;但其纰谬等于对光照、纹理和预料打算资源明锐,长距离深度精度退化较快。

2)结构光与编码光

这类措施在场景中投射已知的光学图案(举例条纹、点阵或其他编码图形),然后用相机不雅察图案在物体名义的变形,从变形情况反推出深度。结构光在如东说念主体建模、东说念主脸识别建筑(早期的结构光东说念主脸识别器)等近距离诓骗里非往往见。其优点是近距离精度高,且因为系统我方提供“纹理”,因此对纹理依赖小。其瑕疵是对环境光明锐,在强阳光下投影图案容易被消释,导致深度失败。结构光仅妥当短到中距离(几厘米到几米)的诓骗场景,若扩张到行车所需的几十米就会碰到功率、可见性和安全性的问题。

3)航行时间(ToF)

ToF相机通过测量光从传感器发出、到物体反射、再复返传感器所需的时间来算距离。常见完结存脉冲ToF和相位ToF两类。脉冲ToF平直测量脉冲来回时间,旨趣简便但要求高速电子。相位ToF发出绽放调制的光信号,测量放射与禁受信号之间的相位差来估算距离,这在短至中距离里更常见。

ToF的优点是能平直得到每个像素的深度,及时性好、算法复杂度低于立体匹配;瑕疵包括多径搅扰(光在场景中屡次反射导致的误读)、对强光明锐(阳光含大量红外会提高噪声)、以及鸿沟和鉴识率受限。工业级ToF可以作念到几十米的量级,但在车用场景里,要兼顾鉴识率、帧率和抗日照才智仍然需要工程折中。

除了这三种之外,还有一些搀杂决议和更会聚LiDAR的固态“闪光式”测距建筑。但单纯依靠单目RGB相机作念“深度预料”的措施(基于学习的单目深度预料)严格来说不是深度相机,而是用算法从单张图像推断深度的时间;这么的深度往往是相对的、带有圭臬不细则性或需要稀薄拘谨校准,只可将它作为补充而不是委果赖的主深度源。

深度相机与平方相机的关键区别

平方相机输出的是亮度和姿色信息,也等于每个像素的RGB值;深度相机除了这些(或然深度相机自己也能输出RGB)之外,还输出与录像头之间的距离信息。深度数据平直给出三维几何信息,使得后续的检测、追踪、避障和定位变得更平直;平方相机则需要依赖视觉算法(比如通过特征匹配、结构从指点或单目深度预料)来波折赢得距离。

图片源自汇集

平方相机的联想追求高鉴识率、宽动态鸿沟和低噪声的图像齐集,传感器以纪录光子数为主。深度相机的硬件则要稀薄联想光源(结构光、ToF)或双摄同步与高精度时钟(ToF)以及在某些系统中更严格的机械装配精度(立体需要精确的基线和标定)。这意味着深度相机往往在功耗、复杂度和老本上高于单纯的平方相机,自然基于两个平方相机的立体系统可以在老本上有上风,但对预料打算和标定建议了更高要求。

深度图往往亦然单通说念的浮点或整数距离数据,需要与相机内参调度成三维点云或用于后续的感知模块。平方相机的数据更妥当平直送入指标检测、语义分割等视觉汇集。深度数据和RGB数据环肥燕瘦,RGB擅长识别类别和外不雅,深度擅长提供几何信息,因此在自动驾驶系统里,常见作念法是把两者和会,用RGB作念识别,用深度作念定位与几何推理。

此外,立体视觉在暗光或无纹理时会失效;结构光在强光下会被消释;ToF在直射阳光或存在强红外光源时噪声会高涨。平方相机在宽动态场景下也有挑战,但可以通过曝光限度、HDR等技能改善。总之,不同传感器在不同环境下各有盲区,这恰是为什么自动驾驶系统要用相机、雷达、激光雷达等多传感器和会的原因。

深度相机的瑕疵有哪些

由于深度相机能让机器平直看到三维寰宇,许多东说念主嗅觉其可以平直替代激光雷达,但事实并非如斯。深度相机果然能带来如立体感知、精确测距、三维建模等许多平正,但它也有不少短板,尤其是在车载这种复杂场景下,更是要各式“调解”和“弃取”。

图片源自汇集

先说最典型的一个问题,那等于距离和精度的矛盾。立体视觉靠的是“视差”旨趣,简便来说等于两个录像头看到消释个物体的角度差来预料打算深度。问题是,距离越远,角度差就越小,预料打算的过错就越彰着。你想要让辽远也测得准,就得拉大两个录像头之间的距离,大要提高图像鉴识率。但拉太开装配位置受限,还容易被庇荫;鉴识率太高又加多算力职守和老本。ToF(航行时间)相机在近距离说明可以,但想让它测得远、看得清,就得用更复杂的光源和禁受器,功耗、热量、老本齐备往上飙。至于结构光,在汽车这种强光、远距离的环境里险些“吃不开”,更多是短距诓骗。

还有等于环境光和物体名义的问题。无论是哪种旨趣的深度相机,实验上都要依赖后光的反射。现实寰宇里的光照条目可比实验室复杂多了。阳光太强会把信号消释,雪地的反光能“晃瞎”传感器,金属名义、玻璃、湿滑路面这些都能让测量结束乱成一团。ToF可能会被屡次反射的光搅扰,导致算出造作的距离;结构光在透明或镜面物体上会出现形变;立体相机在一大片莫得纹理的区域,如在光滑车门大要天窗上,根柢找不到对应点。更别提下雨、下雪、起雾、夜间灯光这些情况了,都是深度相机的“敌东说念主”。

深度图的鉴识率亦然一个老浩劫问题。许多车用深度相机输出的深度图其实挺“糙”的,点比较寥落,还容易带噪声。比拟了了的RGB图像,深度图往往细节不及,这在识别微细物体或复杂边缘时会出空泛。自然可以用算法补全大要把深度和RGB联接来提高恶果,但那也意味着要消耗更多算力。

立体视觉需要大量预料打算来匹配图像,尤其是高鉴识率、高帧率的时候,对处理器的压力杰出大。ToF自然平直输出深度信息,但为了让结束更干净,还要作念多频信号解码、噪声过滤、多旅途修订,这些都比较消耗资源。车载系统的算力和功耗都有限,是以必须在精度、帧率和及时性之间找均衡。

还有一个很现实的问题,那等于标定和厚实性。深度相机其实杰出“娇气”,尤其是立体视觉那种。两个录像头的角度、位置稍许有点偏差,测出来的深度就会跑偏。汽车在行驶经过中会有升沉、温度变化、致使幽微碰撞,这些都会影响标定结束。ToF相机也怕温漂,需要作念温度抵偿,不然数据会飘。为了保握准确,就得联想坚固的支架、加上按时标定,致使用算法及时校准。

此外,深度相机还有个自然的为止,它只可“看见”目下的东西。被挡住的物体,它完全窝囊为力。比如车左右的低矮拦阻物、边际里的行东说念主,只须被庇荫了,深度相机就测不到,这亦然为什么自动驾驶时间上从来不会只靠深度相机。它更像是支持感知的一环,用来填补其他传感器的空缺。

表面上,立体相机用两颗平方镜头就能完结深度感知,看起来挺合算。但要确切上车,事情就变复杂了。你得有计划它的防尘、防水、抗震,还得通过车规认证、EMC测试、热联想考证……这些都要用钱。况且深度相机出来的数据量大,对后端处理单位要求也高,算力芯片、数据传输、冗余联想齐备得配皆。ToF和结构光更贵,还触及主动光源、安全认证等问题。要在整车上集成好,不仅费钱,还费脑。

是以说,深度相机如实有它的横蛮之处,但也没那么“完好”。它能提供直不雅的空间信息,是视觉体系的迫切补充,但想让它单独承担自动驾驶的感知任务,还远远不够。确切老练的决议,都是多传感器和会,让深度相机、雷达、激光雷达、平方相机各司其职,相互补短。独一这么,车辆才能在复杂环境里既“看得清”,又“看得稳”。

什么时候用深度相机,奈何组合其它传感器

在自动驾驶系统联想中,遴荐深度相机一经其他传感器,取决于任务、场景和老本。近距离低速场景(比如自动停车、驾驶员监控、车内交互)十分妥当ToF或结构光,因为这些场景对短距精度要求高,环境相对可控。需要高鉴识率几何信息以作念紧密定位或拦阻物畛域判断时,立体视觉搭配高鉴识率相机是个合算的遴荐,但必须相助强大的视差预料打算和可靠的在线校准。

图片源自汇集

关于高速公路或远距感知,激光雷达和毫米波雷达仍然是主力。激光雷达的远距鉴识率和精度,以及毫米波雷达对恶劣天气的鲁棒性,都是光学深度相机难以完全替代的。此时深度相机作为几何感知的补充,把RGB相机、深度相机、雷达与激光雷达的数据和会在一说念,取各自的坚毅来遮掩相互的弊端。比如用深度图快速筛选近距拦阻物,用RGB作念语义识别,用雷达作念速率预料和恶劣天气下的厚实探伤,用激光雷达作念远距紧密则位。深度相机还能缩小某些预料打算职守:在已知深度的区域,许多视觉算法可以避让不菲的三维重建才智,平直在深度空间作念决策。

自然,还有许多实验细节要有计划,传感器舍弃位置与视场遮掩、传感器同步与时间戳精度、数据带宽与压缩计策、在线去噪与特别检测、在不同光照/天气下的退化检测与左迁计策、以及冗余与故障切换机制。这些都是把深度相机从实验室带到车规居品化时必须搞定的问题。