Proč je LiDAR pro autonomní vozy tak cenný?

5. 2. 2020

Má Elon Musk pravdu? Nebo je LiDAR (prozatím) nezbytný? To ukazují výsledky studie provedené společností Scale AI, Inc.

Má Elon Musk pravdu? Nebo je LiDAR (prozatím) nezbytný? To ukazují výsledky studie provedené společností Scale AI, Inc.

Není to tak dávno, co Elon Musk na Tesla´s 2019 Autonomy Day představil vizi Tesly pokračovat v rozvoji automatizace jejích vozidel pouze na základě analýzy obrazu a využití senzorů, které jsou nyní do vozidel této značky instalovány. Čili bez využití LiDAR technologie.

To je ve výrazném rozporu s přístupem ostatních společností, které se automatizací řízení u silničních vozidel zabývají. Není se tedy co divit, že vznikly studie, které ukazují, proč je LiDAR pro správnou detekci objektů v okolí vozidla tak nezbytný. Jednou z nich je i studie společnosti Scale AI, Inc., která se zabývá strojovým učením a spolupracuje např. i se společnostmi Waymo, Uber, Voyage či Toyota.

V následujícím textu naleznete volný překlad uvedené studie.

Každé vozidlo, které se má pohybovat v silničním provozu, vyžaduje software, který se učí na základě záznamu pohybu vozidel v provozu. Tvůrci softwaru musí označit data, jaká má hledat, a naučit ho tak „vidět“. Protože označená data jsou primárním vstupem, pomocí kterého se vůz učí vnímat svět, je kvalita trénovacích dat dobrým ukazatelem budoucí funkčnosti v provozu. Pokud má systém pracovat s dostatečně vysokou spolehlivostí, musí mít na vstupu extrémně přesná data.

A přesně na této myšlence je založen experiment autorů studie. Společnost Scale AI, Inc. má nástroje pro vytváření datových sad z nejrůznějších senzorů. Pro tuto studii využili autoři 3D datový soubor vytvořený ze dvou kamer a LiDAR ve spolupráci s nuScenes Aptiv.

Je možné předpovědět, jak dobře by kamerový systém mohl fungovat samostatně a porovnat ho se systémem doplněným o LiDAR? Aby autoři na tuto otázku odpověděli, využili 3D datový soubor a extrahovali z něj pouze 2D video snímky (bez LiDAR). Tím vznikl 2D datový soubor podobný tomu, na kterém by mohl být vycvičen systém vnímání bez LiDAR. Poté promítli tyto 2D anotace zpět na původní 3D data a porovnali jednotlivé objekty, aby zjistili, zda je rozdíl v přesnosti.

Kamera vs. LiDAR

Při porovnávání výsledků byly některé rozdíly opravdu výrazné. Mnoho anotací (kvádrů okolo objektů), které vypadají naprosto rozumně, když se překrývají s videem, vytvořilo zjevně vadné reprezentace, když byly rozšířené na 3D. Níže je uveden příklad. Když se podíváte na 2D obrázky vlevo, vypadají celkem přesně oba soubory dat. Pohyb po scéně ve 3D však ukazuje, že výsledek získaný pouze pomocí videa je příliš dlouhý a postrádá celou jednu stranu vozu.

Anotace vozidla pouze z videa (zdroj: scale.com)

Pohled shora dolů na překrytí LiDAR (zdroj: scale.com)

Stejné vozidlo identifikované kombinací videa a LiDAR
(zdroj: scale.com)

Pohled LiDAR shora dolů (zdroj: scale.com)

Proč je přesnost ve 2D o tolik horší? Není to tím, že by osoba, která připravovala ohraničující rámeček, odvedla špatnou práci. Je to tím, že extrahovat přesná měření ze 2D dat je velmi obtížné. Chcete-li nakreslit 3D kvádr kolem nepravidelného tvaru, kterým auto je, musíte vědět, kde všechny krajní body na objektu leží. Ve 2D perspektivě je zaručeno, že některé z těchto bodů se prolnou, nebo se skryjí za objektem samotným. Na příkladu na obrázku lze snadno najít krajní levé a pravé okraje vozidla, ale není jasné, kam přesně nakreslit levou zadní hranu. Navíc tato hrana je sklopená a zaoblená.

Podíváme-li se blíže na zadní levou hranu, uvidíme, že i výška vozu není odhadnuta správně. Hrana určující horní kapotu je zakřivená, proto došlo k nadhodnocené hloubce ve 3D. To vede k matematickému základu jiného zdroje nepřesnosti – hloubka obrazu je „zmenšena“ ve 2D obrazu. Když se objekt přiblíží kolmo k obzoru, posunutí vzdálené hrany o několik pixelů může masivně posunout vnímanou hloubku kvádru.

Při promítnutí 2D obrazu do 3D se stává několik pixelů nepřesnosti mezi anotací LiDAR + video (bílá) a anotací pouze pro video (oranžová) mnohem větší chybou
(zdroj: scale.com)

K odstranění problému by bylo možné nadefinovat pevné rozměry vozů, jenže to není správné řešení s ohledem na variabilitu jejich rozměrů. Dalším řešením je věnovat se strojovému učení, čímž se dostáváme k dalším výzvám, např. stereoskopické využití kamer (podobné vnímání jako u člověka) a nalezení společných bodů k odhadu vzdálenosti či k dalším experimentálním metodám strojového učení pro stanovení rozměrů a hloubky v obraze. Žádná z těchto metod však nedokáže nahradit roli LiDAR (viz příklad níže s vozidlem v noci a schovaným za dopravní značkou, či skútrem).

Podle zkušeností autorů studie je nejlepším řešením těchto problémů odkazovat na 3D data ve vysokém rozlišení – to je role LiDAR. Mračno bodů zachycených LiDARem prakticky diskutovaný problém odstraní, protože zachycené body přesně sledují viditelné křivky vozu a je možné je použít jako vodítka pro nastavení kvádru. Neexistuje ani výše uvedené zkreslení ve 3D.

Druhé kolo: Noční jízda

V noci je úloha ještě podstatně složitější než ve dne. Na dalším příkladu je vidět odbočující vozidlo zachycené v noci a dokonce částečně zakryté dopravní značkou. Světlomety neposkytují dostatek světla, viditelnost je špatná. Postup s využitím LiDAR s přístupem k 3D datům umožňuje dosáhnout mnohem přesnějšího natočení a hloubky vozidla, protože LiDAR umožňuje „vidět“ přes dopravní značku a měřit, kde auto končí a jak je natočeno.

Vozidlo v noci identifikované pouze pomocí kamery
(zdroj: scale.com)

Pohled shora dolů pomocí promítnutí LiDAR
(zdroj: scale.com)

Vozidlo identifikované pomocí kombinace LiDAR a kamer (zdroj: scale.com)

Pohled shora dolů pomocí LiDAR (zdroj: scale.com)

Vozidla jsou pouze jedním z mnoha typů objektů, s nimiž se při jízdě setkáváme. Řada menších objektů nemusí být ani osvětlená.
Najdete maskované vozidlo na následujícím obrázku?

(zdroj: scale.com)

Na pravé straně obrázku je skútr, který je částečně cloněn sloupkem dopravní značky a zelení. Tento objekt v tréninkových datech s využitím pouze videa úplně chyběl a byl objeven pouze při využití LiDAR. V tomto případě by v provozu mohla nastat velmi nebezpečná situace.

Při využití pouze videa skútr splyne s pozadím, díky LiDAR je však bezpečně rozpoznán (zdroj: scale.com)

LiDAR ukazuje body objektu - skůtru a jezdce (zdroj: scale.com)

Vnímání a predikce

Z příkladů je zřejmé, že identifikace pouze ze 2D je nepřesná. Kvádry v datovém souboru byly natočeny o 0,19 radiánů (10,8°) a u nočních scén mají průměrnou chybu 0,22 radiánu a u denní 0,16 rad. Přesnost také klesá s rostoucí vzdáleností od kamery.

K dalšímu hodnocení kvality využili autoři standardní IOU skórování. Tato metrika měří „rozdíl“ mezi dvěma obrazci - skutečným a předpovídaným. V úvahu se bere umístění i chyby velikosti. Průměrné skóre pro celý hodnocený soubor vyšlo 32,1 %. Ve své praxi autoři berou jako „správné“ IOU skóre vyšší než 90 %.

(zdroj: scale.com)

Z analýzy provedené společností Scale AI, Inc. je zřejmé, že stroje nevnímají prostor jako my lidé. Nemusíme vědomě provádět složité matematické výpočty, abychom věděli, že je potřeba brzdit, když se rozsvítí červená světla vozu před námi. Díky tomu, jak dokonalé je naše vnímání, jsme schopni předpovídat chování ostatních účastníků dopravy.

Na druhé straně autonomní vozy musí výpočty provádět a je to záměrné. „Mozek“ autonomního vozu je z bezpečnostních důvodů rozdělen na řadu menších systémů, z nichž některé mají na starosti vnímání, další předpověď chování, plánování a provedení každé jednotlivé akce. Je to dáno vlastnostmi neuronových sítí, které je obtížné „odladit“. Tyto vlastnosti, respektive jejich chyby, mohou způsobovat zmatek v chování dané neuronové sítě (nepředvídatelné chování). Vnímání je pro autonomní vozidlo stejně jako pro člověka základem, protože od něj se odvíjí veškerá další činnost. Proto je možné uvažovat o nasazení automatizovaných vozidel nejdříve tam, kde je poměrně malé množství scénářů, které mohou nastat (jízda v uzavřených areálech, dálniční provoz). Ačkoli my v hlavě žádný LiDAR nemáme, předpoklad, že vozidlům stejně jako nám stačí pouze obrazová informace, se zdá být nesprávný. Vzhledem je stavbě architektury softwaru (neuronové sítě), jsou vyžadována přesnější vstupní data, než potřebujeme my lidé.

web Autonomne.cz

Proč je LiDAR pro autonomní vozy tak cenný?

Kamera vs. LiDAR

Druhé kolo: Noční jízda

Vnímání a predikce