Du kan göra en autonom bil att navigera i stadens gator och andra mindre trafikerade miljöer genom att känna igen fotgängare genom andra fordon och potentiella hinder artificiell intelligens. Detta uppnås med hjälp av artificiella neurala nätverk som är tränade att “se” bilens omgivningar, efterlikna det mänskliga visuella systemet.
Men till skillnad från människor har bilar som använder artificiella neurala nätverk inget minne av det förflutna och kan alltid se världen för första gången, oavsett hur många gånger de kör på en viss väg. Detta är särskilt problematiskt i ogynnsamma väderförhållanden, när bilen inte kan lita på sina sensorer på ett tillförlitligt sätt.
Forskare från Cornell Ann S. Bowers College of Computational and Information Sciences och College of Engineering har utvecklat tre parallella studier för att övervinna denna begränsning genom att låta bilen skapa “minnen” av tidigare erfarenheter och använda dem i framtida navigering.
Doktoranden Carlos Diaz-Ruiz kör en datainsamlingsmaskin och demonstrerar några av de datainsamlingstekniker som används av autonoma bilforskare för att skapa algoritmer.
Doktoranden Yurong är huvudförfattare till HINDSIGHT 20/20: Using Past Transitions to Help 3D Perception, som du presenterade virtuellt på ICLR 2022 International Conference on Learning Representations i april. “Lärande fabler” inkluderar djupinlärning, ett slags maskininlärning.
“Nyckelfrågan är, kan vi lära av upprepningar?” sa den store författaren Kilian Weinberger, Cornell Bowers professor i datavetenskap i OSS. “Till exempel kan en billaserskanner förväxla ett konstigt format träd med en fotgängare när den först tar emot det på avstånd, men när den väl är tillräckligt nära kommer kategorin för objektet att bli tydlig. Så andra gången du passerar samma träd, även i dimman eller snön, skulle du hoppas att bilen nu har lärt sig att känna igen det rätt.
“Egentligen kör du sällan en rutt för första gången”, säger Katie Luo, medförfattare och doktorand i forskargruppen. “Antingen har du kört det själv eller någon annan nyligen, så det verkar naturligt att samla och använda den här erfarenheten.”
Teamet, ledd av doktoranden Carlos Diaz-Ruiz, sammanställde en datamängd genom att upprepade gånger köra en bil utrustad med LiDAR-sensorer (Light Detection and Range) i Ithaka och runt en 15 kilometer lång kurva 40 gånger på 18 månader. Korsningar täcker olika miljöer (motorväg, stad, campus), väderförhållanden (soligt, regnigt, snöigt) och tid på dygnet.
Det finns mer än 600 000 scener i denna resultatdatabas, som gruppen kallar Ithaca365 och är föremål för en av de andra två artiklarna.
Diaz-Ruiz, medförfattare till tidningen Ithaca365, sa: “Detta avslöjar medvetet ett av de största problemen med självkörande bilar: dåligt väder.” “Om gatan är täckt av snö kan människor lita på minnen, men ett neuralt nätverk utan minnen är mycket skadligt.”
HINDSIGHT är ett tillvägagångssätt som använder neurala nätverk för att beräkna deskriptorerna för objekt när bilen passerar dem. Den komprimerar sedan dessa bilder, som gruppen kallar SQuaSH (Spatial-Quantized Sparse History) innehåller och lagrar dem i en virtuell karta som liknar “minnet” som lagras i den mänskliga hjärnan.
Nästa gång den självkörande bilen passerar samma plats kan den söka i den lokala SQuaSH-databasen för varje LiDAR-punkt längs rutten och “komma ihåg” den senaste gången den lärde sig. Databasen uppdateras ständigt och delas mellan fordon, vilket berikar den information som är tillgänglig för igenkänning.
“Denna information kan läggas till som en funktion till vilken LiDAR-baserad 3D-objektdetektor som helst.” Du sa. “Både detektorn och SQuaSH-presentationen kan utvecklas tillsammans utan ytterligare kontroll eller mänsklig anteckning, vilket kräver tid och ansträngning.”
Även om HINDSIGHT fortfarande antar att det artificiella neurala nätverket är tränat för att upptäcka objekt och utökar det med förmågan att skapa minnen, går ämnet för den tredje upplagan, MODEST (Detection of Mobile Objects with Ephemerality and Self-Learning), ännu längre.
Här låter författarna bilen lära sig hela perceptionspipelinen från grunden. Till en början var det konstgjorda neurala nätverket i bilen aldrig utsatt för något föremål eller gata. Genom många korsningar av samma rutt kan man lära sig vilka delar av miljön som är stillastående och vilka som är rörliga föremål. Efter hand lär han andra trafikanter vad som är och vad som är säkert att ignorera.
Algoritmen kan sedan på ett tillförlitligt sätt detektera dessa objekt – även på vägar som inte ingår i de initiala iterationerna.
Forskare hoppas att båda tillvägagångssätten drastiskt kan minska utvecklingskostnaderna för autonoma fordon (som fortfarande är baserade på mycket dyra mänskliga anteckningsdata) och göra sådana fordon mer effektiva genom att lära sig att navigera där de används mest.
Både Ithaca365 och MODEST kommer att presenteras på IEEE Computer Vision and Pattern Recognition Conference (CVPR 2022) i New Orleans den 19-24 juni.
Andra givare ingår Mark CampbellJohn A. Mellowes ’60 professor i maskinteknik vid Sibley School of Mechanics and Aerospace Engineering, docent Bharath Hariharan och Ven Sun, Datavetenskap vid Bowers CIS; Wei-Lun Chao, tidigare doktorandforskare, är nu docent i datavetenskap och teknik i Ohio; och doktoranderna Cheng Perng Phoo, Xiangyu Chen och Junan Chen.
Forskning om alla tre artiklarna stöddes av anslag från National Science Foundation; Institutionen för havsforskning; och Semiconductor Research Corporation.