Kredit: Pixabay/CC0 Public Domain
University of Virginia kognitionsvetare Per Sederberg har ett roligt experiment som du kan prova hemma. Ta fram din smartphone och använd en röstassistent som den för Googles sökmotor och säg ordet “bläckfisk” så långsamt du kan.
Din enhet kommer att kämpa för att upprepa det du just sa. Det kan ge ett meningslöst svar, eller så kan det ge dig något nära men ändå avstängt – som “tåpus”. Äckligt!
Poängen är, sade Sederberg, när det gäller att ta emot hörselsignaler som människor och andra djur gör – trots all datorkraft som tillägnas uppgiften av tungviktare som Google, Deep Mind, IBM och Microsoft – förblir den nuvarande artificiella intelligensen lite lomhörd.
Resultaten kan variera från komiska och milt frustrerande till rent av alienerande för dem som har talproblem.
Men med de senaste genombrotten inom neurovetenskap som modell, har UVA-samverkansforskning gjort det möjligt att omvandla befintliga AI-neurala nätverk till teknik som verkligen kan höra oss, oavsett i vilken takt vi pratar.
Verktyget för djupinlärning kallas SITHCon, och genom att generalisera input kan det förstå ord som talas i olika hastigheter än ett nätverk tränades på.
Denna nya förmåga kommer inte bara att förändra slutanvändarens upplevelse; det har potential att förändra hur artificiella neurala nätverk “tänker” – vilket gör det möjligt för dem att bearbeta information mer effektivt. Och det kan förändra allt i en bransch som ständigt vill öka bearbetningskapaciteten, minimera datalagring och minska AI:s massiva koldioxidavtryck.
Sederberg, en docent i psykologi som fungerar som chef för Cognitive Science Program vid UVA, samarbetade med doktoranden Brandon Jacques för att programmera en fungerande demo av tekniken, i samarbete med forskare vid Boston University och Indiana University.
“Vi har visat att vi kan avkoda tal, särskilt skalat tal, bättre än någon modell vi känner till”, säger Jacques, som är första författare på tidningen.
Sederberg tillade, “Vi ser oss själva som ett jävla band av missanpassade. Vi löste det här problemet som de stora teamen på Google och Deep Mind och Apple inte gjorde.”
Forskningen presenterades på tisdagen vid den högprofilerade internationella konferensen om maskininlärning, eller ICML, i Baltimore.
Aktuell AI-utbildning: Auditiv överbelastning
I decennier, men mer under de senaste 20 åren, har företag byggt in komplexa artificiella neurala nätverk i maskiner för att försöka efterlikna hur den mänskliga hjärnan känner igen en föränderlig värld. Dessa program underlättar inte bara grundläggande informationssökning och konsumentism; de är också specialiserade på att förutsäga aktiemarknaden, diagnostisera medicinska tillstånd och övervaka nationella säkerhetshot, bland många andra applikationer.
“I kärnan försöker vi upptäcka meningsfulla mönster i världen omkring oss,” sa Sederberg. “De här mönstren kommer att hjälpa oss att fatta beslut om hur vi ska bete oss och hur vi ska anpassa oss till vår miljö, så att vi kan få så många belöningar som möjligt.”
Programmerare använde hjärnan som sin första inspiration för tekniken, alltså namnet “neurala nätverk”.
“Tidiga AI-forskare tog de grundläggande egenskaperna hos neuroner och hur de är anslutna till varandra och återskapade dem med datorkod,” sa Sederberg.
För komplexa problem som att lära maskiner att “höra” språk, tog programmerare omedvetet en annan väg än hur hjärnan faktiskt fungerar, sa han. De misslyckades med att rotera baserat på utvecklingen i förståelsen av neurovetenskap.
“Sättet som dessa stora företag hanterar problemet är att kasta beräkningsresurser på det”, förklarade professorn. “Så de gör de neurala nätverken större. Ett område som ursprungligen inspirerades av hjärnan har förvandlats till ett ingenjörsproblem.”
I huvudsak matar programmerare in en mängd olika röster med hjälp av olika ord i olika hastigheter och tränar de stora nätverken genom en process som kallas backpropagation. Programmerarna vet vilka svar de vill uppnå, så de fortsätter att mata tillbaka den kontinuerligt förfinade informationen i en slinga. AI:n börjar sedan ge lämplig vikt åt aspekter av input som kommer att resultera i korrekta svar. Ljuden blir användbara tecken i text.
“Du gör det här många miljoner gånger,” sa Sederberg.
Även om träningsdatauppsättningarna som fungerar som indata har förbättrats, liksom beräkningshastigheter, är processen fortfarande mindre än idealisk eftersom programmerare lägger till fler lager för att upptäcka större nyanser och komplexitet – så kallad “djup” eller “konvolutionell” inlärning.
Mer än 7 000 språk talas i världen idag. Variationer uppstår med accenter och dialekter, djupare eller högre röster — och naturligtvis snabbare eller långsammare tal. När konkurrenter skapar bättre produkter måste en dator vid varje steg bearbeta informationen.
Det får verkliga konsekvenser för miljön. Under 2019 fann en studie att koldioxidutsläppen från den energi som krävs i utbildningen av en enda stor djupinlärningsmodell motsvarade livstidsavtrycket för fem bilar.
Tre år senare har datamängderna och neurala nätverk bara fortsatt att växa.
Hur hjärnan verkligen hör tal
Framlidne Howard Eichenbaum från Boston University myntade termen “tidsceller”, fenomenet som denna nya AI-forskning bygger på. Neuroforskare som studerar tidsceller i möss, och sedan människor, visade att det finns toppar i neural aktivitet när hjärnan tolkar tidsbaserad input, som ljud. Dessa individuella neuroner, som finns i hippocampus och andra delar av hjärnan, fångar specifika intervall – datapunkter som hjärnan granskar och tolkar i relation. Cellerna finns bredvid så kallade “platsceller” som hjälper oss att skapa mentala kartor.
Tidsceller hjälper hjärnan att skapa en enhetlig förståelse av ljud, oavsett hur snabbt eller långsamt informationen kommer fram.
“Om jag säger ‘oooooooc-tooooo-pussssssss’, så har du förmodligen aldrig hört någon säga ‘bläckfisk’ i den hastigheten förut, och ändå kan du förstå det eftersom hur din hjärna bearbetar den informationen kallas ‘skalinvariant’. sa Sederberg. “Vad det i princip betyder är att om du har hört det och lärt dig att avkoda den informationen i en skala, om den informationen nu kommer in lite snabbare eller lite långsammare, eller till och med mycket långsammare, kommer du fortfarande att få det.”
Det huvudsakliga undantaget från regeln, sa han, är information som kommer in hypersnabbt. Den informationen kommer inte alltid att översättas. “Du förlorar bitar av information,” sa han.
Kognitionsforskaren Marc Howards labb vid Boston University fortsätter att bygga på upptäckten av tidscell. Howard, som har samarbetat med Sederberg i över 20 år, studerar hur människor förstår händelserna i sina liv. Han omvandlar sedan den förståelsen till matematik.
Howards ekvation som beskriver auditivt minne involverar en tidslinje. Tidslinjen är byggd med hjälp av tidsceller som avfyras i sekvens. Kritiskt sett förutsäger ekvationen att tidslinjen suddas ut – och på ett speciellt sätt – när ljudet rör sig mot det förflutna. Det beror på att hjärnans minne av en händelse blir mindre exakt med tiden.
“Så det finns ett specifikt mönster av skottlossning som kodar för vad som hände för en viss tid i det förflutna, och informationen blir suddigare och suddigare ju längre i det förflutna den går,” sa Sederberg. “Det coola är att Marc och en postdoktor som gick igenom Marcs labb kom på matematiskt hur det här skulle se ut. Sedan började neuroforskare hitta bevis för det i hjärnan.”
Tid lägger till sammanhang till ljud, och det är en del av det som ger det som talas till oss mening. Howard sa att matematiken prydligt kokar ner.
“Tidsceller i hjärnan verkar lyda den ekvationen,” sa Howard.
UVA-kodar röstavkodaren
För ungefär fem år sedan identifierade Sederberg och Howard att AI-fältet kunde dra nytta av sådana representationer inspirerade av hjärnan. I samarbete med Howards labb och i samråd med Zoran Tiganj och kollegor vid Indiana University började Sederbergs Computational Memory Lab bygga och testa modeller.
Jacques gjorde det stora genombrottet för ungefär tre år sedan som hjälpte honom att göra kodningen för det resulterande proof of concept. Algoritmen har en form av komprimering som kan packas upp efter behov – ungefär som en zip-fil på en dator fungerar för att komprimera och lagra stora filer. Maskinen lagrar bara “minnet” av ett ljud med en upplösning som kommer att vara användbar senare, vilket sparar lagringsutrymme.
“Eftersom informationen är logaritmiskt komprimerad, ändrar den inte mönstret helt när inmatningen skalas, den växlar bara över,” sa Sederberg.
AI-utbildningen för SITHCon jämfördes med en redan existerande resurs tillgänglig gratis för forskare som kallas ett “temporal convolutional network.” Målet var att konvertera nätverket från ett nätverk som bara tränades för att höra vid specifika hastigheter.
Processen började med ett grundläggande språk – morsekod, som använder långa och korta ljudskurar för att representera punkter och streck – och gick vidare till en uppsättning engelsktalande med öppen källkod som sa siffrorna 1 till 9 för inmatningen.
Till slut behövdes ingen ytterligare utbildning. När AI:n väl kände igen kommunikationen i en hastighet, kunde den inte luras om en talare strängde ut orden.
“Vi visade att SITHCon kunde generalisera till tal skalat upp eller ner i hastighet, medan andra modeller misslyckades med att avkoda information vid hastigheter som de inte såg vid träning,” sa Jacques.
Nu har UVA beslutat att göra sin kod tillgänglig gratis, för att föra fram kunskapen. Teamet säger att informationen bör anpassas för alla neurala nätverk som översätter röst.
“Vi kommer att publicera och släppa all kod eftersom vi tror på öppen vetenskap,” sa Sederberg. ”Förhoppningen är att företag ska se detta, bli riktigt exalterade och säga att de skulle vilja finansiera vårt fortsatta arbete. Vi har utnyttjat ett grundläggande sätt som hjärnan bearbetar information, genom att kombinera kraft och effektivitet, och vi har bara skrapat på ytan av vad dessa AI-modeller kan göra.”
Men med vetskapen om att de har byggt en bättre råttfälla, är forskarna oroliga överhuvudtaget för hur den nya tekniken kan användas?
Sederberg sa att han är optimistisk att AI som hör bättre kommer att närma sig etiskt, eftersom all teknik borde vara i teorin.
“Just nu har dessa företag stött på beräkningsflaskhalsar samtidigt som de försökt bygga mer kraftfulla och användbara verktyg,” sa han. “Man måste hoppas att det positiva väger tyngre än det negativa. Om du kan överföra fler av dina tankeprocesser till datorer kommer det att göra oss till en mer produktiv värld, på gott och ont.”
Jacques, en nybliven pappa, sa: “Det är spännande att tänka på att vårt arbete kan ge upphov till en ny riktning inom AI.”
Neuroforskare förklarar skillnaderna mellan AI och mänskligt lärande
Mer information:
Sammanfattning: proceedings.mlr.press/v162/jacques22a.html Tillhandahålls av University of Virginia
Citat:Alexa och Siri, lyssna! Forskarteamet lär maskiner att verkligen höra oss (2022, 20 juli)hämtad 20 juli 2022 från https://techxplore.com/news/2022-07-alexa-siri-team-machines.html
Detta dokument är föremål för upphovsrätt. Bortsett från all rättvis handel i syfte att privata studier eller forskning, får ingen del reproduceras utan skriftligt tillstånd. Innehållet tillhandahålls endast i informationssyfte.
Håll kontakten med oss på sociala medieplattformar för omedelbar uppdatering klicka här för att gå med i vår Twitter och Facebook