BLOGG

Hallucinationer för bättre textöversättning | MIT Nyheter

Vi imiterar och pratar om vår språkinlärning som spädbarn. Vi börjar inte läsa rå text som kräver grundläggande kunskap och förståelse för världen, samt avancerade färdigheter att tolka och dra slutsatser från beskrivningar och samband. Tvärtom börjar människor vår språkresa långsamt, pekar på och interagerar med den, rättfärdigar våra ord och förstår deras betydelse i den fysiska och sociala världens sammanhang. Slutligen kan vi skapa kompletta meningar för att förmedla komplexa idéer.

På samma sätt, när människor börjar lära sig och översätta ett annat språk, förbättras språkinlärningen och minnet genom att kombinera annan sensorisk information, såsom multimedia, med nya och obekanta ord, såsom flashcards med bilder. Sedan, med tillräcklig erfarenhet, kan människor korrekt översätta nya, osynliga meningar till sitt sammanhang utan medföljande media; men det hjälper att föreställa sig en bild baserad på originaltexten.

Detta är grunden för en ny maskininlärningsmodell kallad VALHALLA av forskare vid MIT, IBM och University of California, San Diego, där ett utbildat neuralt nätverk ser en källmening på ett språk och hallucinerar dess beskrivning. ser ut och använder sedan båda för att översätta till målspråket. Teamet fann att deras metod endast visade förbättrad maskinöversättningsnoggrannhet jämfört med textöversättning. Dessutom gav det ytterligare impulser till långa meningar, lågresursspråk och fall där en del av källsatsen var otillgänglig för en maskinöversättare.

Studiens medförfattare, Yoon Kim, docent vid MIT:s elektriska avdelning, sa att maskinöversättning är “en mycket praktisk teknik som används av miljontals människor varje dag” som en nyckeluppgift inom området artificiell intelligens i naturlig språkbehandling ( NLP). Ingenjörsvetenskap och datavetenskap knuten till Computer Science and Artificial Intelligence Laboratory (CSAIL) och MIT-IBM Watson AI Laboratory. Med betydande framsteg inom djupinlärning, säger Kim, “det finns en intressant utveckling i hur en person kan använda icke-textuell information – såsom bilder, ljud eller annan grundläggande information – för att lösa språkrelaterade praktiska uppgifter.” människor gör språkbearbetningsuppgifter, vi gör det i en rimlig, avklarad värld. ”De resulterande parade hallucinationerna av bilder och text efterliknar processen, teamet antar, och sammanhanget för förbättrad prestanda på nuvarande toppmoderna tekniker som bara använder textdata. tillhandahåller.

Studien kommer att presenteras på IEEE / CVF Computer Vision and Pattern Recognition Conference denna månad. Kim skrev tillsammans med UC San Diego doktorand Yi Li och professor Nuno Vasconcelos, forskarna Rameswar Panda, Chun-fu “Richard” Chen, Rogerio Feris och IBM Director David Cox tillsammans med IBM Research och MIT-IBM Watson. AI-laboratoriet.

Lär dig att hallucinera från bilder

När vi lär oss och översätter nya språk får vi ofta exempel och erfarenheter innan vi ger oss ut på en egen resa. Detsamma gäller för maskinöversättningssystem; men om bilder används i träning kräver dessa artificiella intelligenstekniker också visuella hjälpmedel för att testa och begränsa deras tillämpning, säger Panda.

“I verkliga scenarier kanske det inte finns en bild av källsatsen. Så vår motivation var i grunden denna: istället för att använda den yttre bilden som en input när vi drar slutsatser, kan vi använda visuella hallucinationer – förmågan att visualisera visuella scener – för att förbättra system för maskinöversättning? Säger Panda.

För att göra detta använde teamet en encoder-decoder-arkitektur med två transformatorer, en typ av neurala nätverksmodeller som är lämpliga för sekvensberoende information som språk och kan fokusera på nyckelord och meningssemantik. En transformator skapar visuella hallucinationer, medan den andra utför multimodal översättning med hjälp av utgångarna från den första transformatorn.

Under utbildningen finns det två översättningsströmmar: källsatsen och samma källmening som visuellt hallucineras för att skapa ett parat grundläggande sanningsbild och text-bild-par. Inledningsvis omvandlas den huvudsakliga sanningsbilden och meningen till bilder som kan styras av transformatorer; Varje ord är ett tecken för meningstillståndet. Källsatsen markeras igen, men denna gång genom en visuell hallucinationstransformator ger en hallucination en diskret beskrivning av meningen. Forskare har kombinerat autoregression för att jämföra nyckel-sanning och hallucinerade representationer för kompatibilitet – till exempel homonymer: hänvisning till ett djurs “fladdermus” hallucineras inte som ett basebollträ. Hallucinationstransformatorn använder sedan skillnaden mellan dem för att optimera sina projektioner och visuella utdata, och se till att sammanhanget är konsekvent.

De två uppsättningarna av symboler passerar sedan samtidigt genom en multimodal översättningstransformator, som var och en innehåller en beskrivning av meningen eller en hallucination eller beskrivning av den underliggande sanningen. Resultaten av den tokeniserade textöversättningen jämförs för att likna målsatsen på ett annat språk. Eventuella skillnader överförs sedan till translationstransformatorn för optimering.

För experiment, minskar verkligheten på ytan flödet av bilder, eftersom bilder med största sannolikhet inte kommer att vara tillgängliga i vardagliga scenarier.

“Så vitt vi vet har vi inte gjort något som använder en hallucinationstransformator med ett multimodalt översättningssystem för att förbättra maskinöversättningsprestandan”, säger Panda.

Visualisering av måltexten

För att testa sina metoder ställde teamet VALHALLA mot andra moderna multimodala och endast textöversättningsmetoder. De använde en offentlig referensdatabas, bestående av en samling data, för att översätta nyhetsartiklar som endast bestod av text och bilder som speglade den grundläggande sanningen med källmeningar. Forskare mätte hans prestation på 13 uppgifter, allt från översättning till språk med goda resurser (t.ex. engelska, tyska och franska), lågkällsspråk (t.ex. engelska till rumänska) och icke-engelska (från spanska) till franska). Teamet testade också olika transformatormodellstorlekar, hur noggrannheten förändrades med meningslängden och översättning i ett begränsat textsammanhang där delar av texten gömdes för maskinöversättare.

Teamet fann betydande förbättringar i metoder för översättning av endast text, vilket ökade dataeffektiviteten och att mindre modeller presterade bättre än större basmodeller. När meningarna förlängdes ökade VALHALLAS prestanda jämfört med andra metoder, och forskare tillskrev detta till tillägget av mer vaga ord. I de fall en del av meningen var maskerad kunde VALHALLA återställa och översätta originaltexten, vilket överraskade teamet.

Ett annat oväntat fynd dök upp: “Det var inte mycket träning [image and] textpar, [like for under-resourced languages]förbättringarna var mer betydande, vilket tyder på att bildbaserad hjälp i lågdatalägen, säger Kim. Till exempel, om det hjälper att översätta visuellt konvexa meningar som “det står en röd bil framför huset”, kanske det inte är så förvånande. [However]även bara i texten [news article] inom domäner kunde tillvägagångssättet bara förbättras på textsystem.

Även om VALHALLA presterar bra, konstaterar forskare att det har sina begränsningar, att det kräver inspelning av meningspar med en enda bild, vilket kan göra det dyrare att skaffa. Det fungerar också bättre inte bara i textnyhetsartiklar, utan även i sin egen domän. Dessutom påpekar Kim och Panda att en teknik som VALHALLA fortfarande är en svart låda, förmodligen ger hallucinatoriska bilder användbar information, och teamet planerar att undersöka vad och hur modellen lärt sig för att validera sina metoder.

I framtiden planerar teamet att utforska andra sätt att förbättra översättningen. “Här fokuserar vi bara på bilder, men det finns andra typer av multimodal information – till exempel tal, video eller beröring eller andra sensoriska metoder”, säger Panda. “Vi tror att en sådan multimodal logik kan leda till effektivare maskinöversättningsmodeller och potentiellt dra nytta av översättning på många av världens resurssnåla språk.”

Denna forskning stöddes delvis av MIT-IBM Watson AI Laboratory och National Science Foundation.

Botón volver arriba

Ad blocker detected

You must remove the AD BLOCKER to continue using our website THANK YOU