A mély tanulás nem elég,
Szükségünk van a Bayes-i mély tanulásra a biztonságos mesterséges intelligencia érdekében

Bayesi mély tanulás, számítógépes látás, bizonytalanság

biztonságos

Alex Kendall

Számítógépes látás és robotika kutató

A gépi tanulási rendszerek kritikus része annak megértése, amit egy modell nem tud. Sajnos a mai mély tanulási algoritmusok általában nem képesek megérteni bizonytalanságukat. Ezeket a modelleket gyakran vakon veszik fel, és feltételezik, hogy pontosak, ami nem mindig így van. Például két közelmúltbeli helyzetnek katasztrofális következményei voltak.

2016 májusában tragikusan tapasztaltuk meg az első halálesetet egy segített vezetési rendszerből. A gyártó blogja szerint „Sem az Autopilot, sem a sofőr nem vette észre a traktor pótkocsijának fehér oldalát az erősen megvilágított égbolton, ezért a féket nem kapcsolták be.”

2015 júliusában egy képosztályozási rendszer tévesen két afroamerikai embert azonosított gorillaként, ami faji megkülönböztetéssel kapcsolatos aggályokat vet fel. A hírjelentést itt tekintheti meg.

És biztos vagyok benne, hogy még sok érdekes eset van! Ha mindkét algoritmus képes volt nagyfokú bizonytalanságot tulajdonítani hibás jóslataiknak, akkor minden rendszer képes lehet jobb döntéseket hozni, és valószínűleg elkerülheti a katasztrófákat.

Számomra egyértelmű, hogy a bizonytalanság megértése fontos. Akkor miért nem mindenki csinálja? A fő kérdés az, hogy a bizonytalanság megértésének hagyományos gépi tanulási megközelítései, például a Gauss-folyamatok, nem skálázódnak olyan nagy dimenziós bemenetekre, mint a képek és videók. Ezen adatok hatékony megértéséhez mély tanulásra van szükségünk. De a mély tanulás a bizonytalanság modellezéséért küzd.

Ebben a bejegyzésben bemutatom a Bayes-i mély tanulás (BDL) néven ismert újjáéledő területet, amely mély tanulási keretet nyújt, amely a bizonytalanságot is modellezheti. A BDL a legkorszerűbb eredményeket érheti el, miközben megérti a bizonytalanságot is. Megmagyarázom a különböző típusú bizonytalanságokat, és megmutatom, hogyan modellezhetem őket. Végül megvitatom egy nemrégiben elért eredményt, amely megmutatja, hogyan lehet felhasználni a bizonytalanságot a súlycsökkenéshez a többfeladatos mély tanuláshoz. A blogbejegyzés anyaga többnyire két legutóbbi cikkemből származik:

Milyen bizonytalanságokra van szükségünk a Bayes-féle mély tanulásban a számítógépes látáshoz? Alex Kendall és Yarin Gal, 2017. (.pdf)

Többfeladatos tanulás bizonytalansággal a jelenetek geometriájának és szemantikájának veszteségeinek mérésére. Alex Kendall, Yarin Gal és Roberto Cipolla, 2017 (.pdf)

És mint mindig, további technikai részletek is megtalálhatók itt!

Példa arra, miért nagyon fontos megérteni a mélységbecslés bizonytalanságát. Az első kép egy példa a Bayes-i ideghálózatba, amely becsli a mélységet, amint azt a második kép mutatja. A harmadik kép a becsült bizonytalanságot mutatja. Láthatja, hogy a modell rossz nehézségeket jósol meg nehéz felületeken, például a piros autó fényvisszaverő és átlátszó ablakain. Szerencsére a bayesi mély tanulási modell is tisztában van azzal, hogy téves, és fokozott bizonytalanságot mutat.

Az első kérdés, amellyel szeretnék foglalkozni, mi a bizonytalanság? Valójában különböző típusú bizonytalanságok vannak, és meg kell értenünk, hogy mely típusokra van szükség a különböző alkalmazásokhoz. Megbeszélem a két legfontosabb típust - az episztemikus és az aleatorikus bizonytalanságot.

Episztemikus bizonytalanság

Az episztemikus bizonytalanság rögzíti tudatlanságunkat arról, hogy melyik modell generálta az összegyűjtött adatainkat. Ezt a bizonytalanságot elegendő adat birtokában meg lehet magyarázni, és gyakran modellbizonytalanságnak nevezik. Az episztemikus bizonytalanság nagyon fontos a következők modellezéséhez:

  • Biztonságkritikus alkalmazások, mivel episztemikus bizonytalanságra van szükség a képzési adatoktól eltérő példák megértéséhez,
  • Kis adatkészletek, ahol ritka az edzésadat.

Aleatorikus bizonytalanság

Az aleatorikus bizonytalanság rögzíti bizonytalanságunkat olyan információk tekintetében, amelyeket adataink nem tudnak megmagyarázni. Például a képek aleatorikus bizonytalansága az elzáródásoknak tulajdonítható (mivel a kamerák nem látnak át tárgyakat), a vizuális jellemzők hiánya vagy a kép túlzottan kitett régiói stb. Elmagyarázható azzal a képességgel, hogy az összes magyarázó változót egyre pontosabb figyelemmel kísérjük. Az aleatorikus bizonytalanság nagyon fontos a következők modellezéséhez:

  • Nagy adathelyzetek, ahol az episztémiás bizonytalanság többnyire elmagyarázható,
  • Valós idejű alkalmazások, mivel aleatorikus modelleket alkothatunk a bemenő adatok determinisztikus függvényeként, drága Monte Carlo mintavételezés nélkül.

Az aleatoriát valójában két további alkategóriára oszthatjuk:

  • Az adatfüggő vagy heteroszkedasztikus bizonytalanság aleatorikus bizonytalanság, amely a bemeneti adatoktól függ, és modell kimenetként várható.
  • A feladattól függő vagy homomoscedasztikus bizonytalanság aleatorikus bizonytalanság, amely nem függ a bemeneti adatoktól. Ez nem modellkimenet, sokkal inkább egy mennyiség, amely minden bemeneti adatnál állandó marad, és a különböző feladatok között változik. Ezért feladattól függő bizonytalanságként írható le. Később a bejegyzésben megmutatom, hogy ez valóban hasznos a többfeladatos tanuláshoz.
Az aleatorikus és az episztemikus bizonytalanság közötti különbség szemantikus szegmentálására. Észreveheti, hogy az aleatorikus bizonytalanság olyan objektumhatárokat rögzít, ahol a címkék zajosak. Az alsó sor a szegmentációs modell meghibásodási esetét mutatja, amikor a modell nem ismeri a gyalogutat, és az ennek megfelelő fokozott episztémiás bizonytalanság.

Ezután bemutatom, hogyan lehet modelleket kialakítani e bizonytalanság leküzdésére a Bayes-i mély tanulás segítségével.

A bayesi mély tanulás a mély tanulás és a bayesi valószínűségelmélet metszéspontjában álló terület. Elvi bizonytalansági becsléseket kínál a mély tanulási architektúrák alapján. Ezek a mélyépítészek bonyolult feladatokat modellezhetnek a mély tanulás hierarchikus reprezentációs erejének kihasználásával, ugyanakkor képesek következtetni a komplex multimodális posterior eloszlásokra is. A Bayes-i mély tanulási modellek általában úgy határoznak meg bizonytalansági becslést, hogy vagy elosztják a modell súlyát, vagy megtanulják a valószínűségi kimenetek közvetlen leképezését. Ebben a részben röviden megvitatom, hogy miként modellezhetjük mind az episztémiás, mind az aleatorikus bizonytalanságot a bayesi mély tanulási modellek segítségével.

Először is, a veszteségfüggvények megváltoztatásával modellezhetjük a heteroszkedasztikus aleatorikus bizonytalanságot. Mivel ez a bizonytalanság a bemeneti adatok függvénye, megtanulhatjuk azt megjósolni a bemenetek és a kimenetek közötti determinisztikus leképezés segítségével. A regressziós feladatokhoz általában valamilyen euklideszi/L2 veszteséggel edzünk: \ (\ begin Loss = || y - \ hat || _2 \ end \). A heteroszkedasztikus bizonytalansági modell megtanulásához egyszerűen helyettesíthetjük a veszteségfüggvényt a következőkkel:

ahol a modell átlagot \ (\ hat \) és varianciát (\ sigma ^ 2 \) jósol. Amint ebből az egyenletből kiderül, ha a modell valami nagyon rosszat jósol, akkor a bizonytalanság növelésével \ (\ sigma ^ 2 \) ösztönözni kell a maradék kifejezés csillapítását. A \ (\ log \ sigma ^ 2 \) azonban megakadályozza, hogy a bizonytalansági kifejezés végtelenül növekedjen. Ezt úgy lehet felfogni, mint a megtanult veszteségcsökkentést.

A homomoscedasztikus aleatorikus bizonytalanság hasonló módon modellezhető, azonban a bizonytalansági paraméter már nem modellkimenet lesz, hanem egy szabad paraméter, amelyet optimalizálunk.

Másrészt az episztémiás bizonytalanságot sokkal nehezebb modellezni. Ehhez meg kell modelleznünk a modellek és azok paramétereinek eloszlását, amelyet sokkal nehezebb méretarányosan elérni. Népszerű technika ennek modellezésére a Monte Carlo lemorzsolódó mintavétel, amely Bernoulli-elosztást helyez el a hálózat súlyain.

A gyakorlatban ez azt jelenti, hogy kiképzéssel kiképezhetünk egy modellt. Ezután a teszt időpontjában, ahelyett, hogy a modell átlagolását elvégeznénk, sztochasztikusan mintázhatunk a hálózatról, különböző véletlenszerű lemorzsolódás maszkokkal. A kimenetek ezen eloszlásának statisztikája tükrözi a modell episztemikus bizonytalanságát.

Az előző részben kifejtettem azokat a tulajdonságokat, amelyek meghatározzák az aleatorikus és episztémiás bizonytalanságot. Cikkünk egyik izgalmas eredménye az volt, hogy megmutathattuk, hogy ez a készítmény olyan eredményeket ad, amelyek kielégítik ezeket a tulajdonságokat. Az alábbiakban röviden összefoglaljuk a monokuláris mélység regressziós modell néhány eredményét két adatkészleten:

Edzési adatok tesztelése Aleatorikus variancia episztémiás variancia
Képzett az 1. adatkészleten Tesztelve az 1. adatkészleten 0,485 2.78
Képzett az 1. számú 25% -os adatkészleten Tesztelve az 1. adatkészleten 0,506 7.73
Képzett az 1. adatkészleten Tesztelve a 2. adatkészleten 0,461 4.87
Képzett az 1. számú 25% -os adatkészleten Tesztelve a 2. adatkészleten 0,388 15.0

Ezek az eredmények azt mutatják, hogy amikor kevesebb adattal edzünk, vagy olyan adatokon tesztelünk, amelyek jelentősen eltérnek a képzettől, akkor episztémiás bizonytalanságunk drasztikusan növekszik. Az aleatorikus bizonytalanságunk azonban viszonylag állandó marad - aminek kellene - mert ugyanazon a szenzoron ugyanazon a problémán tesztelik.

Ezután megvitatom ezen ötletek érdekes alkalmazását a többfeladatos tanuláshoz.

A többfeladatos tanulás célja a tanulás hatékonyságának és az előrejelzés pontosságának javítása azáltal, hogy több célt tanul meg közös képviseletből. A gépi tanulás számos területén elterjedt, az NLP-től a beszédfelismerésen át a számítógépes látásig. A többfeladatos tanulás döntő fontosságú azokban a rendszerekben, amelyekben a hosszú számítási futási idő megfizethetetlen, például a robotikában. Az összes feladat egyetlen modellbe történő egyesítése csökkenti a számítást és lehetővé teszi ezeknek a rendszereknek a valós idejű futtatását.

A legtöbb többfeladatos modell különböző feladatokra edz a veszteségek súlyozott összegének felhasználásával. E modellek teljesítménye azonban nagymértékben függ az egyes feladatok vesztesége közötti relatív súlytól. Ezeknek a súlyoknak a kézi hangolása nehéz és költséges folyamat, amely a gyakorlatban tiltóvá teszi a többfeladatos tanulást.

Legutóbbi írásunkban javasoljuk a homoscedasztikus bizonytalanság alkalmazását a veszteségek súlyozására a többfeladatos tanulási modellekben. Mivel a homoszedasztikus bizonytalanság nem változik az input adatokkal, bizonytalansági feladatként értelmezhetjük. Ez lehetővé teszi számunkra, hogy elvi veszteséget képezzünk a különböző feladatok egyidejű megtanulása érdekében.

A többfeladatos tanulást a számítógépes látás vizuális jelenetének megértésén belül vizsgáljuk. A jelenetmegértő algoritmusoknak egyszerre kell megérteniük a jelenet geometriáját és szemantikáját is. Ez érdekes többfeladatos tanulási problémát képez, mivel a jelenet megértése magában foglalja a különféle regressziós és osztályozási feladatok együttes megtanulását különböző egységekkel és skálákkal. Talán meglepő módon azt mutatjuk be, hogy modellünk megtanulhat többfeladatos súlyozást és felülmúlja az egyes feladatokra külön-külön képzett külön modelleket.

A többfeladatos tanulás javítja a mélység észlelésének simaságát és pontosságát, mert megtanul egy olyan reprezentációt, amely más feladatokból, például szegmentálásból (és fordítva) származó jeleket használ.

Miért nem a Bayes-i mély tanulási erő az összes A.I. rendszerek ma? Szerintem kellene, de van néhány nagyon kemény kutatási kérdés. A blog zárásaként megemlítek néhányat közülük:

  • A valós idejű episztémiás bizonytalansági technikák megakadályozzák az episztémiás bizonytalansági modellek valós idejű robotikai alkalmazásokban történő alkalmazását. Vagy a minta hatékonyságának növelése, vagy olyan új módszerek, amelyek nem támaszkodnak Monte Carlo következtetéseire, hihetetlenül előnyösek lennének.
  • A bayesi mély tanulási modellek viszonyítási pontjai. Hihetetlenül fontos számszerűsíteni a javulást a gyorsan fejlődő modellek számára - nézze meg, hogy az ImageNet-hez hasonló referenciaértékek mit tettek a számítógépes látás érdekében. Szükségünk van benchmark készletekre a bizonytalanság kalibrációjának mérésére a BDL modellekben is.
  • Jobb következtetési technikák a multimodális eloszlások rögzítéséhez. Például lásd az itt felállított Yarin bemutatót, amely bemutat néhány multimodális adatot, amelyet az MC lemorzsolódás következtetése nem modellez.