CVML2011: emberi cselekvés felismerése (Ivan Laptev)

zukun

Publikálva 2011. augusztus 26-án

laptev

  • 6 megjegyzés
  • 5 lájk
  • Statisztika
  • Megjegyzések

Jelentkezzen be a hozzászólások megtekintéséhez

  1. 1. ENS/INRIA vizuális felismerés és gépi tanulás nyári iskola július 25–29., Párizs Franciaország iskola, július 29., 29. Párizs, emberi cselekvés elismerése Ivan Laptev [email protected] ilt @iif INRIA, WILLOW, ENS/INRIA/CNRS UMR 8548 Informatikai Laboratórium, Ecole Normale Supérieure, Paris d Informatique, Diákat tartalmaz: Alyosha Efros, Mark Everingham és Andrew Zisserman
  2. 2. Előadás áttekintése Motiváció Történeti áttekintés Alkalmazások és kihívások Emberi pózbecslés Képi struktúrák A legújabb fejlemények Megjelenés-alapú módszerek pp Mozgástörténeti képek Aktív alakmodellek és Motion Priors Mozgásalapú módszerek Általános és parametrikus Optical Flow Motion sablonok Tér-idő módszerek p Tér-idő jellemzői Gyengén felügyelt edzés
  3. 3. I. motiváció: Művészi reprezentáció A korai tanulmányokat az ArtsDa Vinci emberi reprezentációi motiválták: „A festő számára elengedhetetlen, hogy teljesen megismerje az idegek, a csontok, az izmok és az izmok anatómiáját, hogy megértse y, különféle mozdulataik és feszültségeik miatt, melyik izom vagy melyik izom okozza az adott mozgást. c. Vegye figyelembe a függőleges vonalat ennek az embernek a tömegközéppontja alatt. ” Leonardo da Vinci (1452–1519): Az ember felmegy az emeletre, vagy felfelé egy létrán.
  4. 4. Motiváció II: Biomechanika  A biomechanika megjelenése  Borelli a biológiában alkalmazta a Galileo Galilei által kidolgozott analitikai és geometriai módszereket  Ő volt az első, aki megértette, hogy a csontok karokként szolgálnak, és az izmok matematikai p elvek szerint működnek p  élettani a vizsgálatok magukban foglalták az izomelemzést és a mozgások matematikai megbeszélését, például a futást vagy az ugrást. Giovanni Alfonso Borelli (1608–1679)
  5. 5. III. Motiváció: Mozgásérzékelés Etienne-Jules Etienne Jules Marey: (1830–1904) a kronofotográfiai kísérleteket befolyásolta az operatőr feltörekvő területein. Eadweard Muybridge (1830–1904) feltalált egy gépet a rögzített képsorok megjelenítésére. Mozgóképek úttörője volt és technikáját alkalmazta a mozgástanulmányokban
  6. 6. Motiváció III: Mozgásészlelés Gunnar Johansson [1973] úttörő tanulmányokat folytatott a kép használatáról [] pg  szekvenciák egy programozott emberi mozgáselemzéshez „A mozgó fénykijelzők (LED) lehetővé teszik az ismerős emberek azonosítását mozgó kijelzők”  valamint a nem és számos művet inspirált a számítógépes látásban. Gunnar Johansson, Érzékelés és pszichofizika, 1973
  7. 7. Emberi cselekvések: Történelmi áttekintés 15. század  anatómiai tanulmányok t  biomechanika 17. századi megjelenése 19. század  operatőr megjelenése  1973-as tanulmányok az emberi mozgásészlelésről Modern számítógépes látás M d t i i
  8. 8. Modern alkalmazások: Mozgásrögzítés és animáció Avatar (2009)
  9. 9. Modern alkalmazások: Mozgásrögzítés és animáció Leonardo da Vinci (1452–1519) Avatar (2009)
  10. 10. Modern alkalmazások: Videoszerkesztés Tér-idő videó befejezése Y. Wexler, E. Shechtman és M. Irani, CVPR 2004
  11. 11. Modern alkalmazások: Videoszerkesztés a cselekvés felismerése távolságban Alexei A. Efros, Alexander C. Berg, Greg Mori, Jitendra Malik, ICCV 2003
  12. 12. Modern alkalmazások: Videoszerkesztés a cselekvés felismerése távolságban Alexei A. Efros, Alexander C. Berg, Greg Mori, Jitendra Malik, ICCV 2003
  13. 13. Miért cselekvésfelismerés?  A videók indexelése és keresése hasznos a tévékészítésben, a szórakozásban, az oktatásban, a társadalomtudományban, a biztonságban,… Házi videók: pl. TV & Web: „Az én pl. lánya „Küzdelem egy mászóban” Parlament ”Szociológiai kutatás: Manuális megfigyelés: elemzett dohányzás 260 ezer megtekintési akció 7 nap alatt 900 filmben i YouTube
  14. 14. Hogyan függ össze az akciófelismerés a számítógépes látással? Sky Sk utcatábla autó autó autó autó autó út
  15. 15. Felismerhetjük az autókat és az utakat, g, Mi következik? 12 184 113 kép, 17624 szinkron
  16. 16. Repülőgép Egy síkság lezuhant, az utastér megszakadt, valószínűleg valaki megsérült vagy holtan halott.
  17. 17. macskanő szemét bi t h bin
  18. 18.  A látás személyközpontú: Leginkább a számunkra, emberek számára fontos dolgok érdekelnek.  Az emberek cselekedetei feltárják a tárgyak funkcióját p p j  Jövőbeni kihívások: - Funkció: Mit tehetek ezzel és hogyan? - Jóslás: Mi történhet, ha valaki ezt teszi? - Célok felismerése: Amit ez az ember megpróbál?
  19. 19. Hány személy pixel van? személy- Filmek TV YouTube Y T b
  20. 20. Hány személy pixel van? személy- Filmek TV YouTube
  21. 21. Hány személy pixel van? személy- 35% 34% Filmek TV 40% YouTube
  22. 22. Mennyi adatunk van?  Hatalmas mennyiségű videó áll rendelkezésre, és egyre több TV-csatornát rögzítenek a 60-as 60 s> 34K órás videofeltöltés óta minden nap

30 millió megfigyelő kamera az Egyesült Államokban =>

5 óra film

  • 179. A „Üljön le” és a „Nyitott ajtó” akciók időbeli észlelése a filmekben: A diplomás, A síró játék, az elfeledésben élés
  • 180. Következtetések  A szavak zsákmodelljei jelenleg a B fddl tl dominánsak, ezért a struktúrát (emberi pózok stb.) Be kell építeni  A cselekvések szókészlete nincs pontosan meghatározva - a céltól és a céltól függ g feladat  Műveleteket kell használni a vizuális világ funkcionális értelmezéséhez