7.1 Tanuláson alapuló rendszerek
A tanulás fogalma a mintafelismerésből és a számítógépes tanuláselméletből származik. Jól használható olyan számítógépes alkalmazások fejlesztésére, amelyek képesek önállóan tanulni és új adatok alapján előrejelzéseket készíteni. Az ilyen tanulmányok másképp viselkednek, mint a neurális alapú tanulási módszerek, amelyekben a súlyok adaptálódnak, míg a jellemzők többé-kevésbé rögzítettek. Az ebben a fejezetben tárgyalt tanulmányok inkább úgy viselkednek, mint az osztályozót a képzésben segítő jellemző-kivonók. A korábban tárgyalt megközelítésekkel való átfedések elkerülése érdekében csak a jellemzőkivonási módszereket és az osztályozó képzési módszereket vesszük figyelembe. Az osztályozó képzésére számos módszert, például Adaboost, Support Vector gépeket vagy ezek kombinációit használták a videókban lévő objektumok észlelésére és követésére. Az Adaboost algoritmuson és a konvolúciós neurális hálózaton alapuló hibrid modelleket Gao és társai javasolták a fejek észlelésén alapuló személyszámláláshoz. Az Adaboost algoritmus használatának általános ötlete az volt, hogy a CNN számára kivonja a fejrégiókat, ami jelentősen csökkentheti az osztályozási időt. Az AdaBoost-SVM osztályozó képes a hagyományos kaszkád-Adaboost osztályozó korlátainak megszüntetésére és a nagyméretű képzési mintakészletekre alkalmazva a támogató vektor gépek időigényének csökkentésére is. Cheng et al. kutatása AdaBoost-SVM osztályozót alkalmazott videókban lévő gyalogosok felismerésére. A javasolt osztályozó képes automatikusan kiválasztani az AdaBoost osztályozót vagy az SVM-et a kaszkád osztályozó kifejlesztéséhez a képzési minták tekintetében az osztályozási teljesítmény javítása érdekében. Egy hasonló tanulmányban Guo és társai AdaBoost-SVM osztályozót használtak videókban lévő gyalogosok észlelésére. A javasolt modell két szakaszban működött; az első szakasz a gyalogosjelöltek szegmentálásával foglalkozik a képekről AdaBoost algoritmus és kaszkád módszer segítségével. A második szakasz annak értékelésével foglalkozik, hogy egy jelölt gyalogos-e vagy sem. A második szakaszban a gyalogosok osztályozójának kiképzésére Support Vector Machine-t használtunk. Végül a gyalogosfelismerő módszert a hagyományos egylépcsős osztályozóval, például az AdaBoost-alapú vagy az SVM-alapú osztályozóval szemben értékelték. Mindkettőnél hatékonyabbnak bizonyult. Az utóbbi időben egyre nagyobb jelentőséget kapnak a támogató vektorgépek használatán alapuló tanulmányok a videókban történő objektumfelismerés és -követés területén. Zhang et al. hibrid modellt javasolt a videókban lévő objektumkövetésre, ahol a térbeli megkötéseket regressziós modell segítségével használták ki. A módszer három különböző támogató vektor gépet alkalmazott a nyomkövető kifejlesztéséhez, és a hibrid támogató vektor gépeket elosztott stratégiával kombinálták. Az ezzel a technikával végzett kísérletek azt mutatták, hogy a javasolt megközelítés jobb volt, mint a legkorszerűbb. A Cyganek et al. és javasolta a videókban lévő objektumok követésére szolgáló, támogató vektorgépen alapuló algoritmust. Ők egyosztályos SVM osztályozót használtak átlageltolódás-követővel. A jellemzővektort az ortogonális IJK színtér és a strukturális tenzor komponenseiből építették fel. A kidolgozott módszerben a strukturális tenzort a pixelterületeken értékelték az intenzitásváltozásokkal kapcsolatos információk összegyűjtésére. Az SVM kimenete az e jellemzőkkel történő képzés után lágyítva lett, és be lett táplálva az átlagos eltolódáskövetőbe. A tanulmány szerint a , többnézetes tanulási keretet vezettek be több támogató vektoros gépet használva a videókban lévő objektumkövetéshez. A módszert úgy építették fel, hogy figyelembe vették a jellemzők több nézetét, például a szürkeárnyalat-értéket, az orientált gradiensek hisztogramját (HOG) és a helyi bináris mintát (LBP). Ezeket a jellemzőket használták a támogató vektor gépek képzéséhez. A szubtér-evolúciós stratégián alapuló frissítési sémát vezették be a tárgy és a forgatókönyv változásainak megtanulására.
A reprezentációs tanulás olyan technikák összessége, amelyekben a jellemzőtanulás segít a szükséges információk könnyű kinyerésében az osztályozók vagy prediktorok építése során. A szerzők a mélytanulást, a jellemzőtanulást és a klaszterezésen alapuló módszereket hasznosították ebben a kategóriában. A reprezentációs tanulás területén a legtöbb szakirodalom a mélytanulást használta a videókban lévő objektumok észlelésére és követésére. Su és munkatársai a ritka automatikus kódolón (SAE) alapuló jellemzőtanulási módszert alkalmazták a mélységi jellemzők kinyerésének problémájára az emberi test videókban történő felismeréséhez. A SAE olyan felügyelet nélküli funkciótlanító módszerek, amelyekkel elkerülhető a munkaigényes és kézműves funkciótervezés. A javasolt módszer konvolúciós neurális hálózatot és poolingot használt a SAE képzési komplexitásának csökkentése érdekében. A csúszóablakos lokalizációs stratégiát javasolták, amelyben a mélység hisztogramját használták a jelölt észlelési ablakközpont kialakítására. A módszer továbbá kihasználta az emberi testmagasság és a mélység közötti kapcsolatot az észlelőablak méretének értékeléséhez. A klaszterezésen alapuló reprezentációs megközelítést Jia et al. a bemondó személy detektálására használta a híradós videósorozatban. Kezdetben az új videókat felvételekre osztották, majd minden felvételből kiemelték a kulcskockákat a hírvideó reprezentációjához. A továbbiakban a Pearson-féle korrelációs együttható statisztikai távolságát használták a kulcskockák klaszterezéséhez, és a bemondó személy felvételeit a bemondó felvételek kritériumai alapján észlelték.