Klasyfikator kaskadowy

7.1 Systemy oparte na uczeniu

Koncepcja uczenia się wywodzi się z teorii rozpoznawania wzorców i uczenia się obliczeniowego. Może być biegle wykorzystane do rozwoju aplikacji komputerowych, które mogą autonomicznie uczyć się i dokonywać przewidywań na podstawie nowych danych. Takie badania zachowują się inaczej niż metody oparte na neuronach, w których wagi są dostosowywane, podczas gdy cechy są mniej lub bardziej stałe. Badania omawiane w tym rozdziale zachowują się bardziej jak ekstraktory cech, które pomagają klasyfikatorom w treningu. Aby uniknąć pokrywania się z wcześniej omawianymi podejściami, rozważane są tylko metody ekstrakcji cech i metody szkolenia klasyfikatorów. W celu wytrenowania klasyfikatora, do wykrywania i śledzenia obiektów w filmach wideo zastosowano wiele metod, takich jak Adaboost, maszyny wektorów wspierających lub ich kombinacje. Modele hybrydowe oparte na algorytmie Adaboost i sieci neuronowej convolutional zostały zaproponowane przez Gao et al. do liczenia osób na podstawie detekcji głów. Ogólną ideą zastosowania algorytmu Adaboost było wyodrębnienie regionów głowy dla CNN, co może znacząco skrócić czas klasyfikacji. Klasyfikator AdaBoost-SVM jest w stanie usunąć ograniczenia tradycyjnego klasyfikatora kaskadowego-Adaboost, a także zmniejszyć czasochłonność maszyn wektorów podporowych w przypadku zastosowania do dużych zbiorów próbek treningowych. W badaniach Cheng et al. zastosowano klasyfikator AdaBoost-SVM do wykrywania pieszych w materiałach wideo. Proponowany klasyfikator może wybrać klasyfikator AdaBoost lub SVM automatycznie do rozwoju klasyfikatora kaskadowego w odniesieniu do próbek szkoleniowych w celu poprawy wydajności klasyfikacji. W podobnym badaniu, Guo et al. wykorzystał klasyfikator AdaBoost-SVM do wykrywania pieszych w filmach. Zaproponowany model działał w dwóch etapach; Pierwszy etap zajmuje się segmentacją kandydatów na pieszych z obrazów przy użyciu algorytmu AdaBoost i metody kaskadowej. Drugi etap zajmuje się oceną czy dany kandydat jest pieszym czy nie. Maszyna wektorów wspierających została użyta w drugim etapie do trenowania klasyfikatora pieszych. Ostatecznie, metoda wykrywania pieszych została oceniona w porównaniu z tradycyjnymi jednoetapowymi klasyfikatorami, takimi jak klasyfikator oparty na AdaBoost lub klasyfikator oparty na SVM. Okazało się, że jest ona bardziej efektywna od obu tych metod. Ostatnio badania oparte na wykorzystaniu maszyn wektorów wspierających zyskują na znaczeniu w dziedzinie detekcji i śledzenia obiektów w materiałach wideo. Zhang i in. zaproponowali hybrydowy model do śledzenia obiektów w wideo, w którym wykorzystano ograniczenia przestrzenne za pomocą modelu regresji. W metodzie zastosowano trzy różne maszyny wektorów wsparcia do opracowania trackera, a hybrydowe maszyny wektorów wsparcia zostały połączone przy użyciu strategii rozproszonej. Eksperymenty przeprowadzone na tej technice wykazały, że zaproponowane podejście jest lepsze od state-of-the-art. Algorytm śledzenia obiektów w wideo oparty na maszynie wektorów wspierających został zaproponowany przez Cyganek et al. i . Zastosowali oni jednoklasowy klasyfikator SVM z trackerem przesunięcia średniego. Wektor cech zbudowany został ze składowych ortogonalnej przestrzeni barw IJK oraz tensora strukturalnego. W opracowanej metodzie tensor strukturalny został oszacowany w regionach pikseli w celu zebrania informacji związanych ze zmiennością intensywności. Wyjście SVM, po treningu z wykorzystaniem tych cech, zostało zmiękczone i wprowadzone do mean shift trackera. Zgodnie z badaniami przeprowadzonymi w pracy , wprowadzono metodę uczenia wieloprzeglądowego wykorzystującą wiele maszyn wektorów podporowych do śledzenia obiektów w materiałach wideo. Metoda została skonstruowana poprzez uwzględnienie wielu widoków cech, takich jak wartość skali szarości, histogram zorientowanych gradientów (HOG) i lokalny wzór binarny (LBP). Cechy te zostały wykorzystane do trenowania maszyn wektorów wspierających. Schemat aktualizacji oparty na strategii ewolucji podprzestrzeni został wprowadzony w celu poznania zmian w obiekcie i scenariuszu.

Uczenie reprezentacyjne jest zbiorem technik, w których uczenie cech pomaga łatwo wydobyć potrzebne informacje podczas konstruowania klasyfikatorów lub predyktorów. Autorzy wykorzystali w tej kategorii głębokie uczenie, uczenie cech oraz metody oparte na klasteryzacji. Większość literatury z dziedziny uczenia reprezentacji wykorzystuje głębokie uczenie do wykrywania i śledzenia obiektów w wideo. Su et al. wykorzystali metodę uczenia cech opartą na sparse auto-encoder (SAE), aby poradzić sobie z problemem ekstrakcji cech głębi dla detekcji ludzkiego ciała w wideo. SAE jest nienadzorowaną metodą uczenia cech, która może uniknąć pracochłonnego i ręcznego projektowania cech. W proponowanej metodzie wykorzystano sieć neuronową typu convolution oraz pooling w celu zmniejszenia złożoności treningowej SAE. Zaproponowano strategię lokalizacji okna przesuwnego, w której histogram głębokości został użyty do opracowania centrum okna detekcji. Metoda ta wykorzystuje również zależność pomiędzy wysokością ciała ludzkiego a głębokością do oceny rozmiaru okna detekcji. Jia et al. zastosował metodę reprezentacji opartą na klasteryzacji do wykrywania osoby prowadzącej w sekwencji wideo wiadomości. Początkowo, nowe filmy zostały podzielone na ujęcia, a następnie z każdego ujęcia wyodrębniono kluczowe klatki dla reprezentacji wiadomości wideo. Następnie, odległość statystyczna współczynnika korelacji Pearsona została użyta do wykonania grupowania klatek kluczowych, a ujęcia osoby zakotwiczonej zostały wykryte przy użyciu kryteriów ujęcia zakotwiczenia.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.