7.1 Systemen gebaseerd op leren
Het concept van leren is afkomstig uit de patroonherkenning en de computationele leertheorie. Het kan op vakkundige wijze worden gebruikt voor de ontwikkeling van computertoepassingen die autonoom kunnen leren en voorspellingen kunnen doen op basis van nieuwe gegevens. Dergelijke studies gedragen zich anders dan neurale leermethoden waarbij de gewichten worden aangepast terwijl de kenmerken min of meer vastliggen. De in dit deel besproken studies gedragen zich eerder als feature extractors die de classificator helpen bij de training. Om overlapping met eerder besproken benaderingen te voorkomen, worden alleen methoden voor feature-extractie en methoden voor classificatietraining in beschouwing genomen. Voor de training van classificeerders zijn talrijke methoden zoals Adaboost, Support Vector machines of combinaties daarvan gebruikt voor objectdetectie en -tracering in video’s. Hybride modellen op basis van Adaboost-algoritme en convolutioneel neuraal netwerk zijn voorgesteld door Gao et al. voor het tellen van mensen op basis van detectie van hoofden. Het algemene idee achter het gebruik van het Adaboost-algoritme was het extraheren van hoofdregio’s voor CNN, wat de classificatietijd aanzienlijk kan verkorten. De AdaBoost-SVM classificator kan de beperkingen van de traditionele cascade-Adaboost classificator opheffen en ook het tijdverbruik van support vector machines verminderen wanneer deze wordt toegepast op grootschalige trainingssets van monsters. Het onderzoek van Cheng et al. paste AdaBoost-SVM classifier toe voor voetgangersdetectie in video’s. De voorgestelde classifier kan AdaBoost classifier of SVM automatisch selecteren voor de ontwikkeling van een cascade classifier met betrekking tot trainingsmonsters voor verbetering van de classificatie prestaties. In een soortgelijke studie, Guo et al. heeft AdaBoost-SVM classifier gebruikt voor voetgangers detectie in video’s. Het voorgestelde model werkt in twee fasen; de eerste fase behandelt de segmentatie van kandidaat-voetgangers uit beelden met behulp van AdaBoost-algoritme en cascade-methode. In de tweede fase wordt geëvalueerd of een kandidaat een voetganger is of niet. Support Vector machine werd gebruikt in de tweede fase voor het trainen van een voetganger classifier. Tenslotte werd de voetgangerdetectie methode geëvalueerd ten opzichte van traditionele eenfase classificatie, zoals AdaBoost gebaseerde of SVM gebaseerde classificatie. De methode bleek effectiever te zijn dan beide. Recentelijk hebben studies gebaseerd op het gebruik van support vector machines aan belang gewonnen op het gebied van object detectie en tracking in video’s. Zhang et al. stelden een hybride model voor het volgen van objecten in video’s voor, waarbij ruimtelijke beperkingen werden benut met behulp van een regressiemodel. De methode paste drie verschillende support vector machines toe voor het ontwikkelen van een tracker en hybride support vector machines werden gecombineerd met behulp van een gedistribueerde strategie. De experimenten met deze techniek wezen uit dat de voorgestelde aanpak beter was dan de state-of-the-art. Een algoritme voor het volgen van objecten in video’s op basis van Support vector machine werd voorgesteld door Cyganek et al. en . Zij gebruikten eenklasse SVM classifier met mean shift tracker. Een kenmerkvector werd opgebouwd uit componenten van de orthogonale IJK kleurruimte en de structurele tensor. In de bedachte methode werd de structurele tensor geëvalueerd in pixelgebieden om informatie te verzamelen met betrekking tot intensiteitsvariatie. De output van SVM, na training met behulp van deze kenmerken werd verzacht en werd ingevoerd in de mean shift tracker. Volgens de studie in , werd multi-view leren kader geïntroduceerd met behulp van meerdere support vector machines voor object tracking in video’s. De methode werd geconstrueerd door rekening te houden met meerdere weergave van kenmerken, zoals grijswaarden, histogram van georiënteerde gradiënten (HOG), en lokale binair patroon (LBP). Deze kenmerken werden gebruikt om de support vector machines te trainen. Het update schema op basis van subspace evolution strategie werd geïntroduceerd om de veranderingen in het object en het scenario te leren.
Representatie leren is een set van technieken waarbij feature leren helpt om de benodigde informatie gemakkelijk te extraheren tijdens het construeren van classifiers of voorspellers. Auteurs hebben deep learning, feature learning en clustering gebaseerde methoden geëxploiteerd onder deze categorie. De meeste literatuur in het domein van feature learning heeft deep learning gebruikt voor object detectie en tracking in video’s. Su et al. hebben feature learning methode gebruikt op basis van sparse auto-encoder (SAE), om het probleem van diepte-extractie voor detectie van het menselijk lichaam in video’s op te lossen. SAE is niet-supervised feature leaning methoden die de arbeidsintensieve en handcraft feature design kan vermijden. De voorgestelde methode maakt gebruik van convolutie neurale netwerken en pooling om de trainingscomplexiteit van SAE te verminderen. Er werd een schuifvenster lokaliseringsstrategie voorgesteld waarbij het histogram van de diepte werd gebruikt om het centrum van een kandidaat detectievenster te ontwikkelen. De methode maakte verder gebruik van de relatie tussen menselijke lichaamslengte en diepte om de grootte van het detectievenster te evalueren. Jia e.a. gebruikten een op clustering gebaseerde representatiemethode voor de detectie van een ankerpersoon in een nieuwsvideosequentie. Aanvankelijk werden nieuwe video’s verdeeld in opnamen en daarna werden uit elke opname de belangrijkste frames gehaald voor de weergave van nieuwsvideo. Verder werd statistische afstand van correlatiecoëfficiënt van Pearson gebruikt om clustering van key frames uit te voeren en ankerpersoon shots werd gedetecteerd met behulp van anker shot criteria.