7.1 Lernende Systeme
Das Konzept des Lernens hat seinen Ursprung in der Mustererkennung und der Theorie des computergestützten Lernens. Es lässt sich gut für die Entwicklung von Computeranwendungen nutzen, die selbstständig lernen und auf der Grundlage neuer Daten Vorhersagen treffen können. Solche Studien verhalten sich anders als neuronale Lernmethoden, bei denen die Gewichte angepasst werden, während die Merkmale mehr oder weniger feststehen. Die in diesem Abschnitt behandelten Studien verhalten sich eher wie Merkmalsextraktoren, die den Klassifikator beim Training unterstützen. Um Überschneidungen mit den zuvor diskutierten Ansätzen zu vermeiden, werden nur Methoden zur Merkmalsextraktion und zum Training des Klassifikators betrachtet. Für das Training von Klassifikatoren wurden zahlreiche Methoden wie Adaboost, Support Vector Machines oder deren Kombinationen für die Objekterkennung und -verfolgung in Videos verwendet. Hybride Modelle, die auf dem Adaboost-Algorithmus und einem neuronalen Faltungsnetzwerk basieren, wurden von Gao et al. für die Zählung von Personen auf der Grundlage der Erkennung von Köpfen vorgeschlagen. Die allgemeine Idee hinter der Verwendung des Adaboost-Algorithmus war die Extraktion von Kopfregionen für CNN, was die Klassifizierungszeit erheblich verkürzen kann. Der AdaBoost-SVM-Klassifikator ist in der Lage, die Beschränkungen des traditionellen Kaskaden-Adaboost-Klassifikators zu beseitigen und auch den Zeitaufwand von Support Vector Machines zu reduzieren, wenn er auf große Mengen von Trainingsbeispielen angewendet wird. In der Studie von Cheng et al. wurde ein AdaBoost-SVM-Klassifikator für die Fußgängererkennung in Videos eingesetzt. Der vorgeschlagene Klassifikator kann den AdaBoost-Klassifikator oder SVM automatisch für die Entwicklung eines Kaskadenklassifikators in Bezug auf die Trainingsmuster auswählen, um die Klassifikationsleistung zu verbessern. In einer ähnlichen Studie haben Guo et al. einen AdaBoost-SVM-Klassifikator für die Fußgängererkennung in Videos verwendet. Das vorgeschlagene Modell arbeitete in zwei Stufen: Die erste Stufe befasst sich mit der Segmentierung von Fußgängerkandidaten aus Bildern unter Verwendung des AdaBoost-Algorithmus und der Kaskadierungsmethode. Die zweite Stufe befasst sich mit der Bewertung, ob ein Kandidat ein Fußgänger ist oder nicht. In der zweiten Phase wurde eine Support-Vector-Maschine verwendet, um einen Fußgänger-Klassifikator zu trainieren. Schließlich wurde die Fußgängererkennungsmethode im Vergleich zu herkömmlichen einstufigen Klassifikatoren wie AdaBoost- oder SVM-basierten Klassifikatoren bewertet. Es wurde festgestellt, dass sie effektiver ist als beide. In letzter Zeit haben Studien, die auf der Verwendung von Support-Vektor-Maschinen basieren, im Bereich der Objekterkennung und -verfolgung in Videos an Bedeutung gewonnen. Zhang et al. schlugen ein hybrides Modell für die Objektverfolgung in Videos vor, bei dem räumliche Beschränkungen mithilfe eines Regressionsmodells ausgenutzt wurden. Bei dieser Methode wurden drei verschiedene Support-Vektor-Maschinen für die Entwicklung eines Trackers verwendet, und die hybriden Support-Vektor-Maschinen wurden mithilfe einer verteilten Strategie kombiniert. Die Experimente mit dieser Technik zeigten, dass der vorgeschlagene Ansatz besser ist als der Stand der Technik. Ein Algorithmus zur Objektverfolgung in Videos auf der Grundlage von Support-Vektor-Maschinen wurde von Cyganek et al. und vorgeschlagen. Sie verwendeten einen Einklassen-SVM-Klassifikator mit Mean-Shift-Tracker. Ein Merkmalsvektor wurde aus Komponenten des orthogonalen IJK-Farbraums und des strukturellen Tensors gebildet. Bei der entwickelten Methode wurde der strukturelle Tensor in Pixelregionen ausgewertet, um Informationen über die Intensitätsvariation zu sammeln. Die Ausgabe der SVM wurde nach dem Training mit diesen Merkmalen abgeschwächt und in den Mean Shift Tracker eingegeben. Gemäß der Studie in wurde ein Multiview-Lernsystem eingeführt, das mehrere Support-Vektor-Maschinen für die Objektverfolgung in Videos verwendet. Die Methode wurde unter Berücksichtigung mehrerer Merkmale wie Graustufenwert, Histogramm der orientierten Gradienten (HOG) und lokales Binärmuster (LBP) entwickelt. Diese Merkmale wurden verwendet, um die Support-Vektor-Maschinen zu trainieren. Das Aktualisierungsschema, das auf der Unterraum-Evolutionsstrategie basiert, wurde eingeführt, um die Änderungen im Objekt und im Szenario zu erlernen.
Das Repräsentationslernen ist eine Reihe von Techniken, bei denen das Feature-Lernen hilft, die benötigten Informationen bei der Konstruktion von Klassifikatoren oder Prädiktoren leicht zu extrahieren. Die Autoren haben in dieser Kategorie Deep Learning, Feature Learning und Clustering-basierte Methoden verwendet. Die meiste Literatur im Bereich des Repräsentationslernens hat Deep Learning für die Objekterkennung und -verfolgung in Videos eingesetzt. Su et al. hat eine auf einem Sparse-Auto-Encoder (SAE) basierende Feature-Learning-Methode verwendet, um das Problem der Tiefenmerkmalsextraktion für die Erkennung menschlicher Körper in Videos zu lösen. SAE ist eine unbeaufsichtigte Merkmalslernmethode, die das arbeitsintensive und handwerkliche Merkmalsdesign vermeiden kann. Die vorgeschlagene Methode verwendet ein neuronales Faltungsnetzwerk und Pooling, um die Trainingskomplexität von SAE zu verringern. Es wurde eine Strategie der gleitenden Fensterlokalisierung vorgeschlagen, bei der das Histogramm der Tiefe zur Entwicklung des Zentrums des Erkennungsfensters verwendet wurde. Die Methode nutzte außerdem die Beziehung zwischen Körpergröße und Tiefe, um die Größe des Erkennungsfensters zu bestimmen. Ein auf Clustering basierender Darstellungsansatz wurde von Jia et al. zur Erkennung von Moderatoren in Nachrichtenvideosequenzen verwendet. Zunächst wurden neue Videos in Aufnahmen unterteilt und anschließend wurden aus jeder Aufnahme Schlüsselbilder für die Darstellung des Nachrichtenvideos extrahiert. Anschließend wurde der statistische Abstand des Pearson-Korrelationskoeffizienten verwendet, um eine Clusterung der Schlüsselbilder vorzunehmen, und die Ankerperson wurde anhand der Kriterien für die Ankeraufnahme erkannt.