7.1 Systèmes basés sur l’apprentissage
Le concept d’apprentissage est issu de la reconnaissance des formes et de la théorie de l’apprentissage computationnel. Il peut être utilisé avec compétence pour le développement d’applications informatiques capables d’apprendre de manière autonome et de faire des prédictions sur la base de nouvelles données. Ces études se comportent différemment des méthodes d’apprentissage basées sur les neurones, dans lesquelles les poids sont adaptés alors que les caractéristiques sont plus ou moins fixes. Les études discutées dans cette section ont tendance à se comporter davantage comme des extracteurs de caractéristiques pour aider les classificateurs lors de la formation. Afin d’éviter tout chevauchement avec les approches discutées précédemment, seules les méthodes d’extraction de caractéristiques et les méthodes de formation de classificateurs sont considérées. Pour l’entraînement du classificateur, de nombreuses méthodes telles que Adaboost, les machines à vecteurs de support ou leurs combinaisons ont été utilisées pour la détection et le suivi des objets dans les vidéos. Des modèles hybrides basés sur l’algorithme Adaboost et le réseau neuronal convolutionnel ont été proposés par Gao et al. pour le comptage des personnes à partir de la détection des têtes. L’idée générale derrière l’utilisation de l’algorithme Adaboost était d’extraire les régions de la tête pour le CNN, ce qui peut réduire considérablement le temps de classification. Le classificateur AdaBoost-SVM a la capacité de supprimer les limitations du classificateur traditionnel en cascade-Adaboost et de réduire la consommation de temps des machines à vecteurs de support lorsqu’il est appliqué à des ensembles d’échantillons de formation à grande échelle. La recherche de Cheng et al. a appliqué le classificateur AdaBoost-SVM pour la détection des piétons dans les vidéos. Le classificateur proposé peut sélectionner automatiquement le classificateur AdaBoost ou SVM pour le développement d’un classificateur en cascade par rapport aux échantillons d’entraînement afin d’améliorer les performances de classification. Dans une étude similaire, Guo et al. ont utilisé le classificateur AdaBoost-SVM pour la détection des piétons dans les vidéos. Le modèle proposé fonctionne en deux étapes : la première étape consiste à segmenter les candidats piétons à partir des images en utilisant l’algorithme AdaBoost et la méthode en cascade. La deuxième étape consiste à évaluer si un candidat est un piéton ou non. La machine à vecteurs de support a été utilisée dans la deuxième étape pour former un classificateur de piétons. Enfin, la méthode de détection des piétons a été évaluée par rapport à un classificateur traditionnel à une seule étape, tel qu’un classificateur basé sur AdaBoost ou SVM. Elle s’est avérée plus efficace que les deux. Récemment, les études basées sur l’utilisation des machines à vecteurs de support ont gagné en importance dans le domaine de la détection et du suivi des objets dans les vidéos. Zhang et al. ont proposé un modèle hybride pour le suivi d’objets dans des vidéos où les contraintes spatiales ont été exploitées à l’aide d’un modèle de régression. La méthode a appliqué trois machines à vecteurs de support différentes pour développer un tracker et les machines à vecteurs de support hybrides ont été combinées en utilisant une stratégie distribuée. Les expériences menées sur cette technique ont montré que l’approche proposée était meilleure que l’état de l’art. Un algorithme de suivi d’objets dans des vidéos basé sur une machine à vecteurs de support a été proposé par Cyganek et al. et . Ils ont utilisé un classificateur SVM à une classe avec un suiveur à décalage moyen. Un vecteur de caractéristiques a été construit à partir des composantes de l’espace colorimétrique orthogonal IJK et du tenseur structurel. Dans la méthode conçue, le tenseur structurel a été évalué dans les régions de pixels pour recueillir des informations liées à la variation d’intensité. La sortie du SVM, après l’entraînement utilisant ces caractéristiques, a été adoucie et introduite dans le tracker de décalage moyen. Selon l’étude de , un cadre d’apprentissage multi-vues a été introduit en utilisant plusieurs machines à vecteurs de support pour le suivi des objets dans les vidéos. La méthode a été élaborée en prenant en compte plusieurs vues de caractéristiques telles que la valeur de l’échelle de gris, l’histogramme des gradients orientés (HOG) et le motif binaire local (LBP). Ces caractéristiques ont été utilisées pour entraîner les machines à vecteurs de support. Le schéma de mise à jour basé sur la stratégie d’évolution du sous-espace a été introduit pour apprendre les changements dans l’objet et le scénario.
L’apprentissage par représentation est un ensemble de techniques dans lesquelles l’apprentissage des caractéristiques aide à extraire facilement les informations nécessaires pendant la construction de classificateurs ou de prédicteurs. Les auteurs ont exploité l’apprentissage profond, l’apprentissage des caractéristiques et les méthodes basées sur le regroupement dans cette catégorie. La plupart des publications dans le domaine de l’apprentissage par représentation ont utilisé l’apprentissage profond pour la détection et le suivi des objets dans les vidéos. Su et al. ont utilisé une méthode d’apprentissage de caractéristiques basée sur un auto-encodeur clairsemé (SAE) pour traiter le problème de l’extraction de caractéristiques de profondeur pour la détection du corps humain dans les vidéos. La méthode SAE est une méthode d’apprentissage de caractéristiques non supervisée qui permet d’éviter la conception manuelle et intensive de caractéristiques. La méthode proposée utilise un réseau neuronal à convolution et le pooling pour réduire la complexité de la formation de la SAE. Une stratégie de localisation par fenêtre glissante a été proposée, dans laquelle l’histogramme de la profondeur a été utilisé pour développer le centre de la fenêtre de détection candidate. La méthode exploite en outre la relation entre la taille du corps humain et la profondeur pour évaluer la taille de la fenêtre de détection. L’approche de représentation basée sur le regroupement a été utilisée par Jia et al. pour la détection du présentateur dans une séquence vidéo d’actualités. Dans un premier temps, les nouvelles vidéos ont été divisées en plans, puis les images clés ont été extraites de chaque plan pour représenter la vidéo d’actualité. En outre, la distance statistique du coefficient de corrélation de Pearson a été utilisée pour effectuer le regroupement des images clés et les plans du présentateur ont été détectés en utilisant les critères du plan d’ancrage.