7.1 Sistemas basados en el aprendizaje
El concepto de aprendizaje se ha originado en el reconocimiento de patrones y en la teoría del aprendizaje computacional. Se puede utilizar de forma competente para el desarrollo de aplicaciones informáticas que puedan aprender de forma autónoma y hacer predicciones basadas en nuevos datos. Este tipo de estudios se comportan de forma diferente a los métodos de aprendizaje basados en las neuronas, en los que los pesos se adaptan mientras las características son más o menos fijas. Los estudios discutidos en esta sección tienden a comportarse más como extractores de características para ayudar al clasificador en el entrenamiento. Para evitar que se solapen con los enfoques anteriores, sólo se consideran los métodos de extracción de características y los métodos de entrenamiento del clasificador. Para el entrenamiento del clasificador, se han utilizado numerosos métodos como Adaboost, máquinas de vectores de apoyo o sus combinaciones para la detección y el seguimiento de objetos en vídeos. Gao et al. han propuesto modelos híbridos basados en el algoritmo Adaboost y en una red neuronal convolucional para el recuento de personas basado en la detección de cabezas. La idea general que subyace al uso del algoritmo Adaboost es la de extraer regiones de cabezas para la CNN, lo que puede reducir significativamente el tiempo de clasificación. El clasificador AdaBoost-SVM tiene la capacidad de eliminar las limitaciones del clasificador tradicional en cascada-Adaboost y también de reducir el consumo de tiempo de las máquinas de vectores de soporte cuando se aplica a conjuntos de muestras de entrenamiento a gran escala. La investigación de Cheng et al. aplicó el clasificador AdaBoost-SVM para la detección de peatones en vídeos. El clasificador propuesto puede seleccionar el clasificador AdaBoost o SVM automáticamente para el desarrollo de un clasificador en cascada con respecto a las muestras de entrenamiento para mejorar el rendimiento de la clasificación. En un estudio similar, Guo et al. han utilizado un clasificador AdaBoost-SVM para la detección de peatones en vídeos. El modelo propuesto se divide en dos etapas: la primera consiste en la segmentación de los candidatos a peatones a partir de las imágenes mediante el algoritmo AdaBoost y el método en cascada. La segunda etapa se ocupa de evaluar si un candidato es un peatón o no. La máquina de vectores de apoyo se utilizó en la segunda etapa para entrenar un clasificador de peatones. Por último, el método de detección de peatones se evaluó frente a un clasificador tradicional de una sola etapa, como el basado en AdaBoost o el basado en SVM. Se comprobó que era más eficaz que ambos. Recientemente, los estudios basados en el uso de máquinas de vectores de soporte han ido ganando importancia en el campo de la detección y seguimiento de objetos en vídeos. Zhang et al. propusieron un modelo híbrido para el seguimiento de objetos en vídeos en el que se explotaban las restricciones espaciales mediante un modelo de regresión. El método aplicaba tres máquinas de vectores de soporte diferentes para desarrollar un rastreador y las máquinas de vectores de soporte híbridas se combinaban utilizando una estrategia distribuida. Los experimentos con esta técnica indicaron que el enfoque propuesto era mejor que el estado de la técnica. Cyganek et al. propusieron un algoritmo para el seguimiento de objetos en vídeos basado en una máquina de vectores de soporte. Utilizaron un clasificador SVM de una clase con un rastreador de desplazamiento medio. Se construyó un vector de características a partir de componentes del espacio de color ortogonal IJK y del tensor estructural. En el método ideado, el tensor estructural se evaluó en regiones de píxeles para recoger información relacionada con la variación de la intensidad. La salida de la SVM, tras el entrenamiento con estas características, se suavizó y se introdujo en el rastreador de desplazamiento medio. Según el estudio realizado en , se introdujo un marco de aprendizaje multivista utilizando múltiples máquinas de vectores de apoyo para el seguimiento de objetos en vídeos. El método se construyó teniendo en cuenta múltiples vistas de características como el valor de la escala de grises, el histograma de gradientes orientados (HOG) y el patrón binario local (LBP). Estas características se utilizaron para entrenar las máquinas de vectores de soporte. El esquema de actualización basado en la estrategia de evolución del subespacio se introdujo para aprender los cambios en el objeto y el escenario.
El aprendizaje de representación es un conjunto de técnicas en las que el aprendizaje de características ayuda a extraer la información necesaria fácilmente durante la construcción de clasificadores o predictores. Los autores han explotado el aprendizaje profundo, el aprendizaje de características y los métodos basados en la agrupación bajo esta categoría. La mayor parte de la literatura en el ámbito del aprendizaje de representación ha utilizado el aprendizaje profundo para la detección y el seguimiento de objetos en vídeos. Su et al. han utilizado un método de aprendizaje de características basado en un autocodificador disperso (SAE) para tratar el problema de la extracción de características de profundidad para la detección de cuerpos humanos en vídeos. El SAE es un método de aprendizaje de características no supervisado que puede evitar el diseño de características artesanales y laboriosas. El método propuesto utiliza una red neuronal de convolución y un pooling para reducir la complejidad del entrenamiento de SAE. Se propuso una estrategia de localización por ventana deslizante en la que se utilizó el histograma de profundidad para desarrollar el centro de la ventana de detección candidata. El método explota además la relación entre la altura del cuerpo humano y la profundidad para evaluar el tamaño de la ventana de detección. Jia et al. utilizaron un enfoque de representación basado en el clustering para la detección de la persona presentadora en una secuencia de vídeo de noticias. Inicialmente, los nuevos vídeos se dividieron en tomas y, a continuación, se extrajeron los fotogramas clave de cada toma para la representación del vídeo de noticias. Además, se utilizó la distancia estadística del coeficiente de correlación de Pearson para realizar la agrupación de los fotogramas clave y las tomas de la persona presentadora se detectaron utilizando los criterios de las tomas de la presentadora.