7.1 Sistemas baseados na aprendizagem
O conceito de aprendizagem tem origem no reconhecimento de padrões e na teoria da aprendizagem computacional. Ele pode ser usado proficientemente para o desenvolvimento de aplicações informáticas que podem aprender e fazer previsões com base em novos dados. Tais estudos comportam-se de forma diferente dos métodos de aprendizagem baseados em neurónios, nos quais os pesos são adaptados enquanto as características são mais ou menos fixas. Os estudos discutidos nesta secção tendem a comportar-se mais como extractores de características para ajudar a classificar na formação. A fim de evitar sobreposições com abordagens previamente discutidas, apenas são considerados métodos de extracção de características e métodos de treino de classificadores. Para o treinamento de classificadores, vários métodos como Adaboost, máquinas Vector de suporte ou suas combinações têm sido usados para detecção e rastreamento de objetos em vídeos. Modelos híbridos baseados no algoritmo Adaboost e rede neural convolucional têm sido propostos por Gao et al. para a contagem de pessoas com base na detecção de cabeças. A idéia geral por trás do uso do algoritmo Adaboost foi extrair regiões de cabeças para a CNN, o que pode diminuir significativamente o tempo de classificação. O classificador AdaBoost-SVM tem a capacidade de remover as limitações do classificador tradicional Cascade-Adaboost e também reduzir o consumo de tempo das máquinas vetoriais de suporte quando aplicado a conjuntos de amostras de treinamento em larga escala. A pesquisa de Cheng et al. aplicaram o classificador AdaBoost-SVM para a detecção de pedestres em vídeos. O classificador proposto pode selecionar automaticamente o classificador AdaBoost ou SVM para o desenvolvimento de um classificador em cascata no que diz respeito a amostras de treino para melhorar o desempenho da classificação. Em um estudo semelhante, Guo et al. usaram o classificador AdaBoost-SVM para a detecção de pedestres em vídeos. O modelo proposto funcionou em duas etapas; A primeira etapa trata da segmentação dos candidatos a pedestres a partir de imagens utilizando o algoritmo AdaBoost e o método de cascata. A segunda etapa trata de avaliar se um candidato é pedestre ou não. A máquina Vector de suporte foi utilizada na segunda etapa para treinar um classificador de peões. Finalmente, o método de detecção de peões foi avaliado em relação ao classificador tradicional de etapa única, como o classificador baseado em AdaBoost ou o classificador baseado em SVM. Foi considerado mais eficaz do que ambos. Recentemente, estudos baseados no uso de máquinas vetoriais de suporte vêm ganhando importância no campo da detecção e rastreamento de objetos em vídeos. Zhang et al. propuseram modelo híbrido para rastreamento de objetos em vídeos onde restrições espaciais foram exploradas usando modelo de regressão. O método aplicou três diferentes máquinas vetoriais de suporte para o desenvolvimento de um rastreador e máquinas vetoriais híbridas de suporte foram combinadas usando uma estratégia distribuída. As experiências com esta técnica indicaram que a abordagem proposta era melhor do que o estado da arte. Um algoritmo para rastreamento de objetos em vídeos baseado em máquina vetorial de suporte foi proposto por Cyganek et al. e . Eles tinham usado um classificador SVM de uma classe com rastreador de deslocamento médio. Um vector de características foi construído a partir de componentes de espaço de cor ortogonal IJK e tensor estrutural. No método desenvolvido, o tensor estrutural foi avaliado em regiões de pixel para reunir informações relacionadas à variação de intensidade. A saída de SVM, após o treinamento utilizando estas características foi suavizada e foi introduzida para significar o rastreador de deslocamento. De acordo com o estudo em , o quadro de aprendizagem multi-view foi introduzido usando múltiplas máquinas vetoriais de suporte para rastreamento de objetos em vídeos. O método foi construído levando em consideração a visão múltipla de características como o valor da escala de cinza, histograma de gradientes orientados (HOG), e padrão binário local (LBP). Estas características foram usadas para treinar as máquinas vetoriais de suporte. O esquema de atualização baseado na estratégia de evolução do subespaço foi introduzido para aprender as mudanças no objeto e no cenário.
Aprendizagem de representação é um conjunto de técnicas nas quais a aprendizagem de características ajuda a extrair informações necessárias facilmente durante a construção de classificadores ou preditores. Os autores exploraram a aprendizagem profunda, a aprendizagem de características e métodos baseados em agrupamentos sob esta categoria. A maioria da literatura no domínio da aprendizagem de representação utilizou a aprendizagem profunda para a detecção e seguimento de objectos em vídeos. Su et al. utilizou o método de aprendizagem de características baseado no autocodificador esparso (SAE), para lidar com problemas de extracção de características profundas para a detecção do corpo humano em vídeos. O SAE é um método não supervisionado de inclinação de características que pode evitar o desenho de características de trabalho intensivo e artesanal. O método proposto utilizou a rede neural de convolução e o pooling para diminuir a complexidade do treinamento do SAE. A estratégia de localização de janelas deslizantes foi proposta, na qual histograma de profundidade foi utilizado para desenvolver o centro de janelas de detecção de candidatos. O método explorou ainda mais a relação entre altura e profundidade do corpo humano para avaliar o tamanho da janela de detecção. A abordagem de representação baseada em agrupamento foi utilizada por Jia et al. para a detecção de pessoa âncora na sequência de vídeo de notícias. Inicialmente, novos vídeos foram divididos em filmagens e, em seguida, foram extraídos quadros-chave de cada filmagem para a representação de vídeos de notícias. Além disso, a distância estatística do coeficiente de correlação de Pearson foi usada para realizar o agrupamento de quadros-chave e as fotos de âncoras foram detectadas usando critérios de tiro de âncora.