7.1 Sistemi basati sull’apprendimento
Il concetto di apprendimento ha avuto origine dal riconoscimento di modelli e dalla teoria di apprendimento computazionale. Può essere proficuamente usato per lo sviluppo di applicazioni informatiche che possono autonomamente imparare e fare previsioni basate su nuovi dati. Tali studi si comportano diversamente dai metodi di apprendimento basati sui neuroni in cui i pesi sono adattati mentre le caratteristiche sono più o meno fisse. Gli studi discussi in questa sezione tendono a comportarsi più come estrattori di caratteristiche per aiutare il classificatore nell’addestramento. Al fine di evitare sovrapposizioni con gli approcci discussi in precedenza, sono considerati solo i metodi di estrazione delle caratteristiche e i metodi di addestramento del classificatore. Per l’addestramento del classificatore, numerosi metodi come Adaboost, Support Vector machines o le loro combinazioni sono stati utilizzati per il rilevamento e il tracciamento degli oggetti nei video. Modelli ibridi basati sull’algoritmo Adaboost e sulla rete neurale convoluzionale sono stati proposti da Gao et al. per il conteggio delle persone basato sul rilevamento delle teste. L’idea generale dietro l’uso dell’algoritmo Adaboost era di estrarre le regioni della testa per CNN che può ridurre significativamente il tempo di classificazione. Il classificatore AdaBoost-SVM ha la capacità di rimuovere le limitazioni del classificatore tradizionale a cascata-Adaboost e anche di ridurre il consumo di tempo delle macchine vettoriali di supporto quando applicato a set di campioni di formazione su larga scala. La ricerca di Cheng et al. ha applicato il classificatore AdaBoost-SVM per il rilevamento dei pedoni nei video. Il classificatore proposto può selezionare automaticamente il classificatore AdaBoost o SVM per lo sviluppo di un classificatore a cascata rispetto ai campioni di formazione per migliorare le prestazioni di classificazione. In uno studio simile, Guo et al. hanno usato un classificatore AdaBoost-SVM per il rilevamento dei pedoni nei video. Il modello proposto opera in due fasi; la prima fase riguarda la segmentazione dei candidati pedoni dalle immagini utilizzando l’algoritmo AdaBoost e il metodo a cascata. Il secondo stadio si occupa di valutare se un candidato è pedone o no. La macchina vettoriale di supporto è stata usata nella seconda fase per addestrare un classificatore di pedoni. Infine, il metodo di rilevamento dei pedoni è stato valutato rispetto ai tradizionali classificatori a un solo stadio, come quelli basati su AdaBoost o SVM. È stato trovato più efficace di entrambi. Recentemente gli studi basati sull’uso di macchine vettoriali di supporto stanno guadagnando importanza nel campo del rilevamento e del tracking di oggetti nei video. Zhang et al. hanno proposto un modello ibrido per il tracciamento degli oggetti nei video in cui i vincoli spaziali sono stati sfruttati utilizzando il modello di regressione. Il metodo ha applicato tre diverse macchine vettoriali di supporto per sviluppare un tracker e le macchine vettoriali di supporto ibride sono state combinate usando una strategia distribuita. Gli esperimenti su questa tecnica hanno indicato che l’approccio proposto era migliore dello stato dell’arte. Un algoritmo per l’inseguimento degli oggetti nei video basato sulla Support vector machine è stato proposto da Cyganek et al. e . Avevano usato un classificatore SVM a una classe con inseguitore di spostamento medio. Un vettore di caratteristiche è stato costruito da componenti dello spazio di colore ortogonale IJK e del tensore strutturale. Nel metodo ideato, il tensore strutturale è stato valutato in regioni di pixel per raccogliere informazioni relative alla variazione di intensità. L’output di SVM, dopo l’addestramento utilizzando queste caratteristiche è stato ammorbidito ed è stato inserito nel mean shift tracker. Secondo lo studio in , è stato introdotto un quadro di apprendimento multi-vista utilizzando più macchine vettoriali di supporto per l’inseguimento degli oggetti nei video. Il metodo è stato costruito prendendo in considerazione la vista multipla delle caratteristiche come il valore della scala di grigio, l’istogramma dei gradienti orientati (HOG) e il modello binario locale (LBP). Queste caratteristiche sono state utilizzate per addestrare le macchine vettoriali di supporto. Lo schema di aggiornamento basato sulla strategia di evoluzione del sottospazio è stato introdotto per imparare i cambiamenti nell’oggetto e nello scenario.
L’apprendimento della rappresentazione è un insieme di tecniche in cui l’apprendimento delle caratteristiche aiuta a estrarre facilmente le informazioni necessarie durante la costruzione di classificatori o predittori. Gli autori hanno sfruttato l’apprendimento profondo, l’apprendimento delle caratteristiche e i metodi basati sul clustering in questa categoria. La maggior parte della letteratura nel dominio dell’apprendimento delle rappresentazioni ha utilizzato l’apprendimento profondo per il rilevamento e l’inseguimento degli oggetti nei video. Su et al. hanno usato un metodo di apprendimento delle caratteristiche basato su sparse auto-encoder (SAE), per gestire il problema dell’estrazione delle caratteristiche di profondità per il rilevamento del corpo umano nei video. SAE è una caratteristica non supervisionata che si appoggia a metodi che possono evitare il lavoro intensivo e la progettazione di caratteristiche artigianali. Il metodo proposto ha usato la rete neurale di convoluzione e il pooling per diminuire la complessità di formazione di SAE. La strategia di localizzazione della finestra scorrevole è stata proposta in cui l’istogramma di profondità è stato utilizzato per sviluppare il centro della finestra di rilevamento candidato. Il metodo ha inoltre sfruttato la relazione tra l’altezza del corpo umano e la profondità per valutare la dimensione della finestra di rilevamento. L’approccio di rappresentazione basato sul clustering è stato usato da Jia et al. per il rilevamento dell’anchor person in una sequenza video di notizie. Inizialmente, i nuovi video sono stati divisi in scatti e successivamente i fotogrammi chiave sono stati estratti da ogni scatto per la rappresentazione del video delle notizie. Inoltre, la distanza statistica del coefficiente di correlazione di Pearson è stata usata per eseguire il clustering dei fotogrammi chiave e i fotogrammi di anchorperson sono stati rilevati usando i criteri di anchor shot.