7.1 Sisteme bazate pe învățare
Conceptul de învățare își are originea în teoria recunoașterii modelelor și a învățării computaționale. Acesta poate fi utilizat în mod competent pentru dezvoltarea de aplicații informatice care pot învăța în mod autonom și pot face predicții pe baza unor date noi. Astfel de studii se comportă diferit de metodele de învățare bazate pe neuronale, în care ponderile sunt adaptate, în timp ce caracteristicile sunt mai mult sau mai puțin fixe. Studiile discutate în această secțiune tind să se comporte mai degrabă ca extractoare de caracteristici pentru a ajuta clasificatorul în procesul de formare. Pentru a evita suprapunerea cu abordările discutate anterior, sunt luate în considerare doar metodele de extragere a caracteristicilor și metodele de formare a clasificatorului. Pentru instruirea clasificatorului, numeroase metode, cum ar fi Adaboost, Support Vector machines sau combinații ale acestora, au fost utilizate pentru detectarea și urmărirea obiectelor în videoclipuri. Modelele hibride bazate pe algoritmul Adaboost și rețeaua neuronală convoluțională au fost propuse de Gao et al. pentru numărarea persoanelor pe baza detectării capetelor. Ideea generală din spatele utilizării algoritmului Adaboost a fost aceea de a extrage regiunile capului pentru CNN, ceea ce poate reduce semnificativ timpul de clasificare. Clasificatorul AdaBoost-SVM are capacitatea de a elimina limitările clasificatorului tradițional cascadă-Adaboost și, de asemenea, de a reduce consumul de timp al mașinilor cu vectori de suport atunci când este aplicat la seturi de eșantioane de instruire pe scară largă. Cercetarea lui Cheng et al. a aplicat clasificatorul AdaBoost-SVM pentru detectarea pietonilor în videoclipuri. Clasificatorul propus poate selecta automat clasificatorul AdaBoost sau SVM pentru dezvoltarea unui clasificator în cascadă în ceea ce privește eșantioanele de instruire pentru îmbunătățirea performanței de clasificare. Într-un studiu similar, Guo et al. a utilizat clasificatorul AdaBoost-SVM pentru detectarea pietonilor în videoclipuri. Modelul propus a funcționat în două etape; Prima etapă se ocupă de segmentarea candidaților pietoni din imagini folosind algoritmul AdaBoost și metoda în cascadă. A doua etapă se ocupă de evaluarea dacă un candidat este sau nu pieton. În cea de-a doua etapă a fost utilizată mașina vectorială de suport pentru antrenarea unui clasificator de pietoni. În cele din urmă, metoda de detectare a pietonilor a fost evaluată în comparație cu clasificatorul tradițional într-o singură etapă, cum ar fi clasificatorul bazat pe AdaBoost sau SVM. S-a constatat că este mai eficientă decât ambele. Recent, studiile bazate pe utilizarea mașinilor cu vectori de suport au câștigat în importanță în domeniul detectării și urmăririi obiectelor în videoclipuri. Zhang et al. au propus un model hibrid pentru urmărirea obiectelor în videoclipuri, în care constrângerile spațiale au fost exploatate cu ajutorul unui model de regresie. Metoda a aplicat trei mașini vectoriale de suport diferite pentru dezvoltarea unui tracker, iar mașinile vectoriale de suport hibride au fost combinate folosind o strategie distribuită. Experimentele privind această tehnică au indicat că abordarea propusă a fost mai bună decât cea de ultimă generație. Un algoritm pentru urmărirea obiectelor în videoclipuri bazat pe mașina vectorială de suport a fost propus de Cyganek et al. și . Aceștia au utilizat un clasificator SVM cu o singură clasă cu un dispozitiv de urmărire a deplasării medii. Un vector de caracteristici a fost construit din componente ale spațiului de culoare ortogonal IJK și ale tensorului structural. În metoda concepută, tensorul structural a fost evaluat în regiuni de pixeli pentru a colecta informații legate de variația intensității. Ieșirea SVM, după antrenarea cu ajutorul acestor caracteristici, a fost atenuată și a fost introdusă în dispozitivul de urmărire a deplasării medii. Conform studiului din , a fost introdus un cadru de învățare multi-view folosind mai multe mașini vectoriale de suport pentru urmărirea obiectelor în videoclipuri. Metoda a fost construită prin luarea în considerare a mai multor caracteristici de vizualizare, cum ar fi valoarea scalei de gri, histograma gradienților orientați (HOG) și modelul binar local (LBP). Aceste caracteristici au fost utilizate pentru a antrena mașinile vectoriale de suport. Schema de actualizare bazată pe strategia de evoluție a subspațiului a fost introdusă pentru a învăța schimbările din obiect și din scenariu.
Învățarea de reprezentare este un set de tehnici în care învățarea caracteristicilor ajută la extragerea cu ușurință a informațiilor necesare în timpul construirii clasificatorilor sau a predictorilor. Autorii au exploatat învățarea profundă, învățarea caracteristicilor și metodele bazate pe clusterizare în această categorie. Cea mai mare parte a literaturii din domeniul învățării de reprezentare a utilizat învățarea profundă pentru detectarea și urmărirea obiectelor în videoclipuri. Su et al. a utilizat o metodă de învățare a caracteristicilor bazată pe SAE (sparse auto-encoder), pentru a rezolva problema extragerii caracteristicilor de adâncime pentru detectarea corpului uman în videoclipuri. SAE este o metodă nesupravegheată de învățare a caracteristicilor care poate evita proiectarea manuală și laborioasă a caracteristicilor. Metoda propusă a utilizat o rețea neuronală de convoluție și o punere în comun pentru a reduce complexitatea formării SAE. A fost propusă o strategie de localizare cu fereastră glisantă, în care histograma adâncimii a fost utilizată pentru a dezvolta centrul ferestrei de detecție candidate. Metoda a exploatat în continuare relația dintre înălțimea corpului uman și adâncime pentru a evalua dimensiunea ferestrei de detecție. Abordarea de reprezentare bazată pe clusterizare a fost utilizată de Jia et al. pentru detectarea persoanei prezentatoare în secvențe video de știri. Inițial, videoclipurile noi au fost împărțite în cadre, iar apoi au fost extrase cadrele cheie din fiecare cadru pentru reprezentarea videoclipului de știri. În continuare, distanța statistică a coeficientului de corelație Pearson a fost utilizată pentru a realiza gruparea cadrelor cheie, iar imaginile cu persoana prezentatoare au fost detectate folosind criterii de fotografiere a persoanei prezentatoare.
.