7.1 Inlärningsbaserade system
Begreppet inlärning har sitt ursprung i teorier om mönsterigenkänning och datoriserad inlärning. Det kan användas på ett skickligt sätt för utveckling av datortillämpningar som självständigt kan lära sig och göra förutsägelser på grundval av nya uppgifter. Sådana studier beter sig annorlunda än neuralt baserade inlärningsmetoder där vikterna anpassas medan egenskaperna är mer eller mindre fasta. De studier som diskuteras i det här avsnittet tenderar att uppträda mer som funktionsextraktorer för att hjälpa klassificerare vid träning. För att undvika överlappning med tidigare diskuterade tillvägagångssätt beaktas endast metoder för extraktion av egenskaper och metoder för klassificeringsträning. För klassificeringsträning har många metoder, t.ex. Adaboost, Support Vector Machines eller kombinationer av dem, använts för att upptäcka och spåra objekt i videoklipp. Gao et al. har föreslagit hybridmodeller baserade på Adaboost-algoritmen och konvolutionella neurala nätverk för att räkna människor baserat på huvuddetektering. Den allmänna idén bakom användningen av Adaboost-algoritmen var att extrahera huvudregioner för CNN, vilket kan minska klassificeringstiden avsevärt. AdaBoost-SVM-klassificatorn kan undanröja begränsningarna hos den traditionella kaskad-Adaboost-klassificatorn och även minska tidsåtgången för stödvektormaskiner när den tillämpas på storskaliga träningsmängder. Cheng et al. tillämpade AdaBoost-SVM-klassificatorn för att upptäcka fotgängare i videor. Den föreslagna klassificeraren kan välja AdaBoost-klassificator eller SVM automatiskt för utveckling av en kaskadklassificator med avseende på träningsprover för att förbättra klassificeringsprestanda. I en liknande studie har Guo et al. använt AdaBoost-SVM-klassificatorn för att upptäcka fotgängare i videor. Den föreslagna modellen har två steg; det första steget handlar om segmentering av fotgängarkandidater från bilder med hjälp av AdaBoost-algoritmen och kaskadmetoden. I det andra steget utvärderas om en kandidat är en fotgängare eller inte. Support Vector Machine användes i det andra steget för att träna en klassificerare för fotgängare. Slutligen utvärderades metoden för att upptäcka fotgängare mot traditionella klassificerare i ett enda steg, t.ex. AdaBoost-baserade eller SVM-baserade klassificerare. Den visade sig vara effektivare än båda. På senare tid har studier baserade på stödvektormaskiner fått allt större betydelse när det gäller att upptäcka och spåra objekt i videoklipp. Zhang et al. föreslog en hybridmodell för objektspårning i videor där rumsliga begränsningar utnyttjades med hjälp av en regressionsmodell. I metoden användes tre olika stödvektormaskiner för att utveckla en spårare och hybrida stödvektormaskiner kombinerades med hjälp av en distribuerad strategi. Experimenten med denna teknik visade att det föreslagna tillvägagångssättet var bättre än den senaste tekniken. En algoritm för objektspårning i videor som bygger på stödvektormaskiner föreslogs av Cyganek et al. och . De hade använt en klass SVM-klassificerare med medelförskjutningsspårare. En funktionsvektor byggdes upp av komponenter från ortogonala IJK-färgrymden och strukturella sensorer. I den föreslagna metoden utvärderades den strukturella sensorn i pixelregioner för att samla in information om intensitetsvariation. Efter att ha tränat med hjälp av dessa egenskaper mjukades SVM:s resultat upp och matades in i en spårare för genomsnittlig förskjutning. Enligt studien i , infördes en ram för inlärning i flera vyer med hjälp av flera stödvektormaskiner för objektspårning i videor. Metoden konstruerades genom att man tog hänsyn till flera olika funktioner, t.ex. gråskalevärde, histogram av orienterade gradienter (HOG) och lokalt binärt mönster (LBP). Dessa egenskaper användes för att träna stödvektormaskinerna. Uppdateringsschemat baserat på subspace evolution-strategin infördes för att lära sig förändringarna i objektet och scenariot.
Representationsinlärning är en uppsättning tekniker där funktionsinlärning hjälper till att extrahera behövlig information på ett enkelt sätt under konstruktionen av klassificerare eller prediktorer. Författarna hade utnyttjat djupinlärning, funktionsinlärning och klusterbaserade metoder under denna kategori. Den mesta litteraturen inom området för representationsinlärning har utnyttjat djupinlärning för att upptäcka och spåra objekt i videor. Su et al. har använt en metod för funktionsinlärning baserad på sparse auto-encoder (SAE) för att hantera problemet med att extrahera djupfunktioner för att upptäcka människokroppar i videor. SAE är en oövervakad metod för att lära sig funktioner som kan undvika den arbetsintensiva och hantverksmässiga utformningen av funktioner. I den föreslagna metoden används konvolution av neurala nätverk och pooling för att minska utbildningskomplexiteten för SAE. En lokaliseringsstrategi med glidande fönster föreslogs där histogrammet för djup användes för att utveckla ett kandidatcentrum för detektionsfönster. Metoden utnyttjade dessutom förhållandet mellan människokroppens höjd och djup för att utvärdera storleken på detektionsfönstret. Jia et al. har använt en klusterbaserad representationsmetod för att upptäcka en ankarperson i en nyhetsvideosekvens. Inledningsvis delades nya videor upp i bilder och därefter extraherades nyckelbilder från varje bild för att representera nyhetsvideon. Vidare användes det statistiska avståndet i form av Pearsons korrelationskoefficient för att gruppera nyckelbilderna och ankarpersonens bilder upptäcktes med hjälp av kriterier för ankarbilder.