7.1 Indlæringsbaserede systemer
Begrebet indlæring stammer fra mønstergenkendelse og computerbaseret indlæringsteori. Det kan bruges effektivt til udvikling af computerapplikationer, der selvstændigt kan lære og foretage forudsigelser på grundlag af nye data. Sådanne undersøgelser opfører sig anderledes end neuralt baserede læringsmetoder, hvor vægtene tilpasses, mens funktionerne er mere eller mindre faste. De undersøgelser, der drøftes i dette afsnit, har en tendens til at opføre sig mere som feature extractors, der kan hjælpe klassifikatorerne under træningen. For at undgå overlapning med tidligere omtalte fremgangsmåder tages der kun hensyn til metoder til udtræk af funktioner og metoder til træning af klassifikatorer. Til klassifikatortræning er der blevet anvendt adskillige metoder såsom Adaboost, Support Vector Machines eller kombinationer heraf til objektdetektion og -sporing i videoer. Gao et al. har foreslået hybride modeller baseret på Adaboost-algoritmen og et konvolutionelt neuralt netværk til tælling af personer baseret på hoveddetektion. Den generelle idé bag brugen af Adaboost-algoritmen var at udtrække hovedområder til CNN, hvilket kan reducere klassifikationstiden betydeligt. AdaBoost-SVM-klassificatoren har mulighed for at fjerne begrænsningerne i den traditionelle kaskade-Adaboost-klassificator og også reducere tidsforbruget for supportvektormaskiner, når den anvendes på store træningsmængder. Cheng et al. har i deres forskning anvendt AdaBoost-SVM-klassificator til at registrere fodgængere i videoer. Den foreslåede klassifikator kan automatisk vælge AdaBoost-klassifikator eller SVM til udvikling af en kaskadeklassifikator med hensyn til træningsprøver for at forbedre klassifikationspræstationen. I en lignende undersøgelse har Guo et al. anvendt AdaBoost-SVM-klassificator til fodgængerdetektion i videoer. Den foreslåede model opererede i to faser; første fase omhandler segmentering af fodgængerkandidater fra billeder ved hjælp af AdaBoost-algoritmen og kaskade-metoden. Andet trin omhandler evaluering af, om en kandidat er en fodgænger eller ej. Support Vector Machine blev brugt i anden fase til at træne en fodgængerklassificator. Endelig blev fodgængerdetekteringsmetoden evalueret i forhold til en traditionel klassificeringsmetode i et enkelt trin, f.eks. en AdaBoost-baseret eller SVM-baseret klassificeringsmetode. Det blev konstateret, at den var mere effektiv end begge. For nylig har undersøgelser baseret på anvendelse af supportvektormaskiner fået større og større betydning inden for objektdetektion og -sporing i videoer. Zhang et al. foreslog en hybridmodel til objektsporing i videoer, hvor rumlige begrænsninger blev udnyttet ved hjælp af en regressionsmodel. Metoden anvendte tre forskellige supportvektormaskiner til at udvikle en sporingsmaskine, og hybride supportvektormaskiner blev kombineret ved hjælp af en distribueret strategi. Eksperimenterne med denne teknik viste, at den foreslåede metode var bedre end state-of-the-art. En algoritme til objektsporing i videoer baseret på supportvektormaskine blev foreslået af Cyganek et al. og . De havde anvendt en klasse SVM-klassifikator med middelforskydningssporing. En funktionsvektor blev opbygget af komponenter af ortogonale IJK-farverum og strukturel tensor. I den foreslåede metode blev den strukturelle tensor evalueret i pixelområder for at indsamle oplysninger om intensitetsvariationer. Efter træning ved hjælp af disse egenskaber blev SVM’s output blødgjort og indlæses i mean shift tracker. I henhold til undersøgelsen i , blev der indført en ramme for indlæring af flere synsvinkler ved hjælp af flere supportvektormaskiner til objektsporing i videoer. Metoden blev konstrueret ved at tage hensyn til flere visninger af funktioner som f.eks. gråskalaværdi, histogram af orienterede gradienter (HOG) og lokale binære mønstre (LBP). Disse funktioner blev brugt til at træne støttevektormaskinerne. Opdateringsordningen baseret på subspace evolution-strategien blev indført for at lære ændringerne i objektet og scenariet.
Representationsindlæring er et sæt teknikker, hvor funktionsindlæring hjælper med at udtrække nødvendige oplysninger let under konstruktionen af klassifikatorer eller prædiktorer. Forfatterne havde udnyttet dyb læring, funktionslæring og klyngebaserede metoder under denne kategori. Det meste litteratur inden for repræsentationslæringsdomænet har udnyttet dyb læring til objektdetektion og -sporing i videoer. Su et al. har anvendt en metode til indlæring af funktioner baseret på sparse auto-encoder (SAE) til at håndtere problemet med udtrækning af dybdefunktioner til detektion af menneskekroppe i videoer. SAE er uovervågede metoder til at lære funktioner, som kan undgå det arbejdskrævende og håndværksmæssige design af funktioner. Den foreslåede metode anvender konvolution af neurale netværk og pooling for at mindske træningskompleksiteten af SAE. Der blev foreslået en lokaliseringsstrategi med glidende vinduer, hvor dybdehistogrammet blev brugt til at udvikle et kandidatdetektionsvinduecenter. Metoden udnyttede endvidere forholdet mellem menneskekroppens højde og dybde til at evaluere detektionsvinduets størrelse. Jia et al. har anvendt en clusteringbaseret repræsentationsmetode til detektion af ankerperson i nyhedsvideosekvenser. I første omgang blev nye videoer opdelt i billeder, hvorefter nøglebilleder blev udtrukket fra hvert billede med henblik på repræsentation af nyhedsvideoen. Endvidere blev der anvendt statistisk afstand i form af Pearsons korrelationskoefficient til at foretage clustering af nøglebilleder, og skud med ankerperson blev opdaget ved hjælp af kriterier for ankerskud.