摘要(yao)
在本(ben)文中,我們(men)(men)研究了跟(gen)(gen)(gen)(gen)蹤(zong)(zong)可能非常復雜背景(jing)的(de)(de)(de)視(shi)(shi)頻中運(yun)動(dong)物體(ti)(ti)軌跡的(de)(de)(de)挑(tiao)戰性問題。與(yu)(yu)大多數僅在線(xian)(xian)學(xue)習跟(gen)(gen)(gen)(gen)蹤(zong)(zong)對象(xiang)外觀的(de)(de)(de)現有跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)相比(bi),我們(men)(men)采(cai)用不同的(de)(de)(de)方法(fa),受(shou)深(shen)度(du)(du)學(xue)習架構的(de)(de)(de)最(zui)新進展的(de)(de)(de)啟(qi)發,更加強調(無(wu)監督)特(te)征(zheng)學(xue)習問題。具體(ti)(ti)來說,通過使(shi)用輔(fu)助自(zi)(zi)然圖像,我們(men)(men)離線(xian)(xian)訓練堆疊去噪自(zi)(zi)動(dong)編(bian)碼器(qi)(qi),以學(xue)習對變化更加魯棒的(de)(de)(de)通用圖像特(te)征(zheng)。然后是從離線(xian)(xian)培訓到在線(xian)(xian)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)過程的(de)(de)(de)知識轉移。在線(xian)(xian)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)涉及分(fen)(fen)類神經網絡,該(gai)分(fen)(fen)類神經網絡由訓練的(de)(de)(de)自(zi)(zi)動(dong)編(bian)碼器(qi)(qi)的(de)(de)(de)編(bian)碼器(qi)(qi)部分(fen)(fen)構成,作(zuo)為特(te)征(zheng)提取(qu)器(qi)(qi)和附加分(fen)(fen)類層。可以進一(yi)(yi)步調整特(te)征(zheng)提取(qu)器(qi)(qi)和分(fen)(fen)類器(qi)(qi)以適應移動(dong)物體(ti)(ti)的(de)(de)(de)外觀變化。與(yu)(yu)一(yi)(yi)些(xie)具有挑(tiao)戰性的(de)(de)(de)基準(zhun)(zhun)視(shi)(shi)頻序(xu)列的(de)(de)(de)最(zui)先進的(de)(de)(de)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)進行比(bi)較(jiao)表(biao)明,當我們(men)(men)的(de)(de)(de)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)的(de)(de)(de)MATLAB實現與(yu)(yu)適度(du)(du)的(de)(de)(de)圖形處(chu)理一(yi)(yi)起(qi)使(shi)用時,我們(men)(men)的(de)(de)(de)深(shen)度(du)(du)學(xue)習跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)更準(zhun)(zhun)確,同時保持低計算成本(ben)和實時性能單位(GPU)。
1 引言(yan)
視(shi)(shi)覺(jue)(jue)跟蹤(zong),也稱為對象(xiang)跟蹤(zong),是(shi)指當對象(xiang)在(zai)視(shi)(shi)頻中(zhong)移(yi)動(dong)(dong)(dong)(dong)時自動(dong)(dong)(dong)(dong)估計對象(xiang)的(de)(de)(de)(de)(de)軌(gui)跡(ji)。它(ta)在(zai)許多(duo)領(ling)域(yu)都有(you)許多(duo)應(ying)用,包(bao)括安(an)全(quan)視(shi)(shi)頻監(jian)控,人機(ji)交(jiao)互(hu)和體育視(shi)(shi)頻分析。雖然(ran)某個(ge)應(ying)用程序可能(neng)需要跟蹤(zong)多(duo)個(ge)移(yi)動(dong)(dong)(dong)(dong)對象(xiang),但(dan)典型(xing)的(de)(de)(de)(de)(de)設置是(shi)分別(bie)處(chu)理(li)每個(ge)對象(xiang)。在(zai)第一視(shi)(shi)頻幀(zhen)中(zhong)手動(dong)(dong)(dong)(dong)或(huo)自動(dong)(dong)(dong)(dong)識別(bie)要跟蹤(zong)的(de)(de)(de)(de)(de)對象(xiang)之后,視(shi)(shi)覺(jue)(jue)跟蹤(zong)的(de)(de)(de)(de)(de)目標是(shi)在(zai)后續幀(zhen)上(shang)自動(dong)(dong)(dong)(dong)跟蹤(zong)對象(xiang)的(de)(de)(de)(de)(de)軌(gui)跡(ji)。雖然(ran)現有(you)的(de)(de)(de)(de)(de)計算機(ji)視(shi)(shi)覺(jue)(jue)技術可以(yi)在(zai)良好控制(zhi)的(de)(de)(de)(de)(de)環(huan)境下(xia)為這個(ge)問題(ti)提供令(ling)人滿意的(de)(de)(de)(de)(de)解決(jue)方案,但(dan)是(shi)由于諸如部分遮擋,雜亂的(de)(de)(de)(de)(de)背景,快速和突然(ran)的(de)(de)(de)(de)(de)運(yun)動(dong)(dong)(dong)(dong),戲劇性的(de)(de)(de)(de)(de)照明變化(hua)以(yi)及大的(de)(de)(de)(de)(de)因素,在(zai)許多(duo)實際應(ying)用中(zhong)該問題(ti)可能(neng)是(shi)非常具有(you)挑戰性的(de)(de)(de)(de)(de)。觀點和姿勢的(de)(de)(de)(de)(de)變化(hua)。
從(cong)學(xue)習(xi)(xi)的(de)角度來(lai)看,視覺(jue)跟(gen)(gen)蹤(zong)(zong)具有(you)(you)挑戰(zhan)性,因為它在(zai)第一個視頻幀中(zhong)只(zhi)有(you)(you)一個被識(shi)別對(dui)象形式的(de)標記(ji)實例。在(zai)隨后(hou)的(de)幀中(zhong),跟(gen)(gen)蹤(zong)(zong)器必須僅用未標記(ji)的(de)數據來(lai)學(xue)習(xi)(xi)被跟(gen)(gen)蹤(zong)(zong)對(dui)象的(de)變化。由于(yu)沒有(you)(you)關于(yu)被跟(gen)(gen)蹤(zong)(zong)對(dui)象的(de)先(xian)驗知識(shi),跟(gen)(gen)蹤(zong)(zong)器很容易(yi)偏離(li)目標。為了解(jie)決這個問(wen)題,已經(jing)提出了一些采用半監督(du)學(xue)習(xi)(xi)方法的(de)跟(gen)(gen)蹤(zong)(zong)器。另一種方法首先(xian)從(cong)輔助數據中(zhong)學(xue)習(xi)(xi)圖像(xiang)特征的(de)字(zi)典(例如(ru)SIFT局(ju)部描述(shu)符),然后(hou)將學(xue)到的(de)知識(shi)傳(chuan)遞(di)給在(zai)線跟(gen)(gen)蹤(zong)(zong)。
另一個問題是許多(duo)現有(you)(you)的(de)(de)(de)跟(gen)蹤(zong)(zong)器(qi)(qi)使(shi)用(yong)的(de)(de)(de)圖像(xiang)表(biao)示可能不(bu)足以(yi)在復(fu)雜(za)環境(jing)中(zhong)進(jin)(jin)行(xing)穩健(jian)跟(gen)蹤(zong)(zong)。對于有(you)(you)辨(bian)別力的(de)(de)(de)跟(gen)蹤(zong)(zong)器(qi)(qi)尤其如(ru)此,這些跟(gen)蹤(zong)(zong)器(qi)(qi)通常(chang)更(geng)強調改進(jin)(jin)分類器(qi)(qi)而不(bu)是使(shi)用(yong)的(de)(de)(de)圖像(xiang)特征。雖然許多(duo)跟(gen)蹤(zong)(zong)器(qi)(qi)只是使(shi)用(yong)原始像(xiang)素作(zuo)為(wei)特征,但有(you)(you)些嘗(chang)試使(shi)用(yong)了更(geng)多(duo)信息功(gong)能,例如(ru)Haar功(gong)能,直(zhi)方圖功(gong)能和本地(di)二進(jin)(jin)制(zhi)模(mo)式。但是,這些功(gong)能都(dou)是離線(xian)手(shou)工制(zhi)作(zuo),但不(bu)是為(wei)跟(gen)蹤(zong)(zong)對象量(liang)身定制(zhi)的(de)(de)(de)。最近,深度(du)學(xue)習架構(gou)已經成功(gong)地(di)用(yong)于為(wei)一些復(fu)雜(za)的(de)(de)(de)任(ren)務(wu)提供非常(chang)有(you)(you)希望的(de)(de)(de)結果,包括圖像(xiang)分類和語音識(shi)別。成功(gong)的(de)(de)(de)關(guan)鍵是利用(yong)深層架構(gou)通過多(duo)種非線(xian)性變換來(lai)學(xue)習更(geng)豐富的(de)(de)(de)不(bu)變特征。我們認為(wei),出于同樣的(de)(de)(de)原因,視覺跟(gen)蹤(zong)(zong)也可以(yi)從深度(du)學(xue)習中(zhong)受益。
在本文中(zhong)(zhong),我(wo)們提出了一(yi)種新的(de)(de)(de)(de)(de)深(shen)度學(xue)習(xi)(xi)跟(gen)(gen)(gen)蹤器( deep learning tracker DLT),用(yong)于(yu)(yu)強(qiang)大(da)的(de)(de)(de)(de)(de)視(shi)覺跟(gen)(gen)(gen)蹤。我(wo)們嘗試通(tong)過開發一(yi)種強(qiang)大(da)的(de)(de)(de)(de)(de)判別跟(gen)(gen)(gen)蹤器來(lai)結合(he)生成和(he)判別跟(gen)(gen)(gen)蹤器背后的(de)(de)(de)(de)(de)哲學(xue),該跟(gen)(gen)(gen)蹤器使用(yong)自動學(xue)習(xi)(xi)的(de)(de)(de)(de)(de)有(you)效(xiao)圖像表(biao)示(shi)(shi)。 DLT與其(qi)(qi)他現有(you)跟(gen)(gen)(gen)蹤器有(you)一(yi)些(xie)關鍵特(te)(te)征。首先(xian)(xian),它使用(yong)堆疊去噪(zao)自動編碼器(stacked denoising autoencoder SDAE)來(lai)學(xue)習(xi)(xi)大(da)圖像數(shu)據集(ji)中(zhong)(zhong)的(de)(de)(de)(de)(de)通(tong)用(yong)圖像特(te)(te)征作為輔助數(shu)據,然后將學(xue)到(dao)的(de)(de)(de)(de)(de)特(te)(te)征傳輸到(dao)在線跟(gen)(gen)(gen)蹤任務。其(qi)(qi)次(ci),與先(xian)(xian)前也從輔助數(shu)據學(xue)習(xi)(xi)特(te)(te)征的(de)(de)(de)(de)(de)方法(fa)不同,DLT中(zhong)(zhong)的(de)(de)(de)(de)(de)學(xue)習(xi)(xi)特(te)(te)征可以(yi)進一(yi)步調整(zheng)以(yi)適應在線跟(gen)(gen)(gen)蹤過程(cheng)中(zhong)(zhong)的(de)(de)(de)(de)(de)特(te)(te)定對象(xiang)。因(yin)為DLT利用(yong)多個非線性變換,所(suo)獲得(de)的(de)(de)(de)(de)(de)圖像表(biao)示(shi)(shi)比基(ji)于(yu)(yu)PCA的(de)(de)(de)(de)(de)先(xian)(xian)前方法(fa)更(geng)具表(biao)現力。此外,由(you)于(yu)(yu)表(biao)示(shi)(shi)跟(gen)(gen)(gen)蹤對象(xiang)不需要解(jie)決基(ji)于(yu)(yu)稀(xi)疏編碼的(de)(de)(de)(de)(de)先(xian)(xian)前跟(gen)(gen)(gen)蹤器中(zhong)(zhong)的(de)(de)(de)(de)(de)優化問題,因(yin)此DLT明顯更(geng)有(you)效(xiao),因(yin)此更(geng)適合(he)于(yu)(yu)實時(shi)應用(yong)。
2 視覺跟(gen)蹤的(de)粒(li)子濾波(bo)方法
粒子濾波(bo)方法通常用(yong)(yong)于(yu)(yu)視覺跟蹤。從(cong)統(tong)(tong)計(ji)角度來看,它是一種(zhong)順序蒙特卡羅重要抽樣方法,用(yong)(yong)于(yu)(yu)根據觀(guan)(guan)測序列估(gu)計(ji)動(dong)態系統(tong)(tong)的潛狀態變量(liang)。在(zai)時(shi)(shi)間(jian)t,Supppse st 和 yt 分別表示(shi)潛狀態和觀(guan)(guan)察變量(liang)。在(zai)數學上,對象跟蹤對應于(yu)(yu)基于(yu)(yu)直到(dao)前一時(shi)(shi)間(jian)步驟(zou)的觀(guan)(guan)察來找到(dao)每個(ge)時(shi)(shi)間(jian)步長t的最(zui)可能狀態的問題:
當一個新的觀察到達時,狀態(tai)變量的后驗分布根據貝葉斯規則更新:
粒子(zi)濾波器方法(fa)的(de)具(ju)體內容是它通過一(yi)組 n 個(ge)樣本(稱為粒子(zi))逼(bi)近真實的(de)后驗狀(zhuang)態分布 p(st|y1:t),其(qi)中相應的(de)重(zhong)要性權重(zhong)總和(he)為1.粒子(zi)是從重(zhong)要性分布 q(st|s1:t-1, y1:t),權重(zhong)更新(xin)如下:
為(wei)了(le)選(xuan)擇重(zhong)(zhong)要性(xing)分布 q(st|s1:t-1, y1:t),通(tong)常將其簡化為(wei)一階馬爾(er)可夫過程 q(s:t|s:t-1),其中(zhong)狀態(tai)轉移(yi)獨立(li)于觀察。因此,權(quan)(quan)重(zhong)(zhong)更新為(wei)。注意,在每(mei)個權(quan)(quan)重(zhong)(zhong)更新步驟之后,權(quan)(quan)重(zhong)(zhong)之和可能不再(zai)等于1。如果(guo)它小(xiao)于閾(yu)值,則應用重(zhong)(zhong)新采樣以(yi)從當前粒(li)(li)子集中(zhong)按比例繪制n個粒(li)(li)子,然后將它們的權(quan)(quan)重(zhong)(zhong)重(zhong)(zhong)置(zhi)為(wei) 1 / n。如果(guo)權(quan)(quan)重(zhong)(zhong)和高于閾(yu)值,則應用線性(xing)歸一化以(yi)確保權(quan)(quan)重(zhong)(zhong)總和為(wei)1。
對(dui)(dui)(dui)于(yu)對(dui)(dui)(dui)象跟(gen)(gen)(gen)蹤(zong)(zong),狀態變(bian)量si通常(chang)表示六個(ge)仿射變(bian)換參數,其(qi)對(dui)(dui)(dui)應于(yu)平移(yi),比例,縱橫比,旋轉和偏斜。特別地(di),q(st|st-1) 的(de)每個(ge)維(wei)度由正(zheng)態分布獨立建模。對(dui)(dui)(dui)于(yu)每個(ge)幀(zhen),跟(gen)(gen)(gen)蹤(zong)(zong)結果(guo)只是具有最大(da)權(quan)重的(de)粒子。雖然許多跟(gen)(gen)(gen)蹤(zong)(zong)器也采用相(xiang)同的(de)粒子濾波器方法,但主(zhu)要區別在于(yu)觀測模型 p(yt|sti) 的(de)公式。顯然,一個(ge)好的(de)模型應該能(neng)夠(gou)很好地(di)區分跟(gen)(gen)(gen)蹤(zong)(zong)對(dui)(dui)(dui)象和背景,同時仍然能(neng)夠(gou)抵抗各種類型的(de)對(dui)(dui)(dui)象變(bian)化(hua)。對(dui)(dui)(dui)于(yu)判別跟(gen)(gen)(gen)蹤(zong)(zong)器,該公式通常(chang)用于(yu)設置與分類器輸出的(de)置信度呈(cheng)指(zhi)數相(xiang)關的(de)概率(lv)。
粒子(zi)(zi)濾波器(qi)框架是(shi)視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)主要方法(fa),原因有幾個(ge)。首先,它(ta)超越了高(gao)斯(si)分(fen)布,比卡爾曼濾波器(qi)方法(fa)更(geng)通(tong)用(yong)。此外,它(ta)通(tong)過一(yi)(yi)(yi)組粒子(zi)(zi)而不是(shi)僅僅一(yi)(yi)(yi)個(ge)點(例(li)如模式)來近似(si)后狀態(tai)分(fen)布。對于視覺(jue)(jue)跟蹤(zong)(zong),此屬性使跟蹤(zong)(zong)器(qi)可以更(geng)輕松地從錯誤的(de)(de)跟蹤(zong)(zong)結(jie)果中(zhong)(zhong)恢復。有關(guan)使用(yong)粒子(zi)(zi)濾波器(qi)進(jin)行(xing)視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)教程可以在中(zhong)(zhong)找到。最近的(de)(de)一(yi)(yi)(yi)些工(gong)作,例(li)如,進(jin)一(yi)(yi)(yi)步改進(jin)了用(yong)于視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)粒子(zi)(zi)濾波器(qi)框架。
3 DLT(deep learning tracker)追蹤器
我們(men)現在(zai)介紹我們(men)的(de)DLT跟蹤器(qi)。在(zai)離線訓(xun)(xun)練(lian)階段期間,通過訓(xun)(xun)練(lian)具有(you)輔助圖像數據的(de)SDAE來執(zhi)行(xing)(xing)無(wu)監督特征學習以學習通用自然圖像特征。首(shou)先(xian)應用逐(zhu)層預訓(xun)(xun)練(lian),然后對整個SDAE進行(xing)(xing)微調。在(zai)在(zai)線跟蹤過程期間,將額外的(de)分(fen)(fen)類(lei)(lei)層添加到訓(xun)(xun)練(lian)的(de)SDAE的(de)編碼(ma)器(qi)部(bu)(bu)分(fen)(fen)以產(chan)生分(fen)(fen)類(lei)(lei)神經網絡。本節其(qi)余部(bu)(bu)分(fen)(fen)提供(gong)了更多詳細信息。
3.1 輔助數據(ju)的離線(xian)培訓
3.1.1 數(shu)據集(ji)和(he)預處理
我(wo)們(men)使(shi)用(yong)Tiny Images數(shu)據(ju)集(ji)(ji)作為離線訓練(lian)的(de)(de)(de)(de)(de)輔(fu)助數(shu)據(ju)。通過向七個搜(sou)索引(yin)擎提供非(fei)抽(chou)象(xiang)的(de)(de)(de)(de)(de)英語名(ming)詞,從(cong)網(wang)絡上收集(ji)(ji)數(shu)據(ju)集(ji)(ji),涵蓋現實世(shi)界(jie)中(zhong)(zhong)發現的(de)(de)(de)(de)(de)許多(duo)對象(xiang)和場(chang)景。從(cong)每張尺寸為32×32的(de)(de)(de)(de)(de)近8000萬張微小圖(tu)(tu)(tu)像中(zhong)(zhong),我(wo)們(men)隨機抽(chou)樣(yang)100萬張圖(tu)(tu)(tu)像進行離線訓練(lian)。由(you)于(yu)我(wo)們(men)的(de)(de)(de)(de)(de)經驗比較中(zhong)(zhong)包含的(de)(de)(de)(de)(de)大多(duo)數(shu)最先進的(de)(de)(de)(de)(de)跟(gen)蹤器僅使(shi)用(yong)灰度圖(tu)(tu)(tu)像,因(yin)此(ci)我(wo)們(men)將(jiang)所有采樣(yang)圖(tu)(tu)(tu)像轉換(huan)為灰度(但我(wo)們(men)的(de)(de)(de)(de)(de)方法也可以在(zai)必要時直接使(shi)用(yong)彩色圖(tu)(tu)(tu)像)。因(yin)此(ci),每個圖(tu)(tu)(tu)像把3232的圖像轉為10241的(de)向量,每維的(de)特征(zheng)值被歸一化(每個維度的(de)特征(zheng)值線(xian)性縮(suo)放到范圍[0,1]),但不應用進一步的(de)預處理。
3.1.2 使用堆疊去噪自動編碼(ma)器(qi)(SDAE)學習通用圖像特征
SDAE的基本(ben)構建塊是(shi)稱為(wei)去噪自(zi)動編碼(ma)器(DAE)的單(dan)層(ceng)神經(jing)(jing)網(wang)絡,它是(shi)傳統自(zi)動編碼(ma)器的最(zui)新變體。它學(xue)會(hui)從損壞的版本(ben)中(zhong)(zhong)恢復數(shu)據樣本(ben)。這樣做,學(xue)習了魯棒特征(zheng),因(yin)為(wei)神經(jing)(jing)網(wang)絡包(bao)含“瓶(ping)頸”,其是(shi)具有比輸入(ru)單(dan)元(yuan)更(geng)少單(dan)元(yuan)的隱藏層(ceng)。我(wo)們在圖1(a)中(zhong)(zhong)展示(shi)了 DAE 的架構。
讓共有(you)k個訓練樣本(ben)。對于第(di)i個樣本(ben),讓xi表示原始數(shu)據樣本(ben),x~i是xi的損(sun)壞版本(ben),其中損(sun)壞可能是屏蔽損(sun)壞,加性高斯噪(zao)聲或椒鹽噪(zao)聲。對于網絡權重,讓W和 W0 分別(bie)表示編碼(ma)器(qi)和解(jie)碼(ma)器(qi)的權重,盡(jin)管沒有(you)必(bi)要,但(dan)它(ta)們(men)可以綁定。類似地,b和b0指的是偏差(cha)項。 DAE 通過解(jie)決以下(xia)(正則化)優化問題來學習:
其(qi)中:
這里λ是平衡重(zhong)建(jian)損失(shi)和權重(zhong)懲罰項的參數(shu),k·kF表示 Frobenius 范數(shu),而f(·)是非線性(xing)激(ji)活函數(shu),其(qi)通(tong)常是邏(luo)輯S形函數(shu)或雙曲正切函數(shu)。 通(tong)過(guo)從(cong)損壞版本重(zhong)建(jian)輸入,DAE 比傳統(tong)自動編(bian)碼器更(geng)有效地(di)通(tong)過(guo)阻止自動編(bian)碼器簡單(dan)地(di)學習身份(fen)映射來發現更(geng)強大(da)的特(te)征。
為(wei)了進(jin)一步增強學習有意義的(de)(de)(de)特(te)征,稀(xi)疏(shu)性(xing)約束被強加于隱藏(zang)單元的(de)(de)(de)平均(jun)激(ji)活(huo)值。 如果(guo)使用邏輯(ji)sigmoid激(ji)活(huo)函數,則(ze)可以將每個(ge)單元的(de)(de)(de)輸出視為(wei)其(qi)活(huo)動的(de)(de)(de)概率。 設ρj表示第(di)j個(ge)單位的(de)(de)(de)目標稀(xi)疏(shu)度(du),ρj表示其(qi)平均(jun)經驗(yan)激(ji)活(huo)率。 然后可以引入(ru)ρ和ρ的(de)(de)(de)交叉熵作為(wei)Eqn4的(de)(de)(de)附加懲罰項:
其中m是隱藏單位(wei)的數(shu)量。在(zai)預訓練(lian)階段(duan)之后,可(ke)以(yi)展開SDAE以(yi)形成前饋(kui)神經(jing)網(wang)(wang)絡。使用經(jing)典(dian)的反向(xiang)傳(chuan)播算法對整(zheng)個(ge)網(wang)(wang)絡進行微調。為了提(ti)高收斂速度,可(ke)以(yi)應用簡(jian)單動量法或更(geng)高級的優化技術,例如 L-BFGS 或共軛梯(ti)度法。
對于(yu)網絡架構,我們(men)在第一(yi)層使用過完(wan)備過濾器(qi)。這是一(yi)個(ge)(ge)(ge)深思熟慮的(de)選(xuan)擇,因為已(yi)經發現過度(du)完(wan)備的(de)基礎通常可以更(geng)好地捕獲(huo)圖(tu)像(xiang)結(jie)構。這符合(he)V1視皮層的(de)神經生理機制。然后(hou),每當添加新層時,單位(wei)(wei)數減少一(yi)半(ban),直到(dao)只有(you)256個(ge)(ge)(ge)隱(yin)藏單位(wei)(wei),作為自動編碼(ma)器(qi)的(de)瓶頸。 SDAE的(de)整個(ge)(ge)(ge)結(jie)構如圖(tu)1(b)所(suo)示(shi)。為了進一(yi)步加快第一(yi)層預訓練以學習(xi)局(ju)部特征,我們(men)將每個(ge)(ge)(ge)32×32微小圖(tu)像(xiang)分成五個(ge)(ge)(ge)16×16補丁(左(zuo)上(shang),右上(shang),左(zuo)下(xia)(xia),右下(xia)(xia),中間),然后(hou)訓練五個(ge)(ge)(ge) DAE,每個(ge)(ge)(ge) DAE 有(you)512個(ge)(ge)(ge)隱(yin)藏單位(wei)(wei)。之后(hou),我們(men)用五個(ge)(ge)(ge)小 DAE 的(de)權(quan)重初始化一(yi)個(ge)(ge)(ge)大 DAE,然后(hou)正(zheng)常訓練大 DAE。第一(yi)層中的(de)一(yi)些隨機選(xuan)擇的(de)濾波器(qi)如圖(tu)2所(suo)示(shi)。正(zheng)如所(suo)料(liao),大多數濾波器(qi)起到(dao)高度(du)局(ju)部化的(de)邊緣檢測器(qi)的(de)作用。
3.2 在線(xian)跟蹤流程
要跟蹤(zong)的(de)(de)對象由其第一(yi)幀(zhen)中(zhong)的(de)(de)邊界框的(de)(de)位(wei)置指定。在(zai)離(li)物體很(hen)近的(de)(de)距離(li)處(chu)從(cong)背景(jing)中(zhong)收集一(yi)些(xie)負(fu)面的(de)(de)例子(zi)(zi)(zi)(zi)。然后將(jiang)Sigmoid分類層添加到從(cong)離(li)線訓練獲得的(de)(de)SDAE的(de)(de)編碼器(qi)部分。整個(ge)網絡(luo)架構如(ru)圖(tu)1(c)所示。當(dang)新的(de)(de)視頻幀(zhen)到達(da)時,我(wo)們首先根據粒(li)(li)子(zi)(zi)(zi)(zi)濾波(bo)器(qi)方法繪制粒(li)(li)子(zi)(zi)(zi)(zi)(一(yi)個(ge)粒(li)(li)子(zi)(zi)(zi)(zi)就是目標可能存(cun)在(zai)的(de)(de)一(yi)塊圖(tu)像(xiang),32*32)。然后通(tong)過簡單的(de)(de)前向傳播網絡(luo)來確定每個(ge)粒(li)(li)子(zi)(zi)(zi)(zi)的(de)(de)置信度pi。該(gai)方法計算量小,精度高。
圖(tu)1:網絡(luo)(luo)架(jia)構的(de)一(yi)些關鍵(jian)組件:(a)去噪自動編(bian)碼器; (b)堆疊去噪自動編(bian)碼器; (c)在線跟(gen)蹤網絡(luo)(luo)。
圖(tu)2:學習(xi)SDAE第一層中的一些過(guo)濾器。
如果(guo)幀中所(suo)有粒子的最(zui)大置信度低于預(yu)定閾(yu)值τ,則它可以(yi)(yi)指示被跟蹤對象的顯著(zhu)外觀變(bian)化。要(yao)解決(jue)此(ci)問題,可以(yi)(yi)在發生這種(zhong)情況時再(zai)次調整(tune)整(zheng)個網絡。我們注意到閾值(zhi) τ 應該通過維(wei)持權衡來設(she)定(ding)。如果(guo) τ 太小,則跟(gen)蹤器無法很(hen)好地適應外(wai)觀變化,如果(guo)τ太大(da),即(ji)使(shi)遮(zhe)擋(dang)物體(ti)或(huo)背(bei)景也可能被(bei)錯誤地視為被(bei)跟(gen)蹤物體(ti),因此導(dao)致(zhi)目標漂移。
4 實驗
我(wo)們(men)使用(yong)10個具有挑戰(zhan)性(xing)的(de)(de)基準視(shi)頻序(xu)列,在(zai)本節中憑經驗將 DLT 與一些(xie)最先進的(de)(de)跟(gen)蹤(zong)(zong)(zong)器進行比較。這(zhe)些(xie)跟(gen)蹤(zong)(zong)(zong)器是:MTT,CT,VTD,MIL,L1T,TLD 和 IVT 的(de)(de)最新變體。我(wo)們(men)使用(yong)其作者提(ti)(ti)供(gong)(gong)(gong)的(de)(de)這(zhe)些(xie)跟(gen)蹤(zong)(zong)(zong)器的(de)(de)原(yuan)始實現。如(ru)果跟(gen)蹤(zong)(zong)(zong)器只能(neng)處(chu)理灰(hui)度視(shi)頻,MATLAB 圖像處(chu)理工具箱提(ti)(ti)供(gong)(gong)(gong)的(de)(de) rgb2gray 功能(neng)用(yong)于將彩色視(shi)頻轉換為(wei)灰(hui)度。為(wei)了加速計(ji)算(suan),我(wo)們(men)還利(li)用(yong) MATLAB Parallel Computing Toolbox提(ti)(ti)供(gong)(gong)(gong)的(de)(de) GPU 計(ji)算(suan)進行離線培訓和在(zai)線跟(gen)蹤(zong)(zong)(zong)。代碼和補充材料在(zai)項目頁面上提(ti)(ti)供(gong)(gong)(gong):http://winsty.net/dlt.html。
4.1 DLT實施(shi)細節
我(wo)們使(shi)用具有(you)(you)動(dong)量的梯度方(fang)法(fa)進行優化。 動(dong)量參數(shu)設(she)(she)置為(wei)(wei)0.9。 對于(yu) SDAE 的離線訓練,我(wo)們注入方(fang)差為(wei)(wei)0.0004的高斯噪聲(sheng)以(yi)生成損(sun)壞的輸入。 我(wo)們將λ= 0.0001,ρi= 0.05,小(xiao)批量大小(xiao)設(she)(she)置為(wei)(wei)100.對于(yu)在線調整,我(wo)們使(shi)用較大的λ值(zhi)0.002以(yi)避免(mian)過度擬合(he)和(he)較小(xiao)的小(xiao)批量大小(xiao)10.閾值(zhi)τ設(she)(she)置為(wei)(wei)0.9。 粒子濾(lv)波器使(shi)用1000個(ge)粒子。 對于(yu)其(qi)他參數(shu),例如粒子濾(lv)波器中的仿射參數(shu)和(he)其(qi)他方(fang)法(fa)中的搜索(suo)窗口大小(xiao),我(wo)們執行網(wang)格搜索(suo)以(yi)確定最佳值(zhi)。 如果適(shi)用,相同的設(she)(she)置將應(ying)用于(yu)所有(you)(you)其(qi)他方(fang)法(fa)。
