摘要(yao)

<bdo id='uJZ3v'><sup id='qQCkR'><div id='3Ur7v'><bdo id='tbuy3'></bdo></div></sup></bdo>

在本(ben)文中，我們(men)(men)研究了跟(gen)(gen)(gen)(gen)蹤(zong)(zong)可能非常復雜背景(jing)的(de)(de)(de)視(shi)(shi)頻中運(yun)動(dong)物體(ti)(ti)軌跡的(de)(de)(de)挑(tiao)戰性問題。與(yu)(yu)大多數僅在線(xian)(xian)學(xue)習跟(gen)(gen)(gen)(gen)蹤(zong)(zong)對象(xiang)外觀的(de)(de)(de)現有跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)相比(bi)，我們(men)(men)采(cai)用不同的(de)(de)(de)方法(fa)，受(shou)深(shen)度(du)(du)學(xue)習架構的(de)(de)(de)最(zui)新進展的(de)(de)(de)啟(qi)發，更加強調（無(wu)監督）特(te)征(zheng)學(xue)習問題。具體(ti)(ti)來說，通過使(shi)用輔(fu)助自(zi)(zi)然圖像，我們(men)(men)離線(xian)(xian)訓練堆疊去噪自(zi)(zi)動(dong)編(bian)碼器(qi)(qi)，以學(xue)習對變化更加魯棒的(de)(de)(de)通用圖像特(te)征(zheng)。然后是從離線(xian)(xian)培訓到在線(xian)(xian)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)過程的(de)(de)(de)知識轉移。在線(xian)(xian)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)涉及分(fen)(fen)類神經網絡，該(gai)分(fen)(fen)類神經網絡由訓練的(de)(de)(de)自(zi)(zi)動(dong)編(bian)碼器(qi)(qi)的(de)(de)(de)編(bian)碼器(qi)(qi)部分(fen)(fen)構成，作(zuo)為特(te)征(zheng)提取(qu)器(qi)(qi)和附加分(fen)(fen)類層。可以進一(yi)(yi)步調整特(te)征(zheng)提取(qu)器(qi)(qi)和分(fen)(fen)類器(qi)(qi)以適應移動(dong)物體(ti)(ti)的(de)(de)(de)外觀變化。與(yu)(yu)一(yi)(yi)些(xie)具有挑(tiao)戰性的(de)(de)(de)基準(zhun)(zhun)視(shi)(shi)頻序(xu)列的(de)(de)(de)最(zui)先進的(de)(de)(de)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)進行比(bi)較(jiao)表(biao)明，當我們(men)(men)的(de)(de)(de)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)的(de)(de)(de)MATLAB實現與(yu)(yu)適度(du)(du)的(de)(de)(de)圖形處(chu)理一(yi)(yi)起(qi)使(shi)用時，我們(men)(men)的(de)(de)(de)深(shen)度(du)(du)學(xue)習跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)更準(zhun)(zhun)確，同時保持低計算成本(ben)和實時性能單位（GPU）。

1 引言(yan)

視(shi)(shi)覺(jue)(jue)跟蹤(zong)，也稱為對象(xiang)跟蹤(zong)，是(shi)指當對象(xiang)在(zai)視(shi)(shi)頻中(zhong)移(yi)動(dong)(dong)(dong)(dong)時自動(dong)(dong)(dong)(dong)估計對象(xiang)的(de)(de)(de)(de)(de)軌(gui)跡(ji)。它(ta)在(zai)許多(duo)領(ling)域(yu)都有(you)許多(duo)應(ying)用，包(bao)括安(an)全(quan)視(shi)(shi)頻監(jian)控，人機(ji)交(jiao)互(hu)和體育視(shi)(shi)頻分析。雖然(ran)某個(ge)應(ying)用程序可能(neng)需要跟蹤(zong)多(duo)個(ge)移(yi)動(dong)(dong)(dong)(dong)對象(xiang)，但(dan)典型(xing)的(de)(de)(de)(de)(de)設置是(shi)分別(bie)處(chu)理(li)每個(ge)對象(xiang)。在(zai)第一視(shi)(shi)頻幀(zhen)中(zhong)手動(dong)(dong)(dong)(dong)或(huo)自動(dong)(dong)(dong)(dong)識別(bie)要跟蹤(zong)的(de)(de)(de)(de)(de)對象(xiang)之后，視(shi)(shi)覺(jue)(jue)跟蹤(zong)的(de)(de)(de)(de)(de)目標是(shi)在(zai)后續幀(zhen)上(shang)自動(dong)(dong)(dong)(dong)跟蹤(zong)對象(xiang)的(de)(de)(de)(de)(de)軌(gui)跡(ji)。雖然(ran)現有(you)的(de)(de)(de)(de)(de)計算機(ji)視(shi)(shi)覺(jue)(jue)技術可以(yi)在(zai)良好控制(zhi)的(de)(de)(de)(de)(de)環(huan)境下(xia)為這個(ge)問題(ti)提供令(ling)人滿意的(de)(de)(de)(de)(de)解決(jue)方案，但(dan)是(shi)由于諸如部分遮擋，雜亂的(de)(de)(de)(de)(de)背景，快速和突然(ran)的(de)(de)(de)(de)(de)運(yun)動(dong)(dong)(dong)(dong)，戲劇性的(de)(de)(de)(de)(de)照明變化(hua)以(yi)及大的(de)(de)(de)(de)(de)因素，在(zai)許多(duo)實際應(ying)用中(zhong)該問題(ti)可能(neng)是(shi)非常具有(you)挑戰性的(de)(de)(de)(de)(de)。觀點和姿勢的(de)(de)(de)(de)(de)變化(hua)。

從(cong)學(xue)習(xi)(xi)的(de)角度來(lai)看，視覺(jue)跟(gen)(gen)蹤(zong)(zong)具有(you)(you)挑戰(zhan)性，因為它在(zai)第一個視頻幀中(zhong)只(zhi)有(you)(you)一個被識(shi)別對(dui)象形式的(de)標記(ji)實例。在(zai)隨后(hou)的(de)幀中(zhong)，跟(gen)(gen)蹤(zong)(zong)器必須僅用未標記(ji)的(de)數據來(lai)學(xue)習(xi)(xi)被跟(gen)(gen)蹤(zong)(zong)對(dui)象的(de)變化。由于(yu)沒有(you)(you)關于(yu)被跟(gen)(gen)蹤(zong)(zong)對(dui)象的(de)先(xian)驗知識(shi)，跟(gen)(gen)蹤(zong)(zong)器很容易(yi)偏離(li)目標。為了解(jie)決這個問(wen)題，已經(jing)提出了一些采用半監督(du)學(xue)習(xi)(xi)方法的(de)跟(gen)(gen)蹤(zong)(zong)器。另一種方法首先(xian)從(cong)輔助數據中(zhong)學(xue)習(xi)(xi)圖像(xiang)特征的(de)字(zi)典（例如(ru)SIFT局(ju)部描述(shu)符），然后(hou)將學(xue)到的(de)知識(shi)傳(chuan)遞(di)給在(zai)線跟(gen)(gen)蹤(zong)(zong)。

另一個問題是許多(duo)現有(you)(you)的(de)(de)(de)跟(gen)蹤(zong)(zong)器(qi)(qi)使(shi)用(yong)的(de)(de)(de)圖像(xiang)表(biao)示可能不(bu)足以(yi)在復(fu)雜(za)環境(jing)中(zhong)進(jin)(jin)行(xing)穩健(jian)跟(gen)蹤(zong)(zong)。對于有(you)(you)辨(bian)別力的(de)(de)(de)跟(gen)蹤(zong)(zong)器(qi)(qi)尤其如(ru)此，這些跟(gen)蹤(zong)(zong)器(qi)(qi)通常(chang)更(geng)強調改進(jin)(jin)分類器(qi)(qi)而不(bu)是使(shi)用(yong)的(de)(de)(de)圖像(xiang)特征。雖然許多(duo)跟(gen)蹤(zong)(zong)器(qi)(qi)只是使(shi)用(yong)原始像(xiang)素作(zuo)為(wei)特征，但有(you)(you)些嘗(chang)試使(shi)用(yong)了更(geng)多(duo)信息功(gong)能，例如(ru)Haar功(gong)能，直(zhi)方圖功(gong)能和本地(di)二進(jin)(jin)制(zhi)模(mo)式。但是，這些功(gong)能都(dou)是離線(xian)手(shou)工制(zhi)作(zuo)，但不(bu)是為(wei)跟(gen)蹤(zong)(zong)對象量(liang)身定制(zhi)的(de)(de)(de)。最近，深度(du)學(xue)習架構(gou)已經成功(gong)地(di)用(yong)于為(wei)一些復(fu)雜(za)的(de)(de)(de)任(ren)務(wu)提供非常(chang)有(you)(you)希望的(de)(de)(de)結果，包括圖像(xiang)分類和語音識(shi)別。成功(gong)的(de)(de)(de)關(guan)鍵是利用(yong)深層架構(gou)通過多(duo)種非線(xian)性變換來(lai)學(xue)習更(geng)豐富的(de)(de)(de)不(bu)變特征。我們認為(wei)，出于同樣的(de)(de)(de)原因，視覺跟(gen)蹤(zong)(zong)也可以(yi)從深度(du)學(xue)習中(zhong)受益。

在本文中(zhong)(zhong)，我(wo)們提出了一(yi)種新的(de)(de)(de)(de)(de)深(shen)度學(xue)習(xi)(xi)跟(gen)(gen)(gen)蹤器（ deep learning tracker DLT），用(yong)于(yu)(yu)強(qiang)大(da)的(de)(de)(de)(de)(de)視(shi)覺跟(gen)(gen)(gen)蹤。我(wo)們嘗試通(tong)過開發一(yi)種強(qiang)大(da)的(de)(de)(de)(de)(de)判別跟(gen)(gen)(gen)蹤器來(lai)結合(he)生成和(he)判別跟(gen)(gen)(gen)蹤器背后的(de)(de)(de)(de)(de)哲學(xue)，該跟(gen)(gen)(gen)蹤器使用(yong)自動學(xue)習(xi)(xi)的(de)(de)(de)(de)(de)有(you)效(xiao)圖像表(biao)示(shi)(shi)。 DLT與其(qi)(qi)他現有(you)跟(gen)(gen)(gen)蹤器有(you)一(yi)些(xie)關鍵特(te)(te)征。首先(xian)(xian)，它使用(yong)堆疊去噪(zao)自動編碼器（stacked denoising autoencoder SDAE）來(lai)學(xue)習(xi)(xi)大(da)圖像數(shu)據集(ji)中(zhong)(zhong)的(de)(de)(de)(de)(de)通(tong)用(yong)圖像特(te)(te)征作為輔助數(shu)據，然后將學(xue)到(dao)的(de)(de)(de)(de)(de)特(te)(te)征傳輸到(dao)在線跟(gen)(gen)(gen)蹤任務。其(qi)(qi)次(ci)，與先(xian)(xian)前也從輔助數(shu)據學(xue)習(xi)(xi)特(te)(te)征的(de)(de)(de)(de)(de)方法(fa)不同，DLT中(zhong)(zhong)的(de)(de)(de)(de)(de)學(xue)習(xi)(xi)特(te)(te)征可以(yi)進一(yi)步調整(zheng)以(yi)適應在線跟(gen)(gen)(gen)蹤過程(cheng)中(zhong)(zhong)的(de)(de)(de)(de)(de)特(te)(te)定對象(xiang)。因(yin)為DLT利用(yong)多個非線性變換，所(suo)獲得(de)的(de)(de)(de)(de)(de)圖像表(biao)示(shi)(shi)比基(ji)于(yu)(yu)PCA的(de)(de)(de)(de)(de)先(xian)(xian)前方法(fa)更(geng)具表(biao)現力。此外，由(you)于(yu)(yu)表(biao)示(shi)(shi)跟(gen)(gen)(gen)蹤對象(xiang)不需要解(jie)決基(ji)于(yu)(yu)稀(xi)疏編碼的(de)(de)(de)(de)(de)先(xian)(xian)前跟(gen)(gen)(gen)蹤器中(zhong)(zhong)的(de)(de)(de)(de)(de)優化問題，因(yin)此DLT明顯更(geng)有(you)效(xiao)，因(yin)此更(geng)適合(he)于(yu)(yu)實時(shi)應用(yong)。

2 視覺跟(gen)蹤的(de)粒(li)子濾波(bo)方法

粒子濾波(bo)方法通常用(yong)(yong)于(yu)(yu)視覺跟蹤。從(cong)統(tong)(tong)計(ji)角度來看，它是一種(zhong)順序蒙特卡羅重要抽樣方法，用(yong)(yong)于(yu)(yu)根據觀(guan)(guan)測序列估(gu)計(ji)動(dong)態系統(tong)(tong)的潛狀態變量(liang)。在(zai)時(shi)(shi)間(jian)t，Supppse st 和 yt 分別表示(shi)潛狀態和觀(guan)(guan)察變量(liang)。在(zai)數學上，對象跟蹤對應于(yu)(yu)基于(yu)(yu)直到(dao)前一時(shi)(shi)間(jian)步驟(zou)的觀(guan)(guan)察來找到(dao)每個(ge)時(shi)(shi)間(jian)步長t的最(zui)可能狀態的問題：

當一個新的觀察到達時，狀態(tai)變量的后驗分布根據貝葉斯規則更新：

粒子(zi)濾波器方法(fa)的(de)具(ju)體內容是它通過一(yi)組 n 個(ge)樣本（稱為粒子(zi)）逼(bi)近真實的(de)后驗狀(zhuang)態分布 p(st|y1:t)，其(qi)中相應的(de)重(zhong)要性權重(zhong)總和(he)為1.粒子(zi)是從重(zhong)要性分布 q(st|s1:t-1, y1:t)，權重(zhong)更新(xin)如下：

為(wei)了(le)選(xuan)擇重(zhong)(zhong)要性(xing)分布 q(st|s1:t-1, y1:t)，通(tong)常將其簡化為(wei)一階馬爾(er)可夫過程 q(s:t|s:t-1)，其中(zhong)狀態(tai)轉移(yi)獨立(li)于觀察。因此，權(quan)(quan)重(zhong)(zhong)更新為(wei)。注意，在每(mei)個權(quan)(quan)重(zhong)(zhong)更新步驟之后，權(quan)(quan)重(zhong)(zhong)之和可能不再(zai)等于1。如果(guo)它小(xiao)于閾(yu)值，則應用重(zhong)(zhong)新采樣以(yi)從當前粒(li)(li)子集中(zhong)按比例繪制n個粒(li)(li)子，然后將它們的權(quan)(quan)重(zhong)(zhong)重(zhong)(zhong)置(zhi)為(wei) 1 / n。如果(guo)權(quan)(quan)重(zhong)(zhong)和高于閾(yu)值，則應用線性(xing)歸一化以(yi)確保權(quan)(quan)重(zhong)(zhong)總和為(wei)1。

對(dui)(dui)(dui)于(yu)對(dui)(dui)(dui)象跟(gen)(gen)(gen)蹤(zong)(zong)，狀態變(bian)量si通常(chang)表示六個(ge)仿射變(bian)換參數，其(qi)對(dui)(dui)(dui)應于(yu)平移(yi)，比例，縱橫比，旋轉和偏斜。特別地(di)，q(st|st-1) 的(de)每個(ge)維(wei)度由正(zheng)態分布獨立建模。對(dui)(dui)(dui)于(yu)每個(ge)幀(zhen)，跟(gen)(gen)(gen)蹤(zong)(zong)結果(guo)只是具有最大(da)權(quan)重的(de)粒子。雖然許多跟(gen)(gen)(gen)蹤(zong)(zong)器也采用相(xiang)同的(de)粒子濾波器方法，但主(zhu)要區別在于(yu)觀測模型 p(yt|sti) 的(de)公式。顯然，一個(ge)好的(de)模型應該能(neng)夠(gou)很好地(di)區分跟(gen)(gen)(gen)蹤(zong)(zong)對(dui)(dui)(dui)象和背景，同時仍然能(neng)夠(gou)抵抗各種類型的(de)對(dui)(dui)(dui)象變(bian)化(hua)。對(dui)(dui)(dui)于(yu)判別跟(gen)(gen)(gen)蹤(zong)(zong)器，該公式通常(chang)用于(yu)設置與分類器輸出的(de)置信度呈(cheng)指(zhi)數相(xiang)關的(de)概率(lv)。

粒子(zi)(zi)濾波器(qi)框架是(shi)視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)主要方法(fa)，原因有幾個(ge)。首先，它(ta)超越了高(gao)斯(si)分(fen)布，比卡爾曼濾波器(qi)方法(fa)更(geng)通(tong)用(yong)。此外，它(ta)通(tong)過一(yi)(yi)(yi)組粒子(zi)(zi)而不是(shi)僅僅一(yi)(yi)(yi)個(ge)點（例(li)如模式）來近似(si)后狀態(tai)分(fen)布。對于視覺(jue)(jue)跟蹤(zong)(zong)，此屬性使跟蹤(zong)(zong)器(qi)可以更(geng)輕松地從錯誤的(de)(de)跟蹤(zong)(zong)結(jie)果中(zhong)(zhong)恢復。有關(guan)使用(yong)粒子(zi)(zi)濾波器(qi)進(jin)行(xing)視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)教程可以在中(zhong)(zhong)找到。最近的(de)(de)一(yi)(yi)(yi)些工(gong)作，例(li)如，進(jin)一(yi)(yi)(yi)步改進(jin)了用(yong)于視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)粒子(zi)(zi)濾波器(qi)框架。

3 DLT(deep learning tracker)追蹤器

DLT詳細介紹

我們(men)現在(zai)介紹我們(men)的(de)DLT跟蹤器(qi)。在(zai)離線訓(xun)(xun)練(lian)階段期間，通過訓(xun)(xun)練(lian)具有(you)輔助圖像數據的(de)SDAE來執(zhi)行(xing)(xing)無(wu)監督特征學習以學習通用自然圖像特征。首(shou)先(xian)應用逐(zhu)層預訓(xun)(xun)練(lian)，然后對整個SDAE進行(xing)(xing)微調。在(zai)在(zai)線跟蹤過程期間，將額外的(de)分(fen)(fen)類(lei)(lei)層添加到訓(xun)(xun)練(lian)的(de)SDAE的(de)編碼(ma)器(qi)部(bu)(bu)分(fen)(fen)以產(chan)生分(fen)(fen)類(lei)(lei)神經網絡。本節其(qi)余部(bu)(bu)分(fen)(fen)提供(gong)了更多詳細信息。

3.1 輔助數據(ju)的離線(xian)培訓

3.1.1 數(shu)據集(ji)和(he)預處理

我(wo)們(men)使(shi)用(yong)Tiny Images數(shu)據(ju)集(ji)(ji)作為離線訓練(lian)的(de)(de)(de)(de)(de)輔(fu)助數(shu)據(ju)。通過向七個搜(sou)索引(yin)擎提供非(fei)抽(chou)象(xiang)的(de)(de)(de)(de)(de)英語名(ming)詞，從(cong)網(wang)絡上收集(ji)(ji)數(shu)據(ju)集(ji)(ji)，涵蓋現實世(shi)界(jie)中(zhong)(zhong)發現的(de)(de)(de)(de)(de)許多(duo)對象(xiang)和場(chang)景。從(cong)每張尺寸為32×32的(de)(de)(de)(de)(de)近8000萬張微小圖(tu)(tu)(tu)像中(zhong)(zhong)，我(wo)們(men)隨機抽(chou)樣(yang)100萬張圖(tu)(tu)(tu)像進行離線訓練(lian)。由(you)于(yu)我(wo)們(men)的(de)(de)(de)(de)(de)經驗比較中(zhong)(zhong)包含的(de)(de)(de)(de)(de)大多(duo)數(shu)最先進的(de)(de)(de)(de)(de)跟(gen)蹤器僅使(shi)用(yong)灰度圖(tu)(tu)(tu)像，因(yin)此(ci)我(wo)們(men)將(jiang)所有采樣(yang)圖(tu)(tu)(tu)像轉換(huan)為灰度（但我(wo)們(men)的(de)(de)(de)(de)(de)方法也可以在(zai)必要時直接使(shi)用(yong)彩色圖(tu)(tu)(tu)像）。因(yin)此(ci)，每個圖(tu)(tu)(tu)像把3232的圖像轉為10241的(de)向量，每維的(de)特征(zheng)值被歸一化（每個維度的(de)特征(zheng)值線(xian)性縮(suo)放到范圍[0,1]），但不應用進一步的(de)預處理。

3.1.2 使用堆疊去噪自動編碼(ma)器(qi)（SDAE）學習通用圖像特征

SDAE詳細(xi)介(jie)紹(shao)

SDAE的基本(ben)構建塊是(shi)稱為(wei)去噪自(zi)動編碼(ma)器（DAE）的單(dan)層(ceng)神經(jing)(jing)網(wang)絡，它是(shi)傳統自(zi)動編碼(ma)器的最(zui)新變體。它學(xue)會(hui)從損壞的版本(ben)中(zhong)(zhong)恢復數(shu)據樣本(ben)。這樣做，學(xue)習了魯棒特征(zheng)，因(yin)為(wei)神經(jing)(jing)網(wang)絡包(bao)含“瓶(ping)頸”，其是(shi)具有比輸入(ru)單(dan)元(yuan)更(geng)少單(dan)元(yuan)的隱藏層(ceng)。我(wo)們在圖1（a）中(zhong)(zhong)展示(shi)了 DAE 的架構。

讓共有(you)k個訓練樣本(ben)。對于第(di)i個樣本(ben)，讓xi表示原始數(shu)據樣本(ben)，x~i是xi的損(sun)壞版本(ben)，其中損(sun)壞可能是屏蔽損(sun)壞，加性高斯噪(zao)聲或椒鹽噪(zao)聲。對于網絡權重，讓W和 W0 分別(bie)表示編碼(ma)器(qi)和解(jie)碼(ma)器(qi)的權重，盡(jin)管沒有(you)必(bi)要，但(dan)它(ta)們(men)可以綁定。類似地，b和b0指的是偏差(cha)項。 DAE 通過解(jie)決以下(xia)（正則化）優化問題來學習：

其(qi)中：

這里λ是平衡重(zhong)建(jian)損失(shi)和權重(zhong)懲罰項的參數(shu)，k·kF表示 Frobenius 范數(shu)，而f（·）是非線性(xing)激(ji)活函數(shu)，其(qi)通(tong)常是邏(luo)輯S形函數(shu)或雙曲正切函數(shu)。通(tong)過(guo)從(cong)損壞版本重(zhong)建(jian)輸入，DAE 比傳統(tong)自動編(bian)碼器更(geng)有效地(di)通(tong)過(guo)阻止自動編(bian)碼器簡單(dan)地(di)學習身份(fen)映射來發現更(geng)強大(da)的特(te)征。

為(wei)了進(jin)一步增強學習有意義的(de)(de)(de)特(te)征，稀(xi)疏(shu)性(xing)約束被強加于隱藏(zang)單元的(de)(de)(de)平均(jun)激(ji)活(huo)值。如果(guo)使用邏輯(ji)sigmoid激(ji)活(huo)函數，則(ze)可以將每個(ge)單元的(de)(de)(de)輸出視為(wei)其(qi)活(huo)動的(de)(de)(de)概率。設ρj表示第(di)j個(ge)單位的(de)(de)(de)目標稀(xi)疏(shu)度(du)，ρj表示其(qi)平均(jun)經驗(yan)激(ji)活(huo)率。然后可以引入(ru)ρ和ρ的(de)(de)(de)交叉熵作為(wei)Eqn4的(de)(de)(de)附加懲罰項：

其中m是隱藏單位(wei)的數(shu)量。在(zai)預訓練(lian)階段(duan)之后，可(ke)以(yi)展開SDAE以(yi)形成前饋(kui)神經(jing)網(wang)(wang)絡。使用經(jing)典(dian)的反向(xiang)傳(chuan)播算法對整(zheng)個(ge)網(wang)(wang)絡進行微調。為了提(ti)高收斂速度，可(ke)以(yi)應用簡(jian)單動量法或更(geng)高級的優化技術，例如 L-BFGS 或共軛梯(ti)度法。

對于(yu)網絡架構，我們(men)在第一(yi)層使用過完(wan)備過濾器(qi)。這是一(yi)個(ge)(ge)(ge)深思熟慮的(de)選(xuan)擇，因為已(yi)經發現過度(du)完(wan)備的(de)基礎通常可以更(geng)好地捕獲(huo)圖(tu)像(xiang)結(jie)構。這符合(he)V1視皮層的(de)神經生理機制。然后(hou)，每當添加新層時，單位(wei)(wei)數減少一(yi)半(ban)，直到(dao)只有(you)256個(ge)(ge)(ge)隱(yin)藏單位(wei)(wei)，作為自動編碼(ma)器(qi)的(de)瓶頸。 SDAE的(de)整個(ge)(ge)(ge)結(jie)構如圖(tu)1（b）所(suo)示(shi)。為了進一(yi)步加快第一(yi)層預訓練以學習(xi)局(ju)部特征，我們(men)將每個(ge)(ge)(ge)32×32微小圖(tu)像(xiang)分成五個(ge)(ge)(ge)16×16補丁（左(zuo)上(shang)，右上(shang)，左(zuo)下(xia)(xia)，右下(xia)(xia)，中間），然后(hou)訓練五個(ge)(ge)(ge) DAE，每個(ge)(ge)(ge) DAE 有(you)512個(ge)(ge)(ge)隱(yin)藏單位(wei)(wei)。之后(hou)，我們(men)用五個(ge)(ge)(ge)小 DAE 的(de)權(quan)重初始化一(yi)個(ge)(ge)(ge)大 DAE，然后(hou)正(zheng)常訓練大 DAE。第一(yi)層中的(de)一(yi)些隨機選(xuan)擇的(de)濾波器(qi)如圖(tu)2所(suo)示(shi)。正(zheng)如所(suo)料(liao)，大多數濾波器(qi)起到(dao)高度(du)局(ju)部化的(de)邊緣檢測器(qi)的(de)作用。

3.2 在線(xian)跟蹤流程

要跟蹤(zong)的(de)(de)對象由其第一(yi)幀(zhen)中(zhong)的(de)(de)邊界框的(de)(de)位(wei)置指定。在(zai)離(li)物體很(hen)近的(de)(de)距離(li)處(chu)從(cong)背景(jing)中(zhong)收集一(yi)些(xie)負(fu)面的(de)(de)例子(zi)(zi)(zi)(zi)。然后將(jiang)Sigmoid分類層添加到從(cong)離(li)線訓練獲得的(de)(de)SDAE的(de)(de)編碼器(qi)部分。整個(ge)網絡(luo)架構如(ru)圖(tu)1（c）所示。當(dang)新的(de)(de)視頻幀(zhen)到達(da)時，我(wo)們首先根據粒(li)(li)子(zi)(zi)(zi)(zi)濾波(bo)器(qi)方法繪制粒(li)(li)子(zi)(zi)(zi)(zi)（一(yi)個(ge)粒(li)(li)子(zi)(zi)(zi)(zi)就是目標可能存(cun)在(zai)的(de)(de)一(yi)塊圖(tu)像(xiang)，32*32）。然后通(tong)過簡單的(de)(de)前向傳播網絡(luo)來確定每個(ge)粒(li)(li)子(zi)(zi)(zi)(zi)的(de)(de)置信度pi。該(gai)方法計算量小，精度高。

圖(tu)1：網絡(luo)(luo)架(jia)構的(de)一(yi)些關鍵(jian)組件：（a）去噪自動編(bian)碼器; （b）堆疊去噪自動編(bian)碼器; （c）在線跟(gen)蹤網絡(luo)(luo)。

圖(tu)2：學習(xi)SDAE第一層中的一些過(guo)濾器。

如果(guo)幀中所(suo)有粒子的最(zui)大置信度低于預(yu)定閾(yu)值τ，則它可以(yi)(yi)指示被跟蹤對象的顯著(zhu)外觀變(bian)化。要(yao)解決(jue)此(ci)問題，可以(yi)(yi)在發生這種(zhong)情況時再(zai)次調整（tune）整(zheng)個網絡。我們注意到閾值(zhi) τ 應該通過維(wei)持權衡來設(she)定(ding)。如果(guo) τ 太小，則跟(gen)蹤器無法很(hen)好地適應外(wai)觀變化，如果(guo)τ太大(da)，即(ji)使(shi)遮(zhe)擋(dang)物體(ti)或(huo)背(bei)景也可能被(bei)錯誤地視為被(bei)跟(gen)蹤物體(ti)，因此導(dao)致(zhi)目標漂移。

4 實驗

我(wo)們(men)使用(yong)10個具有挑戰(zhan)性(xing)的(de)(de)基準視(shi)頻序(xu)列，在(zai)本節中憑經驗將 DLT 與一些(xie)最先進的(de)(de)跟(gen)蹤(zong)(zong)(zong)器進行比較。這(zhe)些(xie)跟(gen)蹤(zong)(zong)(zong)器是：MTT，CT，VTD，MIL，L1T，TLD 和 IVT 的(de)(de)最新變體。我(wo)們(men)使用(yong)其作者提(ti)(ti)供(gong)(gong)(gong)的(de)(de)這(zhe)些(xie)跟(gen)蹤(zong)(zong)(zong)器的(de)(de)原(yuan)始實現。如(ru)果跟(gen)蹤(zong)(zong)(zong)器只能(neng)處(chu)理灰(hui)度視(shi)頻，MATLAB 圖像處(chu)理工具箱提(ti)(ti)供(gong)(gong)(gong)的(de)(de) rgb2gray 功能(neng)用(yong)于將彩色視(shi)頻轉換為(wei)灰(hui)度。為(wei)了加速計(ji)算(suan)，我(wo)們(men)還利(li)用(yong) MATLAB Parallel Computing Toolbox提(ti)(ti)供(gong)(gong)(gong)的(de)(de) GPU 計(ji)算(suan)進行離線培訓和在(zai)線跟(gen)蹤(zong)(zong)(zong)。代碼和補充材料在(zai)項目頁面上提(ti)(ti)供(gong)(gong)(gong)：http：//winsty.net/dlt.html。

4.1 DLT實施(shi)細節

我(wo)們使(shi)用具有(you)(you)動(dong)量的梯度方(fang)法(fa)進行優化。動(dong)量參數(shu)設(she)(she)置為(wei)(wei)0.9。對于(yu) SDAE 的離線訓練，我(wo)們注入方(fang)差為(wei)(wei)0.0004的高斯噪聲(sheng)以(yi)生成損(sun)壞的輸入。我(wo)們將λ= 0.0001，ρi= 0.05，小(xiao)批量大小(xiao)設(she)(she)置為(wei)(wei)100.對于(yu)在線調整，我(wo)們使(shi)用較大的λ值(zhi)0.002以(yi)避免(mian)過度擬合(he)和(he)較小(xiao)的小(xiao)批量大小(xiao)10.閾值(zhi)τ設(she)(she)置為(wei)(wei)0.9。粒子濾(lv)波器使(shi)用1000個(ge)粒子。對于(yu)其(qi)他參數(shu)，例如粒子濾(lv)波器中的仿射參數(shu)和(he)其(qi)他方(fang)法(fa)中的搜索(suo)窗口大小(xiao)，我(wo)們執行網(wang)格搜索(suo)以(yi)確定最佳值(zhi)。如果適(shi)用，相同的設(she)(she)置將應(ying)用于(yu)所有(you)(you)其(qi)他方(fang)法(fa)。

摘要

在本(ben)文中，我們研究了跟(gen)蹤(zong)可能(neng)非常(chang)復雜(za)背景(jing)的(de)(de)(de)(de)視頻中運動(dong)物體軌跡的(de)(de)(de)(de)挑戰(zhan)性(xing)問題(ti)(ti)。與(yu)大多(duo)數僅在線(xian)(xian)學(xue)習(xi)跟(gen)蹤(zong)對象外觀(guan)的(de)(de)(de)(de)現(xian)有(you)跟(gen)蹤(zong)器(qi)(qi)相比，我們采用不同的(de)(de)(de)(de)方法，受深(shen)(shen)度學(xue)習(xi)架構的(de)(de)(de)(de)最新進展(zhan)的(de)(de)(de)(de)啟(qi)發，更加強調(diao)（無監督）特(te)(te)征(zheng)學(xue)習(xi)問題(ti)(ti)。具體來說，通(tong)過使用輔助自(zi)然(ran)圖(tu)(tu)像，我們離線(xian)(xian)訓(xun)練堆疊(die)去(qu)噪自(zi)動(dong)編(bian)碼器(qi)(qi)，以學(xue)習(xi)對變化更加魯棒的(de)(de)(de)(de)通(tong)用圖(tu)(tu)像特(te)(te)征(zheng)。然(ran)后是從離線(xian)(xian)培訓(xun)到(dao)在線(xian)(xian)跟(gen)蹤(zong)過程的(de)(de)(de)(de)知識轉(zhuan)移(yi)。在線(xian)(xian)跟(gen)蹤(zong)涉及(ji)分(fen)類(lei)神經網絡，該分(fen)類(lei)神經網絡由(you)訓(xun)練的(de)(de)(de)(de)自(zi)動(dong)編(bian)碼器(qi)(qi)的(de)(de)(de)(de)編(bian)碼器(qi)(qi)部分(fen)構成(cheng)(cheng)，作為(wei)特(te)(te)征(zheng)提取(qu)器(qi)(qi)和附加分(fen)類(lei)層(ceng)。可以進一步調(diao)整(zheng)特(te)(te)征(zheng)提取(qu)器(qi)(qi)和分(fen)類(lei)器(qi)(qi)以適應移(yi)動(dong)物體的(de)(de)(de)(de)外觀(guan)變化。與(yu)一些具有(you)挑戰(zhan)性(xing)的(de)(de)(de)(de)基(ji)準視頻序列的(de)(de)(de)(de)最先(xian)進的(de)(de)(de)(de)跟(gen)蹤(zong)器(qi)(qi)進行比較表明，當我們的(de)(de)(de)(de)跟(gen)蹤(zong)器(qi)(qi)的(de)(de)(de)(de)MATLAB實(shi)現(xian)與(yu)適度的(de)(de)(de)(de)圖(tu)(tu)形(xing)處理(li)一起使用時(shi)，我們的(de)(de)(de)(de)深(shen)(shen)度學(xue)習(xi)跟(gen)蹤(zong)器(qi)(qi)更準確，同時(shi)保(bao)持(chi)低計算成(cheng)(cheng)本(ben)和實(shi)時(shi)性(xing)能(neng)單位（GPU）。

1 引言

視(shi)(shi)覺(jue)跟(gen)(gen)蹤(zong)(zong)，也(ye)稱為(wei)對(dui)象(xiang)跟(gen)(gen)蹤(zong)(zong)，是(shi)指當(dang)對(dui)象(xiang)在視(shi)(shi)頻(pin)中移動(dong)時自(zi)動(dong)估計(ji)對(dui)象(xiang)的(de)軌(gui)跡。它在許多領(ling)域都有許多應(ying)用(yong)，包(bao)括安全視(shi)(shi)頻(pin)監控，人機交互和(he)(he)體育(yu)視(shi)(shi)頻(pin)分(fen)析。雖然某個應(ying)用(yong)程序可能需要(yao)跟(gen)(gen)蹤(zong)(zong)多個移動(dong)對(dui)象(xiang)，但(dan)典型的(de)設(she)置是(shi)分(fen)別(bie)處理每個對(dui)象(xiang)。在第一視(shi)(shi)頻(pin)幀中手動(dong)或自(zi)動(dong)識別(bie)要(yao)跟(gen)(gen)蹤(zong)(zong)的(de)對(dui)象(xiang)之(zhi)后(hou)(hou)，視(shi)(shi)覺(jue)跟(gen)(gen)蹤(zong)(zong)的(de)目標是(shi)在后(hou)(hou)續幀上自(zi)動(dong)跟(gen)(gen)蹤(zong)(zong)對(dui)象(xiang)的(de)軌(gui)跡。雖然現有的(de)計(ji)算機視(shi)(shi)覺(jue)技術可以(yi)在良好控制(zhi)的(de)環境(jing)下為(wei)這個問(wen)題(ti)提(ti)供令人滿意的(de)解(jie)決方案，但(dan)是(shi)由于諸(zhu)如部分(fen)遮擋，雜亂的(de)背景，快速和(he)(he)突然的(de)運(yun)動(dong)，戲劇性的(de)照明(ming)變(bian)化(hua)以(yi)及大的(de)因素，在許多實際應(ying)用(yong)中該問(wen)題(ti)可能是(shi)非常具(ju)有挑戰(zhan)性的(de)。觀點和(he)(he)姿勢的(de)變(bian)化(hua)。

從(cong)(cong)學習的角度(du)來看，視覺跟蹤(zong)具(ju)有挑戰性，因為它在(zai)第(di)一(yi)個視頻幀中只有一(yi)個被識別對(dui)象(xiang)形式的標(biao)記(ji)(ji)實(shi)例。在(zai)隨(sui)后(hou)的幀中，跟蹤(zong)器必須僅用未(wei)標(biao)記(ji)(ji)的數據來學習被跟蹤(zong)對(dui)象(xiang)的變(bian)化(hua)。由于沒有關于被跟蹤(zong)對(dui)象(xiang)的先(xian)驗知識，跟蹤(zong)器很(hen)容易偏離目標(biao)。為了(le)解決(jue)這個問題，已經提出了(le)一(yi)些(xie)采用半監督學習方(fang)法(fa)的跟蹤(zong)器。另一(yi)種方(fang)法(fa)首先(xian)從(cong)(cong)輔助數據中學習圖(tu)像(xiang)特征的字典（例如SIFT局部描述符），然后(hou)將學到的知識傳遞給在(zai)線跟蹤(zong)。

另一個問題是(shi)(shi)許多(duo)現有(you)(you)的(de)跟(gen)(gen)蹤(zong)(zong)(zong)器使用(yong)的(de)圖像(xiang)表(biao)示(shi)可能不(bu)足以在復雜環境中進行穩健跟(gen)(gen)蹤(zong)(zong)(zong)。對(dui)于有(you)(you)辨別力的(de)跟(gen)(gen)蹤(zong)(zong)(zong)器尤(you)其(qi)如(ru)(ru)此，這些跟(gen)(gen)蹤(zong)(zong)(zong)器通常更強調改進分類器而不(bu)是(shi)(shi)使用(yong)的(de)圖像(xiang)特征(zheng)。雖然(ran)許多(duo)跟(gen)(gen)蹤(zong)(zong)(zong)器只是(shi)(shi)使用(yong)原始像(xiang)素作為(wei)特征(zheng)，但有(you)(you)些嘗試使用(yong)了更多(duo)信息功(gong)(gong)能，例如(ru)(ru)Haar功(gong)(gong)能，直(zhi)方圖功(gong)(gong)能和本地二(er)進制模式。但是(shi)(shi)，這些功(gong)(gong)能都(dou)是(shi)(shi)離線手工(gong)制作，但不(bu)是(shi)(shi)為(wei)跟(gen)(gen)蹤(zong)(zong)(zong)對(dui)象量(liang)身定制的(de)。最近(jin)，深度(du)學(xue)習架構已經成(cheng)功(gong)(gong)地用(yong)于為(wei)一些復雜的(de)任務(wu)提供(gong)非(fei)常有(you)(you)希望(wang)的(de)結果，包括圖像(xiang)分類和語(yu)音識別。成(cheng)功(gong)(gong)的(de)關鍵(jian)是(shi)(shi)利用(yong)深層架構通過多(duo)種非(fei)線性變換來學(xue)習更豐富的(de)不(bu)變特征(zheng)。我們(men)認為(wei)，出于同樣的(de)原因，視覺跟(gen)(gen)蹤(zong)(zong)(zong)也可以從深度(du)學(xue)習中受(shou)益(yi)。

在(zai)本文中，我們提出了一(yi)種新(xin)的(de)深度學(xue)(xue)(xue)習跟(gen)(gen)(gen)蹤(zong)器(qi)（ deep learning tracker DLT），用(yong)(yong)于強大(da)的(de)視覺跟(gen)(gen)(gen)蹤(zong)。我們嘗試通(tong)過(guo)開(kai)發一(yi)種強大(da)的(de)判別(bie)跟(gen)(gen)(gen)蹤(zong)器(qi)來結合生成和判別(bie)跟(gen)(gen)(gen)蹤(zong)器(qi)背后(hou)的(de)哲學(xue)(xue)(xue)，該跟(gen)(gen)(gen)蹤(zong)器(qi)使(shi)用(yong)(yong)自(zi)動(dong)學(xue)(xue)(xue)習的(de)有效圖像表示(shi)(shi)。 DLT與其他現有跟(gen)(gen)(gen)蹤(zong)器(qi)有一(yi)些關鍵特(te)(te)征(zheng)。首先(xian)，它使(shi)用(yong)(yong)堆疊去(qu)噪自(zi)動(dong)編碼(ma)器(qi)（stacked denoising autoencoder SDAE）來學(xue)(xue)(xue)習大(da)圖像數據集中的(de)通(tong)用(yong)(yong)圖像特(te)(te)征(zheng)作(zuo)為(wei)輔(fu)(fu)助數據，然后(hou)將學(xue)(xue)(xue)到的(de)特(te)(te)征(zheng)傳輸到在(zai)線跟(gen)(gen)(gen)蹤(zong)任務。其次(ci)，與先(xian)前(qian)也從輔(fu)(fu)助數據學(xue)(xue)(xue)習特(te)(te)征(zheng)的(de)方法(fa)不同，DLT中的(de)學(xue)(xue)(xue)習特(te)(te)征(zheng)可以(yi)進一(yi)步調整(zheng)以(yi)適應在(zai)線跟(gen)(gen)(gen)蹤(zong)過(guo)程(cheng)中的(de)特(te)(te)定對象。因(yin)為(wei)DLT利用(yong)(yong)多(duo)個非線性(xing)變(bian)換(huan)，所獲得的(de)圖像表示(shi)(shi)比基(ji)(ji)于PCA的(de)先(xian)前(qian)方法(fa)更具表現力。此外，由于表示(shi)(shi)跟(gen)(gen)(gen)蹤(zong)對象不需要解決(jue)基(ji)(ji)于稀(xi)疏編碼(ma)的(de)先(xian)前(qian)跟(gen)(gen)(gen)蹤(zong)器(qi)中的(de)優化問題，因(yin)此DLT明顯更有效，因(yin)此更適合于實時(shi)應用(yong)(yong)。

2 視覺(jue)跟蹤的粒子(zi)濾波方法

粒子濾波方(fang)法(fa)通常用于(yu)視覺跟蹤。從(cong)統計角度(du)來看，它是一種順序蒙特卡羅重要抽(chou)樣方(fang)法(fa)，用于(yu)根據(ju)觀(guan)(guan)測序列估計動態系統的潛(qian)狀態變量。在(zai)時(shi)(shi)間t，Supppse st 和 yt 分別(bie)表示潛(qian)狀態和觀(guan)(guan)察變量。在(zai)數(shu)學上，對象跟蹤對應于(yu)基于(yu)直到前一時(shi)(shi)間步(bu)驟的觀(guan)(guan)察來找到每個時(shi)(shi)間步(bu)長t的最可能狀態的問題：

當一個新的(de)觀(guan)察到達(da)時(shi)，狀態變量的(de)后(hou)驗分布根據貝葉斯規則更新：

粒(li)(li)子濾波器方法的(de)具體內容是它(ta)通過一組 n 個樣(yang)本（稱為(wei)粒(li)(li)子）逼近真實的(de)后驗狀態分布 p(st|y1:t)，其(qi)中相應的(de)重要性(xing)權重總和為(wei)1.粒(li)(li)子是從重要性(xing)分布 q(st|s1:t-1, y1:t)，權重更新如下：

為了選擇重要性(xing)分布 q(st|s1:t-1, y1:t)，通常將其(qi)簡化(hua)為一階(jie)馬爾(er)可夫過程 q(s:t|s:t-1)，其(qi)中狀態轉移(yi)獨立于(yu)觀(guan)察。因(yin)此，權(quan)(quan)(quan)重更(geng)(geng)新為。注意，在每(mei)個權(quan)(quan)(quan)重更(geng)(geng)新步(bu)驟(zou)之后，權(quan)(quan)(quan)重之和(he)(he)可能不再等于(yu)1。如(ru)果它(ta)小于(yu)閾(yu)值，則(ze)應(ying)用重新采樣(yang)以(yi)(yi)從當前粒(li)(li)子集中按比例繪制(zhi)n個粒(li)(li)子，然后將它(ta)們的權(quan)(quan)(quan)重重置為 1 / n。如(ru)果權(quan)(quan)(quan)重和(he)(he)高(gao)于(yu)閾(yu)值，則(ze)應(ying)用線性(xing)歸一化(hua)以(yi)(yi)確保(bao)權(quan)(quan)(quan)重總和(he)(he)為1。

對(dui)于(yu)(yu)對(dui)象跟蹤(zong)，狀態變(bian)量si通常(chang)表示六個仿射變(bian)換(huan)參數(shu)，其對(dui)應于(yu)(yu)平移，比例，縱橫比，旋轉(zhuan)和(he)偏斜(xie)。特別地(di)，q(st|st-1) 的(de)(de)每(mei)個維度由正態分(fen)布獨立(li)建模。對(dui)于(yu)(yu)每(mei)個幀(zhen)，跟蹤(zong)結果只是具有(you)最(zui)大權重的(de)(de)粒子。雖然許多跟蹤(zong)器(qi)也采(cai)用(yong)相同的(de)(de)粒子濾波器(qi)方法，但主(zhu)要區(qu)別在(zai)于(yu)(yu)觀測(ce)模型(xing) p(yt|sti) 的(de)(de)公式。顯然，一個好(hao)的(de)(de)模型(xing)應該(gai)(gai)能夠很好(hao)地(di)區(qu)分(fen)跟蹤(zong)對(dui)象和(he)背景，同時仍然能夠抵抗各(ge)種類型(xing)的(de)(de)對(dui)象變(bian)化。對(dui)于(yu)(yu)判別跟蹤(zong)器(qi)，該(gai)(gai)公式通常(chang)用(yong)于(yu)(yu)設置與分(fen)類器(qi)輸出的(de)(de)置信度呈指(zhi)數(shu)相關的(de)(de)概率。

粒(li)子(zi)濾(lv)波(bo)(bo)器(qi)框架是視覺跟蹤(zong)(zong)的(de)主要方(fang)法，原因(yin)有(you)幾個。首先(xian)，它(ta)超越了(le)高斯分(fen)布，比卡爾曼(man)濾(lv)波(bo)(bo)器(qi)方(fang)法更(geng)通(tong)用。此(ci)外，它(ta)通(tong)過(guo)一(yi)組粒(li)子(zi)而不是僅僅一(yi)個點（例如模式）來(lai)近似后狀態(tai)分(fen)布。對于(yu)視覺跟蹤(zong)(zong)，此(ci)屬性使跟蹤(zong)(zong)器(qi)可(ke)以(yi)更(geng)輕松地從錯誤的(de)跟蹤(zong)(zong)結(jie)果中恢(hui)復。有(you)關使用粒(li)子(zi)濾(lv)波(bo)(bo)器(qi)進(jin)(jin)行視覺跟蹤(zong)(zong)的(de)教程可(ke)以(yi)在中找到。最近的(de)一(yi)些(xie)工作，例如，進(jin)(jin)一(yi)步改進(jin)(jin)了(le)用于(yu)視覺跟蹤(zong)(zong)的(de)粒(li)子(zi)濾(lv)波(bo)(bo)器(qi)框架。

3 DLT(deep learning tracker)追蹤(zong)器

DLT詳細介紹(shao)

我(wo)們現(xian)在(zai)介(jie)紹我(wo)們的(de)DLT跟(gen)蹤器(qi)(qi)。在(zai)離(li)線(xian)訓練階段期(qi)間(jian)，通過訓練具有輔(fu)助圖像(xiang)數據(ju)的(de)SDAE來(lai)執行(xing)無監督特(te)征(zheng)學習(xi)(xi)以(yi)(yi)學習(xi)(xi)通用(yong)自然圖像(xiang)特(te)征(zheng)。首先應用(yong)逐層預(yu)訓練，然后對整(zheng)個SDAE進(jin)行(xing)微調。在(zai)在(zai)線(xian)跟(gen)蹤過程期(qi)間(jian)，將額外的(de)分類層添加到訓練的(de)SDAE的(de)編碼(ma)器(qi)(qi)部分以(yi)(yi)產生分類神經網絡(luo)。本節其(qi)余部分提(ti)供了更多詳細(xi)信息。

3.1 輔助數據(ju)的離線培訓(xun)

3.1.1 數據集和預處(chu)理

我(wo)(wo)們(men)使(shi)用(yong)Tiny Images數據(ju)集(ji)作為離(li)線訓(xun)練的(de)輔助數據(ju)。通過(guo)向(xiang)七個(ge)搜索引擎(qing)提供非抽象(xiang)的(de)英語(yu)名詞，從(cong)網絡上(shang)收(shou)集(ji)數據(ju)集(ji)，涵蓋現實世(shi)界(jie)中發現的(de)許多對象(xiang)和場(chang)景。從(cong)每(mei)張尺寸為32×32的(de)近8000萬張微小圖(tu)像(xiang)(xiang)中，我(wo)(wo)們(men)隨機抽樣100萬張圖(tu)像(xiang)(xiang)進行離(li)線訓(xun)練。由于我(wo)(wo)們(men)的(de)經驗比較(jiao)中包含的(de)大多數最先進的(de)跟(gen)蹤器僅使(shi)用(yong)灰度圖(tu)像(xiang)(xiang)，因(yin)此我(wo)(wo)們(men)將所有采(cai)樣圖(tu)像(xiang)(xiang)轉換為灰度（但(dan)我(wo)(wo)們(men)的(de)方法也可以在必要(yao)時直接使(shi)用(yong)彩色圖(tu)像(xiang)(xiang)）。因(yin)此，每(mei)個(ge)圖(tu)像(xiang)(xiang)把3232的圖像轉為10241的向量(liang)，每(mei)維的特征值被歸一化(hua)（每(mei)個(ge)維度的特征值線性縮(suo)放(fang)到范圍[0,1]），但不應用進一步的預處理。

3.1.2 使(shi)用堆疊去噪(zao)自動編碼器（SDAE）學習通用圖像特征

SDAE詳細介紹(shao)

SDAE的(de)(de)(de)基本(ben)構(gou)建(jian)塊是(shi)稱為去噪(zao)自動編碼(ma)器(qi)（DAE）的(de)(de)(de)單層神經網絡，它是(shi)傳統自動編碼(ma)器(qi)的(de)(de)(de)最新變體。它學會從(cong)損壞的(de)(de)(de)版(ban)本(ben)中恢復數據樣本(ben)。這樣做，學習了魯棒特征，因為神經網絡包含“瓶頸”，其是(shi)具有比輸入單元(yuan)更少單元(yuan)的(de)(de)(de)隱藏層。我們在(zai)圖1（a）中展示(shi)了 DAE 的(de)(de)(de)架構(gou)。

讓(rang)共有(you)k個(ge)(ge)訓(xun)練(lian)樣本(ben)(ben)。對于第i個(ge)(ge)樣本(ben)(ben)，讓(rang)xi表(biao)(biao)示(shi)原始(shi)數據樣本(ben)(ben)，x~i是(shi)xi的損(sun)(sun)壞版本(ben)(ben)，其中損(sun)(sun)壞可(ke)能是(shi)屏蔽損(sun)(sun)壞，加性高斯噪聲或椒鹽噪聲。對于網絡權(quan)重，讓(rang)W和 W0 分(fen)別(bie)表(biao)(biao)示(shi)編碼(ma)器和解碼(ma)器的權(quan)重，盡管沒有(you)必要，但(dan)它們可(ke)以(yi)綁定(ding)。類似地，b和b0指(zhi)的是(shi)偏差項(xiang)。 DAE 通過解決以(yi)下（正則(ze)化）優化問(wen)題來學習(xi)：

其(qi)中：

這里λ是平衡重建(jian)損失和權重懲(cheng)罰項的參數，k·kF表示 Frobenius 范數，而f（·）是非線性(xing)激活函(han)(han)數，其通(tong)(tong)常是邏輯(ji)S形函(han)(han)數或雙曲正切函(han)(han)數。通(tong)(tong)過從損壞版本重建(jian)輸入，DAE 比傳統(tong)自(zi)(zi)動編(bian)碼(ma)器(qi)更(geng)有效地通(tong)(tong)過阻止自(zi)(zi)動編(bian)碼(ma)器(qi)簡單(dan)地學習身份(fen)映(ying)射來(lai)發現更(geng)強大的特征(zheng)。

為(wei)了(le)進一步增強學習有意(yi)義的(de)特征，稀(xi)疏性約(yue)束(shu)被強加于(yu)隱藏單(dan)元(yuan)的(de)平均(jun)激活(huo)值。如果使(shi)用邏輯sigmoid激活(huo)函(han)數，則可以將(jiang)每個單(dan)元(yuan)的(de)輸(shu)出視為(wei)其(qi)活(huo)動的(de)概率(lv)。設ρj表示(shi)第j個單(dan)位的(de)目標稀(xi)疏度，ρj表示(shi)其(qi)平均(jun)經(jing)驗(yan)激活(huo)率(lv)。然(ran)后可以引入ρ和ρ的(de)交(jiao)叉熵作為(wei)Eqn4的(de)附(fu)加懲(cheng)罰項(xiang)：

其中m是隱藏單(dan)位的(de)數量(liang)。在預訓(xun)練階段之后(hou)，可以展開SDAE以形成前饋神經(jing)網絡。使用經(jing)典的(de)反向傳播算(suan)法對整個網絡進行微調。為了提高(gao)收斂(lian)速度，可以應用簡單(dan)動量(liang)法或更高(gao)級的(de)優化技術，例如 L-BFGS 或共(gong)軛梯(ti)度法。

對于網絡(luo)架構，我們(men)在第一(yi)層(ceng)使用過完備過濾器。這是(shi)一(yi)個(ge)(ge)(ge)(ge)深(shen)思熟慮的(de)(de)選(xuan)擇，因為(wei)已經(jing)發現(xian)過度完備的(de)(de)基礎(chu)通常(chang)可以更好(hao)地捕獲圖像結構。這符(fu)合V1視皮層(ceng)的(de)(de)神(shen)經(jing)生理機(ji)制。然(ran)后，每(mei)當(dang)添加新層(ceng)時，單(dan)位數減少(shao)一(yi)半，直到只有256個(ge)(ge)(ge)(ge)隱藏單(dan)位，作為(wei)自動編碼器的(de)(de)瓶(ping)頸。 SDAE的(de)(de)整個(ge)(ge)(ge)(ge)結構如圖1（b）所示。為(wei)了進一(yi)步(bu)加快(kuai)第一(yi)層(ceng)預(yu)訓練以學習局部(bu)特征，我們(men)將(jiang)每(mei)個(ge)(ge)(ge)(ge)32×32微小圖像分成五個(ge)(ge)(ge)(ge)16×16補(bu)丁（左(zuo)上，右上，左(zuo)下，右下，中間），然(ran)后訓練五個(ge)(ge)(ge)(ge) DAE，每(mei)個(ge)(ge)(ge)(ge) DAE 有512個(ge)(ge)(ge)(ge)隱藏單(dan)位。之后，我們(men)用五個(ge)(ge)(ge)(ge)小 DAE 的(de)(de)權(quan)重初始化一(yi)個(ge)(ge)(ge)(ge)大(da)(da) DAE，然(ran)后正常(chang)訓練大(da)(da) DAE。第一(yi)層(ceng)中的(de)(de)一(yi)些隨(sui)機(ji)選(xuan)擇的(de)(de)濾波(bo)器如圖2所示。正如所料，大(da)(da)多(duo)數濾波(bo)器起到高度局部(bu)化的(de)(de)邊緣(yuan)檢測器的(de)(de)作用。

3.2 在(zai)線跟蹤(zong)流(liu)程

要跟蹤的(de)(de)(de)對象由其第一(yi)幀(zhen)中的(de)(de)(de)邊界框(kuang)的(de)(de)(de)位置指(zhi)定(ding)。在(zai)離物(wu)體很近的(de)(de)(de)距(ju)離處從(cong)(cong)背景中收集(ji)一(yi)些負面的(de)(de)(de)例子。然后將Sigmoid分(fen)類層添加到從(cong)(cong)離線(xian)訓練獲得的(de)(de)(de)SDAE的(de)(de)(de)編(bian)碼器部分(fen)。整個網絡(luo)架構如圖(tu)1（c）所示。當新的(de)(de)(de)視頻幀(zhen)到達時，我們首先根據粒(li)(li)子濾波器方法繪制粒(li)(li)子（一(yi)個粒(li)(li)子就是目標可能存(cun)在(zai)的(de)(de)(de)一(yi)塊圖(tu)像，32*32）。然后通過簡單的(de)(de)(de)前向(xiang)傳(chuan)播(bo)網絡(luo)來確定(ding)每個粒(li)(li)子的(de)(de)(de)置信度pi。該(gai)方法計算(suan)量(liang)小，精度高。

圖1：網絡架構(gou)的一些關鍵組件：（a）去(qu)(qu)噪自動(dong)編(bian)碼器; （b）堆疊去(qu)(qu)噪自動(dong)編(bian)碼器; （c）在線跟蹤(zong)網絡。

圖2：學習SDAE第一(yi)層中的一(yi)些(xie)過濾器。

如果幀中所有粒子(zi)的最大置信度低于預(yu)定閾值τ，則它(ta)可以指示被跟(gen)蹤對象的顯著(zhu)外觀變化。要(yao)解決此問題，可以在發生(sheng)這種情況(kuang)時再(zai)次(ci)調整（tune）整個(ge)網(wang)絡。我們注意到閾值 τ 應該通過(guo)維持權衡來設定。如(ru)果(guo)(guo) τ 太小，則跟蹤器無(wu)法很好地(di)適應外觀變化，如(ru)果(guo)(guo)τ太大，即使遮擋物體(ti)或背景也可能被錯誤地(di)視為被跟蹤物體(ti)，因此導致目標(biao)漂移。

4 實(shi)驗

我(wo)們使(shi)(shi)用(yong)(yong)10個具有挑戰性的(de)(de)基準(zhun)視(shi)頻(pin)序列(lie)，在本節中憑經驗將(jiang) DLT 與一些(xie)(xie)最(zui)先進(jin)的(de)(de)跟蹤(zong)器進(jin)行(xing)比(bi)較。這些(xie)(xie)跟蹤(zong)器是：MTT，CT，VTD，MIL，L1T，TLD 和(he) IVT 的(de)(de)最(zui)新變體。我(wo)們使(shi)(shi)用(yong)(yong)其作者提(ti)供的(de)(de)這些(xie)(xie)跟蹤(zong)器的(de)(de)原(yuan)始實(shi)現(xian)。如果(guo)跟蹤(zong)器只能(neng)處理灰度(du)視(shi)頻(pin)，MATLAB 圖像處理工具箱提(ti)供的(de)(de) rgb2gray 功能(neng)用(yong)(yong)于(yu)將(jiang)彩色(se)視(shi)頻(pin)轉換為灰度(du)。為了加速計算(suan)，我(wo)們還利用(yong)(yong) MATLAB Parallel Computing Toolbox提(ti)供的(de)(de) GPU 計算(suan)進(jin)行(xing)離線培(pei)訓(xun)和(he)在線跟蹤(zong)。代(dai)碼和(he)補充材料在項目(mu)頁面上提(ti)供：http：//winsty.net/dlt.html。

4.1 DLT實施細節

我們(men)使用(yong)具有動量(liang)(liang)的(de)(de)(de)梯度方法進行(xing)優化(hua)。動量(liang)(liang)參(can)數(shu)設置(zhi)為(wei)0.9。對于 SDAE 的(de)(de)(de)離線(xian)訓練，我們(men)注(zhu)入(ru)方差為(wei)0.0004的(de)(de)(de)高斯噪聲以生成損壞的(de)(de)(de)輸入(ru)。我們(men)將λ= 0.0001，ρi= 0.05，小(xiao)批量(liang)(liang)大小(xiao)設置(zhi)為(wei)100.對于在(zai)線(xian)調整(zheng)，我們(men)使用(yong)較(jiao)大的(de)(de)(de)λ值0.002以避免過度擬合(he)和較(jiao)小(xiao)的(de)(de)(de)小(xiao)批量(liang)(liang)大小(xiao)10.閾值τ設置(zhi)為(wei)0.9。粒子濾波(bo)器(qi)使用(yong)1000個粒子。對于其他參(can)數(shu)，例如(ru)粒子濾波(bo)器(qi)中的(de)(de)(de)仿射參(can)數(shu)和其他方法中的(de)(de)(de)搜索窗口大小(xiao)，我們(men)執(zhi)行(xing)網(wang)格搜索以確定最佳值。如(ru)果適用(yong)，相(xiang)同的(de)(de)(de)設置(zhi)將應用(yong)于所(suo)有其他方法。

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

智算服務

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

學習用于視覺跟蹤的深度緊湊圖像表示Learning a Deep Compact Image Rep

摘要(yao)

1 引言(yan)

2 視覺跟(gen)蹤的(de)粒(li)子濾波(bo)方法

3 DLT(deep learning tracker)追蹤器