亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

  • 發布文章
  • 消息中心
點贊
收藏
評論
分享
原創

學習用于視覺跟蹤的深度緊湊圖像表示Learning a Deep Compact Image Rep

2023-02-20 09:23:52
24
0

摘要(yao)

在本(ben)文中,我們(men)(men)研究了跟(gen)(gen)(gen)(gen)蹤(zong)(zong)可能非常復雜背景(jing)的(de)(de)(de)視(shi)(shi)頻中運(yun)動(dong)物體(ti)(ti)軌跡的(de)(de)(de)挑(tiao)戰性問題。與(yu)(yu)大多數僅在線(xian)(xian)學(xue)習跟(gen)(gen)(gen)(gen)蹤(zong)(zong)對象(xiang)外觀的(de)(de)(de)現有跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)相比(bi),我們(men)(men)采(cai)用不同的(de)(de)(de)方法(fa),受(shou)深(shen)度(du)(du)學(xue)習架構的(de)(de)(de)最(zui)新進展的(de)(de)(de)啟(qi)發,更加強調(無(wu)監督)特(te)征(zheng)學(xue)習問題。具體(ti)(ti)來說,通過使(shi)用輔(fu)助自(zi)(zi)然圖像,我們(men)(men)離線(xian)(xian)訓練堆疊去噪自(zi)(zi)動(dong)編(bian)碼器(qi)(qi),以學(xue)習對變化更加魯棒的(de)(de)(de)通用圖像特(te)征(zheng)。然后是從離線(xian)(xian)培訓到在線(xian)(xian)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)過程的(de)(de)(de)知識轉移。在線(xian)(xian)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)涉及分(fen)(fen)類神經網絡,該(gai)分(fen)(fen)類神經網絡由訓練的(de)(de)(de)自(zi)(zi)動(dong)編(bian)碼器(qi)(qi)的(de)(de)(de)編(bian)碼器(qi)(qi)部分(fen)(fen)構成,作(zuo)為特(te)征(zheng)提取(qu)器(qi)(qi)和附加分(fen)(fen)類層。可以進一(yi)(yi)步調整特(te)征(zheng)提取(qu)器(qi)(qi)和分(fen)(fen)類器(qi)(qi)以適應移動(dong)物體(ti)(ti)的(de)(de)(de)外觀變化。與(yu)(yu)一(yi)(yi)些(xie)具有挑(tiao)戰性的(de)(de)(de)基準(zhun)(zhun)視(shi)(shi)頻序(xu)列的(de)(de)(de)最(zui)先進的(de)(de)(de)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)進行比(bi)較(jiao)表(biao)明,當我們(men)(men)的(de)(de)(de)跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)的(de)(de)(de)MATLAB實現與(yu)(yu)適度(du)(du)的(de)(de)(de)圖形處(chu)理一(yi)(yi)起(qi)使(shi)用時,我們(men)(men)的(de)(de)(de)深(shen)度(du)(du)學(xue)習跟(gen)(gen)(gen)(gen)蹤(zong)(zong)器(qi)(qi)更準(zhun)(zhun)確,同時保持低計算成本(ben)和實時性能單位(GPU)。

 

1 引言(yan)

視(shi)(shi)覺(jue)(jue)跟蹤(zong),也稱為對象(xiang)跟蹤(zong),是(shi)指當對象(xiang)在(zai)視(shi)(shi)頻中(zhong)移(yi)動(dong)(dong)(dong)(dong)時自動(dong)(dong)(dong)(dong)估計對象(xiang)的(de)(de)(de)(de)(de)軌(gui)跡(ji)。它(ta)在(zai)許多(duo)領(ling)域(yu)都有(you)許多(duo)應(ying)用,包(bao)括安(an)全(quan)視(shi)(shi)頻監(jian)控,人機(ji)交(jiao)互(hu)和體育視(shi)(shi)頻分析。雖然(ran)某個(ge)應(ying)用程序可能(neng)需要跟蹤(zong)多(duo)個(ge)移(yi)動(dong)(dong)(dong)(dong)對象(xiang),但(dan)典型(xing)的(de)(de)(de)(de)(de)設置是(shi)分別(bie)處(chu)理(li)每個(ge)對象(xiang)。在(zai)第一視(shi)(shi)頻幀(zhen)中(zhong)手動(dong)(dong)(dong)(dong)或(huo)自動(dong)(dong)(dong)(dong)識別(bie)要跟蹤(zong)的(de)(de)(de)(de)(de)對象(xiang)之后,視(shi)(shi)覺(jue)(jue)跟蹤(zong)的(de)(de)(de)(de)(de)目標是(shi)在(zai)后續幀(zhen)上(shang)自動(dong)(dong)(dong)(dong)跟蹤(zong)對象(xiang)的(de)(de)(de)(de)(de)軌(gui)跡(ji)。雖然(ran)現有(you)的(de)(de)(de)(de)(de)計算機(ji)視(shi)(shi)覺(jue)(jue)技術可以(yi)在(zai)良好控制(zhi)的(de)(de)(de)(de)(de)環(huan)境下(xia)為這個(ge)問題(ti)提供令(ling)人滿意的(de)(de)(de)(de)(de)解決(jue)方案,但(dan)是(shi)由于諸如部分遮擋,雜亂的(de)(de)(de)(de)(de)背景,快速和突然(ran)的(de)(de)(de)(de)(de)運(yun)動(dong)(dong)(dong)(dong),戲劇性的(de)(de)(de)(de)(de)照明變化(hua)以(yi)及大的(de)(de)(de)(de)(de)因素,在(zai)許多(duo)實際應(ying)用中(zhong)該問題(ti)可能(neng)是(shi)非常具有(you)挑戰性的(de)(de)(de)(de)(de)。觀點和姿勢的(de)(de)(de)(de)(de)變化(hua)。

從(cong)學(xue)習(xi)(xi)的(de)角度來(lai)看,視覺(jue)跟(gen)(gen)蹤(zong)(zong)具有(you)(you)挑戰(zhan)性,因為它在(zai)第一個視頻幀中(zhong)只(zhi)有(you)(you)一個被識(shi)別對(dui)象形式的(de)標記(ji)實例。在(zai)隨后(hou)的(de)幀中(zhong),跟(gen)(gen)蹤(zong)(zong)器必須僅用未標記(ji)的(de)數據來(lai)學(xue)習(xi)(xi)被跟(gen)(gen)蹤(zong)(zong)對(dui)象的(de)變化。由于(yu)沒有(you)(you)關于(yu)被跟(gen)(gen)蹤(zong)(zong)對(dui)象的(de)先(xian)驗知識(shi),跟(gen)(gen)蹤(zong)(zong)器很容易(yi)偏離(li)目標。為了解(jie)決這個問(wen)題,已經(jing)提出了一些采用半監督(du)學(xue)習(xi)(xi)方法的(de)跟(gen)(gen)蹤(zong)(zong)器。另一種方法首先(xian)從(cong)輔助數據中(zhong)學(xue)習(xi)(xi)圖像(xiang)特征的(de)字(zi)典(例如(ru)SIFT局(ju)部描述(shu)符),然后(hou)將學(xue)到的(de)知識(shi)傳(chuan)遞(di)給在(zai)線跟(gen)(gen)蹤(zong)(zong)。

另一個問題是許多(duo)現有(you)(you)的(de)(de)(de)跟(gen)蹤(zong)(zong)器(qi)(qi)使(shi)用(yong)的(de)(de)(de)圖像(xiang)表(biao)示可能不(bu)足以(yi)在復(fu)雜(za)環境(jing)中(zhong)進(jin)(jin)行(xing)穩健(jian)跟(gen)蹤(zong)(zong)。對于有(you)(you)辨(bian)別力的(de)(de)(de)跟(gen)蹤(zong)(zong)器(qi)(qi)尤其如(ru)此,這些跟(gen)蹤(zong)(zong)器(qi)(qi)通常(chang)更(geng)強調改進(jin)(jin)分類器(qi)(qi)而不(bu)是使(shi)用(yong)的(de)(de)(de)圖像(xiang)特征。雖然許多(duo)跟(gen)蹤(zong)(zong)器(qi)(qi)只是使(shi)用(yong)原始像(xiang)素作(zuo)為(wei)特征,但有(you)(you)些嘗(chang)試使(shi)用(yong)了更(geng)多(duo)信息功(gong)能,例如(ru)Haar功(gong)能,直(zhi)方圖功(gong)能和本地(di)二進(jin)(jin)制(zhi)模(mo)式。但是,這些功(gong)能都(dou)是離線(xian)手(shou)工制(zhi)作(zuo),但不(bu)是為(wei)跟(gen)蹤(zong)(zong)對象量(liang)身定制(zhi)的(de)(de)(de)。最近,深度(du)學(xue)習架構(gou)已經成功(gong)地(di)用(yong)于為(wei)一些復(fu)雜(za)的(de)(de)(de)任(ren)務(wu)提供非常(chang)有(you)(you)希望的(de)(de)(de)結果,包括圖像(xiang)分類和語音識(shi)別。成功(gong)的(de)(de)(de)關(guan)鍵是利用(yong)深層架構(gou)通過多(duo)種非線(xian)性變換來(lai)學(xue)習更(geng)豐富的(de)(de)(de)不(bu)變特征。我們認為(wei),出于同樣的(de)(de)(de)原因,視覺跟(gen)蹤(zong)(zong)也可以(yi)從深度(du)學(xue)習中(zhong)受益。

在本文中(zhong)(zhong),我(wo)們提出了一(yi)種新的(de)(de)(de)(de)(de)深(shen)度學(xue)習(xi)(xi)跟(gen)(gen)(gen)蹤器( deep learning tracker DLT),用(yong)于(yu)(yu)強(qiang)大(da)的(de)(de)(de)(de)(de)視(shi)覺跟(gen)(gen)(gen)蹤。我(wo)們嘗試通(tong)過開發一(yi)種強(qiang)大(da)的(de)(de)(de)(de)(de)判別跟(gen)(gen)(gen)蹤器來(lai)結合(he)生成和(he)判別跟(gen)(gen)(gen)蹤器背后的(de)(de)(de)(de)(de)哲學(xue),該跟(gen)(gen)(gen)蹤器使用(yong)自動學(xue)習(xi)(xi)的(de)(de)(de)(de)(de)有(you)效(xiao)圖像表(biao)示(shi)(shi)。 DLT與其(qi)(qi)他現有(you)跟(gen)(gen)(gen)蹤器有(you)一(yi)些(xie)關鍵特(te)(te)征。首先(xian)(xian),它使用(yong)堆疊去噪(zao)自動編碼器(stacked denoising autoencoder SDAE)來(lai)學(xue)習(xi)(xi)大(da)圖像數(shu)據集(ji)中(zhong)(zhong)的(de)(de)(de)(de)(de)通(tong)用(yong)圖像特(te)(te)征作為輔助數(shu)據,然后將學(xue)到(dao)的(de)(de)(de)(de)(de)特(te)(te)征傳輸到(dao)在線跟(gen)(gen)(gen)蹤任務。其(qi)(qi)次(ci),與先(xian)(xian)前也從輔助數(shu)據學(xue)習(xi)(xi)特(te)(te)征的(de)(de)(de)(de)(de)方法(fa)不同,DLT中(zhong)(zhong)的(de)(de)(de)(de)(de)學(xue)習(xi)(xi)特(te)(te)征可以(yi)進一(yi)步調整(zheng)以(yi)適應在線跟(gen)(gen)(gen)蹤過程(cheng)中(zhong)(zhong)的(de)(de)(de)(de)(de)特(te)(te)定對象(xiang)。因(yin)為DLT利用(yong)多個非線性變換,所(suo)獲得(de)的(de)(de)(de)(de)(de)圖像表(biao)示(shi)(shi)比基(ji)于(yu)(yu)PCA的(de)(de)(de)(de)(de)先(xian)(xian)前方法(fa)更(geng)具表(biao)現力。此外,由(you)于(yu)(yu)表(biao)示(shi)(shi)跟(gen)(gen)(gen)蹤對象(xiang)不需要解(jie)決基(ji)于(yu)(yu)稀(xi)疏編碼的(de)(de)(de)(de)(de)先(xian)(xian)前跟(gen)(gen)(gen)蹤器中(zhong)(zhong)的(de)(de)(de)(de)(de)優化問題,因(yin)此DLT明顯更(geng)有(you)效(xiao),因(yin)此更(geng)適合(he)于(yu)(yu)實時(shi)應用(yong)。

 

2 視覺跟(gen)蹤的(de)粒(li)子濾波(bo)方法

 

粒子濾波(bo)方法通常用(yong)(yong)于(yu)(yu)視覺跟蹤。從(cong)統(tong)(tong)計(ji)角度來看,它是一種(zhong)順序蒙特卡羅重要抽樣方法,用(yong)(yong)于(yu)(yu)根據觀(guan)(guan)測序列估(gu)計(ji)動(dong)態系統(tong)(tong)的潛狀態變量(liang)。在(zai)時(shi)(shi)間(jian)t,Supppse st 和 yt 分別表示(shi)潛狀態和觀(guan)(guan)察變量(liang)。在(zai)數學上,對象跟蹤對應于(yu)(yu)基于(yu)(yu)直到(dao)前一時(shi)(shi)間(jian)步驟(zou)的觀(guan)(guan)察來找到(dao)每個(ge)時(shi)(shi)間(jian)步長t的最(zui)可能狀態的問題:

當一個新的觀察到達時,狀態(tai)變量的后驗分布根據貝葉斯規則更新:

粒子(zi)濾波器方法(fa)的(de)具(ju)體內容是它通過一(yi)組 n 個(ge)樣本(稱為粒子(zi))逼(bi)近真實的(de)后驗狀(zhuang)態分布 p(st|y1:t),其(qi)中相應的(de)重(zhong)要性權重(zhong)總和(he)為1.粒子(zi)是從重(zhong)要性分布 q(st|s1:t-1, y1:t),權重(zhong)更新(xin)如下:

為(wei)了(le)選(xuan)擇重(zhong)(zhong)要性(xing)分布 q(st|s1:t-1, y1:t),通(tong)常將其簡化為(wei)一階馬爾(er)可夫過程 q(s:t|s:t-1),其中(zhong)狀態(tai)轉移(yi)獨立(li)于觀察。因此,權(quan)(quan)重(zhong)(zhong)更新為(wei)。注意,在每(mei)個權(quan)(quan)重(zhong)(zhong)更新步驟之后,權(quan)(quan)重(zhong)(zhong)之和可能不再(zai)等于1。如果(guo)它小(xiao)于閾(yu)值,則應用重(zhong)(zhong)新采樣以(yi)從當前粒(li)(li)子集中(zhong)按比例繪制n個粒(li)(li)子,然后將它們的權(quan)(quan)重(zhong)(zhong)重(zhong)(zhong)置(zhi)為(wei) 1 / n。如果(guo)權(quan)(quan)重(zhong)(zhong)和高于閾(yu)值,則應用線性(xing)歸一化以(yi)確保權(quan)(quan)重(zhong)(zhong)總和為(wei)1。

對(dui)(dui)(dui)于(yu)對(dui)(dui)(dui)象跟(gen)(gen)(gen)蹤(zong)(zong),狀態變(bian)量si通常(chang)表示六個(ge)仿射變(bian)換參數,其(qi)對(dui)(dui)(dui)應于(yu)平移(yi),比例,縱橫比,旋轉和偏斜。特別地(di),q(st|st-1) 的(de)每個(ge)維(wei)度由正(zheng)態分布獨立建模。對(dui)(dui)(dui)于(yu)每個(ge)幀(zhen),跟(gen)(gen)(gen)蹤(zong)(zong)結果(guo)只是具有最大(da)權(quan)重的(de)粒子。雖然許多跟(gen)(gen)(gen)蹤(zong)(zong)器也采用相(xiang)同的(de)粒子濾波器方法,但主(zhu)要區別在于(yu)觀測模型 p(yt|sti) 的(de)公式。顯然,一個(ge)好的(de)模型應該能(neng)夠(gou)很好地(di)區分跟(gen)(gen)(gen)蹤(zong)(zong)對(dui)(dui)(dui)象和背景,同時仍然能(neng)夠(gou)抵抗各種類型的(de)對(dui)(dui)(dui)象變(bian)化(hua)。對(dui)(dui)(dui)于(yu)判別跟(gen)(gen)(gen)蹤(zong)(zong)器,該公式通常(chang)用于(yu)設置與分類器輸出的(de)置信度呈(cheng)指(zhi)數相(xiang)關的(de)概率(lv)。

粒子(zi)(zi)濾波器(qi)框架是(shi)視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)主要方法(fa),原因有幾個(ge)。首先,它(ta)超越了高(gao)斯(si)分(fen)布,比卡爾曼濾波器(qi)方法(fa)更(geng)通(tong)用(yong)。此外,它(ta)通(tong)過一(yi)(yi)(yi)組粒子(zi)(zi)而不是(shi)僅僅一(yi)(yi)(yi)個(ge)點(例(li)如模式)來近似(si)后狀態(tai)分(fen)布。對于視覺(jue)(jue)跟蹤(zong)(zong),此屬性使跟蹤(zong)(zong)器(qi)可以更(geng)輕松地從錯誤的(de)(de)跟蹤(zong)(zong)結(jie)果中(zhong)(zhong)恢復。有關(guan)使用(yong)粒子(zi)(zi)濾波器(qi)進(jin)行(xing)視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)教程可以在中(zhong)(zhong)找到。最近的(de)(de)一(yi)(yi)(yi)些工(gong)作,例(li)如,進(jin)一(yi)(yi)(yi)步改進(jin)了用(yong)于視覺(jue)(jue)跟蹤(zong)(zong)的(de)(de)粒子(zi)(zi)濾波器(qi)框架。

3 DLT(deep learning tracker)追蹤器

DLT詳細介紹

我們(men)現在(zai)介紹我們(men)的(de)DLT跟蹤器(qi)。在(zai)離線訓(xun)(xun)練(lian)階段期間,通過訓(xun)(xun)練(lian)具有(you)輔助圖像數據的(de)SDAE來執(zhi)行(xing)(xing)無(wu)監督特征學習以學習通用自然圖像特征。首(shou)先(xian)應用逐(zhu)層預訓(xun)(xun)練(lian),然后對整個SDAE進行(xing)(xing)微調。在(zai)在(zai)線跟蹤過程期間,將額外的(de)分(fen)(fen)類(lei)(lei)層添加到訓(xun)(xun)練(lian)的(de)SDAE的(de)編碼(ma)器(qi)部(bu)(bu)分(fen)(fen)以產(chan)生分(fen)(fen)類(lei)(lei)神經網絡。本節其(qi)余部(bu)(bu)分(fen)(fen)提供(gong)了更多詳細信息。

3.1 輔助數據(ju)的離線(xian)培訓

3.1.1 數(shu)據集(ji)和(he)預處理

我(wo)們(men)使(shi)用(yong)Tiny Images數(shu)據(ju)集(ji)(ji)作為離線訓練(lian)的(de)(de)(de)(de)(de)輔(fu)助數(shu)據(ju)。通過向七個搜(sou)索引(yin)擎提供非(fei)抽(chou)象(xiang)的(de)(de)(de)(de)(de)英語名(ming)詞,從(cong)網(wang)絡上收集(ji)(ji)數(shu)據(ju)集(ji)(ji),涵蓋現實世(shi)界(jie)中(zhong)(zhong)發現的(de)(de)(de)(de)(de)許多(duo)對象(xiang)和場(chang)景。從(cong)每張尺寸為32×32的(de)(de)(de)(de)(de)近8000萬張微小圖(tu)(tu)(tu)像中(zhong)(zhong),我(wo)們(men)隨機抽(chou)樣(yang)100萬張圖(tu)(tu)(tu)像進行離線訓練(lian)。由(you)于(yu)我(wo)們(men)的(de)(de)(de)(de)(de)經驗比較中(zhong)(zhong)包含的(de)(de)(de)(de)(de)大多(duo)數(shu)最先進的(de)(de)(de)(de)(de)跟(gen)蹤器僅使(shi)用(yong)灰度圖(tu)(tu)(tu)像,因(yin)此(ci)我(wo)們(men)將(jiang)所有采樣(yang)圖(tu)(tu)(tu)像轉換(huan)為灰度(但我(wo)們(men)的(de)(de)(de)(de)(de)方法也可以在(zai)必要時直接使(shi)用(yong)彩色圖(tu)(tu)(tu)像)。因(yin)此(ci),每個圖(tu)(tu)(tu)像把3232的圖像轉為10241的(de)向量,每維的(de)特征(zheng)值被歸一化(每個維度的(de)特征(zheng)值線(xian)性縮(suo)放到范圍[0,1]),但不應用進一步的(de)預處理。

3.1.2 使用堆疊去噪自動編碼(ma)器(qi)(SDAE)學習通用圖像特征

SDAE詳細(xi)介(jie)紹(shao)

SDAE的基本(ben)構建塊是(shi)稱為(wei)去噪自(zi)動編碼(ma)器(DAE)的單(dan)層(ceng)神經(jing)(jing)網(wang)絡,它是(shi)傳統自(zi)動編碼(ma)器的最(zui)新變體。它學(xue)會(hui)從損壞的版本(ben)中(zhong)(zhong)恢復數(shu)據樣本(ben)。這樣做,學(xue)習了魯棒特征(zheng),因(yin)為(wei)神經(jing)(jing)網(wang)絡包(bao)含“瓶(ping)頸”,其是(shi)具有比輸入(ru)單(dan)元(yuan)更(geng)少單(dan)元(yuan)的隱藏層(ceng)。我(wo)們在圖1(a)中(zhong)(zhong)展示(shi)了 DAE 的架構。

讓共有(you)k個訓練樣本(ben)。對于第(di)i個樣本(ben),讓xi表示原始數(shu)據樣本(ben),x~i是xi的損(sun)壞版本(ben),其中損(sun)壞可能是屏蔽損(sun)壞,加性高斯噪(zao)聲或椒鹽噪(zao)聲。對于網絡權重,讓W和 W0 分別(bie)表示編碼(ma)器(qi)和解(jie)碼(ma)器(qi)的權重,盡(jin)管沒有(you)必(bi)要,但(dan)它(ta)們(men)可以綁定。類似地,b和b0指的是偏差(cha)項。 DAE 通過解(jie)決以下(xia)(正則化)優化問題來學習:

其(qi)中:

這里λ是平衡重(zhong)建(jian)損失(shi)和權重(zhong)懲罰項的參數(shu),k·kF表示 Frobenius 范數(shu),而f(·)是非線性(xing)激(ji)活函數(shu),其(qi)通(tong)常是邏(luo)輯S形函數(shu)或雙曲正切函數(shu)。 通(tong)過(guo)從(cong)損壞版本重(zhong)建(jian)輸入,DAE 比傳統(tong)自動編(bian)碼器更(geng)有效地(di)通(tong)過(guo)阻止自動編(bian)碼器簡單(dan)地(di)學習身份(fen)映射來發現更(geng)強大(da)的特(te)征。

為(wei)了進(jin)一步增強學習有意義的(de)(de)(de)特(te)征,稀(xi)疏(shu)性(xing)約束被強加于隱藏(zang)單元的(de)(de)(de)平均(jun)激(ji)活(huo)值。 如果(guo)使用邏輯(ji)sigmoid激(ji)活(huo)函數,則(ze)可以將每個(ge)單元的(de)(de)(de)輸出視為(wei)其(qi)活(huo)動的(de)(de)(de)概率。 設ρj表示第(di)j個(ge)單位的(de)(de)(de)目標稀(xi)疏(shu)度(du),ρj表示其(qi)平均(jun)經驗(yan)激(ji)活(huo)率。 然后可以引入(ru)ρ和ρ的(de)(de)(de)交叉熵作為(wei)Eqn4的(de)(de)(de)附加懲罰項:

其中m是隱藏單位(wei)的數(shu)量。在(zai)預訓練(lian)階段(duan)之后,可(ke)以(yi)展開SDAE以(yi)形成前饋(kui)神經(jing)網(wang)(wang)絡。使用經(jing)典(dian)的反向(xiang)傳(chuan)播算法對整(zheng)個(ge)網(wang)(wang)絡進行微調。為了提(ti)高收斂速度,可(ke)以(yi)應用簡(jian)單動量法或更(geng)高級的優化技術,例如 L-BFGS 或共軛梯(ti)度法。

對于(yu)網絡架構,我們(men)在第一(yi)層使用過完(wan)備過濾器(qi)。這是一(yi)個(ge)(ge)(ge)深思熟慮的(de)選(xuan)擇,因為已(yi)經發現過度(du)完(wan)備的(de)基礎通常可以更(geng)好地捕獲(huo)圖(tu)像(xiang)結(jie)構。這符合(he)V1視皮層的(de)神經生理機制。然后(hou),每當添加新層時,單位(wei)(wei)數減少一(yi)半(ban),直到(dao)只有(you)256個(ge)(ge)(ge)隱(yin)藏單位(wei)(wei),作為自動編碼(ma)器(qi)的(de)瓶頸。 SDAE的(de)整個(ge)(ge)(ge)結(jie)構如圖(tu)1(b)所(suo)示(shi)。為了進一(yi)步加快第一(yi)層預訓練以學習(xi)局(ju)部特征,我們(men)將每個(ge)(ge)(ge)32×32微小圖(tu)像(xiang)分成五個(ge)(ge)(ge)16×16補丁(左(zuo)上(shang),右上(shang),左(zuo)下(xia)(xia),右下(xia)(xia),中間),然后(hou)訓練五個(ge)(ge)(ge) DAE,每個(ge)(ge)(ge) DAE 有(you)512個(ge)(ge)(ge)隱(yin)藏單位(wei)(wei)。之后(hou),我們(men)用五個(ge)(ge)(ge)小 DAE 的(de)權(quan)重初始化一(yi)個(ge)(ge)(ge)大 DAE,然后(hou)正(zheng)常訓練大 DAE。第一(yi)層中的(de)一(yi)些隨機選(xuan)擇的(de)濾波器(qi)如圖(tu)2所(suo)示(shi)。正(zheng)如所(suo)料(liao),大多數濾波器(qi)起到(dao)高度(du)局(ju)部化的(de)邊緣檢測器(qi)的(de)作用。

3.2 在線(xian)跟蹤流程

要跟蹤(zong)的(de)(de)對象由其第一(yi)幀(zhen)中(zhong)的(de)(de)邊界框的(de)(de)位(wei)置指定。在(zai)離(li)物體很(hen)近的(de)(de)距離(li)處(chu)從(cong)背景(jing)中(zhong)收集一(yi)些(xie)負(fu)面的(de)(de)例子(zi)(zi)(zi)(zi)。然后將(jiang)Sigmoid分類層添加到從(cong)離(li)線訓練獲得的(de)(de)SDAE的(de)(de)編碼器(qi)部分。整個(ge)網絡(luo)架構如(ru)圖(tu)1(c)所示。當(dang)新的(de)(de)視頻幀(zhen)到達(da)時,我(wo)們首先根據粒(li)(li)子(zi)(zi)(zi)(zi)濾波(bo)器(qi)方法繪制粒(li)(li)子(zi)(zi)(zi)(zi)(一(yi)個(ge)粒(li)(li)子(zi)(zi)(zi)(zi)就是目標可能存(cun)在(zai)的(de)(de)一(yi)塊圖(tu)像(xiang),32*32)。然后通(tong)過簡單的(de)(de)前向傳播網絡(luo)來確定每個(ge)粒(li)(li)子(zi)(zi)(zi)(zi)的(de)(de)置信度pi。該(gai)方法計算量小,精度高。

 

圖(tu)1:網絡(luo)(luo)架(jia)構的(de)一(yi)些關鍵(jian)組件:(a)去噪自動編(bian)碼器; (b)堆疊去噪自動編(bian)碼器; (c)在線跟(gen)蹤網絡(luo)(luo)。

 

圖(tu)2:學習(xi)SDAE第一層中的一些過(guo)濾器。

 

如果(guo)幀中所(suo)有粒子的最(zui)大置信度低于預(yu)定閾(yu)值τ,則它可以(yi)(yi)指示被跟蹤對象的顯著(zhu)外觀變(bian)化。要(yao)解決(jue)此(ci)問題,可以(yi)(yi)在發生這種(zhong)情況時再(zai)次調整(tune)整(zheng)個網絡。我們注意到閾值(zhi) τ 應該通過維(wei)持權衡來設(she)定(ding)。如果(guo) τ 太小,則跟(gen)蹤器無法很(hen)好地適應外(wai)觀變化,如果(guo)τ太大(da),即(ji)使(shi)遮(zhe)擋(dang)物體(ti)或(huo)背(bei)景也可能被(bei)錯誤地視為被(bei)跟(gen)蹤物體(ti),因此導(dao)致(zhi)目標漂移。

4 實驗

我(wo)們(men)使用(yong)10個具有挑戰(zhan)性(xing)的(de)(de)基準視(shi)頻序(xu)列,在(zai)本節中憑經驗將 DLT 與一些(xie)最先進的(de)(de)跟(gen)蹤(zong)(zong)(zong)器進行比較。這(zhe)些(xie)跟(gen)蹤(zong)(zong)(zong)器是:MTT,CT,VTD,MIL,L1T,TLD 和 IVT 的(de)(de)最新變體。我(wo)們(men)使用(yong)其作者提(ti)(ti)供(gong)(gong)(gong)的(de)(de)這(zhe)些(xie)跟(gen)蹤(zong)(zong)(zong)器的(de)(de)原(yuan)始實現。如(ru)果跟(gen)蹤(zong)(zong)(zong)器只能(neng)處(chu)理灰(hui)度視(shi)頻,MATLAB 圖像處(chu)理工具箱提(ti)(ti)供(gong)(gong)(gong)的(de)(de) rgb2gray 功能(neng)用(yong)于將彩色視(shi)頻轉換為(wei)灰(hui)度。為(wei)了加速計(ji)算(suan),我(wo)們(men)還利(li)用(yong) MATLAB Parallel Computing Toolbox提(ti)(ti)供(gong)(gong)(gong)的(de)(de) GPU 計(ji)算(suan)進行離線培訓和在(zai)線跟(gen)蹤(zong)(zong)(zong)。代碼和補充材料在(zai)項目頁面上提(ti)(ti)供(gong)(gong)(gong):http://winsty.net/dlt.html。

 

4.1 DLT實施(shi)細節

我(wo)們使(shi)用具有(you)(you)動(dong)量的梯度方(fang)法(fa)進行優化。 動(dong)量參數(shu)設(she)(she)置為(wei)(wei)0.9。 對于(yu) SDAE 的離線訓練,我(wo)們注入方(fang)差為(wei)(wei)0.0004的高斯噪聲(sheng)以(yi)生成損(sun)壞的輸入。 我(wo)們將λ= 0.0001,ρi= 0.05,小(xiao)批量大小(xiao)設(she)(she)置為(wei)(wei)100.對于(yu)在線調整,我(wo)們使(shi)用較大的λ值(zhi)0.002以(yi)避免(mian)過度擬合(he)和(he)較小(xiao)的小(xiao)批量大小(xiao)10.閾值(zhi)τ設(she)(she)置為(wei)(wei)0.9。 粒子濾(lv)波器使(shi)用1000個(ge)粒子。 對于(yu)其(qi)他參數(shu),例如粒子濾(lv)波器中的仿射參數(shu)和(he)其(qi)他方(fang)法(fa)中的搜索(suo)窗口大小(xiao),我(wo)們執行網(wang)格搜索(suo)以(yi)確定最佳值(zhi)。 如果適(shi)用,相同的設(she)(she)置將應(ying)用于(yu)所有(you)(you)其(qi)他方(fang)法(fa)。

 

 

 

 

0條評論
0 / 1000
代碼的路
100文章(zhang)數
1粉絲數
代碼的路
100 文(wen)章 | 1 粉絲
代碼的路
100文章數
1粉絲(si)數
代碼的路
100 文章(zhang) | 1 粉絲
原創

學習用于視覺跟蹤的深度緊湊圖像表示Learning a Deep Compact Image Rep

2023-02-20 09:23:52
24
0

摘要

在本(ben)文中,我們研究了跟(gen)蹤(zong)可能(neng)非常(chang)復雜(za)背景(jing)的(de)(de)(de)(de)視頻中運動(dong)物體軌跡的(de)(de)(de)(de)挑戰(zhan)性(xing)問題(ti)(ti)。與(yu)大多(duo)數僅在線(xian)(xian)學(xue)習(xi)跟(gen)蹤(zong)對象外觀(guan)的(de)(de)(de)(de)現(xian)有(you)跟(gen)蹤(zong)器(qi)(qi)相比,我們采用不同的(de)(de)(de)(de)方法,受深(shen)(shen)度學(xue)習(xi)架構的(de)(de)(de)(de)最新進展(zhan)的(de)(de)(de)(de)啟(qi)發,更加強調(diao)(無監督)特(te)(te)征(zheng)學(xue)習(xi)問題(ti)(ti)。具體來說,通(tong)過使用輔助自(zi)然(ran)圖(tu)(tu)像,我們離線(xian)(xian)訓(xun)練堆疊(die)去(qu)噪自(zi)動(dong)編(bian)碼器(qi)(qi),以學(xue)習(xi)對變化更加魯棒的(de)(de)(de)(de)通(tong)用圖(tu)(tu)像特(te)(te)征(zheng)。然(ran)后是從離線(xian)(xian)培訓(xun)到(dao)在線(xian)(xian)跟(gen)蹤(zong)過程的(de)(de)(de)(de)知識轉(zhuan)移(yi)。在線(xian)(xian)跟(gen)蹤(zong)涉及(ji)分(fen)類(lei)神經網絡,該分(fen)類(lei)神經網絡由(you)訓(xun)練的(de)(de)(de)(de)自(zi)動(dong)編(bian)碼器(qi)(qi)的(de)(de)(de)(de)編(bian)碼器(qi)(qi)部分(fen)構成(cheng)(cheng),作為(wei)特(te)(te)征(zheng)提取(qu)器(qi)(qi)和附加分(fen)類(lei)層(ceng)。可以進一步調(diao)整(zheng)特(te)(te)征(zheng)提取(qu)器(qi)(qi)和分(fen)類(lei)器(qi)(qi)以適應移(yi)動(dong)物體的(de)(de)(de)(de)外觀(guan)變化。與(yu)一些具有(you)挑戰(zhan)性(xing)的(de)(de)(de)(de)基(ji)準視頻序列的(de)(de)(de)(de)最先(xian)進的(de)(de)(de)(de)跟(gen)蹤(zong)器(qi)(qi)進行比較表明,當我們的(de)(de)(de)(de)跟(gen)蹤(zong)器(qi)(qi)的(de)(de)(de)(de)MATLAB實(shi)現(xian)與(yu)適度的(de)(de)(de)(de)圖(tu)(tu)形(xing)處理(li)一起使用時(shi),我們的(de)(de)(de)(de)深(shen)(shen)度學(xue)習(xi)跟(gen)蹤(zong)器(qi)(qi)更準確,同時(shi)保(bao)持(chi)低計算成(cheng)(cheng)本(ben)和實(shi)時(shi)性(xing)能(neng)單位(GPU)。

 

1 引言

視(shi)(shi)覺(jue)跟(gen)(gen)蹤(zong)(zong),也(ye)稱為(wei)對(dui)象(xiang)跟(gen)(gen)蹤(zong)(zong),是(shi)指當(dang)對(dui)象(xiang)在視(shi)(shi)頻(pin)中移動(dong)時自(zi)動(dong)估計(ji)對(dui)象(xiang)的(de)軌(gui)跡。它在許多領(ling)域都有許多應(ying)用(yong),包(bao)括安全視(shi)(shi)頻(pin)監控,人機交互和(he)(he)體育(yu)視(shi)(shi)頻(pin)分(fen)析。雖然某個應(ying)用(yong)程序可能需要(yao)跟(gen)(gen)蹤(zong)(zong)多個移動(dong)對(dui)象(xiang),但(dan)典型的(de)設(she)置是(shi)分(fen)別(bie)處理每個對(dui)象(xiang)。在第一視(shi)(shi)頻(pin)幀中手動(dong)或自(zi)動(dong)識別(bie)要(yao)跟(gen)(gen)蹤(zong)(zong)的(de)對(dui)象(xiang)之(zhi)后(hou)(hou),視(shi)(shi)覺(jue)跟(gen)(gen)蹤(zong)(zong)的(de)目標是(shi)在后(hou)(hou)續幀上自(zi)動(dong)跟(gen)(gen)蹤(zong)(zong)對(dui)象(xiang)的(de)軌(gui)跡。雖然現有的(de)計(ji)算機視(shi)(shi)覺(jue)技術可以(yi)在良好控制(zhi)的(de)環境(jing)下為(wei)這個問(wen)題(ti)提(ti)供令人滿意的(de)解(jie)決方案,但(dan)是(shi)由于諸(zhu)如部分(fen)遮擋,雜亂的(de)背景,快速和(he)(he)突然的(de)運(yun)動(dong),戲劇性的(de)照明(ming)變(bian)化(hua)以(yi)及大的(de)因素,在許多實際應(ying)用(yong)中該問(wen)題(ti)可能是(shi)非常具(ju)有挑戰(zhan)性的(de)。觀點和(he)(he)姿勢的(de)變(bian)化(hua)。

從(cong)(cong)學習的角度(du)來看,視覺跟蹤(zong)具(ju)有挑戰性,因為它在(zai)第(di)一(yi)個視頻幀中只有一(yi)個被識別對(dui)象(xiang)形式的標(biao)記(ji)(ji)實(shi)例。在(zai)隨(sui)后(hou)的幀中,跟蹤(zong)器必須僅用未(wei)標(biao)記(ji)(ji)的數據來學習被跟蹤(zong)對(dui)象(xiang)的變(bian)化(hua)。由于沒有關于被跟蹤(zong)對(dui)象(xiang)的先(xian)驗知識,跟蹤(zong)器很(hen)容易偏離目標(biao)。為了(le)解決(jue)這個問題,已經提出了(le)一(yi)些(xie)采用半監督學習方(fang)法(fa)的跟蹤(zong)器。另一(yi)種方(fang)法(fa)首先(xian)從(cong)(cong)輔助數據中學習圖(tu)像(xiang)特征的字典(例如SIFT局部描述符),然后(hou)將學到的知識傳遞給在(zai)線跟蹤(zong)。

另一個問題是(shi)(shi)許多(duo)現有(you)(you)的(de)跟(gen)(gen)蹤(zong)(zong)(zong)器使用(yong)的(de)圖像(xiang)表(biao)示(shi)可能不(bu)足以在復雜環境中進行穩健跟(gen)(gen)蹤(zong)(zong)(zong)。對(dui)于有(you)(you)辨別力的(de)跟(gen)(gen)蹤(zong)(zong)(zong)器尤(you)其(qi)如(ru)(ru)此,這些跟(gen)(gen)蹤(zong)(zong)(zong)器通常更強調改進分類器而不(bu)是(shi)(shi)使用(yong)的(de)圖像(xiang)特征(zheng)。雖然(ran)許多(duo)跟(gen)(gen)蹤(zong)(zong)(zong)器只是(shi)(shi)使用(yong)原始像(xiang)素作為(wei)特征(zheng),但有(you)(you)些嘗試使用(yong)了更多(duo)信息功(gong)(gong)能,例如(ru)(ru)Haar功(gong)(gong)能,直(zhi)方圖功(gong)(gong)能和本地二(er)進制模式。但是(shi)(shi),這些功(gong)(gong)能都(dou)是(shi)(shi)離線手工(gong)制作,但不(bu)是(shi)(shi)為(wei)跟(gen)(gen)蹤(zong)(zong)(zong)對(dui)象量(liang)身定制的(de)。最近(jin),深度(du)學(xue)習架構已經成(cheng)功(gong)(gong)地用(yong)于為(wei)一些復雜的(de)任務(wu)提供(gong)非(fei)常有(you)(you)希望(wang)的(de)結果,包括圖像(xiang)分類和語(yu)音識別。成(cheng)功(gong)(gong)的(de)關鍵(jian)是(shi)(shi)利用(yong)深層架構通過多(duo)種非(fei)線性變換來學(xue)習更豐富的(de)不(bu)變特征(zheng)。我們(men)認為(wei),出于同樣的(de)原因,視覺跟(gen)(gen)蹤(zong)(zong)(zong)也可以從深度(du)學(xue)習中受(shou)益(yi)。

在(zai)本文中,我們提出了一(yi)種新(xin)的(de)深度學(xue)(xue)(xue)習跟(gen)(gen)(gen)蹤(zong)器(qi)( deep learning tracker DLT),用(yong)(yong)于強大(da)的(de)視覺跟(gen)(gen)(gen)蹤(zong)。我們嘗試通(tong)過(guo)開(kai)發一(yi)種強大(da)的(de)判別(bie)跟(gen)(gen)(gen)蹤(zong)器(qi)來結合生成和判別(bie)跟(gen)(gen)(gen)蹤(zong)器(qi)背后(hou)的(de)哲學(xue)(xue)(xue),該跟(gen)(gen)(gen)蹤(zong)器(qi)使(shi)用(yong)(yong)自(zi)動(dong)學(xue)(xue)(xue)習的(de)有效圖像表示(shi)(shi)。 DLT與其他現有跟(gen)(gen)(gen)蹤(zong)器(qi)有一(yi)些關鍵特(te)(te)征(zheng)。首先(xian),它使(shi)用(yong)(yong)堆疊去(qu)噪自(zi)動(dong)編碼(ma)器(qi)(stacked denoising autoencoder SDAE)來學(xue)(xue)(xue)習大(da)圖像數據集中的(de)通(tong)用(yong)(yong)圖像特(te)(te)征(zheng)作(zuo)為(wei)輔(fu)(fu)助數據,然后(hou)將學(xue)(xue)(xue)到的(de)特(te)(te)征(zheng)傳輸到在(zai)線跟(gen)(gen)(gen)蹤(zong)任務。其次(ci),與先(xian)前(qian)也從輔(fu)(fu)助數據學(xue)(xue)(xue)習特(te)(te)征(zheng)的(de)方法(fa)不同,DLT中的(de)學(xue)(xue)(xue)習特(te)(te)征(zheng)可以(yi)進一(yi)步調整(zheng)以(yi)適應在(zai)線跟(gen)(gen)(gen)蹤(zong)過(guo)程(cheng)中的(de)特(te)(te)定對象。因(yin)為(wei)DLT利用(yong)(yong)多(duo)個非線性(xing)變(bian)換(huan),所獲得的(de)圖像表示(shi)(shi)比基(ji)(ji)于PCA的(de)先(xian)前(qian)方法(fa)更具表現力。此外,由于表示(shi)(shi)跟(gen)(gen)(gen)蹤(zong)對象不需要解決(jue)基(ji)(ji)于稀(xi)疏編碼(ma)的(de)先(xian)前(qian)跟(gen)(gen)(gen)蹤(zong)器(qi)中的(de)優化問題,因(yin)此DLT明顯更有效,因(yin)此更適合于實時(shi)應用(yong)(yong)。

 

2 視覺(jue)跟蹤的粒子(zi)濾波方法

 

粒子濾波方(fang)法(fa)通常用于(yu)視覺跟蹤。從(cong)統計角度(du)來看,它是一種順序蒙特卡羅重要抽(chou)樣方(fang)法(fa),用于(yu)根據(ju)觀(guan)(guan)測序列估計動態系統的潛(qian)狀態變量。在(zai)時(shi)(shi)間t,Supppse st 和 yt 分別(bie)表示潛(qian)狀態和觀(guan)(guan)察變量。在(zai)數(shu)學上,對象跟蹤對應于(yu)基于(yu)直到前一時(shi)(shi)間步(bu)驟的觀(guan)(guan)察來找到每個時(shi)(shi)間步(bu)長t的最可能狀態的問題:

當一個新的(de)觀(guan)察到達(da)時(shi),狀態變量的(de)后(hou)驗分布根據貝葉斯規則更新:

粒(li)(li)子濾波器方法的(de)具體內容是它(ta)通過一組 n 個樣(yang)本(稱為(wei)粒(li)(li)子)逼近真實的(de)后驗狀態分布 p(st|y1:t),其(qi)中相應的(de)重要性(xing)權重總和為(wei)1.粒(li)(li)子是從重要性(xing)分布 q(st|s1:t-1, y1:t),權重更新如下:

為了選擇重要性(xing)分布 q(st|s1:t-1, y1:t),通常將其(qi)簡化(hua)為一階(jie)馬爾(er)可夫過程 q(s:t|s:t-1),其(qi)中狀態轉移(yi)獨立于(yu)觀(guan)察。因(yin)此,權(quan)(quan)(quan)重更(geng)(geng)新為。注意,在每(mei)個權(quan)(quan)(quan)重更(geng)(geng)新步(bu)驟(zou)之后,權(quan)(quan)(quan)重之和(he)(he)可能不再等于(yu)1。如(ru)果它(ta)小于(yu)閾(yu)值,則(ze)應(ying)用重新采樣(yang)以(yi)(yi)從當前粒(li)(li)子集中按比例繪制(zhi)n個粒(li)(li)子,然后將它(ta)們的權(quan)(quan)(quan)重重置為 1 / n。如(ru)果權(quan)(quan)(quan)重和(he)(he)高(gao)于(yu)閾(yu)值,則(ze)應(ying)用線性(xing)歸一化(hua)以(yi)(yi)確保(bao)權(quan)(quan)(quan)重總和(he)(he)為1。

對(dui)于(yu)(yu)對(dui)象跟蹤(zong),狀態變(bian)量si通常(chang)表示六個仿射變(bian)換(huan)參數(shu),其對(dui)應于(yu)(yu)平移,比例,縱橫比,旋轉(zhuan)和(he)偏斜(xie)。特別地(di),q(st|st-1) 的(de)(de)每(mei)個維度由正態分(fen)布獨立(li)建模。對(dui)于(yu)(yu)每(mei)個幀(zhen),跟蹤(zong)結果只是具有(you)最(zui)大權重的(de)(de)粒子。雖然許多跟蹤(zong)器(qi)也采(cai)用(yong)相同的(de)(de)粒子濾波器(qi)方法,但主(zhu)要區(qu)別在(zai)于(yu)(yu)觀測(ce)模型(xing) p(yt|sti) 的(de)(de)公式。顯然,一個好(hao)的(de)(de)模型(xing)應該(gai)(gai)能夠很好(hao)地(di)區(qu)分(fen)跟蹤(zong)對(dui)象和(he)背景,同時仍然能夠抵抗各(ge)種類型(xing)的(de)(de)對(dui)象變(bian)化。對(dui)于(yu)(yu)判別跟蹤(zong)器(qi),該(gai)(gai)公式通常(chang)用(yong)于(yu)(yu)設置與分(fen)類器(qi)輸出的(de)(de)置信度呈指(zhi)數(shu)相關的(de)(de)概率。

粒(li)子(zi)濾(lv)波(bo)(bo)器(qi)框架是視覺跟蹤(zong)(zong)的(de)主要方(fang)法,原因(yin)有(you)幾個。首先(xian),它(ta)超越了(le)高斯分(fen)布,比卡爾曼(man)濾(lv)波(bo)(bo)器(qi)方(fang)法更(geng)通(tong)用。此(ci)外,它(ta)通(tong)過(guo)一(yi)組粒(li)子(zi)而不是僅僅一(yi)個點(例如模式)來(lai)近似后狀態(tai)分(fen)布。對于(yu)視覺跟蹤(zong)(zong),此(ci)屬性使跟蹤(zong)(zong)器(qi)可(ke)以(yi)更(geng)輕松地從錯誤的(de)跟蹤(zong)(zong)結(jie)果中恢(hui)復。有(you)關使用粒(li)子(zi)濾(lv)波(bo)(bo)器(qi)進(jin)(jin)行視覺跟蹤(zong)(zong)的(de)教程可(ke)以(yi)在中找到。最近的(de)一(yi)些(xie)工作,例如,進(jin)(jin)一(yi)步改進(jin)(jin)了(le)用于(yu)視覺跟蹤(zong)(zong)的(de)粒(li)子(zi)濾(lv)波(bo)(bo)器(qi)框架。

3 DLT(deep learning tracker)追蹤(zong)器

DLT詳細介紹(shao)

我(wo)們現(xian)在(zai)介(jie)紹我(wo)們的(de)DLT跟(gen)蹤器(qi)(qi)。在(zai)離(li)線(xian)訓練階段期(qi)間(jian),通過訓練具有輔(fu)助圖像(xiang)數據(ju)的(de)SDAE來(lai)執行(xing)無監督特(te)征(zheng)學習(xi)(xi)以(yi)(yi)學習(xi)(xi)通用(yong)自然圖像(xiang)特(te)征(zheng)。首先應用(yong)逐層預(yu)訓練,然后對整(zheng)個SDAE進(jin)行(xing)微調。在(zai)在(zai)線(xian)跟(gen)蹤過程期(qi)間(jian),將額外的(de)分類層添加到訓練的(de)SDAE的(de)編碼(ma)器(qi)(qi)部分以(yi)(yi)產生分類神經網絡(luo)。本節其(qi)余部分提(ti)供了更多詳細(xi)信息。

3.1 輔助數據(ju)的離線培訓(xun)

3.1.1 數據集和預處(chu)理

我(wo)(wo)們(men)使(shi)用(yong)Tiny Images數據(ju)集(ji)作為離(li)線訓(xun)練的(de)輔助數據(ju)。通過(guo)向(xiang)七個(ge)搜索引擎(qing)提供非抽象(xiang)的(de)英語(yu)名詞,從(cong)網絡上(shang)收(shou)集(ji)數據(ju)集(ji),涵蓋現實世(shi)界(jie)中發現的(de)許多對象(xiang)和場(chang)景。從(cong)每(mei)張尺寸為32×32的(de)近8000萬張微小圖(tu)像(xiang)(xiang)中,我(wo)(wo)們(men)隨機抽樣100萬張圖(tu)像(xiang)(xiang)進行離(li)線訓(xun)練。由于我(wo)(wo)們(men)的(de)經驗比較(jiao)中包含的(de)大多數最先進的(de)跟(gen)蹤器僅使(shi)用(yong)灰度圖(tu)像(xiang)(xiang),因(yin)此我(wo)(wo)們(men)將所有采(cai)樣圖(tu)像(xiang)(xiang)轉換為灰度(但(dan)我(wo)(wo)們(men)的(de)方法也可以在必要(yao)時直接使(shi)用(yong)彩色圖(tu)像(xiang)(xiang))。因(yin)此,每(mei)個(ge)圖(tu)像(xiang)(xiang)把3232的圖像轉為10241的向量(liang),每(mei)維的特征值被歸一化(hua)(每(mei)個(ge)維度的特征值線性縮(suo)放(fang)到范圍[0,1]),但不應用進一步的預處理。

3.1.2 使(shi)用堆疊去噪(zao)自動編碼器(SDAE)學習通用圖像特征

SDAE詳細介紹(shao)

SDAE的(de)(de)(de)基本(ben)構(gou)建(jian)塊是(shi)稱為去噪(zao)自動編碼(ma)器(qi)(DAE)的(de)(de)(de)單層神經網絡,它是(shi)傳統自動編碼(ma)器(qi)的(de)(de)(de)最新變體。它學會從(cong)損壞的(de)(de)(de)版(ban)本(ben)中恢復數據樣本(ben)。這樣做,學習了魯棒特征,因為神經網絡包含“瓶頸”,其是(shi)具有比輸入單元(yuan)更少單元(yuan)的(de)(de)(de)隱藏層。我們在(zai)圖1(a)中展示(shi)了 DAE 的(de)(de)(de)架構(gou)。

讓(rang)共有(you)k個(ge)(ge)訓(xun)練(lian)樣本(ben)(ben)。對于第i個(ge)(ge)樣本(ben)(ben),讓(rang)xi表(biao)(biao)示(shi)原始(shi)數據樣本(ben)(ben),x~i是(shi)xi的損(sun)(sun)壞版本(ben)(ben),其中損(sun)(sun)壞可(ke)能是(shi)屏蔽損(sun)(sun)壞,加性高斯噪聲或椒鹽噪聲。對于網絡權(quan)重,讓(rang)W和 W0 分(fen)別(bie)表(biao)(biao)示(shi)編碼(ma)器和解碼(ma)器的權(quan)重,盡管沒有(you)必要,但(dan)它們可(ke)以(yi)綁定(ding)。類似地,b和b0指(zhi)的是(shi)偏差項(xiang)。 DAE 通過解決以(yi)下(正則(ze)化)優化問(wen)題來學習(xi):

其(qi)中:

這里λ是平衡重建(jian)損失和權重懲(cheng)罰項的參數,k·kF表示 Frobenius 范數,而f(·)是非線性(xing)激活函(han)(han)數,其通(tong)(tong)常是邏輯(ji)S形函(han)(han)數或雙曲正切函(han)(han)數。 通(tong)(tong)過從損壞版本重建(jian)輸入,DAE 比傳統(tong)自(zi)(zi)動編(bian)碼(ma)器(qi)更(geng)有效地通(tong)(tong)過阻止自(zi)(zi)動編(bian)碼(ma)器(qi)簡單(dan)地學習身份(fen)映(ying)射來(lai)發現更(geng)強大的特征(zheng)。

為(wei)了(le)進一步增強學習有意(yi)義的(de)特征,稀(xi)疏性約(yue)束(shu)被強加于(yu)隱藏單(dan)元(yuan)的(de)平均(jun)激活(huo)值。 如果使(shi)用邏輯sigmoid激活(huo)函(han)數,則可以將(jiang)每個單(dan)元(yuan)的(de)輸(shu)出視為(wei)其(qi)活(huo)動的(de)概率(lv)。 設ρj表示(shi)第j個單(dan)位的(de)目標稀(xi)疏度,ρj表示(shi)其(qi)平均(jun)經(jing)驗(yan)激活(huo)率(lv)。 然(ran)后可以引入ρ和ρ的(de)交(jiao)叉熵作為(wei)Eqn4的(de)附(fu)加懲(cheng)罰項(xiang):

其中m是隱藏單(dan)位的(de)數量(liang)。在預訓(xun)練階段之后(hou),可以展開SDAE以形成前饋神經(jing)網絡。使用經(jing)典的(de)反向傳播算(suan)法對整個網絡進行微調。為了提高(gao)收斂(lian)速度,可以應用簡單(dan)動量(liang)法或更高(gao)級的(de)優化技術,例如 L-BFGS 或共(gong)軛梯(ti)度法。

對于網絡(luo)架構,我們(men)在第一(yi)層(ceng)使用過完備過濾器。這是(shi)一(yi)個(ge)(ge)(ge)(ge)深(shen)思熟慮的(de)(de)選(xuan)擇,因為(wei)已經(jing)發現(xian)過度完備的(de)(de)基礎(chu)通常(chang)可以更好(hao)地捕獲圖像結構。這符(fu)合V1視皮層(ceng)的(de)(de)神(shen)經(jing)生理機(ji)制。然(ran)后,每(mei)當(dang)添加新層(ceng)時,單(dan)位數減少(shao)一(yi)半,直到只有256個(ge)(ge)(ge)(ge)隱藏單(dan)位,作為(wei)自動編碼器的(de)(de)瓶(ping)頸。 SDAE的(de)(de)整個(ge)(ge)(ge)(ge)結構如圖1(b)所示。為(wei)了進一(yi)步(bu)加快(kuai)第一(yi)層(ceng)預(yu)訓練以學習局部(bu)特征,我們(men)將(jiang)每(mei)個(ge)(ge)(ge)(ge)32×32微小圖像分成五個(ge)(ge)(ge)(ge)16×16補(bu)丁(左(zuo)上,右上,左(zuo)下,右下,中間),然(ran)后訓練五個(ge)(ge)(ge)(ge) DAE,每(mei)個(ge)(ge)(ge)(ge) DAE 有512個(ge)(ge)(ge)(ge)隱藏單(dan)位。之后,我們(men)用五個(ge)(ge)(ge)(ge)小 DAE 的(de)(de)權(quan)重初始化一(yi)個(ge)(ge)(ge)(ge)大(da)(da) DAE,然(ran)后正常(chang)訓練大(da)(da) DAE。第一(yi)層(ceng)中的(de)(de)一(yi)些隨(sui)機(ji)選(xuan)擇的(de)(de)濾波(bo)器如圖2所示。正如所料,大(da)(da)多(duo)數濾波(bo)器起到高度局部(bu)化的(de)(de)邊緣(yuan)檢測器的(de)(de)作用。

3.2 在(zai)線跟蹤(zong)流(liu)程

要跟蹤的(de)(de)(de)對象由其第一(yi)幀(zhen)中的(de)(de)(de)邊界框(kuang)的(de)(de)(de)位置指(zhi)定(ding)。在(zai)離物(wu)體很近的(de)(de)(de)距(ju)離處從(cong)(cong)背景中收集(ji)一(yi)些負面的(de)(de)(de)例子。然后將Sigmoid分(fen)類層添加到從(cong)(cong)離線(xian)訓練獲得的(de)(de)(de)SDAE的(de)(de)(de)編(bian)碼器部分(fen)。整個網絡(luo)架構如圖(tu)1(c)所示。當新的(de)(de)(de)視頻幀(zhen)到達時,我們首先根據粒(li)(li)子濾波器方法繪制粒(li)(li)子(一(yi)個粒(li)(li)子就是目標可能存(cun)在(zai)的(de)(de)(de)一(yi)塊圖(tu)像,32*32)。然后通過簡單的(de)(de)(de)前向(xiang)傳(chuan)播(bo)網絡(luo)來確定(ding)每個粒(li)(li)子的(de)(de)(de)置信度pi。該(gai)方法計算(suan)量(liang)小,精度高。

 

圖1:網絡架構(gou)的一些關鍵組件:(a)去(qu)(qu)噪自動(dong)編(bian)碼器; (b)堆疊去(qu)(qu)噪自動(dong)編(bian)碼器; (c)在線跟蹤(zong)網絡。

 

圖2:學習SDAE第一(yi)層中的一(yi)些(xie)過濾器。

 

如果幀中所有粒子(zi)的最大置信度低于預(yu)定閾值τ,則它(ta)可以指示被跟(gen)蹤對象的顯著(zhu)外觀變化。要(yao)解決此問題,可以在發生(sheng)這種情況(kuang)時再(zai)次(ci)調整(tune)整個(ge)網(wang)絡。我們注意到閾值 τ 應該通過(guo)維持權衡來設定。如(ru)果(guo)(guo) τ 太小,則跟蹤器無(wu)法很好地(di)適應外觀變化,如(ru)果(guo)(guo)τ太大,即使遮擋物體(ti)或背景也可能被錯誤地(di)視為被跟蹤物體(ti),因此導致目標(biao)漂移。

4 實(shi)驗

我(wo)們使(shi)(shi)用(yong)(yong)10個具有挑戰性的(de)(de)基準(zhun)視(shi)頻(pin)序列(lie),在本節中憑經驗將(jiang) DLT 與一些(xie)(xie)最(zui)先進(jin)的(de)(de)跟蹤(zong)器進(jin)行(xing)比(bi)較。這些(xie)(xie)跟蹤(zong)器是:MTT,CT,VTD,MIL,L1T,TLD 和(he) IVT 的(de)(de)最(zui)新變體。我(wo)們使(shi)(shi)用(yong)(yong)其作者提(ti)供的(de)(de)這些(xie)(xie)跟蹤(zong)器的(de)(de)原(yuan)始實(shi)現(xian)。如果(guo)跟蹤(zong)器只能(neng)處理灰度(du)視(shi)頻(pin),MATLAB 圖像處理工具箱提(ti)供的(de)(de) rgb2gray 功能(neng)用(yong)(yong)于(yu)將(jiang)彩色(se)視(shi)頻(pin)轉換為灰度(du)。為了加速計算(suan),我(wo)們還利用(yong)(yong) MATLAB Parallel Computing Toolbox提(ti)供的(de)(de) GPU 計算(suan)進(jin)行(xing)離線培(pei)訓(xun)和(he)在線跟蹤(zong)。代(dai)碼和(he)補充材料在項目(mu)頁面上提(ti)供:http://winsty.net/dlt.html。

 

4.1 DLT實施細節

我們(men)使用(yong)具有動量(liang)(liang)的(de)(de)(de)梯度方法進行(xing)優化(hua)。 動量(liang)(liang)參(can)數(shu)設置(zhi)為(wei)0.9。 對于 SDAE 的(de)(de)(de)離線(xian)訓練,我們(men)注(zhu)入(ru)方差為(wei)0.0004的(de)(de)(de)高斯噪聲以生成損壞的(de)(de)(de)輸入(ru)。 我們(men)將λ= 0.0001,ρi= 0.05,小(xiao)批量(liang)(liang)大小(xiao)設置(zhi)為(wei)100.對于在(zai)線(xian)調整(zheng),我們(men)使用(yong)較(jiao)大的(de)(de)(de)λ值0.002以避免過度擬合(he)和較(jiao)小(xiao)的(de)(de)(de)小(xiao)批量(liang)(liang)大小(xiao)10.閾值τ設置(zhi)為(wei)0.9。 粒子濾波(bo)器(qi)使用(yong)1000個粒子。 對于其他參(can)數(shu),例如(ru)粒子濾波(bo)器(qi)中的(de)(de)(de)仿射參(can)數(shu)和其他方法中的(de)(de)(de)搜索窗口大小(xiao),我們(men)執(zhi)行(xing)網(wang)格搜索以確定最佳值。 如(ru)果適用(yong),相(xiang)同的(de)(de)(de)設置(zhi)將應用(yong)于所(suo)有其他方法。

 

 

 

 

文章來自個人專欄
文章 | 訂閱(yue)
0條評論
0 / 1000
請輸入你的評論
2
2