亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

  • 發布文章
  • 消息中心
點贊
收藏
評論
分享
原創

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用

2024-04-17 09:44:58
86
0

前言:

文(wen)本(ben)視(shi)(shi)頻(pin)檢(jian)(jian)索:文(wen)本(ben)視(shi)(shi)頻(pin)檢(jian)(jian)索是一種多模(mo)態檢(jian)(jian)索技(ji)術(shu)(shu),它通過(guo)輸入文(wen)本(ben)描述來查找與之(zhi)最(zui)匹配的(de)(de)視(shi)(shi)頻(pin)內(nei)(nei)容(rong)。這一技(ji)術(shu)(shu)依賴于在(zai)大規模(mo)的(de)(de)視(shi)(shi)頻(pin)-文(wen)本(ben)數據集上進行(xing)深度學習訓(xun)練,目的(de)(de)是實現(xian)視(shi)(shi)頻(pin)內(nei)(nei)容(rong)與語言描述之(zhi)間的(de)(de)精確對(dui)齊。通過(guo)這種訓(xun)練,模(mo)型學會(hui)如何解(jie)析視(shi)(shi)頻(pin)中的(de)(de)視(shi)(shi)覺信息并將(jiang)其(qi)與文(wen)本(ben)描述相匹配,從而在(zai)龐大的(de)(de)視(shi)(shi)頻(pin)庫中快速準(zhun)確地找到用戶通過(guo)文(wen)本(ben)所指定的(de)(de)視(shi)(shi)頻(pin)內(nei)(nei)容(rong)。此技(ji)術(shu)(shu)在(zai)信息檢(jian)(jian)索、內(nei)(nei)容(rong)管理以(yi)及多媒體應(ying)用中具有廣(guang)泛的(de)(de)應(ying)用前景,尤其(qi)是在(zai)提高(gao)搜索效(xiao)率和精度方面(mian)展(zhan)現(xian)出重要價值。

目前文本(ben)視(shi)(shi)頻(pin)檢索(suo)的(de)(de)(de)SOTA方法主要是(shi)端(duan)到端(duan)學習(xi)模式,如ClipBERT,CLIP4Clip等(deng)等(deng)。利(li)用了(le)端(duan)到端(duan)學習(xi)的(de)(de)(de)優勢,通過(guo)減少預處理步驟和(he)(he)(he)(he)直接(jie)從原始輸入(ru)視(shi)(shi)頻(pin)和(he)(he)(he)(he)文本(ben)學習(xi),端(duan)到端(duan)的(de)(de)(de)學習(xi)模式有效提升了(le)視(shi)(shi)頻(pin)文本(ben)理解和(he)(he)(he)(he)檢索(suo)的(de)(de)(de)效率和(he)(he)(he)(he)準確度。但(dan)由于視(shi)(shi)頻(pin)和(he)(he)(he)(he)文本(ben)之間的(de)(de)(de)結(jie)構和(he)(he)(he)(he)內容的(de)(de)(de)異質(zhi)性,以往的(de)(de)(de)基于clip的(de)(de)(de)模型在訓(xun)練階段容易出現過(guo)擬(ni)合,導致檢索(suo)性能相對(dui)較差(cha)。

CLIP4Clip模型:

CLIP4Clip模(mo)型(xing)使用像素級的(de)方法對(dui)模(mo)型(xing)進行(xing)預(yu)訓練,即使用預(yu)訓練CLIP模(mo)型(xing)從(cong)原(yuan)始視(shi)(shi)頻(pin)(pin)(pin)中(zhong)學(xue)習,將知(zhi)識從(cong)圖片(pian)(pian)(pian)文本預(yu)訓練中(zhong)遷移(yi)到視(shi)(shi)頻(pin)(pin)(pin)本文檢索(suo)任務(wu)中(zhong)。在(zai)(zai)(zai)CLIP4Clip模(mo)型(xing)中(zhong),作者意識到單個(ge)圖像遠(yuan)遠(yuan)不(bu)足(zu)以用于視(shi)(shi)頻(pin)(pin)(pin)文本檢索(suo)的(de)視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼。如ClipBERT模(mo)型(xing),采用了(le)稀疏(shu)采樣策略,僅在(zai)(zai)(zai)每(mei)個(ge)訓練步驟(zou)中(zhong)從(cong)視(shi)(shi)頻(pin)(pin)(pin)中(zhong)稀疏(shu)地采樣一個(ge)或幾個(ge)短片(pian)(pian)(pian)段(duan)(duan)進行(xing)特征(zheng)提取(qu),雖然(ran)可(ke)(ke)以使端到端預(yu)訓練成為可(ke)(ke)能,解決視(shi)(shi)頻(pin)(pin)(pin)文本檢索(suo)任務(wu),但視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼器特征(zheng)提取(qu)的(de)效果有待提高(gao)。在(zai)(zai)(zai)CLIP4Clip模(mo)型(xing)中(zhong),為了(le)獲(huo)得(de)視(shi)(shi)頻(pin)(pin)(pin)表(biao)示,首先采用平(ping)均采樣從(cong)視(shi)(shi)頻(pin)(pin)(pin)片(pian)(pian)(pian)段(duan)(duan)中(zhong)提取(qu)較為連續(xu)的(de)圖片(pian)(pian)(pian)幀,然(ran)后通(tong)過(guo)視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼器對(dui)其(qi)進行(xing)編(bian)(bian)(bian)碼,以獲(huo)得(de)一系列特征(zheng)。此外,考慮到二(er)維線(xian)性模(mo)型(xing)忽略了(le)幀之間(jian)(jian)的(de)時(shi)間(jian)(jian)信(xin)息,為了(le)增強時(shi)間(jian)(jian)特征(zheng)提取(qu),在(zai)(zai)(zai)視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼器中(zhong),使用了(le)3D線(xian)性投影,以以[t×h×w]的(de)核(he)作為線(xian)性的(de)三維卷積代(dai)替二(er)維線(xian)性中(zhong)[h×w]的(de)核(he),其(qi)中(zhong)t、h和(he)w分別(bie)為時(shi)間(jian)(jian)、高(gao)度和(he)寬度。

CLIP模型的編(bian)碼器(qi)主(zhu)要采用Transformer結構,其優點是能處理(li)任意(yi)長(chang)度的輸(shu)入并(bing)建立全(quan)局關系。但其注意(yi)力機制(zhi)在處理(li)長(chang)序列(lie)(lie)時(shi)顯存(cun)消耗大(da),因創建權重矩陣比較各token間相關性。雖訓練時(shi)注意(yi)力機制(zhi)Attention計算(suan)可并(bing)行(xing)加速,推(tui)理(li)時(shi)需為新(xin)token重算(suan)注意(yi)力,序列(lie)(lie)長(chang)度,需計算(suan)量,隨(sui)長(chang)度平方增長(chang)。CLIP4Clip模型中,輸(shu)入向量維度增大(da)使(shi)Transformer計算(suan)量加倍,特(te)別(bie)是視頻特(te)征提取時(shi)重算(suan)序列(lie)(lie)降(jiang)低效率,成為其主(zhu)要瓶頸,如圖1。

圖1 自注意力計矩陣

矩(ju)(ju)陣(zhen)(zhen)(zhen)乘(cheng)法的(de)(de)一(yi)種計算方式(shi)是使用第(di)(di)一(yi)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)行與第(di)(di)二(er)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)列(lie)做?點(dian)乘(cheng)。我們需(xu)(xu)要拿(na)第(di)(di)一(yi)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)行去(qu)與第(di)(di)二(er)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)列(lie)做點(dian)乘(cheng),所以(yi)(yi)總共就(jiu)需(xu)(xu)要次(ci)點(dian)乘(cheng)。而每次(ci)點(dian)乘(cheng)又(you)需(xu)(xu)要次(ci)乘(cheng)法,所以(yi)(yi)總復雜度就(jiu)為(wei)。

RNN模型:

RNN在生成輸(shu)出(chu)時依賴于(yu)前(qian)一(yi)隱藏狀(zhuang)(zhuang)(zhuang)態(tai)和當(dang)前(qian)輸(shu)入,無需重(zhong)算以(yi)往狀(zhuang)(zhuang)(zhuang)態(tai),與Transformer不同。這(zhe)一(yi)結(jie)構(gou)使RNN可快速(su)推理,理論上上下(xia)文長度(du)(du)可無限(xian)擴展,且內存使用(yong)穩定。然而(er),RNN傾向于(yu)遺忘舊(jiu)信(xin)息,因為它僅考(kao)慮上一(yi)狀(zhuang)(zhuang)(zhuang)態(tai)。此外,RNN的順序(xu)(xu)(xu)性限(xian)制了訓練(lian)的并(bing)行性。因此,對于(yu)視頻(pin)長序(xu)(xu)(xu)列特征提取,尋找一(yi)種能(neng)并(bing)行訓練(lian)、記憶前(qian)情且推理時間與序(xu)(xu)(xu)列長度(du)(du)成線性關系的模(mo)型十分關鍵,RNN結(jie)構(gou)如(ru)圖2所示。

圖2 RNN結構

Mamba模型:

2024年2月推出的(de)Mamba模型,是基于狀態空間(jian)模型(SSM)的(de)新(xin)型AI技術,有效(xiao)解(jie)決(jue)了Transformer在長序列數據處(chu)理(li)(li)(li)(li)上的(de)效(xiao)率問題。Mamba通(tong)過引入受(shou)控制理(li)(li)(li)(li)論啟發的(de)SSM替代(dai)傳統注(zhu)意力(li)機制,保留MLP風格(ge)的(de)計算,提升了序列數據處(chu)理(li)(li)(li)(li)能力(li)。其(qi)優異的(de)長序列處(chu)理(li)(li)(li)(li)、快速推理(li)(li)(li)(li)及(ji)線性擴(kuo)展性,使其(qi)成為長序列視頻處(chu)理(li)(li)(li)(li)的(de)理(li)(li)(li)(li)想選擇。

  1. Mamba模型可選性:

狀態空間(jian)模型 SSM包(bao)含兩(liang)個(ge)部(bu)分:狀態更新方程(cheng)和輸出(chu)方程(cheng)。通過三個(ge)連(lian)續參數矩陣A、B和C將輸入信號(),隱藏(zang)狀態()和輸出(chu)信號()三者進行互(hu)聯。

這些方程形成(cheng)一(yi)個遞歸,類似于(yu)RNN網絡。在(zai)每個步驟t中,我(wo)們(men)將(jiang)前一(yi)個時間步ht−1的(de)(de)隱藏狀態與(yu)當前輸入相(xiang)結(jie)合,以創建新(xin)的(de)(de)隱藏狀態。注意,在(zai)SSM中,我(wo)們(men)的(de)(de)離(li)散參(can)數(shu)AB和C是(shi)恒(heng)定的(de)(de),SSM沒有(you)選擇性,所(suo)以它被迫(po)以完(wan)全(quan)相(xiang)同的(de)(de)方式處理(li)輸入的(de)(de)所(suo)有(you)部(bu)分,對(dui)于(yu)輸入視(shi)頻(pin)而言,SSM會花(hua)費相(xiang)同的(de)(de)“精力”來處理(li)視(shi)頻(pin)的(de)(de)每一(yi)幀,這點實(shi)際(ji)上與(yu)Transformer建立輸入視(shi)頻(pin)的(de)(de)全(quan)局關系是(shi)十分相(xiang)似的(de)(de)。對(dui)于(yu)SSM,我(wo)們(men)可以預先計(ji)算該內核(he)(he)、保存,并將(jiang)其與(yu)輸入x相(xiang)乘。我(wo)們(men)把上述離(li)散參(can)數(shu)AB和C表示為(wei)卷(juan)積(ji)核(he)(he)的(de)(de)形式。

然而,Mamba為(wei)了(le)有選(xuan)擇(ze)地壓縮(suo)信息(xi),讓模(mo)型的參數依賴于輸(shu)入。在(zai)Mamba中,SSM 的矩陣 A、B、C 依賴于輸(shu)入數據,從而實現(xian)了(le)選(xuan)擇(ze)性(xing)。這(zhe)意味著模(mo)型可以根據當前(qian)的輸(shu)入動(dong)態地調整(zheng)其狀態,選(xuan)擇(ze)性(xing)地傳播或忽(hu)略信息(xi)。Mamba的可選(xuan)性(xing)表現(xian)如下:

通(tong)過(guo)設置模型(xing)參數為輸入函數,Mamba能更有效地“聚焦(jiao)”當前任務中(zhong)更關鍵的輸入部分。

(2)Mamba 高效實現(xian):

Mamba 作者采用(yong)了(le)一種稱(cheng)為硬件(jian)感知的算(suan)法,實際(ji)上就是用(yong)三(san)種經典(dian)技術來(lai)解(jie)決這個問題(ti):內(nei)核融合(kernel fusion)、并行掃描(parallel scan)和重計算(suan)(recomputation)。Mamba結(jie)構(gou)如圖3所示(shi):

圖3 Mamba的結(jie)構

作者將(jiang)先前的(de)(de)(de) SSM 架構(gou)(gou)設(she)計與 Transformers 的(de)(de)(de) MLP 模塊合并為一個模塊,集(ji)成到一個簡化的(de)(de)(de)端(duan)到端(duan)神經網絡(luo)架構(gou)(gou)中,該架構(gou)(gou)沒有(you)注意力,甚至沒有(you) MLP 塊,簡化了先前的(de)(de)(de)深度(du)序列模型架構(gou)(gou),形(xing)成了一種包含選擇性狀態空間(jian)的(de)(de)(de)簡單、同質(zhi)的(de)(de)(de)架構(gou)(gou)設(she)計(Mamba)。

Mamba模型(xing)是一個創新(xin)的(de)(de)(de)線(xian)性時間序(xu)列(lie)建模方法,巧妙地結合了遞(di)歸神經網(wang)絡(RNN)和卷積(ji)神經網(wang)絡(CNN)的(de)(de)(de)特點,解決了處理(li)(li)(li)(li)長(chang)序(xu)列(lie)時的(de)(de)(de)計算(suan)效率問題。它通過狀態空間模型(xing)(SSM)的(de)(de)(de)框架,實現了RNN的(de)(de)(de)逐步處理(li)(li)(li)(li)能(neng)(neng)力(li)和CNN的(de)(de)(de)全局信息處理(li)(li)(li)(li)能(neng)(neng)力(li)的(de)(de)(de)融合。在(zai)訓練階(jie)段,Mamba使用卷積(ji)模式來一次(ci)性處理(li)(li)(li)(li)整個輸入序(xu)列(lie),而在(zai)推理(li)(li)(li)(li)階(jie)段則采用遞(di)歸模式,逐步處理(li)(li)(li)(li)輸入,這樣的(de)(de)(de)設計使得(de)Mamba既能(neng)(neng)充分(fen)利用CNN的(de)(de)(de)高效并行(xing)處理(li)(li)(li)(li)能(neng)(neng)力(li),又能(neng)(neng)保持RNN在(zai)序(xu)列(lie)數據處理(li)(li)(li)(li)上的(de)(de)(de)靈(ling)活性。

Mamba模(mo)型(xing)的(de)(de)主要創新(xin)之處在于加入了一個(ge)選(xuan)擇機(ji)制(zhi)(zhi),該機(ji)制(zhi)(zhi)讓SSM參數根(gen)據(ju)輸(shu)入變(bian)化(hua),使模(mo)型(xing)能(neng)(neng)夠根(gen)據(ju)不同(tong)的(de)(de)輸(shu)入動態調整其響應方式。這與RNN中的(de)(de)門控(kong)機(ji)制(zhi)(zhi)類似,但是在SSM的(de)(de)結(jie)構中,它為應用提(ti)(ti)供(gong)了更多的(de)(de)可(ke)能(neng)(neng)性。通過這種方法,Mamba模(mo)型(xing)能(neng)(neng)有(you)效地篩選(xuan)掉無關信(xin)息,同(tong)時(shi)保留并(bing)強化(hua)對任務(wu)有(you)關的(de)(de)信(xin)息,從而提(ti)(ti)升了處理(li)長(chang)序列(lie)數據(ju)的(de)(de)能(neng)(neng)力。

為(wei)了提(ti)高(gao)計(ji)算(suan)效率,Mamba模型采(cai)納了硬件(jian)感知的(de)算(suan)法設計(ji),尤其是(shi)利用GPU的(de)內存(cun)層級結構來加(jia)快掃描操(cao)作的(de)速度并(bing)減少內存(cun)需求。這(zhe)種策略(lve)結合了RNN的(de)遞(di)歸計(ji)算(suan)優(you)勢與CNN的(de)并(bing)行(xing)處理能力,使得(de)Mamba在處理長(chang)序(xu)列數據方(fang)面更為(wei)高(gao)效。

在架(jia)(jia)構設計(ji)(ji)方面,Mamba簡(jian)化了傳(chuan)統的(de)SSM結構,通過(guo)整合H3和MLP模塊,創建了一個均勻堆疊的(de)架(jia)(jia)構。這種設計(ji)(ji)不僅簡(jian)化了模型(xing)構造,還增(zeng)強了模型(xing)的(de)靈(ling)活(huo)性和計(ji)(ji)算效率。

最(zui)后(hou)我們總結一下各個(ge)模型的核(he)心特點,如表1所示:

模型

對信息的壓縮程度

訓練的效率

推理的效率

Transformer

對每(mei)個歷史記錄都進行處理,不壓縮

訓練消耗算力大

效率(lv)較(jiao)低,尤其處理長序列向(xiang)量(liang)

RNN

隨著時間推移,RNN會遺忘之前(qian)的(de)信息

無法進行并行訓練

推(tui)(tui)理時,只參(can)考一個時間步,推(tui)(tui)理高效

CNN

 

訓(xun)練效率較高,可以并行訓(xun)練

 

SSM

壓縮每一個歷史記錄

 

矩陣參數(shu)是固定的,無(wu)法針(zhen)對輸入向量做專(zhuan)門性推(tui)理(li)

Mamba

選擇性關注必須關注的,過濾(lv)掉可以忽略的

Mamba每(mei)次(ci)參考(kao)前面所(suo)有內(nei)容的一個概括,兼備訓練、推(tui)理的效(xiao)率

個人對利用Mamba模型做選擇性時序建模視頻文本檢索大模型的思考:

可以(yi)把Mamba模型(xing)替(ti)換(huan)Clip4Clip視頻(pin)特征提(ti)取中的Transformer架構。雖(sui)然Transformer模型(xing)由(you)于(yu)其高(gao)效的自(zi)注意力(li)機制(zhi),在(zai)(zai)處理序列數(shu)據(ju)(ju),尤其是文本和靜(jing)態圖像上展現出(chu)了顯著的能力(li),但在(zai)(zai)處理視頻(pin)這(zhe)種(zhong)高(gao)維度、時空結(jie)合的復雜數(shu)據(ju)(ju)時,Mamba架構可能在(zai)(zai)以(yi)下方(fang)面(mian)表現更(geng)優(you):

(1)時空特性的專門處(chu)理(li)

優化的(de)(de)(de)時空(kong)特征提取:Mamba架(jia)構通過結(jie)合卷積網絡(luo)和RNN的(de)(de)(de)設(she)計,可以更自然地處理視頻(pin)數據中(zhong)的(de)(de)(de)時空(kong)信息。卷積層專注于(yu)捕捉(zhuo)每(mei)一(yi)幀(zhen)內(nei)的(de)(de)(de)空(kong)間特征,而RNN則(ze)處理幀(zhen)與幀(zhen)之間的(de)(de)(de)時間序列關(guan)系。這種結(jie)構設(she)計使(shi)得(de)Mamba架(jia)構能夠更加高效和直接地提取視頻(pin)內(nei)容(rong)中(zhong)的(de)(de)(de)時空(kong)特性。

(2)計算(suan)效率和資(zi)源需求

Transformer模型建立(li)(li)了(le)所有(you)向(xiang)量(liang)(liang)之(zhi)間(jian)(jian)(jian)的(de)(de)聯系,通常需(xu)要(yao)大量(liang)(liang)的(de)(de)計(ji)算(suan)資源(yuan)。在(zai)處理(li)視頻數據時(shi),為了(le)更好(hao)地(di)捕捉幀之(zhi)間(jian)(jian)(jian)的(de)(de)時(shi)間(jian)(jian)(jian)關(guan)(guan)系,Clip4Clip模型將輸(shu)入從傳統(tong)的(de)(de)二維(wei)形(xing)式擴展到(dao)三維(wei),這顯著增(zeng)加(jia)了(le)隨時(shi)間(jian)(jian)(jian)處理(li)的(de)(de)數據量(liang)(liang)。相較之(zhi)下,Mamba架構通過巧妙地(di)在(zai)局(ju)部(bu)(通過卷(juan)積操作(zuo))和全局(ju)(利(li)用RNN處理(li))處理(li)之(zhi)間(jian)(jian)(jian)找到(dao)平衡。這種方法能在(zai)不增(zeng)加(jia)時(shi)間(jian)(jian)(jian)維(wei)度計(ji)算(suan)的(de)(de)情況下,有(you)效(xiao)地(di)建立(li)(li)大規模視頻數據中特征間(jian)(jian)(jian)的(de)(de)時(shi)間(jian)(jian)(jian)關(guan)(guan)系,極大地(di)節約了(le)計(ji)算(suan)資源(yuan)。

(3)動態關注機制

Mamba架構(gou)通過(guo)采用選擇性參(can)數(shu)化的(de)(de)(de)(de)稀疏自(zi)注(zhu)(zhu)意力機制(SSM),對輸入向量(liang)(liang)分配不(bu)同(tong)的(de)(de)(de)(de)關注(zhu)(zhu)權重(zhong),從而(er)(er)能夠(gou)更(geng)(geng)加(jia)精確(que)和(he)高效(xiao)地捕捉視(shi)(shi)頻(pin)內容中的(de)(de)(de)(de)關鍵(jian)幀(zhen)或(huo)動(dong)(dong)態。這一處理方式雖(sui)然與Transformer模型(xing)通過(guo)自(zi)注(zhu)(zhu)意力機制為不(bu)同(tong)向量(liang)(liang)特(te)征賦予不(bu)同(tong)權重(zhong)以(yi)表征其(qi)(qi)重(zhong)要(yao)(yao)性的(de)(de)(de)(de)做(zuo)法(fa)相(xiang)似(si),但Mamba架構(gou)的(de)(de)(de)(de)動(dong)(dong)態調(diao)整關注(zhu)(zhu)點機制,在處理視(shi)(shi)頻(pin)數(shu)據時,能更(geng)(geng)有(you)(you)效(xiao)地識(shi)別(bie)并強(qiang)調(diao)重(zhong)要(yao)(yao)信(xin)息。具(ju)體而(er)(er)言,雖(sui)然Transformer模型(xing)通過(guo)自(zi)注(zhu)(zhu)意力計算(suan)為每個向量(liang)(liang)特(te)征分配權重(zhong),突出(chu)向量(liang)(liang)的(de)(de)(de)(de)重(zhong)要(yao)(yao)性,但這種方法(fa)需(xu)要(yao)(yao)對所(suo)(suo)有(you)(you)向量(liang)(liang)特(te)征進(jin)行計算(suan)。隨著(zhu)向量(liang)(liang)數(shu)量(liang)(liang)的(de)(de)(de)(de)增加(jia),所(suo)(suo)需(xu)的(de)(de)(de)(de)計算(suan)量(liang)(liang)以(yi)平(ping)方數(shu)速度(du)(du)膨脹(zhang)。相(xiang)比之下,Mamba架構(gou)的(de)(de)(de)(de)SSM通過(guo)動(dong)(dong)態調(diao)整參(can)數(shu),直接(jie)對向量(liang)(liang)進(jin)行過(guo)濾,優先處理與當前幀(zhen)鄰近(jin)的(de)(de)(de)(de)圖片幀(zhen)(賦予較(jiao)(jiao)(jiao)大(da)權重(zhong)),而(er)(er)對于距(ju)離較(jiao)(jiao)(jiao)遠的(de)(de)(de)(de)幀(zhen)則分配較(jiao)(jiao)(jiao)小的(de)(de)(de)(de)權重(zhong)。這種方法(fa)不(bu)僅降低(di)了計算(suan)復雜度(du)(du),還提高了處理速度(du)(du)和(he)精度(du)(du),尤其(qi)(qi)是(shi)在識(shi)別(bie)視(shi)(shi)頻(pin)序列中的(de)(de)(de)(de)時序關系(xi)和(he)關鍵(jian)內容方面(mian)表現出(chu)更(geng)(geng)高的(de)(de)(de)(de)效(xiao)率(lv)(lv)。通過(guo)這樣的(de)(de)(de)(de)優化,Mamba架構(gou)在處理大(da)規模視(shi)(shi)頻(pin)數(shu)據時,能夠(gou)更(geng)(geng)加(jia)聚焦(jiao)于關鍵(jian)信(xin)息,減少不(bu)必要(yao)(yao)的(de)(de)(de)(de)計算(suan),從而(er)(er)大(da)幅提升特(te)征提取的(de)(de)(de)(de)效(xiao)率(lv)(lv)和(he)精度(du)(du)。

總的(de)(de)(de)來說,雖然(ran)Transformer模型因其(qi)靈活性和(he)強大的(de)(de)(de)處(chu)理(li)能(neng)力(li)而廣泛應(ying)用(yong)于多種(zhong)任務,Mamba架構在處(chu)理(li)具有(you)強時(shi)空關聯(lian)特(te)(te)性的(de)(de)(de)視頻(pin)數據時(shi),通(tong)過其(qi)特(te)(te)定的(de)(de)(de)結(jie)構優化(hua)和(he)算法設(she)計,可能(neng)在視頻(pin)特(te)(te)征提取的(de)(de)(de)準(zhun)確(que)性、計算效率(lv)以及模型復雜度管理(li)等方面提供更加顯(xian)著的(de)(de)(de)優勢。

總結:

綜合(he)考慮,Mamba模型(xing)以其出色的(de)(de)(de)(de)效率和(he)對(dui)時序信息建模的(de)(de)(de)(de)強(qiang)大(da)能(neng)力(li),顯著優于Transformer模型(xing),尤其適合(he)于視頻(pin)內容的(de)(de)(de)(de)特征提取任務。盡管Mamba模型(xing)相對(dui)較(jiao)新(xin),在(zai)多模態視頻(pin)檢索(suo)領域的(de)(de)(de)(de)應(ying)用(yong)尚(shang)處(chu)于初步(bu)(bu)階段,將Mamba架構應(ying)用(yong)于文本和(he)視頻(pin)多模態檢索(suo)的(de)(de)(de)(de)嘗試具有(you)重要的(de)(de)(de)(de)科研價值。這(zhe)不僅證明了Mamba模型(xing)在(zai)理解和(he)處(chu)理復雜視頻(pin)數(shu)據方(fang)面(mian)的(de)(de)(de)(de)潛(qian)力(li),也為后(hou)續的(de)(de)(de)(de)研究提供(gong)了新(xin)的(de)(de)(de)(de)方(fang)向和(he)思路,值得(de)在(zai)未來的(de)(de)(de)(de)工(gong)作(zuo)中進一步(bu)(bu)探索(suo)和(he)深化。

0條評論
0 / 1000
l****n
3文章數
0粉(fen)絲數
l****n
3 文章 | 0 粉絲
l****n
3文章數
0粉絲數
l****n
3 文章 | 0 粉絲
原創

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用

2024-04-17 09:44:58
86
0

前言:

文本視頻(pin)檢索:文本視頻(pin)檢索是(shi)(shi)一種(zhong)多模(mo)(mo)態檢索技術,它通(tong)過輸入文本描(miao)(miao)述來查找與之最(zui)匹配的(de)(de)(de)視頻(pin)內(nei)容(rong)(rong)。這一技術依賴于(yu)在大規模(mo)(mo)的(de)(de)(de)視頻(pin)-文本數(shu)據(ju)集上進行深(shen)度學習訓練(lian),目的(de)(de)(de)是(shi)(shi)實現視頻(pin)內(nei)容(rong)(rong)與語言描(miao)(miao)述之間的(de)(de)(de)精(jing)確對齊。通(tong)過這種(zhong)訓練(lian),模(mo)(mo)型學會如何(he)解(jie)析視頻(pin)中(zhong)的(de)(de)(de)視覺信(xin)息(xi)并將其與文本描(miao)(miao)述相匹配,從而在龐大的(de)(de)(de)視頻(pin)庫(ku)中(zhong)快速準(zhun)確地找到用戶通(tong)過文本所(suo)指(zhi)定的(de)(de)(de)視頻(pin)內(nei)容(rong)(rong)。此技術在信(xin)息(xi)檢索、內(nei)容(rong)(rong)管理以及(ji)多媒(mei)體應用中(zhong)具有(you)廣泛(fan)的(de)(de)(de)應用前景,尤其是(shi)(shi)在提高搜索效率和精(jing)度方面(mian)展(zhan)現出重要價值。

目前(qian)文(wen)本視頻(pin)(pin)(pin)檢索(suo)的SOTA方法主要是(shi)端(duan)(duan)到(dao)端(duan)(duan)學(xue)習(xi)模式(shi),如(ru)ClipBERT,CLIP4Clip等(deng)等(deng)。利用了(le)端(duan)(duan)到(dao)端(duan)(duan)學(xue)習(xi)的優勢,通(tong)過減少(shao)預處理步驟和(he)直(zhi)接從原始輸入視頻(pin)(pin)(pin)和(he)文(wen)本學(xue)習(xi),端(duan)(duan)到(dao)端(duan)(duan)的學(xue)習(xi)模式(shi)有效提(ti)升了(le)視頻(pin)(pin)(pin)文(wen)本理解和(he)檢索(suo)的效率和(he)準確度(du)。但由于(yu)視頻(pin)(pin)(pin)和(he)文(wen)本之間的結(jie)構(gou)和(he)內容的異(yi)質性,以(yi)往(wang)的基(ji)于(yu)clip的模型在(zai)訓練階段容易出現(xian)過擬合,導致檢索(suo)性能相對較差。

CLIP4Clip模型:

CLIP4Clip模(mo)(mo)(mo)型(xing)使(shi)(shi)用像(xiang)素級的(de)方(fang)法(fa)對模(mo)(mo)(mo)型(xing)進行(xing)預(yu)訓(xun)(xun)練(lian)(lian)(lian),即使(shi)(shi)用預(yu)訓(xun)(xun)練(lian)(lian)(lian)CLIP模(mo)(mo)(mo)型(xing)從原始(shi)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)中(zhong)學習,將知識從圖片文(wen)本預(yu)訓(xun)(xun)練(lian)(lian)(lian)中(zhong)遷移到(dao)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)本文(wen)檢索(suo)任務中(zhong)。在(zai)CLIP4Clip模(mo)(mo)(mo)型(xing)中(zhong),作者意識到(dao)單個(ge)圖像(xiang)遠遠不足(zu)以用于視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)文(wen)本檢索(suo)的(de)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)。如ClipBERT模(mo)(mo)(mo)型(xing),采(cai)用了(le)稀疏(shu)(shu)采(cai)樣策略(lve),僅在(zai)每個(ge)訓(xun)(xun)練(lian)(lian)(lian)步(bu)驟中(zhong)從視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)中(zhong)稀疏(shu)(shu)地(di)采(cai)樣一個(ge)或(huo)幾個(ge)短片段進行(xing)特(te)征提(ti)取(qu),雖然可以使(shi)(shi)端到(dao)端預(yu)訓(xun)(xun)練(lian)(lian)(lian)成為(wei)可能,解決視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)文(wen)本檢索(suo)任務,但視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)器(qi)特(te)征提(ti)取(qu)的(de)效果有待提(ti)高(gao)。在(zai)CLIP4Clip模(mo)(mo)(mo)型(xing)中(zhong),為(wei)了(le)獲得(de)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)表示(shi),首先采(cai)用平均采(cai)樣從視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)片段中(zhong)提(ti)取(qu)較(jiao)為(wei)連續的(de)圖片幀,然后通過視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)器(qi)對其進行(xing)編(bian)碼(ma)(ma),以獲得(de)一系列特(te)征。此外,考(kao)慮到(dao)二(er)(er)維線性(xing)(xing)模(mo)(mo)(mo)型(xing)忽略(lve)了(le)幀之間(jian)的(de)時(shi)間(jian)信息,為(wei)了(le)增強(qiang)時(shi)間(jian)特(te)征提(ti)取(qu),在(zai)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)器(qi)中(zhong),使(shi)(shi)用了(le)3D線性(xing)(xing)投影,以以[t×h×w]的(de)核(he)(he)作為(wei)線性(xing)(xing)的(de)三維卷積(ji)代替二(er)(er)維線性(xing)(xing)中(zhong)[h×w]的(de)核(he)(he),其中(zhong)t、h和(he)w分別為(wei)時(shi)間(jian)、高(gao)度和(he)寬(kuan)度。

CLIP模(mo)(mo)型的(de)編碼器主要(yao)采用(yong)Transformer結(jie)構(gou),其(qi)優點(dian)是能處理任意(yi)長(chang)度(du)(du)(du)的(de)輸入(ru)并(bing)建立全局關系。但其(qi)注意(yi)力(li)機(ji)制(zhi)在處理長(chang)序列時顯存消耗(hao)大,因創建權重矩(ju)陣比較各(ge)token間相關性。雖訓練(lian)時注意(yi)力(li)機(ji)制(zhi)Attention計算(suan)(suan)可并(bing)行加(jia)速(su),推(tui)理時需為新(xin)token重算(suan)(suan)注意(yi)力(li),序列長(chang)度(du)(du)(du),需計算(suan)(suan)量(liang),隨長(chang)度(du)(du)(du)平方增(zeng)長(chang)。CLIP4Clip模(mo)(mo)型中,輸入(ru)向量(liang)維(wei)度(du)(du)(du)增(zeng)大使Transformer計算(suan)(suan)量(liang)加(jia)倍(bei),特別是視頻特征提取時重算(suan)(suan)序列降低效率(lv),成為其(qi)主要(yao)瓶(ping)頸,如圖1。

圖1 自注(zhu)意力計矩(ju)陣

矩(ju)(ju)陣(zhen)乘法的(de)一種計算方(fang)式(shi)是(shi)使(shi)用(yong)第(di)(di)一個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一行與(yu)第(di)(di)二個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一列(lie)做?點(dian)乘。我們需(xu)(xu)要(yao)拿第(di)(di)一個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一行去與(yu)第(di)(di)二個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一列(lie)做點(dian)乘,所(suo)以(yi)總(zong)共(gong)就需(xu)(xu)要(yao)次(ci)(ci)點(dian)乘。而(er)每(mei)次(ci)(ci)點(dian)乘又需(xu)(xu)要(yao)次(ci)(ci)乘法,所(suo)以(yi)總(zong)復雜度就為。

RNN模型:

RNN在(zai)生(sheng)成輸出(chu)時(shi)依賴于(yu)前(qian)一隱藏狀態和當(dang)前(qian)輸入,無需重算以(yi)往狀態,與Transformer不同。這一結構(gou)(gou)使(shi)RNN可(ke)快速(su)推理(li),理(li)論(lun)上上下文長度可(ke)無限擴展,且內存使(shi)用穩定。然而,RNN傾向于(yu)遺忘舊信(xin)息(xi),因(yin)為它僅考慮(lv)上一狀態。此外,RNN的(de)順序(xu)(xu)性(xing)限制(zhi)了(le)訓練(lian)的(de)并行(xing)性(xing)。因(yin)此,對于(yu)視頻長序(xu)(xu)列(lie)特(te)征提(ti)取,尋找一種能并行(xing)訓練(lian)、記憶前(qian)情且推理(li)時(shi)間與序(xu)(xu)列(lie)長度成線性(xing)關系的(de)模型十分關鍵,RNN結構(gou)(gou)如(ru)圖2所示。

圖2 RNN結構

Mamba模型:

2024年2月推(tui)出(chu)的(de)Mamba模型,是(shi)基(ji)于狀態空間模型(SSM)的(de)新型AI技術,有效解決了(le)Transformer在長序列(lie)數據處(chu)理(li)(li)上(shang)的(de)效率問題。Mamba通過引入受控(kong)制理(li)(li)論(lun)啟發的(de)SSM替代傳(chuan)統注(zhu)意力(li)(li)機制,保留MLP風格(ge)的(de)計算,提升了(le)序列(lie)數據處(chu)理(li)(li)能(neng)力(li)(li)。其優(you)異的(de)長序列(lie)處(chu)理(li)(li)、快速推(tui)理(li)(li)及線性擴展性,使其成為長序列(lie)視頻處(chu)理(li)(li)的(de)理(li)(li)想選(xuan)擇(ze)。

  1. Mamba模型可選性:

狀態(tai)空間(jian)模型 SSM包含(han)兩個(ge)部分:狀態(tai)更新方程(cheng)和輸(shu)出方程(cheng)。通過三個(ge)連續參數矩陣A、B和C將輸(shu)入信號(),隱藏狀態(tai)()和輸(shu)出信號()三者進行(xing)互聯(lian)。

這些方(fang)程(cheng)形(xing)成一個遞歸(gui),類似(si)于RNN網(wang)絡。在每(mei)個步驟t中,我(wo)們(men)將前(qian)一個時(shi)間步ht−1的(de)(de)(de)(de)隱藏(zang)(zang)狀態(tai)與當前(qian)輸入(ru)相(xiang)結合,以創(chuang)建新的(de)(de)(de)(de)隱藏(zang)(zang)狀態(tai)。注意,在SSM中,我(wo)們(men)的(de)(de)(de)(de)離散(san)參數(shu)AB和C是(shi)恒定(ding)的(de)(de)(de)(de),SSM沒有選(xuan)擇性,所以它(ta)被迫(po)以完全相(xiang)同的(de)(de)(de)(de)方(fang)式處(chu)理(li)輸入(ru)的(de)(de)(de)(de)所有部(bu)分,對(dui)于輸入(ru)視頻(pin)而(er)言,SSM會花費相(xiang)同的(de)(de)(de)(de)“精力”來處(chu)理(li)視頻(pin)的(de)(de)(de)(de)每(mei)一幀(zhen),這點實際上(shang)與Transformer建立輸入(ru)視頻(pin)的(de)(de)(de)(de)全局關系是(shi)十分相(xiang)似(si)的(de)(de)(de)(de)。對(dui)于SSM,我(wo)們(men)可(ke)以預(yu)先(xian)計算該內核、保存,并將其與輸入(ru)x相(xiang)乘。我(wo)們(men)把上(shang)述離散(san)參數(shu)AB和C表示(shi)為卷積核的(de)(de)(de)(de)形(xing)式。

然而(er),Mamba為了有(you)選擇(ze)地壓(ya)縮信息(xi),讓模(mo)(mo)型(xing)的參數依賴于輸(shu)入(ru)(ru)。在Mamba中(zhong),SSM 的矩陣 A、B、C 依賴于輸(shu)入(ru)(ru)數據,從而(er)實(shi)現了選擇(ze)性(xing)(xing)(xing)。這意(yi)味著模(mo)(mo)型(xing)可以根據當前(qian)的輸(shu)入(ru)(ru)動態(tai)(tai)地調整(zheng)其狀態(tai)(tai),選擇(ze)性(xing)(xing)(xing)地傳播或忽略(lve)信息(xi)。Mamba的可選性(xing)(xing)(xing)表現如(ru)下:

通過設置模型(xing)參數為輸(shu)入(ru)函數,Mamba能更有效地“聚(ju)焦(jiao)”當前任務中更關鍵的輸(shu)入(ru)部分(fen)。

(2)Mamba 高(gao)效實現:

Mamba 作者采用了(le)一種(zhong)稱為硬件感知(zhi)的算法(fa),實(shi)際上就是用三(san)種(zhong)經典技術來解決這個問(wen)題:內核融合(he)(kernel fusion)、并(bing)行掃描(miao)(parallel scan)和重計(ji)算(recomputation)。Mamba結構如(ru)圖(tu)3所示:

圖3 Mamba的結(jie)構

作(zuo)者(zhe)將先(xian)前的(de) SSM 架構(gou)(gou)設計與(yu) Transformers 的(de) MLP 模塊合并(bing)為一個模塊,集成到一個簡(jian)化的(de)端到端神經網(wang)絡架構(gou)(gou)中(zhong),該架構(gou)(gou)沒有注意力,甚至沒有 MLP 塊,簡(jian)化了先(xian)前的(de)深度序列模型(xing)架構(gou)(gou),形成了一種包含選擇(ze)性狀(zhuang)態空間的(de)簡(jian)單(dan)、同質的(de)架構(gou)(gou)設計(Mamba)。

Mamba模(mo)型(xing)是一個創新的(de)線性(xing)時間序(xu)列建模(mo)方法(fa),巧妙地結合了遞歸神經網絡(RNN)和(he)卷積神經網絡(CNN)的(de)特點,解決了處(chu)理(li)長序(xu)列時的(de)計(ji)算效率問題(ti)。它通過狀態空(kong)間模(mo)型(xing)(SSM)的(de)框架,實(shi)現了RNN的(de)逐步(bu)處(chu)理(li)能力(li)和(he)CNN的(de)全局(ju)信(xin)息(xi)處(chu)理(li)能力(li)的(de)融合。在(zai)訓(xun)練階段,Mamba使(shi)用卷積模(mo)式(shi)來一次(ci)性(xing)處(chu)理(li)整個輸(shu)入序(xu)列,而在(zai)推(tui)理(li)階段則采用遞歸模(mo)式(shi),逐步(bu)處(chu)理(li)輸(shu)入,這樣的(de)設計(ji)使(shi)得Mamba既能充(chong)分利(li)用CNN的(de)高效并(bing)行處(chu)理(li)能力(li),又能保持RNN在(zai)序(xu)列數據處(chu)理(li)上的(de)靈(ling)活性(xing)。

Mamba模型的(de)(de)(de)主要(yao)創新之處(chu)在(zai)于(yu)加入(ru)了一個選擇機制,該機制讓SSM參(can)數根據輸(shu)入(ru)變化(hua),使模型能夠根據不(bu)同的(de)(de)(de)輸(shu)入(ru)動態調整其(qi)響應方(fang)式。這與RNN中(zhong)的(de)(de)(de)門控機制類似,但是在(zai)SSM的(de)(de)(de)結構中(zhong),它(ta)為應用提(ti)供(gong)了更多的(de)(de)(de)可能性(xing)。通過這種(zhong)方(fang)法,Mamba模型能有效地篩(shai)選掉無(wu)關(guan)信息(xi),同時保留并強化(hua)對任務有關(guan)的(de)(de)(de)信息(xi),從(cong)而提(ti)升了處(chu)理(li)長序列數據的(de)(de)(de)能力。

為了(le)(le)(le)提高(gao)計(ji)算(suan)(suan)效(xiao)率(lv),Mamba模型采(cai)納了(le)(le)(le)硬件感知的(de)(de)算(suan)(suan)法設計(ji),尤其是利用GPU的(de)(de)內(nei)存(cun)層級(ji)結構來加快掃描操作的(de)(de)速度并(bing)減少內(nei)存(cun)需求。這種策略結合了(le)(le)(le)RNN的(de)(de)遞歸計(ji)算(suan)(suan)優(you)勢與CNN的(de)(de)并(bing)行處理(li)能力,使得(de)Mamba在處理(li)長序列(lie)數據方(fang)面更(geng)為高(gao)效(xiao)。

在(zai)架(jia)構(gou)(gou)設(she)計方面,Mamba簡化了傳統的SSM結構(gou)(gou),通過整合H3和MLP模(mo)塊,創建了一個均勻(yun)堆疊的架(jia)構(gou)(gou)。這種設(she)計不僅(jin)簡化了模(mo)型構(gou)(gou)造,還增強了模(mo)型的靈活性(xing)和計算(suan)效(xiao)率。

最后(hou)我們總(zong)結一下各個模型(xing)的核心特點,如表1所(suo)示:

模型

對信息的壓縮程度

訓練的效率

推理的效率

Transformer

對每個歷史記(ji)錄都進行處(chu)理(li),不壓縮

訓練消耗算力大

效率(lv)較低,尤其(qi)處理長序列向量

RNN

隨著時間推移,RNN會遺忘(wang)之(zhi)前的信息

無法進行并行訓練

推(tui)理(li)時(shi),只(zhi)參考一個時(shi)間(jian)步,推(tui)理(li)高效

CNN

 

訓(xun)練效率較高,可以并行(xing)訓(xun)練

 

SSM

壓縮每一個歷史記錄

 

矩(ju)陣參數是固(gu)定的,無法針對輸(shu)入(ru)向(xiang)量做專門性推(tui)理(li)

Mamba

選擇性關注必須關注的(de),過濾掉可以忽略的(de)

Mamba每次參考前(qian)面(mian)所有內(nei)容的(de)一個概括,兼(jian)備(bei)訓練、推理的(de)效率

個人對利用Mamba模型做選擇性時序建模視頻文本檢索大模型的思考:

可(ke)以把Mamba模型替換Clip4Clip視頻(pin)特征提(ti)取中的Transformer架構(gou)。雖(sui)然Transformer模型由于其高效的自注意力機制(zhi),在處理(li)序列(lie)數據(ju),尤(you)其是文本(ben)和靜態(tai)圖像上展(zhan)現出了顯著的能力,但在處理(li)視頻(pin)這(zhe)種高維(wei)度、時空結合的復雜數據(ju)時,Mamba架構(gou)可(ke)能在以下(xia)方面表(biao)現更優:

(1)時空特性的(de)專門處理

優(you)化的(de)(de)時空(kong)特征提取:Mamba架(jia)(jia)構通過結合卷積(ji)網絡(luo)和RNN的(de)(de)設計(ji),可以更自然(ran)地(di)處理視頻數(shu)據中(zhong)的(de)(de)時空(kong)信息。卷積(ji)層專注于捕捉每(mei)一幀內的(de)(de)空(kong)間特征,而(er)RNN則處理幀與幀之(zhi)間的(de)(de)時間序(xu)列關系(xi)。這種結構設計(ji)使得Mamba架(jia)(jia)構能夠更加高效和直接地(di)提取視頻內容中(zhong)的(de)(de)時空(kong)特性(xing)。

(2)計算效(xiao)率和資源(yuan)需(xu)求

Transformer模(mo)型建立(li)(li)了(le)(le)所有向量之(zhi)間(jian)(jian)的(de)(de)聯系,通(tong)常(chang)需要(yao)大(da)量的(de)(de)計(ji)算資(zi)源。在處(chu)(chu)理視頻數(shu)據(ju)時,為了(le)(le)更好地捕(bu)捉幀之(zhi)間(jian)(jian)的(de)(de)時間(jian)(jian)關(guan)(guan)系,Clip4Clip模(mo)型將(jiang)輸入從傳(chuan)統的(de)(de)二維形式擴展到三維,這(zhe)顯著增加了(le)(le)隨時間(jian)(jian)處(chu)(chu)理的(de)(de)數(shu)據(ju)量。相較之(zhi)下(xia),Mamba架構通(tong)過(guo)巧妙(miao)地在局部(通(tong)過(guo)卷積操作)和全局(利(li)用(yong)RNN處(chu)(chu)理)處(chu)(chu)理之(zhi)間(jian)(jian)找(zhao)到平衡。這(zhe)種(zhong)方法能在不增加時間(jian)(jian)維度計(ji)算的(de)(de)情況下(xia),有效地建立(li)(li)大(da)規(gui)模(mo)視頻數(shu)據(ju)中特征間(jian)(jian)的(de)(de)時間(jian)(jian)關(guan)(guan)系,極大(da)地節約了(le)(le)計(ji)算資(zi)源。

(3)動態關注機制

Mamba架(jia)構(gou)通過(guo)采(cai)用選擇性(xing)參(can)(can)數化的(de)(de)稀疏自注意(yi)(yi)力機制(zhi)(SSM),對(dui)輸(shu)入向(xiang)(xiang)(xiang)(xiang)量(liang)分(fen)配不(bu)同(tong)的(de)(de)關(guan)注權重,從而能夠(gou)更加(jia)精確和(he)高效地(di)捕(bu)捉(zhuo)視(shi)(shi)頻內容(rong)中的(de)(de)關(guan)鍵幀(zhen)或動(dong)態(tai)。這(zhe)(zhe)一處理(li)方式(shi)雖然與Transformer模(mo)型通過(guo)自注意(yi)(yi)力機制(zhi)為不(bu)同(tong)向(xiang)(xiang)(xiang)(xiang)量(liang)特(te)(te)征(zheng)(zheng)賦予不(bu)同(tong)權重以表(biao)征(zheng)(zheng)其重要(yao)(yao)性(xing)的(de)(de)做法相似,但Mamba架(jia)構(gou)的(de)(de)動(dong)態(tai)調整(zheng)關(guan)注點(dian)機制(zhi),在(zai)處理(li)視(shi)(shi)頻數據時(shi),能更有效地(di)識別并強調重要(yao)(yao)信息(xi)。具體而言,雖然Transformer模(mo)型通過(guo)自注意(yi)(yi)力計(ji)算(suan)(suan)為每個向(xiang)(xiang)(xiang)(xiang)量(liang)特(te)(te)征(zheng)(zheng)分(fen)配權重,突出(chu)向(xiang)(xiang)(xiang)(xiang)量(liang)的(de)(de)重要(yao)(yao)性(xing),但這(zhe)(zhe)種方法需要(yao)(yao)對(dui)所有向(xiang)(xiang)(xiang)(xiang)量(liang)特(te)(te)征(zheng)(zheng)進行計(ji)算(suan)(suan)。隨著(zhu)向(xiang)(xiang)(xiang)(xiang)量(liang)數量(liang)的(de)(de)增加(jia),所需的(de)(de)計(ji)算(suan)(suan)量(liang)以平方數速(su)度(du)膨脹。相比之下(xia),Mamba架(jia)構(gou)的(de)(de)SSM通過(guo)動(dong)態(tai)調整(zheng)參(can)(can)數,直接對(dui)向(xiang)(xiang)(xiang)(xiang)量(liang)進行過(guo)濾,優(you)先處理(li)與當前幀(zhen)鄰近的(de)(de)圖(tu)片幀(zhen)(賦予較大(da)權重),而對(dui)于(yu)(yu)距離較遠(yuan)的(de)(de)幀(zhen)則分(fen)配較小的(de)(de)權重。這(zhe)(zhe)種方法不(bu)僅降低了計(ji)算(suan)(suan)復雜度(du),還提(ti)高了處理(li)速(su)度(du)和(he)精度(du),尤(you)其是在(zai)識別視(shi)(shi)頻序(xu)列中的(de)(de)時(shi)序(xu)關(guan)系和(he)關(guan)鍵內容(rong)方面表(biao)現出(chu)更高的(de)(de)效率(lv)。通過(guo)這(zhe)(zhe)樣的(de)(de)優(you)化,Mamba架(jia)構(gou)在(zai)處理(li)大(da)規模(mo)視(shi)(shi)頻數據時(shi),能夠(gou)更加(jia)聚焦于(yu)(yu)關(guan)鍵信息(xi),減少不(bu)必(bi)要(yao)(yao)的(de)(de)計(ji)算(suan)(suan),從而大(da)幅提(ti)升特(te)(te)征(zheng)(zheng)提(ti)取(qu)的(de)(de)效率(lv)和(he)精度(du)。

總的(de)(de)來說(shuo),雖然(ran)Transformer模型因其靈(ling)活性和(he)強大(da)的(de)(de)處理能力而廣泛應(ying)用于(yu)多種任務,Mamba架構在處理具有強時(shi)空關聯特(te)性的(de)(de)視(shi)頻數據(ju)時(shi),通過其特(te)定的(de)(de)結構優化和(he)算法設計,可能在視(shi)頻特(te)征提取的(de)(de)準確性、計算效率以及模型復(fu)雜(za)度管(guan)理等方面(mian)提供更加顯著(zhu)的(de)(de)優勢。

總結:

綜合考慮,Mamba模(mo)型以其(qi)出色的(de)效率和(he)(he)對時(shi)序信息建模(mo)的(de)強大能力(li),顯著優于Transformer模(mo)型,尤(you)其(qi)適合于視(shi)頻內容的(de)特征提取任務。盡管Mamba模(mo)型相對較(jiao)新,在多模(mo)態視(shi)頻檢索(suo)領(ling)域的(de)應用(yong)尚處于初步(bu)階(jie)段,將Mamba架(jia)構應用(yong)于文本和(he)(he)視(shi)頻多模(mo)態檢索(suo)的(de)嘗試具有重要的(de)科(ke)研價值。這不僅證(zheng)明了(le)Mamba模(mo)型在理解(jie)和(he)(he)處理復(fu)雜視(shi)頻數據方面的(de)潛力(li),也為后續的(de)研究提供(gong)了(le)新的(de)方向和(he)(he)思(si)路(lu),值得在未(wei)來的(de)工作中進一步(bu)探索(suo)和(he)(he)深化。

文章來自個人專欄
文章 | 訂閱
0條評論
0 / 1000
請輸入你的評論
1
1