亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

點贊

評論

原創

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用

AI視頻直播視頻監控

2024-04-17 09:44:58

前言：

<bdo id='hfppe'><sup id='hfppe'><div id='hfppe'><bdo id='hfppe'></bdo></div></sup></bdo>

文(wen)本(ben)視(shi)(shi)頻(pin)檢(jian)(jian)索：文(wen)本(ben)視(shi)(shi)頻(pin)檢(jian)(jian)索是一種多模(mo)態檢(jian)(jian)索技(ji)術(shu)(shu)，它通過(guo)輸入文(wen)本(ben)描述來查找與之(zhi)最(zui)匹配的(de)(de)視(shi)(shi)頻(pin)內(nei)(nei)容(rong)。這一技(ji)術(shu)(shu)依賴于在(zai)大規模(mo)的(de)(de)視(shi)(shi)頻(pin)-文(wen)本(ben)數據集上進行(xing)深度學習訓(xun)練，目的(de)(de)是實現(xian)視(shi)(shi)頻(pin)內(nei)(nei)容(rong)與語言描述之(zhi)間的(de)(de)精確對(dui)齊。通過(guo)這種訓(xun)練，模(mo)型學會(hui)如何解(jie)析視(shi)(shi)頻(pin)中的(de)(de)視(shi)(shi)覺信息并將(jiang)其(qi)與文(wen)本(ben)描述相匹配，從而在(zai)龐大的(de)(de)視(shi)(shi)頻(pin)庫中快速準(zhun)確地找到用戶通過(guo)文(wen)本(ben)所指定的(de)(de)視(shi)(shi)頻(pin)內(nei)(nei)容(rong)。此技(ji)術(shu)(shu)在(zai)信息檢(jian)(jian)索、內(nei)(nei)容(rong)管理以(yi)及多媒體應(ying)用中具有廣(guang)泛的(de)(de)應(ying)用前景，尤其(qi)是在(zai)提高(gao)搜索效(xiao)率和精度方面(mian)展(zhan)現(xian)出重要價值。

目前文本(ben)視(shi)(shi)頻(pin)檢索(suo)的(de)(de)(de)SOTA方法主要是(shi)端(duan)到端(duan)學習(xi)模式，如ClipBERT,CLIP4Clip等(deng)等(deng)。利(li)用了(le)端(duan)到端(duan)學習(xi)的(de)(de)(de)優勢，通過(guo)減少預處理步驟和(he)(he)(he)(he)直接(jie)從原始輸入(ru)視(shi)(shi)頻(pin)和(he)(he)(he)(he)文本(ben)學習(xi)，端(duan)到端(duan)的(de)(de)(de)學習(xi)模式有效提升了(le)視(shi)(shi)頻(pin)文本(ben)理解和(he)(he)(he)(he)檢索(suo)的(de)(de)(de)效率和(he)(he)(he)(he)準確度。但(dan)由于視(shi)(shi)頻(pin)和(he)(he)(he)(he)文本(ben)之間的(de)(de)(de)結(jie)構和(he)(he)(he)(he)內容的(de)(de)(de)異質(zhi)性，以往的(de)(de)(de)基于clip的(de)(de)(de)模型在訓(xun)練階段容易出現過(guo)擬(ni)合，導致檢索(suo)性能相對(dui)較差(cha)。

CLIP4Clip模型：

CLIP4Clip模(mo)型(xing)使用像素級的(de)方法對(dui)模(mo)型(xing)進行(xing)預(yu)訓練，即使用預(yu)訓練CLIP模(mo)型(xing)從(cong)原(yuan)始視(shi)(shi)頻(pin)(pin)(pin)中(zhong)學(xue)習，將知(zhi)識從(cong)圖片(pian)(pian)(pian)文本預(yu)訓練中(zhong)遷移(yi)到視(shi)(shi)頻(pin)(pin)(pin)本文檢索(suo)任務(wu)中(zhong)。在(zai)(zai)(zai)CLIP4Clip模(mo)型(xing)中(zhong)，作者意識到單個(ge)圖像遠(yuan)遠(yuan)不(bu)足(zu)以用于視(shi)(shi)頻(pin)(pin)(pin)文本檢索(suo)的(de)視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼。如ClipBERT模(mo)型(xing)，采用了(le)稀疏(shu)采樣策略，僅在(zai)(zai)(zai)每(mei)個(ge)訓練步驟(zou)中(zhong)從(cong)視(shi)(shi)頻(pin)(pin)(pin)中(zhong)稀疏(shu)地采樣一個(ge)或幾個(ge)短片(pian)(pian)(pian)段(duan)(duan)進行(xing)特征(zheng)提取(qu)，雖然(ran)可(ke)(ke)以使端到端預(yu)訓練成為可(ke)(ke)能，解決視(shi)(shi)頻(pin)(pin)(pin)文本檢索(suo)任務(wu)，但視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼器特征(zheng)提取(qu)的(de)效果有待提高(gao)。在(zai)(zai)(zai)CLIP4Clip模(mo)型(xing)中(zhong)，為了(le)獲(huo)得(de)視(shi)(shi)頻(pin)(pin)(pin)表(biao)示，首先采用平(ping)均采樣從(cong)視(shi)(shi)頻(pin)(pin)(pin)片(pian)(pian)(pian)段(duan)(duan)中(zhong)提取(qu)較為連續(xu)的(de)圖片(pian)(pian)(pian)幀，然(ran)后通(tong)過(guo)視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼器對(dui)其(qi)進行(xing)編(bian)(bian)(bian)碼，以獲(huo)得(de)一系列特征(zheng)。此外，考慮到二(er)維線(xian)性模(mo)型(xing)忽略了(le)幀之間(jian)(jian)的(de)時(shi)間(jian)(jian)信(xin)息，為了(le)增強時(shi)間(jian)(jian)特征(zheng)提取(qu)，在(zai)(zai)(zai)視(shi)(shi)頻(pin)(pin)(pin)編(bian)(bian)(bian)碼器中(zhong)，使用了(le)3D線(xian)性投影，以以[t×h×w]的(de)核(he)作為線(xian)性的(de)三維卷積代(dai)替二(er)維線(xian)性中(zhong)[h×w]的(de)核(he)，其(qi)中(zhong)t、h和(he)w分別(bie)為時(shi)間(jian)(jian)、高(gao)度和(he)寬度。

CLIP模型的編(bian)碼器(qi)主(zhu)要采用Transformer結構，其優點是能處理(li)任意(yi)長(chang)度的輸(shu)入并(bing)建立全(quan)局關系。但其注意(yi)力機制(zhi)在處理(li)長(chang)序列(lie)(lie)時(shi)顯存(cun)消耗大(da)，因創建權重矩陣比較各token間相關性。雖訓練時(shi)注意(yi)力機制(zhi)Attention計算(suan)可并(bing)行(xing)加速，推(tui)理(li)時(shi)需為新(xin)token重算(suan)注意(yi)力，序列(lie)(lie)長(chang)度，需計算(suan)量，隨(sui)長(chang)度平方增長(chang)。CLIP4Clip模型中，輸(shu)入向量維度增大(da)使(shi)Transformer計算(suan)量加倍，特(te)別(bie)是視頻特(te)征提取時(shi)重算(suan)序列(lie)(lie)降(jiang)低效率，成為其主(zhu)要瓶頸，如圖1。

圖1 自注意力計矩陣

矩(ju)(ju)陣(zhen)(zhen)(zhen)乘(cheng)法的(de)(de)一(yi)種計算方式(shi)是使用第(di)(di)一(yi)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)行與第(di)(di)二(er)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)列(lie)做?點(dian)乘(cheng)。我們需(xu)(xu)要拿(na)第(di)(di)一(yi)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)行去(qu)與第(di)(di)二(er)個矩(ju)(ju)陣(zhen)(zhen)(zhen)的(de)(de)每一(yi)列(lie)做點(dian)乘(cheng)，所以(yi)(yi)總共就(jiu)需(xu)(xu)要次(ci)點(dian)乘(cheng)。而每次(ci)點(dian)乘(cheng)又(you)需(xu)(xu)要次(ci)乘(cheng)法，所以(yi)(yi)總復雜度就(jiu)為(wei)。

RNN模型：

RNN在生成輸(shu)出(chu)時依賴于(yu)前(qian)一(yi)隱藏狀(zhuang)(zhuang)(zhuang)態(tai)和當(dang)前(qian)輸(shu)入，無需重(zhong)算以(yi)往狀(zhuang)(zhuang)(zhuang)態(tai)，與Transformer不同。這(zhe)一(yi)結(jie)構(gou)使RNN可快速(su)推理，理論上上下(xia)文長度(du)(du)可無限(xian)擴展，且內存使用(yong)穩定。然而(er)，RNN傾向于(yu)遺忘舊(jiu)信(xin)息，因為它僅考(kao)慮上一(yi)狀(zhuang)(zhuang)(zhuang)態(tai)。此外，RNN的順序(xu)(xu)(xu)性限(xian)制了訓練(lian)的并(bing)行性。因此，對于(yu)視頻(pin)長序(xu)(xu)(xu)列特征提取，尋找一(yi)種能(neng)并(bing)行訓練(lian)、記憶前(qian)情且推理時間與序(xu)(xu)(xu)列長度(du)(du)成線性關系的模(mo)型十分關鍵，RNN結(jie)構(gou)如(ru)圖2所示。

圖2 RNN結構

Mamba模型：

2024年2月推出的(de)Mamba模型，是基于狀態空間(jian)模型（SSM）的(de)新(xin)型AI技術，有效(xiao)解(jie)決(jue)了Transformer在長序列數據處(chu)理(li)(li)(li)(li)上的(de)效(xiao)率問題。Mamba通(tong)過引入受(shou)控制理(li)(li)(li)(li)論啟發的(de)SSM替代(dai)傳統注(zhu)意力(li)機制，保留MLP風格(ge)的(de)計算，提升了序列數據處(chu)理(li)(li)(li)(li)能力(li)。其(qi)優異的(de)長序列處(chu)理(li)(li)(li)(li)、快速推理(li)(li)(li)(li)及(ji)線性擴(kuo)展性，使其(qi)成為長序列視頻處(chu)理(li)(li)(li)(li)的(de)理(li)(li)(li)(li)想選擇。

Mamba模型可選性：

狀態空間(jian)模型 SSM包(bao)含兩(liang)個(ge)部(bu)分：狀態更新方程(cheng)和輸出(chu)方程(cheng)。通過三個(ge)連(lian)續參數矩陣A、B和C將輸入信號()，隱藏(zang)狀態()和輸出(chu)信號()三者進行互(hu)聯。

這些方程形成(cheng)一(yi)個遞歸，類似于(yu)RNN網絡。在(zai)每個步驟t中，我(wo)們(men)將(jiang)前一(yi)個時間步ht−1的(de)(de)隱藏狀態與(yu)當前輸入相(xiang)結(jie)合，以創建新(xin)的(de)(de)隱藏狀態。注意，在(zai)SSM中，我(wo)們(men)的(de)(de)離(li)散參(can)數(shu)AB和C是(shi)恒(heng)定的(de)(de)，SSM沒有(you)選擇性，所(suo)以它被迫(po)以完(wan)全(quan)相(xiang)同的(de)(de)方式處理(li)輸入的(de)(de)所(suo)有(you)部(bu)分，對(dui)于(yu)輸入視(shi)頻(pin)而言，SSM會花(hua)費相(xiang)同的(de)(de)“精力”來處理(li)視(shi)頻(pin)的(de)(de)每一(yi)幀，這點實(shi)際(ji)上與(yu)Transformer建立輸入視(shi)頻(pin)的(de)(de)全(quan)局關系是(shi)十分相(xiang)似的(de)(de)。對(dui)于(yu)SSM，我(wo)們(men)可以預先計(ji)算該內核(he)(he)、保存，并將(jiang)其與(yu)輸入x相(xiang)乘。我(wo)們(men)把上述離(li)散參(can)數(shu)AB和C表示為(wei)卷(juan)積(ji)核(he)(he)的(de)(de)形式。

然而，Mamba為(wei)了(le)有選(xuan)擇(ze)地壓縮(suo)信息(xi)，讓模(mo)型的參數依賴于輸(shu)入。在(zai)Mamba中，SSM 的矩陣 A、B、C 依賴于輸(shu)入數據，從而實現(xian)了(le)選(xuan)擇(ze)性(xing)。這(zhe)意味著模(mo)型可以根據當前(qian)的輸(shu)入動(dong)態地調整(zheng)其狀態，選(xuan)擇(ze)性(xing)地傳播或忽(hu)略信息(xi)。Mamba的可選(xuan)性(xing)表現(xian)如下：

通(tong)過(guo)設置模型(xing)參數為輸入函數，Mamba能更有效地“聚焦(jiao)”當前任務中(zhong)更關鍵的輸入部分。

（2）Mamba 高效實現(xian)：

Mamba 作者采用(yong)了(le)一種稱(cheng)為硬件(jian)感知的算(suan)法，實際(ji)上就是用(yong)三(san)種經典(dian)技術來(lai)解(jie)決這個問題(ti)：內(nei)核融合（kernel fusion）、并行掃描（parallel scan）和重計算(suan)（recomputation）。Mamba結(jie)構(gou)如圖3所示(shi)：

圖3 Mamba的結(jie)構

作者將(jiang)先前的(de)(de)(de) SSM 架構(gou)(gou)設(she)計與 Transformers 的(de)(de)(de) MLP 模塊合并為一個模塊，集(ji)成到一個簡化的(de)(de)(de)端(duan)到端(duan)神經網絡(luo)架構(gou)(gou)中，該架構(gou)(gou)沒有(you)注意力，甚至沒有(you) MLP 塊，簡化了先前的(de)(de)(de)深度(du)序列模型架構(gou)(gou)，形(xing)成了一種包含選擇性狀態空間(jian)的(de)(de)(de)簡單、同質(zhi)的(de)(de)(de)架構(gou)(gou)設(she)計（Mamba）。

Mamba模型(xing)是一個創新(xin)的(de)(de)(de)線(xian)性時間序(xu)列(lie)建模方法，巧妙地結合了遞(di)歸神經網(wang)絡（RNN）和卷積(ji)神經網(wang)絡（CNN）的(de)(de)(de)特點，解決了處理(li)(li)(li)(li)長(chang)序(xu)列(lie)時的(de)(de)(de)計算(suan)效率問題。它通過狀態空間模型(xing)（SSM）的(de)(de)(de)框架，實現了RNN的(de)(de)(de)逐步處理(li)(li)(li)(li)能(neng)(neng)力(li)和CNN的(de)(de)(de)全局信息處理(li)(li)(li)(li)能(neng)(neng)力(li)的(de)(de)(de)融合。在(zai)訓練階(jie)段，Mamba使用卷積(ji)模式來一次(ci)性處理(li)(li)(li)(li)整個輸入序(xu)列(lie)，而在(zai)推理(li)(li)(li)(li)階(jie)段則采用遞(di)歸模式，逐步處理(li)(li)(li)(li)輸入，這樣的(de)(de)(de)設計使得(de)Mamba既能(neng)(neng)充分(fen)利用CNN的(de)(de)(de)高效并行(xing)處理(li)(li)(li)(li)能(neng)(neng)力(li)，又能(neng)(neng)保持RNN在(zai)序(xu)列(lie)數據處理(li)(li)(li)(li)上的(de)(de)(de)靈(ling)活性。

Mamba模(mo)型(xing)的(de)(de)主要創新(xin)之處在于加入了一個(ge)選(xuan)擇機(ji)制(zhi)(zhi)，該機(ji)制(zhi)(zhi)讓SSM參數根(gen)據(ju)輸(shu)入變(bian)化(hua)，使模(mo)型(xing)能(neng)(neng)夠根(gen)據(ju)不同(tong)的(de)(de)輸(shu)入動態調整其響應方式。這與RNN中的(de)(de)門控(kong)機(ji)制(zhi)(zhi)類似，但是在SSM的(de)(de)結(jie)構中，它為應用提(ti)(ti)供(gong)了更多的(de)(de)可(ke)能(neng)(neng)性。通過這種方法，Mamba模(mo)型(xing)能(neng)(neng)有(you)效地篩選(xuan)掉無關信(xin)息，同(tong)時(shi)保留并(bing)強化(hua)對任務(wu)有(you)關的(de)(de)信(xin)息，從而提(ti)(ti)升了處理(li)長(chang)序列(lie)數據(ju)的(de)(de)能(neng)(neng)力。

為(wei)了提(ti)高(gao)計(ji)算(suan)效率，Mamba模型采(cai)納了硬件(jian)感知的(de)算(suan)法設計(ji)，尤其是(shi)利用GPU的(de)內存(cun)層級結構來加(jia)快掃描操(cao)作的(de)速度并(bing)減少內存(cun)需求。這(zhe)種策略(lve)結合了RNN的(de)遞(di)歸計(ji)算(suan)優(you)勢與CNN的(de)并(bing)行(xing)處理能力，使得(de)Mamba在處理長(chang)序(xu)列數據方(fang)面更為(wei)高(gao)效。

在架(jia)(jia)構設計(ji)(ji)方面，Mamba簡(jian)化了傳(chuan)統的(de)SSM結構，通過(guo)整合H3和MLP模塊，創建了一個均勻堆疊的(de)架(jia)(jia)構。這種設計(ji)(ji)不僅簡(jian)化了模型(xing)構造，還增(zeng)強了模型(xing)的(de)靈(ling)活(huo)性和計(ji)(ji)算效率。

最(zui)后(hou)我們總結一下各個(ge)模型的核(he)心特點，如表1所示：

模型	對信息的壓縮程度	訓練的效率	推理的效率
Transformer	對每(mei)個歷史記錄都進行處理，不壓縮	訓練消耗算力大	效率(lv)較(jiao)低，尤其處理長序列向(xiang)量(liang)
RNN	隨著時間推移，RNN會遺忘之前(qian)的(de)信息	無法進行并行訓練	推(tui)(tui)理時，只參(can)考一個時間步，推(tui)(tui)理高效
CNN		訓(xun)練效率較高，可以并行訓(xun)練
SSM	壓縮每一個歷史記錄		矩陣參數(shu)是固定的，無(wu)法針(zhen)對輸入向量做專(zhuan)門性推(tui)理(li)
Mamba	選擇性關注必須關注的，過濾(lv)掉可以忽略的	Mamba每(mei)次(ci)參考(kao)前面所(suo)有內(nei)容的一個概括，兼備訓練、推(tui)理的效(xiao)率

個人對利用Mamba模型做選擇性時序建模視頻文本檢索大模型的思考：

可以(yi)把Mamba模型(xing)替(ti)換(huan)Clip4Clip視頻(pin)特征提(ti)取中的Transformer架構。雖(sui)然Transformer模型(xing)由(you)于(yu)其高(gao)效的自(zi)注意力(li)機制(zhi)，在(zai)(zai)處理序列數(shu)據(ju)(ju)，尤其是文本和靜(jing)態圖像上展現出(chu)了顯著的能力(li)，但在(zai)(zai)處理視頻(pin)這(zhe)種(zhong)高(gao)維度、時空結(jie)合的復雜數(shu)據(ju)(ju)時，Mamba架構可能在(zai)(zai)以(yi)下方(fang)面(mian)表現更(geng)優(you)：

（1）時空特性的專門處(chu)理(li)

優化的(de)(de)(de)時空(kong)特征提取：Mamba架(jia)構通過結(jie)合卷積網絡(luo)和RNN的(de)(de)(de)設(she)計，可以更自然地處理視頻(pin)數據中(zhong)的(de)(de)(de)時空(kong)信息。卷積層專注于(yu)捕捉(zhuo)每(mei)一(yi)幀(zhen)內(nei)的(de)(de)(de)空(kong)間特征，而RNN則(ze)處理幀(zhen)與幀(zhen)之間的(de)(de)(de)時間序列關(guan)系。這種結(jie)構設(she)計使(shi)得(de)Mamba架(jia)構能夠更加高效和直接地提取視頻(pin)內(nei)容(rong)中(zhong)的(de)(de)(de)時空(kong)特性。

（2）計算(suan)效率和資(zi)源需求

Transformer模型建立(li)(li)了(le)所有(you)向(xiang)量(liang)(liang)之(zhi)間(jian)(jian)(jian)的(de)(de)聯系，通常需(xu)要(yao)大量(liang)(liang)的(de)(de)計(ji)算(suan)資源(yuan)。在(zai)處理(li)視頻數據時(shi)，為了(le)更好(hao)地(di)捕捉幀之(zhi)間(jian)(jian)(jian)的(de)(de)時(shi)間(jian)(jian)(jian)關(guan)(guan)系，Clip4Clip模型將輸(shu)入從傳統(tong)的(de)(de)二維(wei)形(xing)式擴展到(dao)三維(wei)，這顯著增(zeng)加(jia)了(le)隨時(shi)間(jian)(jian)(jian)處理(li)的(de)(de)數據量(liang)(liang)。相較之(zhi)下，Mamba架構通過巧妙地(di)在(zai)局(ju)部(bu)（通過卷(juan)積操作(zuo)）和全局(ju)（利(li)用RNN處理(li)）處理(li)之(zhi)間(jian)(jian)(jian)找到(dao)平衡。這種方法能在(zai)不增(zeng)加(jia)時(shi)間(jian)(jian)(jian)維(wei)度計(ji)算(suan)的(de)(de)情況下，有(you)效(xiao)地(di)建立(li)(li)大規模視頻數據中特征間(jian)(jian)(jian)的(de)(de)時(shi)間(jian)(jian)(jian)關(guan)(guan)系，極大地(di)節約了(le)計(ji)算(suan)資源(yuan)。

（3）動態關注機制

Mamba架構(gou)通過(guo)采用選擇性參(can)數(shu)化的(de)(de)(de)(de)稀疏自(zi)注(zhu)(zhu)意力機制（SSM），對輸入向量(liang)(liang)分配不(bu)同(tong)的(de)(de)(de)(de)關注(zhu)(zhu)權重(zhong)，從而(er)(er)能夠(gou)更(geng)(geng)加(jia)精確(que)和(he)高效(xiao)地捕捉視(shi)(shi)頻(pin)內容中的(de)(de)(de)(de)關鍵(jian)幀(zhen)或(huo)動(dong)(dong)態。這一處理方式雖(sui)然與Transformer模型(xing)通過(guo)自(zi)注(zhu)(zhu)意力機制為不(bu)同(tong)向量(liang)(liang)特(te)征賦予不(bu)同(tong)權重(zhong)以(yi)表征其(qi)(qi)重(zhong)要(yao)(yao)性的(de)(de)(de)(de)做(zuo)法(fa)相(xiang)似(si)，但Mamba架構(gou)的(de)(de)(de)(de)動(dong)(dong)態調(diao)整關注(zhu)(zhu)點機制，在處理視(shi)(shi)頻(pin)數(shu)據時，能更(geng)(geng)有(you)(you)效(xiao)地識(shi)別(bie)并強(qiang)調(diao)重(zhong)要(yao)(yao)信(xin)息。具(ju)體而(er)(er)言，雖(sui)然Transformer模型(xing)通過(guo)自(zi)注(zhu)(zhu)意力計算(suan)為每個向量(liang)(liang)特(te)征分配權重(zhong)，突出(chu)向量(liang)(liang)的(de)(de)(de)(de)重(zhong)要(yao)(yao)性，但這種方法(fa)需(xu)要(yao)(yao)對所(suo)(suo)有(you)(you)向量(liang)(liang)特(te)征進(jin)行計算(suan)。隨著(zhu)向量(liang)(liang)數(shu)量(liang)(liang)的(de)(de)(de)(de)增加(jia)，所(suo)(suo)需(xu)的(de)(de)(de)(de)計算(suan)量(liang)(liang)以(yi)平(ping)方數(shu)速度(du)(du)膨脹(zhang)。相(xiang)比之下，Mamba架構(gou)的(de)(de)(de)(de)SSM通過(guo)動(dong)(dong)態調(diao)整參(can)數(shu)，直接(jie)對向量(liang)(liang)進(jin)行過(guo)濾，優先處理與當前幀(zhen)鄰近(jin)的(de)(de)(de)(de)圖片幀(zhen)（賦予較(jiao)(jiao)(jiao)大(da)權重(zhong)），而(er)(er)對于距(ju)離較(jiao)(jiao)(jiao)遠的(de)(de)(de)(de)幀(zhen)則分配較(jiao)(jiao)(jiao)小的(de)(de)(de)(de)權重(zhong)。這種方法(fa)不(bu)僅降低(di)了計算(suan)復雜度(du)(du)，還提高了處理速度(du)(du)和(he)精度(du)(du)，尤其(qi)(qi)是(shi)在識(shi)別(bie)視(shi)(shi)頻(pin)序列中的(de)(de)(de)(de)時序關系(xi)和(he)關鍵(jian)內容方面(mian)表現出(chu)更(geng)(geng)高的(de)(de)(de)(de)效(xiao)率(lv)(lv)。通過(guo)這樣的(de)(de)(de)(de)優化，Mamba架構(gou)在處理大(da)規模視(shi)(shi)頻(pin)數(shu)據時，能夠(gou)更(geng)(geng)加(jia)聚焦(jiao)于關鍵(jian)信(xin)息，減少不(bu)必要(yao)(yao)的(de)(de)(de)(de)計算(suan)，從而(er)(er)大(da)幅提升特(te)征提取的(de)(de)(de)(de)效(xiao)率(lv)(lv)和(he)精度(du)(du)。

總的(de)(de)(de)來說，雖然(ran)Transformer模型因其(qi)靈活性和(he)強大的(de)(de)(de)處(chu)理(li)能(neng)力(li)而廣泛應(ying)用(yong)于多種(zhong)任務，Mamba架構在處(chu)理(li)具有(you)強時(shi)空關聯(lian)特(te)(te)性的(de)(de)(de)視頻(pin)數據時(shi)，通(tong)過其(qi)特(te)(te)定的(de)(de)(de)結(jie)構優化(hua)和(he)算法設(she)計，可能(neng)在視頻(pin)特(te)(te)征提取的(de)(de)(de)準(zhun)確(que)性、計算效率(lv)以及模型復雜度管理(li)等方面提供更加顯(xian)著的(de)(de)(de)優勢。

總結：

綜合(he)考慮，Mamba模型(xing)以其出色的(de)(de)(de)(de)效率和(he)對(dui)時序信息建模的(de)(de)(de)(de)強(qiang)大(da)能(neng)力(li)，顯著優于Transformer模型(xing)，尤其適合(he)于視頻(pin)內容的(de)(de)(de)(de)特征提取任務。盡管Mamba模型(xing)相對(dui)較(jiao)新(xin)，在(zai)多模態視頻(pin)檢索(suo)領域的(de)(de)(de)(de)應(ying)用(yong)尚(shang)處(chu)于初步(bu)(bu)階段，將Mamba架構應(ying)用(yong)于文本和(he)視頻(pin)多模態檢索(suo)的(de)(de)(de)(de)嘗試具有(you)重要的(de)(de)(de)(de)科研價值。這(zhe)不僅證明了Mamba模型(xing)在(zai)理解和(he)處(chu)理復雜視頻(pin)數(shu)據方(fang)面(mian)的(de)(de)(de)(de)潛(qian)力(li)，也為后(hou)續的(de)(de)(de)(de)研究提供(gong)了新(xin)的(de)(de)(de)(de)方(fang)向和(he)思路，值得(de)在(zai)未來的(de)(de)(de)(de)工(gong)作(zuo)中進一步(bu)(bu)探索(suo)和(he)深化。

0條評論

0 / 1000

l****n

3文章數

2點贊數(shu)

0粉(fen)絲數

l****n

3 文章 | 0 粉絲

Ta的(de)熱門(men)文章(zhang)查看更多

人臉檢測模型全面測評具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用多模態助力單模態，提高文本視頻檢索精度

l****n

3文章數

2點贊數

0粉絲數

l****n

3 文章 | 0 粉絲

原創

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用

AI視頻直播視頻監控

2024-04-17 09:44:58

前言：

文本視頻(pin)檢索：文本視頻(pin)檢索是(shi)(shi)一種(zhong)多模(mo)(mo)態檢索技術，它通(tong)過輸入文本描(miao)(miao)述來查找與之最(zui)匹配的(de)(de)(de)視頻(pin)內(nei)容(rong)(rong)。這一技術依賴于(yu)在大規模(mo)(mo)的(de)(de)(de)視頻(pin)-文本數(shu)據(ju)集上進行深(shen)度學習訓練(lian)，目的(de)(de)(de)是(shi)(shi)實現視頻(pin)內(nei)容(rong)(rong)與語言描(miao)(miao)述之間的(de)(de)(de)精(jing)確對齊。通(tong)過這種(zhong)訓練(lian)，模(mo)(mo)型學會如何(he)解(jie)析視頻(pin)中(zhong)的(de)(de)(de)視覺信(xin)息(xi)并將其與文本描(miao)(miao)述相匹配，從而在龐大的(de)(de)(de)視頻(pin)庫(ku)中(zhong)快速準(zhun)確地找到用戶通(tong)過文本所(suo)指(zhi)定的(de)(de)(de)視頻(pin)內(nei)容(rong)(rong)。此技術在信(xin)息(xi)檢索、內(nei)容(rong)(rong)管理以及(ji)多媒(mei)體應用中(zhong)具有(you)廣泛(fan)的(de)(de)(de)應用前景，尤其是(shi)(shi)在提高搜索效率和精(jing)度方面(mian)展(zhan)現出重要價值。

目前(qian)文(wen)本視頻(pin)(pin)(pin)檢索(suo)的SOTA方法主要是(shi)端(duan)(duan)到(dao)端(duan)(duan)學(xue)習(xi)模式(shi)，如(ru)ClipBERT,CLIP4Clip等(deng)等(deng)。利用了(le)端(duan)(duan)到(dao)端(duan)(duan)學(xue)習(xi)的優勢，通(tong)過減少(shao)預處理步驟和(he)直(zhi)接從原始輸入視頻(pin)(pin)(pin)和(he)文(wen)本學(xue)習(xi)，端(duan)(duan)到(dao)端(duan)(duan)的學(xue)習(xi)模式(shi)有效提(ti)升了(le)視頻(pin)(pin)(pin)文(wen)本理解和(he)檢索(suo)的效率和(he)準確度(du)。但由于(yu)視頻(pin)(pin)(pin)和(he)文(wen)本之間的結(jie)構(gou)和(he)內容的異(yi)質性，以(yi)往(wang)的基(ji)于(yu)clip的模型在(zai)訓練階段容易出現(xian)過擬合，導致檢索(suo)性能相對較差。

CLIP4Clip模型：

CLIP4Clip模(mo)(mo)(mo)型(xing)使(shi)(shi)用像(xiang)素級的(de)方(fang)法(fa)對模(mo)(mo)(mo)型(xing)進行(xing)預(yu)訓(xun)(xun)練(lian)(lian)(lian)，即使(shi)(shi)用預(yu)訓(xun)(xun)練(lian)(lian)(lian)CLIP模(mo)(mo)(mo)型(xing)從原始(shi)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)中(zhong)學習，將知識從圖片文(wen)本預(yu)訓(xun)(xun)練(lian)(lian)(lian)中(zhong)遷移到(dao)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)本文(wen)檢索(suo)任務中(zhong)。在(zai)CLIP4Clip模(mo)(mo)(mo)型(xing)中(zhong)，作者意識到(dao)單個(ge)圖像(xiang)遠遠不足(zu)以用于視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)文(wen)本檢索(suo)的(de)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)。如ClipBERT模(mo)(mo)(mo)型(xing)，采(cai)用了(le)稀疏(shu)(shu)采(cai)樣策略(lve)，僅在(zai)每個(ge)訓(xun)(xun)練(lian)(lian)(lian)步(bu)驟中(zhong)從視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)中(zhong)稀疏(shu)(shu)地(di)采(cai)樣一個(ge)或(huo)幾個(ge)短片段進行(xing)特(te)征提(ti)取(qu)，雖然可以使(shi)(shi)端到(dao)端預(yu)訓(xun)(xun)練(lian)(lian)(lian)成為(wei)可能，解決視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)文(wen)本檢索(suo)任務，但視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)器(qi)特(te)征提(ti)取(qu)的(de)效果有待提(ti)高(gao)。在(zai)CLIP4Clip模(mo)(mo)(mo)型(xing)中(zhong)，為(wei)了(le)獲得(de)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)表示(shi)，首先采(cai)用平均采(cai)樣從視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)片段中(zhong)提(ti)取(qu)較(jiao)為(wei)連續的(de)圖片幀，然后通過視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)器(qi)對其進行(xing)編(bian)碼(ma)(ma)，以獲得(de)一系列特(te)征。此外，考(kao)慮到(dao)二(er)(er)維線性(xing)(xing)模(mo)(mo)(mo)型(xing)忽略(lve)了(le)幀之間(jian)的(de)時(shi)間(jian)信息，為(wei)了(le)增強(qiang)時(shi)間(jian)特(te)征提(ti)取(qu)，在(zai)視(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)編(bian)碼(ma)(ma)器(qi)中(zhong)，使(shi)(shi)用了(le)3D線性(xing)(xing)投影，以以[t×h×w]的(de)核(he)(he)作為(wei)線性(xing)(xing)的(de)三維卷積(ji)代替二(er)(er)維線性(xing)(xing)中(zhong)[h×w]的(de)核(he)(he)，其中(zhong)t、h和(he)w分別為(wei)時(shi)間(jian)、高(gao)度和(he)寬(kuan)度。

CLIP模(mo)(mo)型的(de)編碼器主要(yao)采用(yong)Transformer結(jie)構(gou)，其(qi)優點(dian)是能處理任意(yi)長(chang)度(du)(du)(du)的(de)輸入(ru)并(bing)建立全局關系。但其(qi)注意(yi)力(li)機(ji)制(zhi)在處理長(chang)序列時顯存消耗(hao)大，因創建權重矩(ju)陣比較各(ge)token間相關性。雖訓練(lian)時注意(yi)力(li)機(ji)制(zhi)Attention計算(suan)(suan)可并(bing)行加(jia)速(su)，推(tui)理時需為新(xin)token重算(suan)(suan)注意(yi)力(li)，序列長(chang)度(du)(du)(du)，需計算(suan)(suan)量(liang)，隨長(chang)度(du)(du)(du)平方增(zeng)長(chang)。CLIP4Clip模(mo)(mo)型中，輸入(ru)向量(liang)維(wei)度(du)(du)(du)增(zeng)大使Transformer計算(suan)(suan)量(liang)加(jia)倍(bei)，特別是視頻特征提取時重算(suan)(suan)序列降低效率(lv)，成為其(qi)主要(yao)瓶(ping)頸，如圖1。

圖1 自注(zhu)意力計矩(ju)陣

矩(ju)(ju)陣(zhen)乘法的(de)一種計算方(fang)式(shi)是(shi)使(shi)用(yong)第(di)(di)一個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一行與(yu)第(di)(di)二個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一列(lie)做?點(dian)乘。我們需(xu)(xu)要(yao)拿第(di)(di)一個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一行去與(yu)第(di)(di)二個(ge)(ge)(ge)矩(ju)(ju)陣(zhen)的(de)每(mei)一列(lie)做點(dian)乘，所(suo)以(yi)總(zong)共(gong)就需(xu)(xu)要(yao)次(ci)(ci)點(dian)乘。而(er)每(mei)次(ci)(ci)點(dian)乘又需(xu)(xu)要(yao)次(ci)(ci)乘法，所(suo)以(yi)總(zong)復雜度就為。

RNN模型：

RNN在(zai)生(sheng)成輸出(chu)時(shi)依賴于(yu)前(qian)一隱藏狀態和當(dang)前(qian)輸入，無需重算以(yi)往狀態，與Transformer不同。這一結構(gou)(gou)使(shi)RNN可(ke)快速(su)推理(li)，理(li)論(lun)上上下文長度可(ke)無限擴展，且內存使(shi)用穩定。然而，RNN傾向于(yu)遺忘舊信(xin)息(xi)，因(yin)為它僅考慮(lv)上一狀態。此外，RNN的(de)順序(xu)(xu)性(xing)限制(zhi)了(le)訓練(lian)的(de)并行(xing)性(xing)。因(yin)此，對于(yu)視頻長序(xu)(xu)列(lie)特(te)征提(ti)取，尋找一種能并行(xing)訓練(lian)、記憶前(qian)情且推理(li)時(shi)間與序(xu)(xu)列(lie)長度成線性(xing)關系的(de)模型十分關鍵，RNN結構(gou)(gou)如(ru)圖2所示。

圖2 RNN結構

Mamba模型：

2024年2月推(tui)出(chu)的(de)Mamba模型，是(shi)基(ji)于狀態空間模型（SSM）的(de)新型AI技術，有效解決了(le)Transformer在長序列(lie)數據處(chu)理(li)(li)上(shang)的(de)效率問題。Mamba通過引入受控(kong)制理(li)(li)論(lun)啟發的(de)SSM替代傳(chuan)統注(zhu)意力(li)(li)機制，保留MLP風格(ge)的(de)計算，提升了(le)序列(lie)數據處(chu)理(li)(li)能(neng)力(li)(li)。其優(you)異的(de)長序列(lie)處(chu)理(li)(li)、快速推(tui)理(li)(li)及線性擴展性，使其成為長序列(lie)視頻處(chu)理(li)(li)的(de)理(li)(li)想選(xuan)擇(ze)。

Mamba模型可選性：

狀態(tai)空間(jian)模型 SSM包含(han)兩個(ge)部分：狀態(tai)更新方程(cheng)和輸(shu)出方程(cheng)。通過三個(ge)連續參數矩陣A、B和C將輸(shu)入信號()，隱藏狀態(tai)()和輸(shu)出信號()三者進行(xing)互聯(lian)。

這些方(fang)程(cheng)形(xing)成一個遞歸(gui)，類似(si)于RNN網(wang)絡。在每(mei)個步驟t中，我(wo)們(men)將前(qian)一個時(shi)間步ht−1的(de)(de)(de)(de)隱藏(zang)(zang)狀態(tai)與當前(qian)輸入(ru)相(xiang)結合，以創(chuang)建新的(de)(de)(de)(de)隱藏(zang)(zang)狀態(tai)。注意，在SSM中，我(wo)們(men)的(de)(de)(de)(de)離散(san)參數(shu)AB和C是(shi)恒定(ding)的(de)(de)(de)(de)，SSM沒有選(xuan)擇性，所以它(ta)被迫(po)以完全相(xiang)同的(de)(de)(de)(de)方(fang)式處(chu)理(li)輸入(ru)的(de)(de)(de)(de)所有部(bu)分，對(dui)于輸入(ru)視頻(pin)而(er)言，SSM會花費相(xiang)同的(de)(de)(de)(de)“精力”來處(chu)理(li)視頻(pin)的(de)(de)(de)(de)每(mei)一幀(zhen)，這點實際上(shang)與Transformer建立輸入(ru)視頻(pin)的(de)(de)(de)(de)全局關系是(shi)十分相(xiang)似(si)的(de)(de)(de)(de)。對(dui)于SSM，我(wo)們(men)可(ke)以預(yu)先(xian)計算該內核、保存，并將其與輸入(ru)x相(xiang)乘。我(wo)們(men)把上(shang)述離散(san)參數(shu)AB和C表示(shi)為卷積核的(de)(de)(de)(de)形(xing)式。

然而(er)，Mamba為了有(you)選擇(ze)地壓(ya)縮信息(xi)，讓模(mo)(mo)型(xing)的參數依賴于輸(shu)入(ru)(ru)。在Mamba中(zhong)，SSM 的矩陣 A、B、C 依賴于輸(shu)入(ru)(ru)數據，從而(er)實(shi)現了選擇(ze)性(xing)(xing)(xing)。這意(yi)味著模(mo)(mo)型(xing)可以根據當前(qian)的輸(shu)入(ru)(ru)動態(tai)(tai)地調整(zheng)其狀態(tai)(tai)，選擇(ze)性(xing)(xing)(xing)地傳播或忽略(lve)信息(xi)。Mamba的可選性(xing)(xing)(xing)表現如(ru)下：

通過設置模型(xing)參數為輸(shu)入(ru)函數，Mamba能更有效地“聚(ju)焦(jiao)”當前任務中更關鍵的輸(shu)入(ru)部分(fen)。

（2）Mamba 高(gao)效實現：

Mamba 作者采用了(le)一種(zhong)稱為硬件感知(zhi)的算法(fa)，實(shi)際上就是用三(san)種(zhong)經典技術來解決這個問(wen)題：內核融合(he)（kernel fusion）、并(bing)行掃描(miao)（parallel scan）和重計(ji)算（recomputation）。Mamba結構如(ru)圖(tu)3所示：

圖3 Mamba的結(jie)構

作(zuo)者(zhe)將先(xian)前的(de) SSM 架構(gou)(gou)設計與(yu) Transformers 的(de) MLP 模塊合并(bing)為一個模塊，集成到一個簡(jian)化的(de)端到端神經網(wang)絡架構(gou)(gou)中(zhong)，該架構(gou)(gou)沒有注意力，甚至沒有 MLP 塊，簡(jian)化了先(xian)前的(de)深度序列模型(xing)架構(gou)(gou)，形成了一種包含選擇(ze)性狀(zhuang)態空間的(de)簡(jian)單(dan)、同質的(de)架構(gou)(gou)設計（Mamba）。

Mamba模(mo)型(xing)是一個創新的(de)線性(xing)時間序(xu)列建模(mo)方法(fa)，巧妙地結合了遞歸神經網絡（RNN）和(he)卷積神經網絡（CNN）的(de)特點，解決了處(chu)理(li)長序(xu)列時的(de)計(ji)算效率問題(ti)。它通過狀態空(kong)間模(mo)型(xing)（SSM）的(de)框架，實(shi)現了RNN的(de)逐步(bu)處(chu)理(li)能力(li)和(he)CNN的(de)全局(ju)信(xin)息(xi)處(chu)理(li)能力(li)的(de)融合。在(zai)訓(xun)練階段，Mamba使(shi)用卷積模(mo)式(shi)來一次(ci)性(xing)處(chu)理(li)整個輸(shu)入序(xu)列，而在(zai)推(tui)理(li)階段則采用遞歸模(mo)式(shi)，逐步(bu)處(chu)理(li)輸(shu)入，這樣的(de)設計(ji)使(shi)得Mamba既能充(chong)分利(li)用CNN的(de)高效并(bing)行處(chu)理(li)能力(li)，又能保持RNN在(zai)序(xu)列數據處(chu)理(li)上的(de)靈(ling)活性(xing)。

Mamba模型的(de)(de)(de)主要(yao)創新之處(chu)在(zai)于(yu)加入(ru)了一個選擇機制，該機制讓SSM參(can)數根據輸(shu)入(ru)變化(hua)，使模型能夠根據不(bu)同的(de)(de)(de)輸(shu)入(ru)動態調整其(qi)響應方(fang)式。這與RNN中(zhong)的(de)(de)(de)門控機制類似，但是在(zai)SSM的(de)(de)(de)結構中(zhong)，它(ta)為應用提(ti)供(gong)了更多的(de)(de)(de)可能性(xing)。通過這種(zhong)方(fang)法，Mamba模型能有效地篩(shai)選掉無(wu)關(guan)信息(xi)，同時保留并強化(hua)對任務有關(guan)的(de)(de)(de)信息(xi)，從(cong)而提(ti)升了處(chu)理(li)長序列數據的(de)(de)(de)能力。

為了(le)(le)(le)提高(gao)計(ji)算(suan)(suan)效(xiao)率(lv)，Mamba模型采(cai)納了(le)(le)(le)硬件感知的(de)(de)算(suan)(suan)法設計(ji)，尤其是利用GPU的(de)(de)內(nei)存(cun)層級(ji)結構來加快掃描操作的(de)(de)速度并(bing)減少內(nei)存(cun)需求。這種策略結合了(le)(le)(le)RNN的(de)(de)遞歸計(ji)算(suan)(suan)優(you)勢與CNN的(de)(de)并(bing)行處理(li)能力，使得(de)Mamba在處理(li)長序列(lie)數據方(fang)面更(geng)為高(gao)效(xiao)。

在(zai)架(jia)構(gou)(gou)設(she)計方面，Mamba簡化了傳統的SSM結構(gou)(gou)，通過整合H3和MLP模(mo)塊，創建了一個均勻(yun)堆疊的架(jia)構(gou)(gou)。這種設(she)計不僅(jin)簡化了模(mo)型構(gou)(gou)造，還增強了模(mo)型的靈活性(xing)和計算(suan)效(xiao)率。

最后(hou)我們總(zong)結一下各個模型(xing)的核心特點，如表1所(suo)示：

模型	對信息的壓縮程度	訓練的效率	推理的效率
Transformer	對每個歷史記(ji)錄都進行處(chu)理(li)，不壓縮	訓練消耗算力大	效率(lv)較低，尤其(qi)處理長序列向量
RNN	隨著時間推移，RNN會遺忘(wang)之(zhi)前的信息	無法進行并行訓練	推(tui)理(li)時(shi)，只(zhi)參考一個時(shi)間(jian)步，推(tui)理(li)高效
CNN		訓(xun)練效率較高，可以并行(xing)訓(xun)練
SSM	壓縮每一個歷史記錄		矩(ju)陣參數是固(gu)定的，無法針對輸(shu)入(ru)向(xiang)量做專門性推(tui)理(li)
Mamba	選擇性關注必須關注的(de)，過濾掉可以忽略的(de)	Mamba每次參考前(qian)面(mian)所有內(nei)容的(de)一個概括，兼(jian)備(bei)訓練、推理的(de)效率

個人對利用Mamba模型做選擇性時序建模視頻文本檢索大模型的思考：

可(ke)以把Mamba模型替換Clip4Clip視頻(pin)特征提(ti)取中的Transformer架構(gou)。雖(sui)然Transformer模型由于其高效的自注意力機制(zhi)，在處理(li)序列(lie)數據(ju)，尤(you)其是文本(ben)和靜態(tai)圖像上展(zhan)現出了顯著的能力，但在處理(li)視頻(pin)這(zhe)種高維(wei)度、時空結合的復雜數據(ju)時，Mamba架構(gou)可(ke)能在以下(xia)方面表(biao)現更優：

（1）時空特性的(de)專門處理

優(you)化的(de)(de)時空(kong)特征提取：Mamba架(jia)(jia)構通過結合卷積(ji)網絡(luo)和RNN的(de)(de)設計(ji)，可以更自然(ran)地(di)處理視頻數(shu)據中(zhong)的(de)(de)時空(kong)信息。卷積(ji)層專注于捕捉每(mei)一幀內的(de)(de)空(kong)間特征，而(er)RNN則處理幀與幀之(zhi)間的(de)(de)時間序(xu)列關系(xi)。這種結構設計(ji)使得Mamba架(jia)(jia)構能夠更加高效和直接地(di)提取視頻內容中(zhong)的(de)(de)時空(kong)特性(xing)。

（2）計算效(xiao)率和資源(yuan)需(xu)求

Transformer模(mo)型建立(li)(li)了(le)(le)所有向量之(zhi)間(jian)(jian)的(de)(de)聯系，通(tong)常(chang)需要(yao)大(da)量的(de)(de)計(ji)算資(zi)源。在處(chu)(chu)理視頻數(shu)據(ju)時，為了(le)(le)更好地捕(bu)捉幀之(zhi)間(jian)(jian)的(de)(de)時間(jian)(jian)關(guan)(guan)系，Clip4Clip模(mo)型將(jiang)輸入從傳(chuan)統的(de)(de)二維形式擴展到三維，這(zhe)顯著增加了(le)(le)隨時間(jian)(jian)處(chu)(chu)理的(de)(de)數(shu)據(ju)量。相較之(zhi)下(xia)，Mamba架構通(tong)過(guo)巧妙(miao)地在局部（通(tong)過(guo)卷積操作）和全局（利(li)用(yong)RNN處(chu)(chu)理）處(chu)(chu)理之(zhi)間(jian)(jian)找(zhao)到平衡。這(zhe)種(zhong)方法能在不增加時間(jian)(jian)維度計(ji)算的(de)(de)情況下(xia)，有效地建立(li)(li)大(da)規(gui)模(mo)視頻數(shu)據(ju)中特征間(jian)(jian)的(de)(de)時間(jian)(jian)關(guan)(guan)系，極大(da)地節約了(le)(le)計(ji)算資(zi)源。

（3）動態關注機制

Mamba架(jia)構(gou)通過(guo)采(cai)用選擇性(xing)參(can)(can)數化的(de)(de)稀疏自注意(yi)(yi)力機制(zhi)（SSM），對(dui)輸(shu)入向(xiang)(xiang)(xiang)(xiang)量(liang)分(fen)配不(bu)同(tong)的(de)(de)關(guan)注權重，從而能夠(gou)更加(jia)精確和(he)高效地(di)捕(bu)捉(zhuo)視(shi)(shi)頻內容(rong)中的(de)(de)關(guan)鍵幀(zhen)或動(dong)態(tai)。這(zhe)(zhe)一處理(li)方式(shi)雖然與Transformer模(mo)型通過(guo)自注意(yi)(yi)力機制(zhi)為不(bu)同(tong)向(xiang)(xiang)(xiang)(xiang)量(liang)特(te)(te)征(zheng)(zheng)賦予不(bu)同(tong)權重以表(biao)征(zheng)(zheng)其重要(yao)(yao)性(xing)的(de)(de)做法相似，但Mamba架(jia)構(gou)的(de)(de)動(dong)態(tai)調整(zheng)關(guan)注點(dian)機制(zhi)，在(zai)處理(li)視(shi)(shi)頻數據時(shi)，能更有效地(di)識別并強調重要(yao)(yao)信息(xi)。具體而言，雖然Transformer模(mo)型通過(guo)自注意(yi)(yi)力計(ji)算(suan)(suan)為每個向(xiang)(xiang)(xiang)(xiang)量(liang)特(te)(te)征(zheng)(zheng)分(fen)配權重，突出(chu)向(xiang)(xiang)(xiang)(xiang)量(liang)的(de)(de)重要(yao)(yao)性(xing)，但這(zhe)(zhe)種方法需要(yao)(yao)對(dui)所有向(xiang)(xiang)(xiang)(xiang)量(liang)特(te)(te)征(zheng)(zheng)進行計(ji)算(suan)(suan)。隨著(zhu)向(xiang)(xiang)(xiang)(xiang)量(liang)數量(liang)的(de)(de)增加(jia)，所需的(de)(de)計(ji)算(suan)(suan)量(liang)以平方數速(su)度(du)膨脹。相比之下(xia)，Mamba架(jia)構(gou)的(de)(de)SSM通過(guo)動(dong)態(tai)調整(zheng)參(can)(can)數，直接對(dui)向(xiang)(xiang)(xiang)(xiang)量(liang)進行過(guo)濾，優(you)先處理(li)與當前幀(zhen)鄰近的(de)(de)圖(tu)片幀(zhen)（賦予較大(da)權重），而對(dui)于(yu)(yu)距離較遠(yuan)的(de)(de)幀(zhen)則分(fen)配較小的(de)(de)權重。這(zhe)(zhe)種方法不(bu)僅降低了計(ji)算(suan)(suan)復雜度(du)，還提(ti)高了處理(li)速(su)度(du)和(he)精度(du)，尤(you)其是在(zai)識別視(shi)(shi)頻序(xu)列中的(de)(de)時(shi)序(xu)關(guan)系和(he)關(guan)鍵內容(rong)方面表(biao)現出(chu)更高的(de)(de)效率(lv)。通過(guo)這(zhe)(zhe)樣的(de)(de)優(you)化，Mamba架(jia)構(gou)在(zai)處理(li)大(da)規模(mo)視(shi)(shi)頻數據時(shi)，能夠(gou)更加(jia)聚焦于(yu)(yu)關(guan)鍵信息(xi)，減少不(bu)必(bi)要(yao)(yao)的(de)(de)計(ji)算(suan)(suan)，從而大(da)幅提(ti)升特(te)(te)征(zheng)(zheng)提(ti)取(qu)的(de)(de)效率(lv)和(he)精度(du)。

總的(de)(de)來說(shuo)，雖然(ran)Transformer模型因其靈(ling)活性和(he)強大(da)的(de)(de)處理能力而廣泛應(ying)用于(yu)多種任務，Mamba架構在處理具有強時(shi)空關聯特(te)性的(de)(de)視(shi)頻數據(ju)時(shi)，通過其特(te)定的(de)(de)結構優化和(he)算法設計，可能在視(shi)頻特(te)征提取的(de)(de)準確性、計算效率以及模型復(fu)雜(za)度管(guan)理等方面(mian)提供更加顯著(zhu)的(de)(de)優勢。

總結：

綜合考慮，Mamba模(mo)型以其(qi)出色的(de)效率和(he)(he)對時(shi)序信息建模(mo)的(de)強大能力(li)，顯著優于Transformer模(mo)型，尤(you)其(qi)適合于視(shi)頻內容的(de)特征提取任務。盡管Mamba模(mo)型相對較(jiao)新，在多模(mo)態視(shi)頻檢索(suo)領(ling)域的(de)應用(yong)尚處于初步(bu)階(jie)段，將Mamba架(jia)構應用(yong)于文本和(he)(he)視(shi)頻多模(mo)態檢索(suo)的(de)嘗試具有重要的(de)科(ke)研價值。這不僅證(zheng)明了(le)Mamba模(mo)型在理解(jie)和(he)(he)處理復(fu)雜視(shi)頻數據方面的(de)潛力(li)，也為后續的(de)研究提供(gong)了(le)新的(de)方向和(he)(he)思(si)路(lu)，值得在未(wei)來的(de)工作中進一步(bu)探索(suo)和(he)(he)深化。

文章來自個人專欄

文章 | 訂閱

0條評論

0 / 1000

請輸入你的評論

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用

亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

活動

應用商城

定價

合作伙伴

開發者

支持與服務

了解天翼云

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用

具有選擇狀態空間的線性時間序列建模Mamba模型在多模態文本視頻檢索的應用