亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

  • 發布文章
  • 消息中心
點贊
收藏
評論
分享

NVDIA BlueField3 DOCA Tool

2024-09-06 10:12:06
94
0

DOCA Tools

DOCA工具是一組可執行文件/腳本,所有工具都和DOCA一起安裝,作為doc -tools包的一部分,可以直接從終端訪問,也可以在/opt/mellanox/DOCA/tools中找到。

DOCA Bench

       CLI name: doca_bench

DOCA Bench是一個允許用戶評估DOCA應用程序性能的工具,允許用戶以合理的準確性評估DOCA應用程序的性能。它提供了一個靈活的體系結構,可以通過多核擴展來評估多個特性,從而提供詳細的吞吐量和延遲分析。該工具可用于評估多個DOCA操作的性能,深入了解復雜DOCA操作的每個階段,并了解緩沖區大小、scalingGGA配置等項目如何(he)影響吞吐量和時延。

支持的feature

DOCA Bench是為所有BlueField加速器設計的統一測試工具。因此,它提供了以下主要feature

l  BF上執行,利用本地ARM coreGGA

l  host(x86)上執行,利用x86 core或通過PCIe利用BlueField上的GGA

l  支持以下DPU feature

n  DOCA AES GCM

n  DOCA Comch

n  DOCA Compress

n  DOCA DMA

n  DOCA EC

n  DOCA Eth

n  DOCA RDMA

n  DOCA SHA

l  多核/多線程支持;

l  基于時間、任務數量等調(diao)度;

l  能使用GGA構造復雜的pipeline

l  各種數據源(隨機數據、文件數據、文件組等)

l  遠程內存操作;

l  使用host x86平臺上的數據作為GGA的輸入;

l  輸出到屏幕或CSV

l  查詢支持的軟硬件特性;

l  參數可以指定起始值(zhi)和結束(shu)值(zhi)以及增(zeng)量(liang);

l  為每個GGA實例設置屬性,從而精細控制GGA操作。

安裝

DOCA-for-HostDOCA BlueField Arm包安裝后,DOCA Bench位于/opt/mellanox/doca/tools目(mu)錄下。

前提條件

DOCA 2.7.0和更高版本;

操作模式

DOCA Bench可以(yi)測量吞(tun)吐(tu)量(帶寬(kuan))和時(shi)延。

吞吐量測試

在這種模式下,DOCA Bench測量給定pipeline的最大性能。在執行結束時,提供了一個簡短的摘要以及更詳細的統計數據:

時延測試

DOCA Bench測量從提(ti)交作(zuo)業(ye)到接收響應(ying)之(zhi)間所花費的時間。

DOCA Bench提供了兩種不同類型的延遲測量:

l  Bulk latency mode-并(bing)行提交(jiao)一組(zu)作業(ye)以(yi)獲(huo)得最大吞吐量,時延為第一個(ge)作業(ye)提交(jiao)和最后(hou)一個(ge)作業(ye)完成之間(jian)的時間(jian);

l  Precision latency mode-同一(yi)時刻只有一(yi)個作業被(bei)提(ti)交和(he)測(ce)量;

Bulk Latency

這種延遲模式有效地以全速運行pipeline,試圖保持最大吞吐量,同時還記錄提交作業的時延數據。為了記錄時延,當在最大吞吐量下操作時,時延數據放以groupbucket為單位進行(而不是記錄每個單獨的作業延遲)。使用這種方法,用戶可以避免每秒記錄數百萬個延遲數據造成大量內存和CPU開銷(否則會顯著降低性能)

由于每個pipeline操作不同,因此具有不同的時延特征,因此用戶可以提供時延度量的邊界。DOCA Bench在內部創建了100個桶,用戶可以指定每個桶的起始(shi)值和寬度(du)或大小。

l  第一個桶(tong)包(bao)含所有(you)執(zhi)行(xing)速度快(kuai)于起(qi)始周(zhou)期的作業;

l  最后一個bucket包(bao)含花費超過允許的(de)最大(da)時間的(de)作業計數;

命令行參數latency-bucket-range用于提供兩個參數,分別表示第一個桶的起始時間段和每個桶的寬度。例如, latency-bucket-range 10us,100us將從測量響應時間<10μs的最低桶開始,然后是100μs寬的100個桶,最后一個桶的結果耗時超過10010μs

由批量模式生成的報告以兩種方式可視化呈現:

1.      提供了一個條形圖來直觀地顯示latency-bucket-range選項指定范圍內的分布(bu);

2.      給出了(le)每個桶的作業數量的細分;

Precision Latency

這(zhe)種延遲模式(shi)一(yi)次只在一(yi)個(ge)作業上運行(xing)。以大(da)大(da)降低吞(tun)吐量(liang)為代價(jia),這(zhe)允許精確(que)地(di)記錄最(zui)小延遲。如下所(suo)示,生成(cheng)的統(tong)計信息是精確(que)的,包括各(ge)種字段,如最(zui)小值、最(zui)大(da)值、中位(wei)數和百分位(wei)數值。

運行

無論在x86 host還是BlueField Arm上執行DOCA Bench, DOCA Bench的行為都是相同的。所測量的性能取決于環境。目前只支持x86 host上執行。

pipeline

DOCA Bench是一種高度靈活的工具,能夠配置操作的發生方式和順序。為了實現這一點,DOCA Bench使用了一個操作pipeline,稱為“step”。這些step可以是一個特定的功能(例如,以太網接收、SHA散列生成、數據壓縮)。因此,一個step pipeline可以完成許多順序操作。DOCA Bench可以測量這些pipeline的吞吐量或時延,無論運行在單個或多個core/線程上。目前,DOCA一次只支持運行一個pipeline

Warm-up Period

為了確保正確的測量,pipeline必須“預熱”(即,任何初始內存、緩存和硬件子系統必須在實際性能測量開始之前運行)。默認情況下,在開始測量之前,通過pipeline運行大約100個作業。

默認參數

DOCA Bench有大量的參數,但是為了簡化執行,在開始性能測量時只需要提供幾個參數。因此,各種參數都有默認值,這在大多數情況下應該是足夠的。為了優化性能,用戶應該密切關注任何可能影響管道運行的默認參數。當執行時,DOCA Bench報告所(suo)有參數和配(pei)置值的完整列表。

性能優化

為了獲得最大的性能,對于任何給定的環境都需要進行一定的調優。雖然超出了本文檔的范圍,但建議用戶:

l  避免使用CPU 0,因為大多數操作系統進程和中斷請求(IRQ)處(chu)理程序都被安排在這個核心上執行(xing);

l  在內核引導參數中啟用CPU/IRQ隔(ge)離,以便(bian)將內核活動從執(zhi)行(xing)性能測試的(de)所有內核中刪除;

l  在主機上,確保在尋址BlueField時不跨NUMA

l  了(le)解場景的內存(cun)分配(pei)需求,以(yi)避免過度分配(pei)或遇到內存(cun)不(bu)足的情況;

CPU core和線程的指定

DOCA Bench提供了指定core數量和每個core要創建的線程數量的功能,以最大限度地增加提交到給定pipeline的作業數量。

在選擇CPU或線程的數量時,應注意以下事項:

l  NUMA區域(即,與BlueField連接的NUMA區域不同)core上(shang)的線程性能交底,時延較高;

l  core 0通常是操作系統(tong)最(zui)常用的(de),應該避免使用;

l  進程在多個CPU core之間切換,由于進程切換開銷會導致性能(neng)下降或(huo)更高的延(yan)遲(chi);

l  通過--core-mask--core-list--core-count參數指定CPU core,通過--threads-per-core參數指定線程。

輸入數據的選擇

DOCA Bench可以用以下數據作為輸(shu)入(ru):

l  file:單個文件(jian)作為輸入(ru)數據;

l  file set:多個文件作為輸入數據,file set本身是一個文件,文件內容是多個文件組成的list,每行代表一個文件,依次作為任務的輸入數據,每個文件的內容將被讀入單獨的buffer

l  隨(sui)機數據(ju)(ju):在壓縮類(lei)操作中(zhong)可能(neng)性(xing)能(neng)較低,因為文(wen)件中(zhong)有很多重(zhong)復數據(ju)(ju),而(er)隨(sui)機數據(ju)(ju)相反(fan)。

Capabilities Print Tool

CLI name: doca_caps

該工具用于打印可訪問的device和它們的representor device,以及它們的capabilities,可訪問的lib要求DOCA 2.6.0及其以上版本。

此工具可以在hostArm端執行。該工具支持以下功能:

l  DOCA設備列表-打印每個可用DOCA設備的PCIe設備及其capabilities

l  DOCA representtor設備列表-對于每個DOCA設備,打印每個可用DOCA representtor設備的PCIe設備及其capabilities

l  DOCA lib列表——打印當前操作系統支持的可用DOCA lib,以及它們在特定操作系統上的可用性;

l  DOCA lib功能——對于每個DOCA設備,打印它在每個DOCA lib中支持的功能;

運行

l  打印所有可用的DOCA設備和它們的capabilities

輸出如下:

l  打印所有可用的DOCA representor設備和它們的capabilities

該命令只能在ARM端運行。

輸出如下:

l  打印特定設備的能力,指定參數--pci-addr

l  打印所有支持的lib及其可用狀態:

輸出(chu)如下(xia):

l  打印特定lib可用狀態,指定參--lib

l  打印打印所有信息;

DOCA Comm Channel Admin Tool

Comm Channel Admin Tool用于打印DOCA Comch Channel連接的快照:

l  BlueField Arm端,它包括DOCA Comch server及其當前連接信息;

l  host端,它包括所有活動的client連接和它們所連接的server;

l  只報告client-to-server control channel,不包括快路徑的producer/consumer channel;

       只支持linuxDOCA版本至少是2.7.0

運行

Comm Channel Admin Tool可以在hostArm cpu上執行。默認情況下,該工具掃描所有可用的PCIe插槽以檢測支持的DOCA設備并報告任何可用的Comch信(xin)息。運行命令如下:

0條評論
0 / 1000
c****6
14文章數
3粉(fen)絲數
c****6
14 文章(zhang) | 3 粉絲(si)
c****6
14文章數
3粉絲數(shu)
c****6
14 文章 | 3 粉絲

NVDIA BlueField3 DOCA Tool

2024-09-06 10:12:06
94
0

DOCA Tools

DOCA工具是一組可執行文件/腳本,所有工具都和DOCA一起安裝,作為doc -tools包的一部分,可以直接從終端訪問,也可以在/opt/mellanox/DOCA/tools中找到。

DOCA Bench

       CLI name: doca_bench

DOCA Bench是一個允許用戶評估DOCA應用程序性能的工具,允許用戶以合理的準確性評估DOCA應用程序的性能。它提供了一個靈活的體系結構,可以通過多核擴展來評估多個特性,從而提供詳細的吞吐量和延遲分析。該工具可用于評估多個DOCA操作的性能,深入了解復雜DOCA操作的每個階段,并了解緩沖區大小、scalingGGA配置等(deng)項目如何(he)影響吞(tun)吐(tu)量和(he)時延。

支持的feature

DOCA Bench是為所有BlueField加速器設計的統一測試工具。因此,它提供了以下主要feature

l  BF上執行,利用本地ARM coreGGA

l  host(x86)上執行,利用x86 core或通過PCIe利用BlueField上的GGA

l  支持以下DPU feature

n  DOCA AES GCM

n  DOCA Comch

n  DOCA Compress

n  DOCA DMA

n  DOCA EC

n  DOCA Eth

n  DOCA RDMA

n  DOCA SHA

l  多核/多線程支持;

l  基于時間、任務(wu)數量等(deng)調度;

l  能使用GGA構造復雜的pipeline

l  各種數據源(隨機數據、文件數據、文件組等)

l  遠程內存操作;

l  使用host x86平臺上的數據作為GGA的輸入;

l  輸出到屏幕或CSV

l  查詢支持的軟硬件(jian)特性;

l  參數可(ke)以指定起始值和結束值以及(ji)增量;

l  為每個GGA實例設置屬性,從而精細控制GGA操作。

安裝

DOCA-for-HostDOCA BlueField Arm包安裝后,DOCA Bench位于/opt/mellanox/doca/tools目錄下。

前提條件

DOCA 2.7.0和更高版本;

操作模式

DOCA Bench可以測量吞吐量(帶寬)和時(shi)延。

吞吐量測試

在這種模式下,DOCA Bench測量給定pipeline的最大性能。在執行結束時,提供了一個簡短的摘要以及更詳細的統計數據:

時延測試

DOCA Bench測量從提交作業到接收響(xiang)應(ying)之間所(suo)花費(fei)的(de)時間。

DOCA Bench提供了兩種不同類型的延遲測量:

l  Bulk latency mode-并行(xing)提交一組作業(ye)(ye)以獲得最大吞吐量,時延為第一個(ge)作業(ye)(ye)提交和最后一個(ge)作業(ye)(ye)完成(cheng)之間(jian)的(de)時間(jian);

l  Precision latency mode-同一(yi)時刻(ke)只有一(yi)個作業被提交和測量;

Bulk Latency

這種延遲模式有效地以全速運行pipeline,試圖保持最大吞吐量,同時還記錄提交作業的時延數據。為了記錄時延,當在最大吞吐量下操作時,時延數據放以groupbucket為單位進行(而不是記錄每個單獨的作業延遲)。使用這種方法,用戶可以避免每秒記錄數百萬個延遲數據造成大量內存和CPU開銷(否則會顯著降低性能)

由于每個pipeline操作不同,因此具有不同的時延特征,因此用戶可以提供時延度量的邊界。DOCA Bench在內部創建了100個桶(tong),用戶可以指(zhi)定每個桶(tong)的(de)起始(shi)值和寬度或大小(xiao)。

l  第一個桶包含所有執行速(su)度(du)快于(yu)起(qi)始周期的作業(ye);

l  最后一個bucket包含花(hua)費超過允許的最大時間的作業計數;

命令行參數latency-bucket-range用于提供兩個參數,分別表示第一個桶的起始時間段和每個桶的寬度。例如, latency-bucket-range 10us,100us將從測量響應時間<10μs的最低桶開始,然后是100μs寬的100個桶,最后一個桶的結果耗時超過10010μs

由批量模式生成的報告以兩種方式可視化呈現:

1.      提供了一個條形圖來直觀地顯示latency-bucket-range選項指定范圍內的分布;

2.      給出了每個(ge)桶的(de)作業數量(liang)的(de)細分;

Precision Latency

這種延(yan)遲模式一次只在(zai)一個作業上運行。以大(da)(da)(da)大(da)(da)(da)降低吞吐量為代價,這允許(xu)精確(que)地(di)記錄(lu)最(zui)小延(yan)遲。如下所(suo)示,生成的(de)統(tong)計信息是精確(que)的(de),包括各種字段(duan),如最(zui)小值(zhi)、最(zui)大(da)(da)(da)值(zhi)、中位數(shu)和百(bai)分位數(shu)值(zhi)。

運行

無論在x86 host還是BlueField Arm上執行DOCA Bench, DOCA Bench的行為都是相同的。所測量的性能取決于環境。目前只支持x86 host上執行。

pipeline

DOCA Bench是一種高度靈活的工具,能夠配置操作的發生方式和順序。為了實現這一點,DOCA Bench使用了一個操作pipeline,稱為“step”。這些step可以是一個特定的功能(例如,以太網接收、SHA散列生成、數據壓縮)。因此,一個step pipeline可以完成許多順序操作。DOCA Bench可以測量這些pipeline的吞吐量或時延,無論運行在單個或多個core/線程上。目前,DOCA一次只支持運行一個pipeline

Warm-up Period

為了確保正確的測量,pipeline必須“預熱”(即,任何初始內存、緩存和硬件子系統必須在實際性能測量開始之前運行)。默認情況下,在開始測量之前,通過pipeline運行大約100個作業。

默認參數

DOCA Bench有大量的參數,但是為了簡化執行,在開始性能測量時只需要提供幾個參數。因此,各種參數都有默認值,這在大多數情況下應該是足夠的。為了優化性能,用戶應該密切關注任何可能影響管道運行的默認參數。當執行時,DOCA Bench報告(gao)所有參數(shu)和配置值(zhi)的完整列表(biao)。

性能優化

為了獲得最大的性能,對于任何給定的環境都需要進行一定的調優。雖然超出了本文檔的范圍,但建議用戶:

l  避免使用CPU 0,因為大多數操作系統進程和中斷請求(IRQ)處理程序(xu)都被安排在這個核心上(shang)執行;

l  在內核引導參數中啟用CPU/IRQ隔離(li),以便將內核(he)活動從執行性(xing)能測(ce)試(shi)的所有(you)內核(he)中刪除;

l  在主機上,確保在尋址BlueField時不跨NUMA

l  了解場景的內存分(fen)配需求,以(yi)避免過(guo)度分(fen)配或遇到(dao)內存不足的情況;

CPU core和線程的指定

DOCA Bench提供了指定core數量和每個core要創建的線程數量的功能,以最大限度地增加提交到給定pipeline的作業數量。

在選擇CPU或線程的數量時,應注意以下事項:

l  NUMA區域(即,與BlueField連接的NUMA區域不同)core上的線程性能交底,時延較高;

l  core 0通常是(shi)操(cao)作(zuo)系統最常用的,應該避免使用;

l  進程在多個CPU core之間切換,由(you)于進程切換開銷(xiao)會導(dao)致性能下降或更高的延遲;

l  通過--core-mask--core-list--core-count參數指定CPU core,通過--threads-per-core參數指定線程。

輸入數據的選擇

DOCA Bench可以(yi)用以(yi)下數據作為輸入:

l  file:單個文件作為(wei)輸(shu)入數據;

l  file set:多個文件作為輸入數據,file set本身是一個文件,文件內容是多個文件組成的list,每行代表一個文件,依次作為任務的輸入數據,每個文件的內容將被讀入單獨的buffer

l  隨機數(shu)(shu)據(ju):在壓縮類(lei)操作中可(ke)能性能較低,因為(wei)文件中有很多重復數(shu)(shu)據(ju),而(er)隨機數(shu)(shu)據(ju)相反。

Capabilities Print Tool

CLI name: doca_caps

該工具用于打印可訪問的device和它們的representor device,以及它們的capabilities,可訪問的lib要求DOCA 2.6.0及其以上版本。

此工具可以在hostArm端執行。該工具支持以下功能:

l  DOCA設備列表-打印每個可用DOCA設備的PCIe設備及其capabilities

l  DOCA representtor設備列表-對于每個DOCA設備,打印每個可用DOCA representtor設備的PCIe設備及其capabilities

l  DOCA lib列表——打印當前操作系統支持的可用DOCA lib,以及它們在特定操作系統上的可用性;

l  DOCA lib功能——對于每個DOCA設備,打印它在每個DOCA lib中支持的功能;

運行

l  打印所有可用的DOCA設備和它們的capabilities

輸出如下:

l  打印所有可用的DOCA representor設備和它們的capabilities

該命令只能在ARM端運行。

輸出如下:

l  打印特定設備的能力,指定參數--pci-addr

l  打印所有支持的lib及其可用狀態:

輸出如(ru)下:

l  打印特定lib可用狀態,指定參--lib

l  打印打印所有信息;

DOCA Comm Channel Admin Tool

Comm Channel Admin Tool用于打印DOCA Comch Channel連接的快照:

l  BlueField Arm端,它包括DOCA Comch server及其當前連接信息;

l  host端,它包括所有活動的client連接和它們所連接的server;

l  只報告client-to-server control channel,不包括快路徑的producer/consumer channel;

       只支持linuxDOCA版本至少是2.7.0

運行

Comm Channel Admin Tool可以在hostArm cpu上執行。默認情況下,該工具掃描所有可用的PCIe插槽以檢測支持的DOCA設備并報告任何可用的Comch信息。運行命(ming)令如(ru)下(xia):

文章來自個人專欄
文章 | 訂閱
0條評論
0 / 1000
請輸入你的評論
0
0