TPC-H樣例數據簡介
TPC-H(商業智能計算測試)是美國交易處理效能委員會(TPC,Transaction Processing Performance Council) 組織制定的用來模擬決策支持類應用的一個測試集。目前,在學術界和工業界普遍用來評價決策支持技術方面應用的性能。這種商業測試可以全方位評測系統的整體商業計算綜合能力,對廠商的要求更高,同時也具有普遍的商業實用意義,目前在銀行信貸分析和信用卡分析、電信運營分析、稅收分析、煙草行業決策分析中都有廣泛的應用。
TPC-H 基準測試是由 TPC-D(由 TPC 組織于 1994 年指定的標準,用于決策支持系統方面的測試基準)發展而來的。TPC-H用3NF實現了一個數據倉庫,共包含8個基本關系,其數據量可以設定從1G3T不等。TPC-H 基準測試包括 22 個查詢(Q1Q22),其主要評價指標是各個查詢的響應時間,即從提交查詢到結果返回所需時間。TPC-H基準測試的度量單位是每小時執行的查詢數( QphH@size),其中“H”表示每小時系統執行復雜查詢的平均次數,“size”表示數據庫規模的大小,能夠反映出系統在處理查詢時的能力。TPC-H 是根據真實的生產運行環境來建模的,這使得它可以評估一些其他測試所不能評估的關鍵性能參數。總而言之,TPC組織頒布的TPC-H 標準滿足了數據倉庫領域的測試需求,并且促使各個廠商以及研究機構將該項技術推向極限。
本示例將演示DLI直接對存儲在OBS中的TPC-H數據集進行查詢的操作,DLI已經預先生成了100M的TPC-H-2.18的標準數據集,已將數據集上傳到了OBS的tpch文件夾中,并且賦予了只讀訪問權限,方便用戶進行查詢操作。
TPC-H的測試和度量指標
TPC-H 測試分解為3 個子測試:數據裝載測試、Power測試和Throughput測試。建立測試數據庫的過程被稱為裝載數據,裝載測試是為測試DBMS裝載數據的能力。裝載測試是第一項測試,測試裝載數據的時間,這項操作非常耗時。Power 測試是在數據裝載測試完成后,數據庫處于初始狀態,未進行其它任何操作,特別是緩沖區還沒有被測試數據庫的數據,被稱為raw查詢。Power測試要求22 個查詢順序執行1 遍,同時執行一對RF1 和RF2 操作。最后進行Throughput 測試,也是最核心和最復雜的測試,更接近于實際應用環境,與Power 測試比對SUT 系統的壓力有非常大的增加,有多個查詢語句組,同時有一對RF1 和RF2 更新流。
測試中測量的基礎數據都與執行時間有關,這些時間又可分為:裝載數據的每一步操作時間、每個查詢執行時間和每個更新操作執行時間,由這些時間可計算出:數據裝載時間、Power@Size、Throughput@Size、QphH@Size 和$/QphH@Size。
Power@Size 是Power 測試的結果,被定義為查詢時間和更改時間的幾何平均值的倒數,公式如下:


其中:Size 為數據規模;SF 為數據規模的比例因子;QI (i,0)為第 i個查詢的時間,以秒為單位;R(I j,0)為 RFj更新的時間,以秒為單位。
Throughput@Size 是Throughput 測試的結果,被定義為所有查詢執行時間平均值的倒數,公式如下:


業務場景
用戶可以通過DLI內置的TPC-H測試套件進行簡單高效的交互式查詢,無需用戶上傳數據,即可以體驗DLI的核心功能。
DLI內置TPC-H的優勢
- 用戶只需要登錄DLI,完成授予權限,即可操作SQL語句,無需用戶自己創建表和導入數據。
- 預置22條TPC-H SQL查詢模板,功能豐富,可滿足大部分的商業場景,無需用戶自行下載TPC-H的查詢語句,省時省力。
- 用最小的時間代價體驗serverless化的DLI產品,領略數據湖帶給我們的全新體驗。
注意子賬號使用TPC-H測試套件時,需要主賬號為子賬號賦權OBS訪問權限和查看主賬號表的權限;如果主賬號未登錄過DLI服務,子賬號除上述權限外,還需要創建數據庫和創建表的權限。
操作說明
具體操作指導詳見 SQL模板管理。