外表與GDS外表支持的數據格式有什么區別?
OBS與GDS外表支持格式文件區別如下:
OBS支持的文件格式:CSV、TEXT、ORC、CARBONDATA,缺省值為TEXT
GDS支持的文件格式:CSV、TEXT,缺省值為TEXT
數據如何存儲到數據倉庫服務?
DWS支持多數據源高效入庫,典型的入庫方式如下所示。詳細指導請參見《數據倉庫服務數據庫開發指南》中的“導入數據”章節。
- 從OBS導入數據
數據上傳到OBS對象存儲服務中,再從OBS中導入,支持CSV,TEXT格式數據。
- 通過INSERT語句直接插入數據
用戶可以通過DWS提供的客戶端工具(gsql)或者JDBC/ODBC驅動從上層應用向DWS寫入數據。DWS支持完整的數據庫事務級別的增刪改(CRUD)操作。這是最簡單的一種方式,這種方式適合數據寫入量不太大, 并發度不太高的場景。
- 從MRS導入數據,將MRS作為ETL
- 通過COPY FROM STDIN方式導入數據。
通過COPY FROM STDIN命令寫數據到一個表。
- 使用GDS從遠端服務器導入數據到DWS
當用戶需要將普通文件系統(例如,彈性云主機)中的數據文件導入到DWS時,可以使用DWS提供的GDS導入數據的功能。
數據倉庫可以存儲多少業務數據?
數據倉庫集群每個節點默認能夠支持1.49TB、2.98TB、4.47TB、160GB、1.68TB、13.41TB六種規格的存儲容量,一個集群支持的節點數范圍為3~256,集群總的存儲容量隨集群規模等比例擴充。
為增強可靠性,每個節點都有一個副本,副本會占用一半的存儲空間,選擇容量時副本容量會自動翻倍存儲。
數據倉庫系統會備份數據,生成索引、臨時緩存文件、運行日志等內容,并占用存儲容量。每個節點實際存儲的數據,大致為總存儲容量的一半。
如何使用\copy導入導出?
由于云上DWS是全托管服務,用戶無法登錄后臺,無法使用copy進行導入導出文件,所以云上將copy語法禁掉。云上推薦將數據文件放到obs上,使用obs外表進行入庫,如果需要使用copy導入導出數據,可以參考如下方法:
1.將數據文件放到客戶端的機器上。
2.使用gsql連接集群。
3.執行如下命令導入數據,輸入數據文件在客戶端的目錄信息和文件名,with中指定導入選項,跟正常copy一樣,但是需要在copy前添加""標識,入庫成功后不會有消息提示。
\copy tb_name from '/directory_name/file_name' with(...);
4.執行如下命令,使用默認參數直接導出數據到本地文件。
\copy table_name to '/directory_name/file_name';
5.使用copy_option參數導出為CSV文件。
\copy table_name to '/directory_name/file_name' CSV;
6.使用with指定option參數,導出為CSV文件,分隔符為'|'。
\copy table_name to '/directory_name/file_name' with(format 'csv',delimiter '|') ;
是否支持跨Region進行OBS導入或導出數據?
不支持。
DWS不支持跨Region進行OBS導入或導出數據,必須確保DWS集群和OBS在同一個Region內。
在創建DWS集群和OBS時,請您務必關注所屬Region。
DWS/Oracle/MySQL/SQL Server的數據如何導入/遷移到DWS(整庫遷移)?
對于異構數據的入庫,可通過CDM遷移,支持Oracle、MySQL、SQL Server的整庫遷移,以及老DWS導入到新DWS的整庫遷移。
您也可以將數據存入OBS再轉儲至DWS,詳情請參見《數據倉庫服務開發指南》的“關于OBS并行導入”章節。
GDS導入數據時是否支持使用公網/外網導入?
不支持。
GDS導入數據的原理是,GDS服務器和DWS在內網互通的前提下,使用集群內每個DN去并行連接GDS服務器,以達到大容量并行導入的目的,因此必須確保GDS服務器與集群在同一個網絡內。如果GDS為線下服務器,則需要打通防火墻,并且DWS集群需要使用EIP,但一個集群只能綁定一個EIP,也無法實現GDS的多DN連接導入。
DWS導入性能都和哪些因素有關聯?
dws的導入性能受多方面因素影響,主要有以下幾點:
1.集群規格:磁盤io、網絡吞吐、內存、cpu規格等。
2.業務規劃:表字段的類型、是否壓縮、行存還是列存。
3.數據存儲:集群本地、OBS等。
4.數據導入的方式選擇等。