應用場景
更新時間 2023-05-29 00:32:10
最近更新時間: 2023-05-29 00:32:10
分享文章
本章節主要介紹翼MapReduce服務在不同場景下的應用。
大數據在人們的生活中無處不在,在IoT、電子商務、金融、制造、醫療、能源和政府部門等行業均可以使用云MRS服務進行大數據處理。
海量數據分析場景
海量數據分析是現代大數據系統中的主要場景。通常企業會包含多種數據源,接入后需要對數據進行ETL(Extract-Transform-Load)處理形成模型化數據,以便提供給各個業務模塊進行分析梳理,這類業務通常有以下特點:
- 對執行實時性要求不高,作業執行時間在數十分鐘到小時級別。
- 數據量巨大。
- 數據來源和格式多種多樣。
- 數據處理通常由多個任務構成,對資源需要進行詳細規劃。
例如在環保行業中,可以將天氣數據存儲在OBS,定期轉儲到HDFS中進行批量分析,在1小時內MRS可以完成10TB的天氣數據分析。
詳見下圖:環保行業海量數據分析場景

該場景下MRS的優勢如下所示。
- 低成本:利用OBS實現低成本存儲。
- 海量數據分析:利用Hive實現TB/PB級的數據分析。
- 可視化的導入導出工具:通過可視化導入導出工具Loader,將數據導出到DWS,完成BI分析。
海量數據存儲場景
用戶擁有大量結構化數據后,通常需要提供基于索引的準實時查詢能力,如車聯網場景下,根據汽車編號查詢汽車維護信息,存儲時,汽車信息會基于汽車編號進行索引,以實現該場景下的秒級響應。通常這類數據量比較龐大,用戶可能保存1至3年的數據。
例如在車聯網行業,某車企將數據儲存在HBase中,以支持PB級別的數據存儲和毫秒級的數據詳單查詢。
詳見下圖:車聯網行業海量數據存儲場景

該場景下MRS的優勢如下所示。
- 實時:利用Kafka實現海量汽車的消息實時接入。
- 海量數據存儲:利用HBase實現海量數據存儲,并實現毫秒級數據查詢。
- 分布式數據查詢:利用Spark實現海量數據的分析查詢。
實時數據處理
實時數據處理通常用于異常檢測、欺詐識別、基于規則告警、業務流程監控等場景,在數據輸入系統的過程中,對數據進行處理。
例如在梯聯網行業,智能電梯的數據,實時傳入到MRS的流式集群中進行實時告警。
詳見下圖:梯聯網行業低時延流式處理場景

該場景下MRS的優勢如下所示。
- 實時數據采集:利用Flume實現實時數據采集,并提供豐富的采集和存儲連接方式。
- 海量的數據源接入:利用Kafka實現萬級別的電梯數據的實時接入。