背景說明
2020年5月13日下午,國家發展改革委官網發布“數字化轉型伙伴行動”倡議(yi)。倡議(yi)提(ti)出,政府和社會各界聯合(he)起來,共同構建(jian)“政府引(yin)導—平臺賦(fu)能(neng)—龍頭(tou)引(yin)領—機(ji)構支撐—多元服務(wu)”的聯合(he)推進機(ji)制,以帶(dai)動(dong)中(zhong)小微(wei)企業數字(zi)(zi)化(hua)(hua)轉型為重點,在(zai)更大(da)范圍(wei)、更深(shen)程度推行(xing)普惠(hui)性(xing)“上(shang)云用數賦(fu)智”服務(wu),提(ti)升轉型服務(wu)供給能(neng)力,加(jia)快打造(zao)數字(zi)(zi)化(hua)(hua)企業,構建(jian)數字(zi)(zi)化(hua)(hua)產業鏈,培育數字(zi)(zi)化(hua)(hua)生(sheng)態(tai)(tai),形成“數字(zi)(zi)引(yin)領、抗(kang)擊疫情(qing)、攜手創新(xin)、普惠(hui)共贏”的數字(zi)(zi)化(hua)(hua)生(sheng)態(tai)(tai)共同體(ti),支撐經(jing)濟高質量發展。
企業在(zai)數字化轉型的(de)過程中,會碰到以下的(de)難點(dian)、痛點(dian):
- 集群問題
自建(jian)Hadoop集群時(shi)(shi),性能需自行(xing)優化,無法及(ji)時(shi)(shi)進(jin)行(xing)組件(jian)(jian)版本的(de)更新,組件(jian)(jian)穩(wen)定性和兼容性不夠(gou)可(ke)靠(kao);
- 新平臺上手問題
商業大(da)數據平(ping)臺功能多(duo)(duo)且(qie)繁雜,且(qie)模塊多(duo)(duo)相互耦合,上(shang)手難度大(da),用不好也用不會,難以發(fa)揮效能;
- 異構數據源問題
數(shu)據(ju)接(jie)入和運用的(de)數(shu)據(ju)源種(zhong)類(lei)多,異構數(shu)據(ju)源的(de)轉換,統一(yi)納(na)管問(wen)題;
- 數據孤島問題
數據不(bu)共享、不(bu)流通(tong),無法實現跨領域的數據分析與數據創新;
- 數據資產管理問題
缺乏對于(yu)庫表的統一(yi)管理和視圖,無(wu)法進行統一(yi)納管;缺乏企業數(shu)(shu)據(ju)(ju)體系標(biao)準和數(shu)(shu)據(ju)(ju)規范定義(yi)方法論,數(shu)(shu)據(ju)(ju)定義(yi)不(bu)統一(yi),數(shu)(shu)據(ju)(ju)無(wu)法復用;
- 運營效率問題
缺(que)乏高(gao)效的(de)數(shu)(shu)據(ju)運(yun)營(ying)分析工具,數(shu)(shu)據(ju)運(yun)營(ying)成本高(gao);數(shu)(shu)據(ju)未服務(wu)化,數(shu)(shu)據(ju)拷(kao)貝多、口徑不一致,數(shu)(shu)據(ju)重復開發,造成資源浪費;
產品發展
天翼云大數據平臺 翼MapReduce(簡稱翼MR)是天(tian)翼(yi)云推(tui)出的(de)一站式(shi)開源大(da)(da)數(shu)(shu)據(ju)平臺產品(pin),包含(han)數(shu)(shu)據(ju)基(ji)礎能(neng)力(li)底座和翼(yi)MR Manager,數(shu)(shu)據(ju)基(ji)礎能(neng)力(li)底座通過對大(da)(da)數(shu)(shu)據(ju)生態組件(jian)進行產品(pin)化(hua)封裝,支(zhi)持海量數(shu)(shu)據(ju)存儲、海量數(shu)(shu)據(ju)分析、實時處理(li)等行業(ye)應用(yong);翼(yi)MR Manager提供(gong)提供(gong)專(zhuan)業(ye)、全面的(de)大(da)(da)數(shu)(shu)據(ju)運維(wei)能(neng)力(li),包含(han):集群服務管理(li)、租戶與資源、配置中心、監控與告警(jing)、運維(wei)自動化(hua)、日志管理(li)等功能(neng),提高大(da)(da)數(shu)(shu)據(ju)運維(wei)從業(ye)人員的(de)工(gong)作(zuo)效率。
從(cong)2015年開始,天(tian)翼云大數(shu)據團隊(dui)立(li)足于中國電信集(ji)(ji)團大數(shu)據集(ji)(ji)群的維護管理工(gong)作。天(tian)翼云大數(shu)據研發(fa)歷(li)經了(le)從(cong)CDH消化吸收、開源(yuan)Hadoop3集(ji)(ji)成開發(fa)、國產化替代(dai)升級的階(jie)段(duan)。

此(ci)外在產品的功(gong)能豐富度(du)上,我(wo)們櫛風沐(mu)雨、砥礪前行:
- 技術架構由“灰”變“紅”,由“少”變“多”,標志著天翼云大數據平臺的自研能力逐步提升

產品能力
數據基礎能力底座提供了數(shu)據(ju)(ju)(ju)的存儲和計(ji)(ji)算(suan)能力,所(suo)有和大數(shu)據(ju)(ju)(ju)相(xiang)關的存儲和計(ji)(ji)算(suan)功能都基(ji)于(yu)該(gai)模(mo)塊執行。數(shu)據(ju)(ju)(ju)基(ji)礎能力底(di)座中可用的大數(shu)據(ju)(ju)(ju)組件(jian)有:分布式(shi)(shi)存儲數(shu)據(ju)(ju)(ju)庫(ku)HDFS、列式(shi)(shi)存儲數(shu)據(ju)(ju)(ju)庫(ku)HBase、數(shu)據(ju)(ju)(ju)倉(cang)庫(ku)Hive、數(shu)據(ju)(ju)(ju)批量(liang)計(ji)(ji)算(suan)引(yin)擎MapReduce、通(tong)用快速計(ji)(ji)算(suan)引(yin)擎Spark、流式(shi)(shi)計(ji)(ji)算(suan)引(yin)擎Flink、數(shu)據(ju)(ju)(ju)總線Kafka、OLAP查(cha)詢(xun)引(yin)擎Trino、實時數(shu)倉(cang)Doris、檢索分析(xi)系統ElasticSearch、文件(jian)抓取工具(ju)Flume等(deng)大數(shu)組件(jian)。
翼MR Manager主要(yao)提(ti)(ti)(ti)供(gong)大(da)(da)數(shu)(shu)據(ju)集(ji)(ji)群(qun)(qun)(qun)運(yun)(yun)維(wei)(wei)能(neng)力(li)(li),通過(guo)可視化(hua)(hua)、流程(cheng)化(hua)(hua)的(de)(de)(de)方式對大(da)(da)數(shu)(shu)據(ju)集(ji)(ji)群(qun)(qun)(qun)資(zi)源(yuan)和(he)數(shu)(shu)據(ju)資(zi)產進(jin)行(xing)管(guan)理(li),并(bing)支持自(zi)動化(hua)(hua)的(de)(de)(de)運(yun)(yun)維(wei)(wei)調度,統一運(yun)(yun)維(wei)(wei)監(jian)控(kong)報警,支持多(duo)租戶(hu)管(guan)理(li),運(yun)(yun)維(wei)(wei)自(zi)動化(hua)(hua)等(deng)(deng)功能(neng),提(ti)(ti)(ti)高大(da)(da)數(shu)(shu)據(ju)運(yun)(yun)維(wei)(wei)從業人(ren)員(yuan)的(de)(de)(de)工作效(xiao)率。運(yun)(yun)維(wei)(wei)模(mo)(mo)塊提(ti)(ti)(ti)供(gong)集(ji)(ji)群(qun)(qun)(qun)服(fu)務管(guan)理(li),為用戶(hu)快速掌握環(huan)境(jing)、集(ji)(ji)群(qun)(qun)(qun)、主機、組件服(fu)務等(deng)(deng)數(shu)(shu)據(ju)信息;提(ti)(ti)(ti)供(gong)運(yun)(yun)維(wei)(wei)自(zi)動化(hua)(hua)管(guan)理(li),可以(yi)自(zi)定義作業模(mo)(mo)板和(he)自(zi)動化(hua)(hua)運(yun)(yun)維(wei)(wei)流水線,靈活管(guan)理(li)操(cao)作日(ri)常(chang)集(ji)(ji)群(qun)(qun)(qun)、組件級(ji)別的(de)(de)(de)啟動、停止、部(bu)署以(yi)及配置同步(bu)等(deng)(deng)運(yun)(yun)維(wei)(wei)操(cao)作,提(ti)(ti)(ti)高大(da)(da)數(shu)(shu)據(ju)運(yun)(yun)維(wei)(wei)效(xiao)率,降低人(ren)力(li)(li)成本;提(ti)(ti)(ti)供(gong)監(jian)控(kong)、告警大(da)(da)屏功能(neng),實(shi)時(shi)(shi)展(zhan)示主機、集(ji)(ji)群(qun)(qun)(qun)級(ji)別的(de)(de)(de)監(jian)控(kong)報警信息,用戶(hu)可以(yi)及時(shi)(shi)感(gan)知大(da)(da)數(shu)(shu)據(ju)平臺整體(ti)健康狀態;提(ti)(ti)(ti)供(gong)HDFS目錄瀏覽器,用戶(hu)可對HDFS目錄實(shi)現(xian)界面化(hua)(hua)增(zeng)、改、查以(yi)及權(quan)限(xian)管(guan)理(li)等(deng)(deng)操(cao)作;提(ti)(ti)(ti)供(gong)集(ji)(ji)群(qun)(qun)(qun)資(zi)源(yuan)管(guan)理(li),方便(bian)用戶(hu)對集(ji)(ji)群(qun)(qun)(qun)隊列(lie)資(zi)源(yuan)、租戶(hu)資(zi)源(yuan)等(deng)(deng)進(jin)行(xing)日(ri)常(chang)運(yun)(yun)維(wei)(wei)管(guan)理(li)。
大數據平臺,覆蓋客戶多(duo)場景業(ye)務需求:
批量數據處理
HDFS集群負責存(cun)儲海(hai)量日志數(shu)據。
YARN集群負責調度離線平臺上運(yun)行的(de)所(suo)有(you)任務。
Hive、Spark、Trino等主流(liu)計(ji)算(suan)框架從數據加工、數據挖(wa)掘到(dao)數據分析,快速獲取數據洞(dong)察力。
分析后的數(shu)據(ju)回寫(xie)進(jin)HDFS集(ji)群(qun),為上(shang)層數(shu)據(ju)可(ke)視化等產品(pin)提供數(shu)據(ju)支撐
離線數據分析
將海量數據通過導(dao)入或者外表等形式引入到OLAP分(fen)析引擎里,例(li)如,Trino提供(gong)高效、實時和靈(ling)活(huo)的數據分(fen)析能力。
滿足用戶畫像(xiang)、人群圈選、位置服務(wu)、BI報表(biao)和業務(wu)分析等一系列的(de)業務(wu)場景(jing)。
流式數據處理
基于SparkSreaming和Flink流式計算框架(jia),對(dui)各類業務日志或者消息等實時數據進行分析處理。
相應分(fen)析結果同步(bu)進HDFS集群存儲服(fu)務中。
在線查詢
基于Web和移(yi)動(dong)應用程序等生成(cheng)的(de)PB級別的(de)結(jie)構(gou)化、半(ban)結(jie)構(gou)化或非結(jie)構(gou)化數據(ju)進行在(zai)線(xian)分析(xi)。
方便客戶(hu)的Web應用或(huo)者數(shu)據可視(shi)化產品獲取分析結果進行(xing)實時展示。
湖倉加速聯邦分析
支持以(yi)外表的形式查詢Hive、Iceberg、Hudi、Oracle、MySQL、PostgreSQL等(deng)數(shu)據庫(ku)
性能相比(bi)Trino有3倍(bei)提升,相比(bi)Hive有10倍(bei)以上提升
應用案例
- 信通院APP監管平臺
大數據平臺(tai) 翼MapReduce助力信通院建(jian)設全國APP監管平臺(tai),提供(gong)移動端APP檢(jian)測和監測等功能,為用戶隱私安全保駕(jia)護(hu)航。

- 霍山城市大腦
大數據平臺 翼MapReduce助(zhu)力(li)霍山建設(she)智慧化城市,構建高(gao)性能、高(gao)可(ke)靠的(de)統一大數據存(cun)儲分析平臺。
