隨著企業數字化轉型的加速,數據孤島問題愈發嚴重,數據分散在不同系統中,難以整合和共享。天翼云基于 Doris 和 Iceberg 構建的湖倉一體架構,有效解決了數據孤島問題,實現了數據的高效整合與共享,同時具備高性能、低成本等優勢,為企業數字化轉型提供了有力支持。
一、數據孤島的現狀與挑戰
在企業中,數據往往分散在多個存儲產品中,形成了一個個數據孤島。這些數據孤島不僅導致數據存儲成本高,而且數據的利用價值難以充分發揮。此外,業務中存在大量離線和實時數據的共享需求,數據來自不同的數據源和集群,涉及復雜的跨庫、跨集群操作,數據的動態變化也增加了管理難度。同時,隨著企業數字化程度的提高,數據治理和安全要求也越來越高,亟需統一的數據治理框架和安全策略。
二、Doris + Iceberg 的湖倉一體架構
天翼云采用 Doris 和 Iceberg 構建湖倉一體架構,成功打破了數據孤島。Doris 是一款高性能的分析型數據庫,具備卓越的實時分析能力,能夠對數據進行極速分析。Iceberg 是一種開源、高性能、高可靠的數據湖表格式,支持多種主流查詢引擎,具備 ACID、Schema 演進、高級過濾等特性。
(一)架構設計
天翼云的數據來源多樣,包括 B 域、O 域和 M 域等多方數據。數據通過 Kafka 進行采集,并使用 Flink 和 Spark 實現數據加工處理。根據數據時效性的需求,數據被接入 Iceberg 數據湖或 Doris 內部存儲。Doris 在這一架構中扮演了兩個重要部分:
- 數據湖分析處理引擎:Doris 與 Iceberg 數據湖深度融合,能夠直接訪問 Iceberg 表中數據,實現湖中數據的加速查詢。分析結果不僅可以展示給應用層,也可以通過 Doris 寫回到 Iceberg 中進行存儲,消除了數據孤島,提升了分析效率。
- 實時分析引擎:Doris 具備卓越的實時分析能力,對于時效性要求更高的數據,經過處理后直接流入 Doris,使其能夠快速進行分析和對外服務。
(二)打破數據孤島的實現方式
- 數據整合與共享:通過 Doris 和 Iceberg 的結合,天翼云實現了數據的統一存儲和管理。Doris 可以直接訪問 Iceberg 表中的數據,無需數據遷移,降低了數據整合的成本。同時,Doris 支持將分析結果寫回到 Iceberg 表中,實現了數據的雙向流動,進一步促進了數據的共享。
- 高性能查詢:Doris 作為分析引擎,能夠對 Iceberg 表中的數據進行高效查詢,提升了數據的利用價值。通過優化查詢性能,如延遲物化功能,減少了網絡 IO,提升了查詢效率。
- 靈活的數據處理:Doris 支持對 Iceberg 表的多種操作,包括數據的清洗、加工和寫入。這使得用戶可以在 Doris 中完成復雜的數據處理任務,并將結果存儲到 Iceberg 表中,滿足了不同業務場景的需求。
三、多場景應用實踐
(一)實時報表與多維分析
Doris 在天翼云的實時報表和多維分析場景中得到了廣泛應用。通過替代原有的經分系統架構,Doris 提升了報表的生成周期和數據處理能力。同時,Doris 還成功替代了數據集市 Oracle 數據庫,滿足了業務對數據調用及查詢響應的嚴格要求。此外,Doris 還實現了秒級別快速檢索,提高了數據分析的實時性。
(二)湖倉融合分析
在湖倉融合分析場景中,Iceberg 作為主要的湖格式,存放了 TB 到 PB 級別的數據。Doris 引擎對 Iceberg 數據進行查詢加速,支撐了 BI 報表、實時戰報、智能運維等多種業務場景。通過數據緩存、物化視圖透明加速等能力,Doris 極大地提升了湖上數據的分析性能。
(三)日志存儲分析
天翼云引入 Doris 替代傳統的 ELK 架構,提升了日志系統的查詢效率。通過 Agent 或 Open Telemetry 上報日志數據,數據經過 Flink 加工或直接導入 Doris,最終由 Doris 提供對外服務。這一改變實現了寫入吞吐提升、存儲成本降低、百億級日志檢索秒級響應等顯著收益。
(四)物聯網數據分析
在物聯網中,Doris 提供了海量數據的高并發查詢能力。通過合理的分區分桶規劃、卓越的數據索引和合理的導入批次設置,Doris 在物聯網業務中實現了高性能的查詢和寫入。
四、未來展望
天翼云將繼續推廣 Doris,并在存算分離、業務落地、推動本土化和擁抱社區等方面發力。通過這些努力,天翼云將進一步提升湖倉一體架構的性能和功能,為企業提供更加高效、靈活和安全的數據解決方案。
總之,天翼云基于 Doris 和 Iceberg 構建的湖倉一體架構,成功打破了數據孤島,實現了數據的高效整合與共享。這一架構不僅提升了數據的利用價值,還為企業數字化轉型提供了有力支持。