智能運維新范式,天翼云以AI賦能大數據SRE自治助力企業數智化躍遷
2025-08-08
近日,數據與AI領域極具影響力的年度盛會——Cloudera 2025 Data & AI Meetup(上海站)圓滿落幕。本次大會匯聚大數據行業領袖與實踐者,共同探討數據驅動與人工智能融合的最新趨勢與最佳實踐。
會上,天翼云科技有限公司大數據產品線產品管理專家王海發表了題為《天翼云大數據平臺:AI賦能的SRE自治實踐》的演講,向與會嘉賓展示了天翼云在大數據平臺智能化運維領域的前沿探索與落地成果。
在AI技術迅猛發展的背景下,如何保障大規模、高復雜度的大數據平臺的極致穩定與高效運行,成為行業共同面臨的嚴峻挑戰。傳統的運維模式已難以滿足企業高效管理需求,智能化、自動化、自治化成為SRE(站點可靠性工程)演進的必然方向。天翼云依托在智能運維領域的創新理念、技術突破與落地實踐,為行業升級帶來了新思路。
理念層面,從“被動響應”向“主動治理”。針對超大規模大數據平臺在監控、告警、故障定位、資源優化等方面的痛點,以及AI技術帶來的變革潛力,天翼云圍繞對大數據PaaS平臺運營體系從“被動響應”向“主動治理”躍遷的目標,進一步明確建立數據驅動、閉環管控、業務對齊的立體化運營能力,實現“監、管、控”三位一體,推動平臺從“可用”到“可信”再到“智能”的持續演進。
技術層面,構建AI驅動的SRE自治引擎。天翼云大數據團隊借助三層AI引擎架構構建“感知-決策-執行”閉環,實現從“人治”到“自治”的躍遷。 智能感知層(集群的“神經末梢”):天翼云利用先進的AI算法實現對大數據平臺的海量監控指標進行實時異常檢測,顯著提升告警準確率,減少誤報漏報。智能診斷層(故障的“超級大腦”):基于知識圖譜與因果推理的根因定位技術,嘗試在復雜分布式環境中快速、精準地找到問題源頭,將平均故障定位時間(MTTD)大幅縮短。智能執行層(自治的“機械手臂”):天翼云通過翼MR Doctor產品在容量規劃、風險預警中的應用,以及AI驅動的自動化修復工作流通過鏈路編排能力,劃分接入層、檢索層、生成層到反饋層四層體系,實現從“人工響應”到“系統自愈”的關鍵跨越。
實踐層面,實現“自治閉環”的落地。天翼云大數據產品將AI能力深度融入運維流程,構建起涵蓋“感知-診斷-決策-執行-反饋”的完整自治閉環體系,并結合詳細的運管智能告警案例,在平臺架構設計、模型迭代優化、人機協同機制等方面積累了豐富經驗。
數字經濟發展對算力與運維的敏捷性、穩定性提出更高要求,天翼云持續探索AIOps與SRE深度融合,聚焦可觀測性、主動風險防御、跨域協同等關鍵領域,圍繞健康度評分、日志解析、智能RAG知識庫、跨域根因分析、自適應防御和參數自動優化等多方面構建智能化運維能力,實現以點帶面的效果延展,進一步打造大數據SRE智能自治新范式,為千行百業提供更智能、更可靠的數字底座,助力數字經濟高質量發展。