一
計算機和互聯網的發展,是過去五十年社會經濟發展的主要引擎之一。它帶來了前所未有的效率,產生了新的生產要素——數據,同時也有它的另一面——數據安全問題。
于國家和政府,于企業和組織,于個人,數據風險成為最重要的日常威脅。計算機和互聯網帶來的空前繁榮的數字經濟,如果沒有數據安全,將會陷入癱瘓和停滯。
數據安全的威脅,簡要而言,可分為來自民間的威脅和來自權力機構的威脅。
對于來自民間的威脅包括數據壟斷、數據泄露、數據竊取和數據販賣等問題。比如,在數據壟斷方面,基于數據壟斷優勢進行“二選一” “大數據殺熟”等,侵犯消費者權益的行為層出不窮。在數據泄露方面,除了媒體關注的一些典型案件,還存在大量的“暗泄露”。根據美國國防信息系統局的分析,絕大多數的安全泄漏(96%)沒有被報告,因此根本就沒有被檢測到(雪莉.大衛杜夫《數據大泄露:隱私保護危機與數據安全機遇》)。
權力機構對數據安全的威脅,最典型的莫過于“9·11”之后美國情報部門的行為。美國在“9·11”事件后通過的一些法案,使情報部門在信息搜集和監控上的權力極度擴張。2011年1月,美國在猶他州建立了一個美其名曰“實現和保護國家的網絡安全”的數據收集系統。這個設備的能力包括監控所有美國居民發出或收到的電話、電子郵件、短信、谷歌搜索或其他電子通訊(無論加密與否),所有這些通訊將會被永久儲存用于數據挖掘。斯諾登曝光的棱鏡計劃和上游收集計劃更是全面監控個人信息,斯諾登形容政府對個人的監控為“無所不嗅,無所不知,無所不收集,無所不處理,無所不利用,無所不合伙”。
數據安全問題的影響可謂無所不在,比如國際關系。斯諾登事件中就包含了美國情報機構對其他國家信息的截取;國家政局,劍橋分析公司事件深刻影響美國和英國的大選;商業運行,數據泄露問題引發了大量的商業危機,以至于網絡安全保險成為一個重要的險種;個人生活,隱私問題成為個人生活中的最大隱患之一。
面對愈演愈烈的數據安全問題,全球主要國家都在加強立法和監管。2018年5月25日,歐盟《一般數據保護條例》通過,被稱為人類史上最嚴格的數據隱私法律;2020年1月1日,美國《加利福尼亞州消費者隱私法案》生效,在保護隱私的同時,強調“數據的自由流動”和“數字經濟的發展”;中國在2021年11月通過了《個人信息保護法》,對違法行為的行政處罰尤為嚴厲,情節嚴重的,最高可處5000萬元或上一年度營業額5%的罰款,超過歐盟GDPR規定的4%。無論是為了滿足法律和監管的要求,還是市場的需求,圍繞數據安全,發展出一個越來越龐大的技術產業鏈。
隱私計算即是其一。
二
總有人在思考技術發展的另一面,這是幸事。幾乎與計算機和互聯網的發展同步,隱私計算的發展也已經歷了40多年。
隱私計算技術是在保護數據本身不對外泄露的前提下,多個參與方通過協同對自有數據處理、聯合建模運算、分析輸出結果、挖掘數據價值的一類信息技術。
1978年,Rivest等人就提出了同態加密的思想,其愿景是使數據處理可以不經過解密,直接在密文上進行相應的計算,更好地保護數據全生命周期的安全。
1982年,時任加州大學伯克利分校計算機系教授的姚期智首次提出安全多方計算理論,后來他又提出了著名的姚氏混淆電路算法,理論上可以解決所有安全多方計算問題。
而聯邦學習的原理最早可以追溯到1996年對分布式數據庫的規則挖掘;可信執行環境的概念來源于2006年Open Mobile Terminal Platform (OMTP)工作組提出的保護智能終端的雙系統解決辦法。
經過幾十年的同步探索,隱私計算在最近幾年才逐步具備實用性。在互聯網最需要它的時候,該來的還是來了。
作為跨學科技術,隱私計算涉及密碼學、機器學習、神經網絡、信息科學,同時可與人工智能、云計算、區塊鏈分布式網絡等前沿技術融合應用,為數據保護和價值融合提供技術可行性。
目前,隱私計算已經形成了三大技術流派:即分為密碼學、可信硬件和聯邦學習三個流派。以密碼學為核心技術的隱私計算以多方安全計算、同態加密為代表;可信硬件以可信執行環境(TEE)為主導;“聯邦學習類”泛指國內外衍生出的聯邦計算、共享學習、知識聯邦等一系列名詞,是指多個參與方聯合數據源、共同建模、提升模型性能和輸出結果準確性的分布式機器學習。
根據本書的統計,截至2021年10月1日,全球有28個國家和地區、3000家公司參與了隱私計算相關專利的申請,合計1.72萬件。從專利申請情況來看,目前中國隱私計算技術領先美日韓等其他國家,在全球TOP50企業中,中國有23家公司進入榜單。
幾乎所有的BigTech公司都投入了隱私計算相關研發和應用。隱私計算的創業公司也獲得資本青睞,據零壹智庫不完全統計,截至2022年一季度,隱私計算初創公司累計獲得72筆股權融資,公開披露的融資總額達到65.0億元(16筆未透露金額)。
三
《隱私計算:數字經濟新基建》呈現的就是隱私計算的早期畫卷和探索歷程。
第一,它已經并剛剛形成氣候,從概念落地到應用,成為數據治理的主要工具之一。從行業應用情況來看,隱私計算技術正不斷滲透各個行業和場景,除了在金融、醫療、政務等常見場景,一些公司還探索隱私計算技術在電網、審計、出行、酒店、民航、招聘等場景中的應用。
第二,它已是一個快速成長的產業,形成了幾股勢力,比如:
1.幾大流派的學術和技術團隊都分別培育出了自己的創新企業團隊,其中相當一部分企業獲得了風險資本的投資,目前成長速度較快。
2.BigTech憑借自己的技術、資金和場景優勢,開展隱私計算的研發和業務,有的公司同時開展不同流派的隱私計算技術探索。
3.“集成商”,將隱私技術與現有的軟件、硬件、數據服務等嫁接或集成,植入服務中。
第三,它還稚嫩:
1.技術的成熟度、便利度還有待提高。中國目前有超過2000家公司參與隱私計算專利申請,但是成功推出相關產品的僅部分公司,產品落地的速度還比較慢。
2.成本還比較高。目前大多數廠商目前還處于一對一地為客戶提供解決方案的階段,產品標準化程度大大提高,但是還沒達到可以大批量復制的程度。所以隱私計算產品初期成本較高。隨著產品標準化程度的提升,價格正在下降過程中,但是還沒達到足夠低的程度。
3.滲透率還不高。金融業是目前采用隱私計算比較積極的行業,但從機構數量和業務覆蓋來看,滲透率都還不高,其他行業更低;鑒于效率、成本、成熟度等原因,許多機構對是否采購隱私計算產品仍處于觀望狀態。
4.數據流通市場的發展還不充分。讓數據安全地流通,是隱私計算存在的價值。分析隱私計算市場的發展,要看數據流通市場的發展。目前數據流通市場的發展尚未成熟但進展很快。
5.對于很多人來說,它甚至還難以簡明地理解。隱私計算產品要被市場接受,需要經歷一個市場教育的過程。我們在調研中發現,不少金融機構的風控部門目前并沒有意識到隱私計算能給業務帶來多少提升。
6.無論是作為大廠的業務板塊,還是獨立的創業公司,隱私計算公司大多還在融資、虧錢,實現規模性盈利的不多;隱私計算公司的融資,也大多還在B輪或B輪以前的早期階段。
7.從業務普及度和政策定位來看,“新基建”的地位還沒有得到足夠認可。數據安全已經成為“國之重器”,隱私計算也在一些產業政策文件中屢被提及,但作為數字經濟新型基礎設施的地位,需要時間和空間來證明。
四
隱私計算,集思想實驗、科學理論、軟硬件工程、商業價值于一體,直面互聯網和大數據發展中的新問題,并把解決這個新問題,變成了一個廣闊的市場,為數字經濟進入下一程構建基石。