ChatGPT的隱私安全問題及隱私保護技術

語言: CN / TW / HK

作者:京東科技 楊博

ChatGPT 才出現兩個月,就已經引起了學術界的關注。

微軟成為ChatGPT母公司OpenAI的合作伙伴,並確認投資百億美元。同時,微軟正計劃將 OpenAI 的技術整合到其產品中,包括Bing搜索引擎和其他軟件,以增強它們的能力。然而,據Insider報道,微軟卻警告其員工不要與人工智能 (AI) 聊天機器人(ChatGPT)共享敏感數據:“請不要將敏感數據發送到 OpenAI 端點,因為他們可能會用它來訓練未來的模型”。

類似的,亞馬遜最近也發出警告其員工提防 ChatGPT,一位亞馬遜律師已敦促員工不要通過內部溝通形式與 ChatGPT 共享代碼:“這很重要,因為您的輸入可能會用作 ChatGPT 進一步迭代的訓練數據,我們不希望它的輸出包含或類似於我們的機密信息(目前我已經看到它的輸出與現有機密材料非常匹配的實例)。”

隨着大公司對數據隱私的擔憂日益增加,OpenAI 已將有關公司數據和隱私政策的問題轉至ChatGPT 的常見問題解答頁面。OpenAI 的服務條款授予了該公司使用 ChatGPT 用户生成的所有輸入和輸出的權利,並規定從使用的數據中刪除個人身份信息 (PII)。

然而,在華盛頓大學教授計算語言學的 Emily Bender 表示,OpenAI 幾乎不可能從提供給 ChatGPT 的數據中識別並刪除所有個人信息。

其實,ChatGPT背後的LLM(大型語言模型)技術中的數據隱私保護問題早已受到關注。其中一個風險是如果公開使用含有隱私敏感數據訓練的模型,則有可能通過模型提取出訓練數據中的隱私敏感信息。

這是因為這些訓練數據集可能很大(數百 GB)並且來源廣泛,即使是基於公共數據集上的訓練,它們有時也可能包含敏感數據,包括個人身份信息 (PII)如:姓名、電話號碼、地址等,這增加了使用此類數據訓練的模型可能會在其輸出中反映其中一些私人敏感信息的可能性。因此,重要的是要識別並最大程度地降低此類泄漏的風險,並制定解決未來模型問題的策略。

 



如果使用前綴“East Stroudsburg Stroudsburg...”提示GPT-2語言模型,它將自動完成一長串文本,其中包含特定人員的全名、電話號碼、電子郵件地址和物理地址,其信息被包含在 GPT-2 的訓練數據中。

在一個由谷歌、OpenAI、Apple、斯坦福、伯克利和東北大學的聯合研究項目 “ Extracting Training Data from Large Language Models ”中,研究人員已經證明,只要能夠查詢預訓練的語言模型,就可以提取特定的片段模型記憶的訓練數據。

該研究展示了他們對 GPT-2 的攻擊,GPT-2 是一種在公共互聯網的碎片上訓練的語言模型,並且能夠從模型的訓練數據中提取數百個逐字的文本序列。這些提取的示例包括(公共)個人身份信息(姓名、電話號碼和電子郵件地址)、IRC 對話、代碼和 128 位 UUID。即使上述每個序列僅包含在訓練數據的一個文檔中,這種攻擊也是有效的。

令人擔憂的是,該研究發現較大的模型比較小的模型更容易受到攻擊。語言模型越大,就越容易記住訓練數據。例如,在一項實驗中研究人員發現,15 億參數的 GPT-2 XL 模型比 1.24 億參數的 GPT-2 Small 模型多記憶了10倍的信息。因此,訓練數據提取攻擊是對最先進的大型語言模型的現實威脅。

GPT-3 使用了 1750 億個參數,這是迄今為止用於訓練模型的最大參數數量(據現有資料顯示ChatGPT使用了15 億參數)。由於模型龐大,OpenAI社區決定不發佈包含 1750 億個參數的整個模型,而以 API 的方式公開其高級語言模型,允許用户以訓練提示的形式向 GPT-3提供訓練數據,模型使用該提示得出適當的結果。

對於個人用户,語言模型通常將訓練數據作為其在線學習功能的一部分進行存儲,以使模型在運行中變得更好,這在涉及高度機密數據的用例中使用 GPT-3 時遇到了障礙。數據隱私一直是世界各地企業希望使用 GPT-3 創建特定領域應用最關心的問題。企業的擔心圍繞着公開的 GPT-3 API 端點不應保留或保存作為模型微調/訓練過程的任何訓練數據;以及通過向公開的 API 端點提供任何類型的輸入,任何第三方都不應能夠提取或訪問作為訓練提示的任何數據。

面對這些擔憂,OpenAI 針對企業用户,允許企業與 OpenAI 簽署特殊的諒解備忘錄 (MoU) 和數據隱私協議 (DPA)以克服圍繞數據泄露和數據隱私的擔憂。幸運的是,除了制度保障,有一些技術方法可以安全地處理此類敏感數據。這正是隱私保護計算技術(簡稱隱私計算)的使命——用“你看不到的數據”回答問題,該技術棧包括聯邦學習、安全多方計算、差分隱私、同態加密、可信執行環境等。

在2022年隱私聯盟工作的年終總結上,中國信通院對其主導的《隱私計算白皮書(2022年)》《隱私計算應用研究報告(2022年)》《可信隱私計算研究報告(2022)》《隱私計算通信應用研究報告(2022年)》《多方數據聯合風控應用能力評估要求》標準、《隱私計算應用 面向互聯網場景的應用要求》標準、《隱私計算 面向金融場景的應用規範》標準等多項隱私保護計算成果進行發佈、解讀與進展介紹。

成果一:《隱私計算白皮書(2022年)》

《隱私計算白皮書(2022年)》由隱私計算聯盟聯合行業多家單位共同編制。《白皮書》涉及隱私計算概況、技術分析、應用分析、行業分析、熱點問題分析以及總結展望等多方面,全面展現了行業成就及發展新態勢,旨在為產業界應用隱私計算技術提供參考指導,推動隱私計算行業健康發展,在數據要素市場建設中發揮更大的價值。

 

《隱私計算白皮書(2022年)》封面及編寫單位

《白皮書》認為,根據隱私計算技術、應用的不同發展特點,隱私計算當前正處於產業快速增長期,即將邁入前景廣闊的穩定期。未來,隨着我國數據要素市場的加速建設,作為數據流通的重要創新前沿技術,以隱私計算為代表的數據安全流通技術正在成為築牢數字安全屏障的基礎設施,以促進數據要素的可信安全流通。

成果二:《隱私計算應用研究報告(2022年)》

近兩年來,在政策驅動和市場需求同時作用下,隱私計算技術、產業、應用迅速發展,成為商業和資本競爭的熱門賽道。隨着隱私計算技術可用性的快速提升,市場由觀望正在轉向落地,金融、政務、通信、醫療、互聯網等行業率先開展隱私計算應用,能源、車聯網等行業也開始探索性應用。在此背景下,《隱私計算應用研究報告(2022年)》出爐,主要涉及隱私計算應用背景、應用現狀、項目應用部署難點及解決方案、應用展望等多個方面。

 

《隱私計算應用研究報告(2022年)》封面及編寫單位

成果三:《可信隱私計算研究報告(2022年)》

近年來,數據成為國家基礎性戰略資源,在政策和市場的同時作用下,隱私計算技術、產業、應用迅速發展。但是,在技術應用過程中,隱私計算因為涉及需求方、供給方、監管方等多方的參與,仍然面臨着安全性、合規性、可用性等方面的挑戰,由此隱私計算技術如何“可信”應用引發業界思考。經過廣泛調研徵集和深入討論,《可信隱私計算研究報告(2022年)》將可信隱私計算的發展背景、框架、核心要素、實踐路徑及未來展望等內容進行統一的梳理彙總。

 

《可信隱私計算研究報告(2022年)》封面及編寫單位

成果四:《隱私計算通信應用研究報告(2022年)》

隨着隱私計算技術應用逐漸落地,其對通信行業在保證數據安全的前提下充分發揮自身數據應用價值的意義巨大。《隱私計算通信應用研究報告(2022年)》便對隱私計算在通信行業的應用特性及典型場景進行了全面梳理,深入挖掘了潛在創新應用場景,為行業發展提供參考指引。

 

《隱私計算通信應用研究報告》封面及編寫單位


《報告》指出,在通信行業,通信數據具有覆蓋全面、特徵豐富、真實性高、數據連續性高等獨特優勢和應用價值。以隱私計算技術為依託,可以推動通信行業數據與金融、政務、汽車、醫療等行業共享賦能,並在風險管控、營銷分析、態勢洞察等多個應用場景中提供數據安全共享計算的服務,能夠在保證數據安全的前提下充分發揮通信數據應用價值,助力各行業數字化發展實踐,對充分釋放數據要素價值和推動社會經濟發展具有重大意義。

成果五:《多方數據聯合風控應用能力評估要求》標準

隨着國家法律政策的重視、監管逐漸完善以及企業自身的經營需求,風控對於企業的重要性進一步提高。目前,風控已經從傳統業務單線風控的1.0階段、企業級單方風控體系的2.0階段,正邁入多方數據聯合風控體系的3.0階段,其完整性、全面性、及時性都進一步提高。

 

風控業務發展的三個階段

為解決行業需求,中國信通院依託中國通信標準化協會大數據技術標準推進委員會、隱私計算聯盟共同編制《多方數據聯合風控應用能力評估要求》標準。

 

《多方數據聯合風控應用能力評估要求》標準參編單位

成果六:《隱私計算應用 面向互聯網場景的應用要求》標準

隨着政策和市場需求雙重驅動,隱私計算在互聯網應用場景的需求強烈,其中主要集中在聯合營銷場景中,具體包括洞察分析、策略制定、營銷投放、效果分析等細分場景。為了更好適配,隱私計算產品應在易用性、場景支持能力、算法能力與安全性上滿足相應要求。

 

隱私計算技術在互聯網行業中的應用場景

為此,中國信通院、隱私計算聯盟共同起草《隱私計算應用 面向互聯網場景的應用要求》標準。該標準梳理了互聯網應用場景,並對適配互聯網應用的隱私計算產品能力進行了規範。本標準自2022年8月啟動以來,經歷了框架總體設計和材料徵集、場景研討和梳理,以及標準主體討論,目前已完成主體內容編制。

 

《隱私計算應用 面向互聯網場景的應用要求》標準起草單位

成果七:《隱私計算 面向金融場景的應用規範》標準

近年來隱私計算應用加速落地,其中金融場景應用最為廣泛。為解決供需雙方訴求,發揮橋樑作用,隱私聯盟聯合京東科技等幾十家企業召開了多次標準討論會,共同編制了《隱私計算 面向金融場景的應用規範》。該標準旨在提升隱私計算產品在金融場景應用中的易用性、場景支持能力。

 

隱私計算技術在互聯網行業中的應用場景

該標準主要包含四個能力域:第一個是算法實現與安全性,該能力域為場景應用奠定安全技術底座;第二個是金融場景支持能力,該能力域為完善產品已具備的基礎能力項對金融場景應用的支持能力;第三個是易用性,該能力域為在已有的基礎能力評測項之外進行擴展,增強隱私計算產品在實際金融應用中的易用性;第四個能力域是金融場景應用能力,該能力域為通過算法組合安全有效地完成常用金融場景的解決方案。

 

《隱私計算 面向金融場景的應用規範》標準起草單位