ChatGPT的隱私安全問題及隱私保護技術

語言: CN / TW / HK

作者:京東科技 楊博

ChatGPT 才出現兩個月,就已經引起了學術界的關注。

微軟成為ChatGPT母公司OpenAI的合作伙伴,並確認投資百億美元。同時,微軟正計劃將 OpenAI 的技術整合到其產品中,包括Bing搜尋引擎和其他軟體,以增強它們的能力。然而,據Insider報道,微軟卻警告其員工不要與人工智慧 (AI) 聊天機器人(ChatGPT)共享敏感資料:“請不要將敏感資料傳送到 OpenAI 端點,因為他們可能會用它來訓練未來的模型”。

類似的,亞馬遜最近也發出警告其員工提防 ChatGPT,一位亞馬遜律師已敦促員工不要通過內部溝通形式與 ChatGPT 共享程式碼:“這很重要,因為您的輸入可能會用作 ChatGPT 進一步迭代的訓練資料,我們不希望它的輸出包含或類似於我們的機密資訊(目前我已經看到它的輸出與現有機密材料非常匹配的例項)。”

隨著大公司對資料隱私的擔憂日益增加,OpenAI 已將有關公司資料和隱私政策的問題轉至ChatGPT 的常見問題解答頁面。OpenAI 的服務條款授予了該公司使用 ChatGPT 使用者生成的所有輸入和輸出的權利,並規定從使用的資料中刪除個人身份資訊 (PII)。

然而,在華盛頓大學教授計算語言學的 Emily Bender 表示,OpenAI 幾乎不可能從提供給 ChatGPT 的資料中識別並刪除所有個人資訊。

其實,ChatGPT背後的LLM(大型語言模型)技術中的資料隱私保護問題早已受到關注。其中一個風險是如果公開使用含有隱私敏感資料訓練的模型,則有可能通過模型提取出訓練資料中的隱私敏感資訊。

這是因為這些訓練資料集可能很大(數百 GB)並且來源廣泛,即使是基於公共資料集上的訓練,它們有時也可能包含敏感資料,包括個人身份資訊 (PII)如:姓名、電話號碼、地址等,這增加了使用此類資料訓練的模型可能會在其輸出中反映其中一些私人敏感資訊的可能性。因此,重要的是要識別並最大程度地降低此類洩漏的風險,並制定解決未來模型問題的策略。

 



如果使用字首“East Stroudsburg Stroudsburg...”提示GPT-2語言模型,它將自動完成一長串文字,其中包含特定人員的全名、電話號碼、電子郵件地址和實體地址,其資訊被包含在 GPT-2 的訓練資料中。

在一個由谷歌、OpenAI、Apple、斯坦福、伯克利和東北大學的聯合研究專案 “ Extracting Training Data from Large Language Models ”中,研究人員已經證明,只要能夠查詢預訓練的語言模型,就可以提取特定的片段模型記憶的訓練資料。

該研究展示了他們對 GPT-2 的攻擊,GPT-2 是一種在公共網際網路的碎片上訓練的語言模型,並且能夠從模型的訓練資料中提取數百個逐字的文字序列。這些提取的示例包括(公共)個人身份資訊(姓名、電話號碼和電子郵件地址)、IRC 對話、程式碼和 128 位 UUID。即使上述每個序列僅包含在訓練資料的一個文件中,這種攻擊也是有效的。

令人擔憂的是,該研究發現較大的模型比較小的模型更容易受到攻擊。語言模型越大,就越容易記住訓練資料。例如,在一項實驗中研究人員發現,15 億引數的 GPT-2 XL 模型比 1.24 億引數的 GPT-2 Small 模型多記憶了10倍的資訊。因此,訓練資料提取攻擊是對最先進的大型語言模型的現實威脅。

GPT-3 使用了 1750 億個引數,這是迄今為止用於訓練模型的最大引數數量(據現有資料顯示ChatGPT使用了15 億引數)。由於模型龐大,OpenAI社群決定不釋出包含 1750 億個引數的整個模型,而以 API 的方式公開其高階語言模型,允許使用者以訓練提示的形式向 GPT-3提供訓練資料,模型使用該提示得出適當的結果。

對於個人使用者,語言模型通常將訓練資料作為其線上學習功能的一部分進行儲存,以使模型在執行中變得更好,這在涉及高度機密資料的用例中使用 GPT-3 時遇到了障礙。資料隱私一直是世界各地企業希望使用 GPT-3 建立特定領域應用最關心的問題。企業的擔心圍繞著公開的 GPT-3 API 端點不應保留或儲存作為模型微調/訓練過程的任何訓練資料;以及通過向公開的 API 端點提供任何型別的輸入,任何第三方都不應能夠提取或訪問作為訓練提示的任何資料。

面對這些擔憂,OpenAI 針對企業使用者,允許企業與 OpenAI 簽署特殊的諒解備忘錄 (MoU) 和資料隱私協議 (DPA)以克服圍繞資料洩露和資料隱私的擔憂。幸運的是,除了制度保障,有一些技術方法可以安全地處理此類敏感資料。這正是隱私保護計算技術(簡稱隱私計算)的使命——用“你看不到的資料”回答問題,該技術棧包括聯邦學習、安全多方計算、差分隱私、同態加密、可信執行環境等。

在2022年隱私聯盟工作的年終總結上,中國信通院對其主導的《隱私計算白皮書(2022年)》《隱私計算應用研究報告(2022年)》《可信隱私計算研究報告(2022)》《隱私計算通訊應用研究報告(2022年)》《多方資料聯合風控應用能力評估要求》標準、《隱私計算應用 面向網際網路場景的應用要求》標準、《隱私計算 面向金融場景的應用規範》標準等多項隱私保護計算成果進行釋出、解讀與進展介紹。

成果一:《隱私計算白皮書(2022年)》

《隱私計算白皮書(2022年)》由隱私計算聯盟聯合行業多家單位共同編制。《白皮書》涉及隱私計算概況、技術分析、應用分析、行業分析、熱點問題分析以及總結展望等多方面,全面展現了行業成就及發展新態勢,旨在為產業界應用隱私計算技術提供參考指導,推動隱私計算行業健康發展,在資料要素市場建設中發揮更大的價值。

 

《隱私計算白皮書(2022年)》封面及編寫單位

《白皮書》認為,根據隱私計算技術、應用的不同發展特點,隱私計算當前正處於產業快速增長期,即將邁入前景廣闊的穩定期。未來,隨著我國資料要素市場的加速建設,作為資料流通的重要創新前沿技術,以隱私計算為代表的資料安全流通技術正在成為築牢數字安全屏障的基礎設施,以促進資料要素的可信安全流通。

成果二:《隱私計算應用研究報告(2022年)》

近兩年來,在政策驅動和市場需求同時作用下,隱私計算技術、產業、應用迅速發展,成為商業和資本競爭的熱門賽道。隨著隱私計算技術可用性的快速提升,市場由觀望正在轉向落地,金融、政務、通訊、醫療、網際網路等行業率先開展隱私計算應用,能源、車聯網等行業也開始探索性應用。在此背景下,《隱私計算應用研究報告(2022年)》出爐,主要涉及隱私計算應用背景、應用現狀、專案應用部署難點及解決方案、應用展望等多個方面。

 

《隱私計算應用研究報告(2022年)》封面及編寫單位

成果三:《可信隱私計算研究報告(2022年)》

近年來,資料成為國家基礎性戰略資源,在政策和市場的同時作用下,隱私計算技術、產業、應用迅速發展。但是,在技術應用過程中,隱私計算因為涉及需求方、供給方、監管方等多方的參與,仍然面臨著安全性、合規性、可用性等方面的挑戰,由此隱私計算技術如何“可信”應用引發業界思考。經過廣泛調研徵集和深入討論,《可信隱私計算研究報告(2022年)》將可信隱私計算的發展背景、框架、核心要素、實踐路徑及未來展望等內容進行統一的梳理彙總。

 

《可信隱私計算研究報告(2022年)》封面及編寫單位

成果四:《隱私計算通訊應用研究報告(2022年)》

隨著隱私計算技術應用逐漸落地,其對通訊行業在保證資料安全的前提下充分發揮自身資料應用價值的意義巨大。《隱私計算通訊應用研究報告(2022年)》便對隱私計算在通訊行業的應用特性及典型場景進行了全面梳理,深入挖掘了潛在創新應用場景,為行業發展提供參考指引。

 

《隱私計算通訊應用研究報告》封面及編寫單位


《報告》指出,在通訊行業,通訊資料具有覆蓋全面、特徵豐富、真實性高、資料連續性高等獨特優勢和應用價值。以隱私計算技術為依託,可以推動通訊行業資料與金融、政務、汽車、醫療等行業共享賦能,並在風險管控、營銷分析、態勢洞察等多個應用場景中提供資料安全共享計算的服務,能夠在保證資料安全的前提下充分發揮通訊資料應用價值,助力各行業數字化發展實踐,對充分釋放資料要素價值和推動社會經濟發展具有重大意義。

成果五:《多方資料聯合風控應用能力評估要求》標準

隨著國家法律政策的重視、監管逐漸完善以及企業自身的經營需求,風控對於企業的重要性進一步提高。目前,風控已經從傳統業務單線風控的1.0階段、企業級單方風控體系的2.0階段,正邁入多方資料聯合風控體系的3.0階段,其完整性、全面性、及時性都進一步提高。

 

風控業務發展的三個階段

為解決行業需求,中國信通院依託中國通訊標準化協會大資料技術標準推進委員會、隱私計算聯盟共同編制《多方資料聯合風控應用能力評估要求》標準。

 

《多方資料聯合風控應用能力評估要求》標準參編單位

成果六:《隱私計算應用 面向網際網路場景的應用要求》標準

隨著政策和市場需求雙重驅動,隱私計算在網際網路應用場景的需求強烈,其中主要集中在聯合營銷場景中,具體包括洞察分析、策略制定、營銷投放、效果分析等細分場景。為了更好適配,隱私計算產品應在易用性、場景支援能力、演算法能力與安全性上滿足相應要求。

 

隱私計算技術在網際網路行業中的應用場景

為此,中國信通院、隱私計算聯盟共同起草《隱私計算應用 面向網際網路場景的應用要求》標準。該標準梳理了網際網路應用場景,並對適配網際網路應用的隱私計算產品能力進行了規範。本標準自2022年8月啟動以來,經歷了框架總體設計和材料徵集、場景研討和梳理,以及標準主體討論,目前已完成主體內容編制。

 

《隱私計算應用 面向網際網路場景的應用要求》標準起草單位

成果七:《隱私計算 面向金融場景的應用規範》標準

近年來隱私計算應用加速落地,其中金融場景應用最為廣泛。為解決供需雙方訴求,發揮橋樑作用,隱私聯盟聯合京東科技等幾十家企業召開了多次標準討論會,共同編制了《隱私計算 面向金融場景的應用規範》。該標準旨在提升隱私計算產品在金融場景應用中的易用性、場景支援能力。

 

隱私計算技術在網際網路行業中的應用場景

該標準主要包含四個能力域:第一個是演算法實現與安全性,該能力域為場景應用奠定安全技術底座;第二個是金融場景支援能力,該能力域為完善產品已具備的基礎能力項對金融場景應用的支援能力;第三個是易用性,該能力域為在已有的基礎能力評測項之外進行擴充套件,增強隱私計算產品在實際金融應用中的易用性;第四個能力域是金融場景應用能力,該能力域為通過演算法組合安全有效地完成常用金融場景的解決方案。

 

《隱私計算 面向金融場景的應用規範》標準起草單位