跳到主要內容區塊
:::
開啟
  1. 首頁_pic首頁

【專欄】

:::

【專欄】生成式AI個資保護的邊界與難題


近年來,生成式人工智慧(Generative AI)浪潮崛起,從自動書寫、生成圖像到模擬對話,我們每天與這些看似聰明的模型互動,甚至開始依賴它們協助處理資訊。但您是否曾想過,這些 AI 模型說出來的「事實」,真的正確嗎? 2024 年初,一位名為Arve Hjalmar Holmen 的挪威男子被 ChatGPT「誣指」為謀害自己孩子的兇手。這項令人震驚的虛構指控,並非來自網路惡作劇,而是出現在一個被全球數千萬人日常使用的AI對話系統中,這即是錯誤資訊(或稱「幻覺」(Hallucination)) 產生的源頭。

當模型「記憶」演變為「個資侵害」

所謂幻覺,指的是AI模型在輸出內容時,產生了看似合理、語法正確,但實際上與真實不相符的資訊。在某些使用情境下,大型語言模型(LLMs)所產生的問題並不僅止於「說錯話」。除了可能生成錯誤資訊外,它們有時也可能洩露真實個資 — 包含使用者未曾授權公開的資訊,甚或是過往網頁中已被刪除的內容。這些風險反映出生成式 AI 面臨的雙重挑戰:(1)虛構錯誤個資:如誣指某人犯案,對其名譽與社會信任造成傷害。(2)洩漏真實個資:如模型無意中輸出住址、職業、健康狀況等個人資料,侵犯個人隱私。

這類風險並非是偶發錯誤,而是根植於LLMs 的核心運作方式,亦即這些模型的目標並非「重建真實」,而是「預測語言」。換言之,它們是依據訓練資料中的語言模式推測下一個字詞,目的是產出語法通順、語意合理的回應,而非保證資訊的正確性。 研究指出,LLMs 的這種 「記憶效應」 來自於過度配適 (overfitting) — 當模型在訓練階段使用了過多的參數用以擬合 (fit) 過少或過於具體的資料時,會導致模型將資料「背下來」而非理解與泛化。規模愈大的模型,其參數愈多,「記住」特定訓練資料的機率也就愈高。

無論模型重現的是錯誤的虛構資訊,還是當事人未同意公開的真實資訊,都可能侵犯個人隱私與資料保護。因此,當我們面對一個模型輸出錯誤、卻牽涉真實個資的內容時,許多人的第一個疑問即是:「這樣的行為是否違反個人資料保護法?」這也是目前歐盟資料保護委員會(EDPB)、學界與AI技術社群持續論辯的議題。

個資保護的困境與挑戰

以歐盟2018年通過的《一般資料保護規則》(General Data Protection Regulation, GDPR)為例,該法的核心在於保障個人資料自主權,包含更正與刪除的權利,並要求資料處理透明化 (transparency)。同時,它也明確要求資料處理必須遵守 「資料最小化」(data minimisation) 與「目的限制」(purpose limitation) (GDPR第 5(1)(b)條) 的基本原則。然而,生成式人工智慧的技術邏輯與這些原則可謂格格不入。

首先,GDPR 對於「資料處理」(data processing) 的定義十分廣泛,幾乎涵蓋與個人資料互動的每一環節,無論是收集、儲存、分析或生成,只要涉及可識別特定個人的資料,都可能構成資料處理行為。資料保護仰賴高度脈絡化(contextual)的分析,其保護程度取決於資料的類型、處理者身分、處理環境與用途。但這樣密實的規範,正與大型語言模型廣泛、多樣、彈性的使用情境形成衝突。

大型語言模型通常被設計為「通用人工智慧模型」(General-Purpose AI,GPAI),能在多種情境下執行不同任務。依據歐盟 2024 年通過的《人工智慧法案》(AI Act),GPAI 模型被定義為藉由大量資料自我監督學習(self-supervised learning),具備處理廣泛任務 (a wide range of tasks) 的能力,也可整合至下游系統與各類應用情境。然而,當GPAI廣泛地藉由應用程式介面(API)提供給第三方使用時,如何確認下游應用是否符合原始資料蒐集目的,實務上幾乎無法達成。這也違背了GDPR 第 6(4) 條對於資料二次利用與原始目的「相容性」 (compatibility) 的要求。換言之,LLMs 的多功能與可重複利用的特性,使其運作邏輯在本質上與 GDPR的「目的限制」產生衝突。這也反映出,現行個資保護在面對快速發展的生成式AI技術時,正遭遇前所未有的治理挑戰。

那麼,生成式AI在實際運作中有哪些階段可能涉及個人資料處理?我們可以將其概分為以下三個環節:(1)訓練資料的收集、(2)模型訓練階段、(3)模型輸出階段。

生成式AI模型(如GPT-4、Bard)的訓練過程,第一步通常是透過網路爬取大量公開資料。然而,這種「無差別」的收集方式,幾乎不可能獲得資料主體的明確同意,使得GDPR第6(1)(a)條以「同意」(consent) 作為資料處理的適法依據難以成立。因此,模型開發者多以 GDPR第6(1)(f)條的「正當利益」 (legitimate interests) 作為資料處理依據。依該條文,資料處理必須同時符合三項條件:具有正當利益、處理行為是實現該利益所必需,且不得侵害資料主體的基本權利。

然而,即使資料可被公開瀏覽,並不代表可以合法地將其蒐集、分析並用於大型模型的建構與商業化應用,尤其在AI自動大量蒐集資料的情形下,無法確認資料主體對於資料被用於訓練AI模型具有合理預期。或有論者主張「公眾獲取資訊的自由」(freedom of information)(如Google Spain案)可作為AI模型獲取公開資料之依據,但此論點在生成式AI的脈絡下爭議甚大。畢竟,多數大型語言模型屬於商業用途,且不同於搜尋引擎,資料主體難以對其輸出內容主張更正或刪除,亦使此一論述的正當性備受質疑。

此外,GDPR第6(1)(f)條強調「必要性」(necessity),意指資料處理行為必須是實現正當利益所不可或缺的手段。理論上,若AI模型訓練可完全仰賴匿名化資料 (anonymised data),則使用個資並非「必要」;但在實務上,僅靠匿名資料恐難以支撐 LLMs 對於語境與語義廣泛的理解需求。再者,「匿名化」 (anonymising) 本身也是一種資料處理行為,同樣須具備合法事由。這也反映出:「必要性」雖是正當利益的核心要件,但在生成式AI的訓練脈絡中,其適用存在爭議。

最後,關鍵問題落在「利益衡量」(balancing test):開發者常主張大型語言模型需大量語料才能運作,而合法收集資料成本過高。但歐洲法院 (European Court of Justice,ECJ) 於 2023 年的 Meta 案已明確指出:即使平台服務免費,若當事人無法合理預期 (reasonably expect) 其資料會被用於商業用途,即不得視為合法的資料處理。此一判決為生成式AI能否主張「正當利益」作為資料處理的適法依據,劃出了一條明確的紅線。

法律模糊地帶:如何畫界線?

在生成式AI的資料處理過程中,誰應對輸出內容負責,法律上亦不容易界定。依 GDPR 框架,可分為「資料控制者」(data controller)、「資料處理者」(data processor)與第三方。其中,資料控制者對資料處理的「目的與方式」(purposes and means)負主要責任。對於如 OpenAI、Google 等AI模型的開發商而言,在模型的「訓練與部署」階段,其無疑屬於資料控制者,因其主導了資料的收集與使用方式。然而,在模型「應用」階段,使用者透過提示詞 (prompt) 與模型互動,產生輸出內容,此時法律關係即變得較為複雜。

有論者認為使用者與LLMs提供者可能構成「共同控制者」(joint controllers),惟此說法亦具爭議。畢竟,使用者雖能影響輸出內容,卻無法存取模型內部資料,亦無從掌握處理流程,難以視為「真正的」資料控制者或處理者。依據 GDPR 第 26 條,共同控制者須「共同決定」資料處理的目的與方式。然而,對生成式AI 而言,開發商仍保有主要的決策與控制權,使用者僅負責提詞輸入,並不具實質影響性。歐洲法院亦指出,判定責任歸屬的關鍵在於資料處理的「實質影響」 (substantially affect)。因此,在目前技術與營運架構下,LLMs服務提供者仍應對輸出內容負主要的法律責任。這樣的安排,似乎也更符合現實中的技術架構與使用情境。

生成式AI的廣泛應用,突顯出個資保護規範在面對資料密集AI技術時的邊界與難題。除了模型訓練與輸出所涉及的個資議題外,「目的限制原則」如何適用於多用途 GPAI,以及大型語言模型是否觸及 GDPR第22 條的自動化決策(automatic decision-making) 規範,皆是仍待釐清的議題。雖然歐盟AI法案,旨在保障個人基本權利以及增進演算法透明度,惟其核心架構仍偏向產品安全管理,尚未正面處理生成式AI所帶來個資風險的結構性挑戰。歐盟AI Act 雖對高風險AI系統設立義務,如資料治理與人為監督,但其對於使用者的提詞隱私、個資刪除與更正權等議題仍顯著墨不足。生成式AI仰賴新的法律思維與跨領域協作,唯有正視AI技術作為一「社會—科技系統」(socio-technical system),將技術深嵌於社會結構與文化價值之中,始能在創新與權利保護之間取得平衡。

歐美所AI 治理觀念實驗室

面對生成式AI帶來的諸多挑戰,歐美所於 2023 年底成立「AI 治理觀念實驗室」,就AI 治理的關鍵議題進行廣泛深入的研究。議題涵蓋資料治理、演算法透明性與可解釋性、自動化決策與因果關係、數位成癮,以及人機互動。盼以多元開放的態度推動跨領域對話,涵納來自法學、資訊科學、認知哲學、倫理學等不同觀點,同時建立國內外學界的橫向連結,就AI治理的重要議題展開思辨。未來,我們期待能更密切的與院內不同領域的專家們共同合作,經由不同學科間的對話,激盪創生新的想法,以回應AI技術對於人類文明與未來社會造成的深層衝擊。

回頂端