台灣AI資料治理現況與改進建議報告

基於監察院調查報告觀點

By Kuohua, built with Manus

三、資料治理問題分析

政府資料開放現況評估

公部門訓練資料集數量不足

監察院調查報告揭露了台灣主權AI發展面臨的一個嚴峻挑戰:公部門訓練資料集的嚴重不足。以TAIDE模型為例,其公部門訓練資料集僅有58個,這一數量遠遠無法滿足建構高品質繁中大型語言模型的需求。相較於國際上主流的大型語言模型,如OpenAI的GPT系列或Google的Gemini,其訓練資料集規模通常達到數十萬甚至數百萬個,台灣的公部門資料集數量顯得極為有限。

這種資料集數量的不足直接影響了TAIDE模型的訓練效果和應用範圍。繁中語料的匱乏使得模型在處理台灣本地文化、歷史、地理和社會議題時表現不佳,無法準確理解和生成符合台灣文化脈絡的內容。這不僅限制了模型的實用性,也削弱了台灣在AI領域的競爭力和文化自主性。

政府資料開放平台收錄情況

更令人憂慮的是,在TAIDE模型的58個公部門訓練資料集中,完整收錄於政府資料開放平台的更只有2個。這一數據反映出政府資料開放平台在支持AI發展方面的嚴重不足。政府資料開放平台作為公部門資料的集中管理和分享平台,本應成為AI訓練資料的重要來源,但目前的收錄情況顯然未能發揮這一功能。

政府資料開放平台的收錄不足可能源於多種因素,包括資料上傳機制不完善、部門間協調不足、資料格式不統一,以及缺乏明確的資料開放政策和指引等。這些問題導致大量有價值的公部門資料未能被有效收集和利用,造成資源浪費和發展機會的喪失。

可直接爬取的政府網站比例過低

監察院調查報告還指出,政府網站符合公眾領域貢獻宣告(CC0-1.0)而可以直接爬取的網站僅占2%,只有4個。這一極低的比例嚴重限制了AI開發者獲取政府資料的途徑,增加了資料收集的難度和成本。

在AI發展的全球競爭中,資料獲取的便利性和合法性是關鍵因素。許多國家已經採取積極措施,通過法規調整和技術手段,提高政府資料的可獲取性。例如,美國政府的Data.gov平台和歐盟的Open Data Portal都提供了大量可直接使用的政府資料,並且明確了資料使用的法律框架。相比之下,台灣政府網站的低爬取許可率反映出資料開放政策的落後,不利於AI產業的發展和創新。

資料協作機制缺失

數發部在資料協作方面的不足

監察委員在調查報告中指出數發部明顯缺乏資料協作的團隊精神。作為台灣數位發展的主管部門,數發部本應在AI資料治理方面發揮領導和協調作用,但調查發現其在繁中訓練語料的蒐集方面竟無系統性規劃,僅憑國科會計畫團隊單打獨鬥洽辦。

這種缺乏系統性規劃的做法導致資料收集效率低下,資源分散,難以形成規模效應。在AI發展中,資料的質量和數量同等重要,而有效的資料協作機制可以確保資料的多樣性、代表性和平衡性。數發部未能建立這樣的機制,使得TAIDE模型的訓練資料在質量和數量上都面臨嚴峻挑戰。

跨部會協調機制不健全

資料治理不僅是單一部門的責任,而是需要跨部會協調和合作的系統工程。然而,調查報告指出,行政院未善盡督導協調職責,導致未能建構健全的文本資料生態系,遑論其他多模態資料。

跨部會協調機制的不健全表現在多個方面:首先,缺乏統一的資料標準和格式,導致不同部門的資料難以整合和利用;其次,資料共享的法律框架不明確,部門間存在資料孤島現象;再者,缺乏有效的激勵機制,使得各部門缺乏主動共享資料的動力;最後,缺乏專業的資料治理團隊,無法提供必要的技術支持和指導。

這些問題的存在使得台灣在AI資料治理方面處於分散和無序狀態,難以形成合力推動主權AI的發展。

公私協力模式未建立

除了政府內部的協調外,公私協力也是資料治理的重要方面。然而,台灣在這方面的機制也尚未建立。公私協力模式可以結合政府的資源和私營部門的創新能力,共同推動AI發展。

目前,TAIDE模型的訓練資料主要依賴國科會計畫團隊的努力,缺乏與私營企業、學術機構和社會組織的廣泛合作。這種狀況限制了資料的多樣性和代表性,也錯失了利用社會各界資源的機會。

在國際上,許多成功的AI發展案例都依賴於公私協力模式。例如,韓國的AI發展戰略強調政府、企業和學術界的合作,共同建設AI資料基礎設施。台灣在這方面的不足,不僅影響了TAIDE模型的發展,也限制了整個AI生態系統的健康成長。

現有法規框架的限制

在AI發展所遭遇的挑戰中,著作權及合理使用的問題極為關鍵。然而,台灣現有的著作權法規框架尚未針對AI訓練和應用進行必要的調適,這給AI發展帶來了法律上的不確定性和風險。

台灣《著作權法》第3條規定,在現行著作權法制下,AI並無法成為著作權法中的著作人。同時,法律對於AI訓練過程中使用他人著作的合法性也缺乏明確規定。這種法規框架的限制使得AI開發者在使用資料時面臨法律風險,不利於AI技術的創新和應用。

智財局函釋的不足之處

監察院調查報告指出,目前僅有經濟部智財局一項函釋可供參考,在法律保留及明確性方面顯然不足,難以因應AI高速發展所衍生的各種著作權問題。

智財局的函釋雖然提供了一定的指導,但其法律效力有限,且未能全面覆蓋AI發展中的各種著作權問題。例如,對於AI訓練過程中的文本挖掘、資料爬取、模型訓練等行為是否構成合理使用,函釋未能提供明確的標準和指引。這種不確定性增加了AI開發者的法律風險,也阻礙了資料的有效利用。

國際著作權法規比較

相比之下,許多國家已經開始調整著作權法規,以適應AI發展的需求。例如,日本在2018年修訂《著作權法》,明確規定為了資訊分析目的(包括AI訓練)的非商業性使用可以不經著作權人許可。歐盟的《數位單一市場著作權指令》也為文本和資料挖掘提供了例外規定。美國則通過司法判例和「合理使用」原則,為AI訓練提供了一定的法律空間。

台灣的著作權法規調適相對滯後,監察委員表示,行政院「數位政策法制協調專案會議」宜督同智財局積極辦理法規調適,以平衡AI發展需求及各方權益。這一建議反映了法規調適的迫切性和重要性。

國際AI數據治理實踐比較

為了全面了解全球AI數據治理的最佳實踐,本報告對18個國家和地區的數據治理策略進行了深入研究和比較分析,包括英國、荷蘭、德國、法國、西班牙、義大利、波蘭、捷克、俄羅斯、阿布達比、以色列、中國、韓國、日本、巴西、美國、加拿大和新加坡。這些國家和地區在AI數據治理方面各有特色,為台灣提供了寶貴的參考經驗。

歐洲國家數據治理模式

歐洲國家普遍採取全面而系統的數據治理模式,注重數據開放與隱私保護的平衡。

英國通過《人工智慧機會行動計劃》(2025年1月)推動數據開放,制定AI開放資料庫指引與最佳實踐,創建並提供高影響力的資料集。英國採用支持創新的監管方式,由Ofcom和競爭與市場管理局等監管機構應用相關原則。

荷蘭則通過data.overhied.nl及developer.overheid.nl平台促進公開資料的重複利用,推動AI數據資料共享的公平原則,並遵循歐盟人工智能法案,發布指南供組織內的AI開發人員和部署人員參考使用。

德國建立了開放政府資料專法及公部門資料使用法,制定開放資料的格式標準及開放原則,帶頭推動國內的資料開放環境。德國各州數據保護會議還發布了關於人工智能與數據保護的指導文件,特別關注大型語言模型。

法國推出新階段人工智慧戰略,設立數據中心,提供全國各地38處"現成可用"地點供資料中心進駐。法國國家資訊自由委員會推出符合GDPR的人工智慧操作指引,說明AI系統資料集建立與利用符合歐盟規則之作法。

西班牙通過《人工智慧治理法案》和《2024年人工智慧策略》,投入15億歐元推動國家AI策略,要求AI生成或操控的圖像、音頻和視頻必須正確標識,對未標註人工智能生成內容企業處以巨額罰款。

義大利則打造人工智慧研發中心,創造整合學術機構、研究中心及企業的合作生態系,推動義大利成為人工智慧全球先驅之一,使所有戰略產業均能藉由超級運算與AI技術發揮最大效能。

東歐與中東國家數據治理模式

東歐與中東國家在數據治理方面呈現多元化的發展路徑,既有遵循歐盟標準的趨勢,也有獨特的本土化策略。

波蘭通過人工智慧法案和數位事務部研究與創新政策,透過資料開放政策促進公共資訊共享,推動醫療、金融、戶政等領域發展,並建立AI發展中心作為推動AI發展政策的管理及組織機構。

捷克由副總理督導貿工部協調相關部會推動「捷克國家人工智慧戰略」,創造有利的政策環境,促進經濟增長和提升AI競爭力,建立負責任和可信賴的AI生態系統。

俄羅斯則通過《2030年前構想》和國家AI中心,指示數位發展部負責為政府機構創建一個基於「GosTech」的AI平台,支持發展國家數據經濟產業,並在醫療、市政管理、交通、金融等行業立法,統籌推進多行業的監管。

阿布達比積極制定AI發展戰略及政策,推行空間數據共享平台(CSDI)並開放予公眾,讓充分發揮數據的潛力。阿布達比還投入大量資金支持AI基礎設施建設和跨領域應用,成立人工智能和先進技術委員會負責制定和實施政策和戰略。

以色列採取軟性監管制度,以OECD人工智慧原則為基礎,採行制定指導方針、自律規範、認證機制等方式,而非強制性法規。以色列AI國家計劃五年投入29億美元,著重AI人才培育,並投資可供AI研究使用的開放政府數據庫,解決醫療等待時間、農業和其他方面的問題。

亞洲國家數據治理模式

亞洲國家在數據治理方面展現了強調實用性和經濟發展的特點,同時注重本土文化和語言的保護。

中國通過《生成式人工智能服務管理暫行辦法》、《數據安全法》、《互聯網信息服務算法推薦管理規定》等政策,完善落實數據開放與保護相關政策,開展公共數據開放利用改革試點,支持公眾和企業充分挖掘公共數據的商業價值,促進人工智能產業發展。

韓國制定《人工智慧基本法》和國家AI運算中心建置計劃,通過開放大量的訓練數據,為AI的發展提供更廣泛、更多樣化的數據資源。韓國還透過行政數據收集與儲存的統一,保障數據分析管理體系,制定全公司數據治理管理政策,並新增設立國家AI安全委員會負責審議AI政策及風險規範。

日本則通過AI法案和數據循環戰略,制定資料政策以適當管理與使用可靠的研究數據、完備研究基礎設施。日本成立由全體閣僚(各部部長)組成的AI統管機構,製定AI研發與應用基本計劃,兼顧技術促進與風險管控,製定開發及使用指南,賦予政府部門調查及資訊收集權限。

美洲國家數據治理模式

美洲國家在數據治理方面展現了從創新驅動到監管平衡的多元路徑。

巴西通過人工智慧戰略和國家資料保護局,建立開放預算透明度入口網(Portal of Transparency),提升公共管理的透明度,讓市民有能力追蹤公共資源的使用情況。巴西國家資料保護局還禁止Meta將用戶公開資訊與個人資料用於訓練人工智慧,要求AI系統提供商遵守個人的隱私權和個人數據保護權。

美國通過AI行政命令和商業數據治理委員會政策,發布《生成人工智能和開放數據》報告,探索數字簽名、創建AI就緒性評估指標等。美國還要求每個聯邦機構設立AI長,制定相關安全標準、工具以及驗測方法,要求AI科技公司若研發任何可能危及國家、經濟及公共衛生安全之AI系統時,必須通知美國政府並分享安全測試結果。

加拿大則通過《人工智慧資料法案》(AIDA)和AI委員會,支援「負責任的AI」工作小組與「數據治理」工作小組。加拿大規範AI設計、開發、使用與提供行為,提高消費者隱私保護,建立專門針對隱私和數據保護法庭,並重組AI諮詢委員會,成立「安全與可靠AI諮詢小組」,確保AI技術領先,並能夠為加拿大帶來安全與利益。

新加坡數據治理模式

新加坡作為亞太地區的科技樞紐,在AI數據治理方面展現了獨特的優勢和特色。

新加坡通過「AI策略2.0」和「生成式人工智慧治理架構草案」,加速公共部門的人工智能應用,開放政府數據,為公共利益服務的用例提供支持。新加坡還推出3項「人工智慧安全治理計畫」,確保AI在多語言、多文化環境下的安全應用。

在監管方面,新加坡保持一個支持創新的人工智慧監管環境,同時確保適當的保護措施,為不同人工智慧「模型」貼上標籤,明確列出開發過程中使用的數據來源。這種平衡創新與監管的做法,為小型國家和地區提供了寶貴的參考經驗。

國際數據治理實踐對台灣的啟示

通過對18個國家和地區數據治理實踐的比較分析,我們可以得出以下對台灣的啟示:

首先,在數據開放程度方面,台灣應參考英國、荷蘭、德國、新加坡等國家的做法,積極推動政府數據開放,建立專門平台和標準,提高數據的可獲取性和可用性。

其次,在法規框架方面,台灣可以借鑒歐盟國家和加拿大的全面立法經驗,同時參考以色列和新加坡的軟性監管模式,建立符合台灣國情的AI法規框架,平衡創新發展和安全監管。

再者,在隱私保護方面,台灣應參考歐盟GDPR的高標準保護模式,同時借鑒新加坡和加拿大的平衡保護策略,建立既保護個人隱私又不阻礙創新的數據保護機制。

在安全管控方面,台灣可以借鑒美國、中國等國家將AI安全與國家安全結合的做法,同時參考歐盟國家基於風險等級的分類管理方法,建立既確保安全又不過度限制創新的安全管控體系。

最後,台灣應充分發揮自身優勢,參考新加坡和以色列等小型國家的成功經驗,在特定領域建立競爭優勢,同時加強國際合作,共同應對全球AI治理挑戰。

免責聲明

本報告基於監察院調查報告及公開資料編寫,僅供參考,不代表任何官方立場。報告中的觀點和建議僅代表作者個人意見,不構成任何投資、法律或政策建議。讀者在引用或使用本報告內容時,應自行判斷其適用性和準確性,作者不對因使用本報告內容而導致的任何損失或問題負責。