台灣AI資料治理現況與改進建議報告

基於監察院調查報告觀點

By Kuohua, built with Manus

一、引言

研究背景與目的

人工智慧(AI)技術的快速發展已成為全球科技競爭的核心領域,而生成式AI的崛起更加速了這一趨勢。在此背景下,「主權AI」的概念日益受到重視。主權AI是指一個國家能夠自主掌控AI技術從數據蒐集、模型訓練、演算法設計到最終應用部署的整個過程,而不需依賴外國企業或技術。根據輝達(NVIDIA)的定義,主權AI是一個國家利用自己的基礎建設、資料、人才和商業網路來發展人工智慧的能力。

對台灣而言,發展主權AI不僅關乎科技競爭力,更涉及國族文化的存續與數位主權的維護。在全球化的數位環境中,若缺乏自主的AI技術和資料治理能力,台灣的語言、文化和價值觀可能逐漸被邊緣化,甚至面臨被同化的風險。因此,建立符合台灣文化特色和需求的AI系統,特別是具備繁體中文處理能力的大型語言模型(LLM),已成為國家戰略的重要一環。

然而,112年國內研究機構發生大型語言模型爭議事件,暴露出台灣在繁中語料方面的嚴重不足。這一事件引發了監察院的關注,促使監察委員賴鼎銘、林郁容及葉宜津針對我國AI及LLM發展現況立案調查。本報告旨在基於監察院的調查發現,深入分析台灣AI資料治理的現況、問題和挑戰,並提出具體的改進建議。

監察院調查報告概述

監察院交通及採購、財政與經濟、教育及文化委員會聯席會議於114年4月8日審議通過的調查報告,指出政府在資料治理方面存在明顯違失,其他包括著作權法規調適、應用推廣及算力配套等方面也有檢討必要。

調查報告特別強調,AI發展是政府近年施政重點,主權AI更涉及國族文化的存續,這些都需要資料治理及訓練資料作為基本功。然而,過去政府資料開放以施政便民及公開透明為目的,已無法滿足現今AI發展的資料治理需求。調查發現數發部不僅怠於研謀對策,也未積極發揮政府資料開放機能,行政院亦未善盡督導協調職責,導致未能建構健全的文本資料生態系,遑論其他多模態資料。

監察委員以TAIDE模型為例,指出數發部明顯缺乏資料協作的團隊精神,其繁中訓練語料的蒐集竟無系統性規劃,僅憑國科會計畫團隊單打獨鬥洽辦,以致於TAIDE模型的公部門訓練資料集僅有58個,其中完整收錄於政府資料開放平台的更只有2個。此外,政府網站符合公眾領域貢獻宣告(CC0-1.0)而可以直接爬取的網站僅占2%(4個),難以滿足主權AI發展的迫切需求,對於我國銳意發展AI及數位經濟極為不利。

報告架構說明

本報告將從以下幾個方面展開分析:

首先,第二部分將概述台灣主權AI的發展現況,特別是TAIDE模型的發展歷程、繁中語料的重要性與挑戰,並與國際主權AI發展趨勢進行比較。

第三部分將深入分析資料治理問題,包括政府資料開放現況評估、資料協作機制缺失、著作權法規調適不足等方面,並新增國際AI數據治理實踐比較,全面分析18個國家和地區的數據治理策略與經驗。

第四部分將探討應用推廣與算力配套問題,包括TAIDE模型應用推廣現況、人力資源配置不合理現象、算力建設與電力配套不足以及公私協力模式的缺失。

第五部分將提出改進建議,從資料治理機制改革、著作權法規調適、應用推廣策略優化以及算力與電力配套措施等方面提出具體建議。

最後,第六部分將總結主要發現,提出政策建議重點,並展望未來研究方向。

通過本報告,我們希望能夠引起政府和社會各界對AI資料治理問題的重視,推動相關政策和措施的改進,為台灣主權AI的健康發展奠定堅實基礎。

免責聲明

本報告基於監察院調查報告及公開資料編寫,僅供參考,不代表任何官方立場。報告中的觀點和建議僅代表作者個人意見,不構成任何投資、法律或政策建議。讀者在引用或使用本報告內容時,應自行判斷其適用性和準確性,作者不對因使用本報告內容而導致的任何損失或問題負責。