台灣AI資料治理現況與改進建議報告

基於監察院調查報告觀點

By Kuohua, built with Manus

二、台灣主權AI發展現況

TAIDE模型發展歷程

TAIDE(Taiwan AI for Digital Economy)是台灣推動可信任生成式AI發展計畫的代表性成果,旨在建立具有台灣文化特色和需求的生成式人工智慧對話引擎。該計畫由國科會主導,集合了台灣多所大學和研究機構的力量,致力於開發適合台灣社會和產業需求的大型語言模型。

TAIDE模型的發展始於112年,當時國內外生成式AI技術快速發展,但多數模型對繁體中文的支持不足,難以準確理解和表達台灣的文化脈絡和社會現實。為了填補這一空白,國科會啟動了TAIDE計畫,希望通過自主研發,建立台灣的主權AI能力。

TAIDE模型的開發採用了微調(fine-tuning)的技術路線,基於開源的大型語言模型,使用台灣本地的繁體中文資料進行訓練和優化。這一路線考慮了台灣的資源限制和技術現實,在有限的算力和資料條件下,尋求最大化的效果。

目前,TAIDE已經發布了多個版本的模型,包括基於Llama 3的TAIDE-LX-8B-Chat-Alpha1等。這些模型在繁體中文處理能力上有了明顯提升,但與國際主流模型相比,仍存在性能差距和應用限制。

繁中語料的重要性與挑戰

繁體中文語料對台灣主權AI的發展具有決定性意義。首先,語言是文化的載體,繁體中文承載了台灣獨特的文化傳統和價值觀念。只有通過大量高質量的繁體中文語料訓練,AI模型才能準確理解和表達台灣的文化脈絡和社會現實。

其次,繁體中文與簡體中文在詞彙、語法、表達習慣等方面存在差異,直接使用簡體中文訓練的模型難以滿足台灣用戶的需求。例如,許多台灣特有的詞彙和表達方式在簡體中文中可能不存在或有不同含義,這需要通過台灣本地的繁體中文語料來彌補。

然而,台灣在繁體中文語料方面面臨嚴峻挑戰。首先是數量不足,相比於英文和簡體中文,繁體中文的數字化資源相對有限,特別是高質量的專業領域資料。其次是獲取難度高,許多繁體中文資源分散在不同平台和機構,缺乏統一的收集和管理機制。再者是法律限制,著作權法的限制使得大量繁體中文資源難以用於AI訓練。最後是資料質量參差不齊,缺乏有效的質量控制和標準化處理。

這些挑戰直接影響了TAIDE模型的訓練效果和應用範圍,成為台灣主權AI發展的瓶頸。

國際主權AI發展趨勢比較

在全球範圍內,主權AI已成為各國科技戰略的重要組成部分。不同國家和地區根據自身條件和需求,採取了不同的發展路徑和策略。

美國作為AI技術的領導者,擁有強大的技術基礎和市場優勢,其主權AI戰略主要體現在通過政府支持和市場機制,保持技術領先地位和數據控制能力。美國政府通過CHIPS and Science Act等法案,投入大量資源支持AI研發和應用,同時通過出口管制等措施,限制關鍵技術的外流。

歐盟則更加注重AI的倫理和監管,通過《人工智能法案》等法規,建立了全面的AI監管框架,強調以人為本、透明和負責任的AI發展。同時,歐盟也在推動歐洲數據空間建設,加強數據主權和自主能力。

中國大陸則採取了政府主導的發展模式,通過國家戰略和政策支持,大力推動AI技術的研發和應用。中國大陸擁有龐大的數據資源和市場規模,為AI發展提供了有利條件,但也面臨技術封鎖和國際合作限制等挑戰。

日本和韓國等亞洲國家則更加注重AI的產業應用和社會融合,通過政府和企業合作,推動AI在製造、醫療、教育等領域的應用,同時注重保護本國語言和文化特色。

相比之下,台灣的主權AI發展面臨獨特的挑戰和機遇。一方面,台灣擁有強大的半導體產業和ICT基礎,為AI發展提供了硬件支持;另一方面,台灣在數據資源、算力建設、人才培養等方面存在不足,特別是繁體中文語料的匱乏成為主要瓶頸。

在國際比較中,台灣需要找到符合自身條件和需求的發展路徑,既要借鑒國際經驗,又要發揮自身優勢,建立具有台灣特色的主權AI體系。

免責聲明

本報告基於監察院調查報告及公開資料編寫,僅供參考,不代表任何官方立場。報告中的觀點和建議僅代表作者個人意見,不構成任何投資、法律或政策建議。讀者在引用或使用本報告內容時,應自行判斷其適用性和準確性,作者不對因使用本報告內容而導致的任何損失或問題負責。