本網站使用相關技術提供更好的閱讀體驗,同時尊重使用者隱私,點這裡瞭解中央社隱私聲明當您關閉此視窗,代表您同意上述規範。
Your browser does not appear to support Traditional Chinese. Would you like to go to CNA’s English website, “Focus Taiwan”?
こちらのページは繁体字版です。日本語版「フォーカス台湾」に移動しますか。
中央社一手新聞APP Icon中央社一手新聞APP
下載

數發部推動主權AI 預計第4季釋出台灣語料庫

2025/7/15 13:14(7/15 21:31 更新)
請同意我們的隱私權規範,才能啟用聽新聞的功能。
數發部15日舉行「促進資料創新利用發展條例」草案記者會,數發部資料創新司司長莊明芬(圖)說明草案,條文包含提升開放資料品質,促進機關間資料共享及產業資料共享,鼓勵機關提供激勵措施促進產業創新,以及強化資料創新利用諮詢機制等規定。中央社記者蘇思云攝  114年7月15日
數發部15日舉行「促進資料創新利用發展條例」草案記者會,數發部資料創新司司長莊明芬(圖)說明草案,條文包含提升開放資料品質,促進機關間資料共享及產業資料共享,鼓勵機關提供激勵措施促進產業創新,以及強化資料創新利用諮詢機制等規定。中央社記者蘇思云攝 114年7月15日
請同意我們的隱私權規範,才能啟用聽新聞的功能。

(中央社記者蘇思云台北15日電)數發部推動主權AI,目前正在預告「促進資料創新利用發展條例」草案。數發部今天表示,透過「台灣主權AI訓練語料授權條款」,各部會正在盤點適合的資料,未來可上架到台灣主權AI語言資料庫,預計第4季釋出,後續開放民間與政府機關等申請使用。

數發部預告「促進資料創新利用發展條例」草案,自6月16日起預告到8月15日止。數發部今天上午召開記者會說明草案內容,數發部政務次長林宜敬、資料創新司司長莊明芬出席。

林宜敬表示,AI發展快速,但AI模型訓練需大量資料,希望把政府、民間擁有著作權的資料釋放出來,現在提出草案,讓公務員在不損害個資前提下,讓政府擁有著作權資料可釋放出來,希望多訓練出有台灣觀點的AI模型。

莊明芬說明,立法希望完善資料創新生態系,擴大資料開放與共享,立法重點有4項。第1,擴大政府資料開放,助攻AI模型訓練;第2,政府可鼓勵產業間建立可互通的資料共享機制,活絡跨域資料共享;第3,機關透過節省資料取得費用等措施,促進資料創新利用。

第4,打造資料創新生態,數發部擬訂「資料創新利用發展基本計畫」,指定政府機關擬訂執行計畫,另外也透過行政院資料創新利用諮詢會參與計畫與中長期政策制定,未來行政院所屬二級機關、縣市政府都須設「資料長」。

除了草案之外,媒體也關注,數發部同時規劃的台灣主權AI訓練語料庫進度。

莊明芬說明,過去多年推動的政府開放資料是採取標準化授權,可完全公開讓AI運用,但大型語言模型需要的不見得是開放資料中的結構化資料或統計等,更需要的是連貫性的文字段落等文本性資料,5萬多筆開放資料中這類文本資料約1000多筆。

為適當消弭AI訓練資料在著作權法上的爭議,數發部近期研擬「台灣主權AI訓練語料授權條款」提供給各機關參考。

訂閱《早安世界》電子報 每天3分鐘掌握10件天下事
請輸入正確的電子信箱格式
訂閱
感謝您的訂閱!

莊明芬指出,這類非專屬授權不是授權給特定人使用,部會透過台灣主權AI訓練語料授權條款盤點哪些資料適合上架,若有著作權議題也要先處理。外界關心的客委會、教育部、原民會、文化部等也在盤點手上的語言資料,希望第4季釋出語料庫。

至於釋出的語料量,莊明芬指出,語料庫可能以量化單位Token來作為AI訓練量的單位,不是用過去釋出多少資料量來描述。預期語料庫有些是政府開放資料、政府施政報告或政府出版品等,語料量需要時間慢慢累積,隨著資料增加,未來將逐步納入語料庫。(編輯:張均懋)1140715

影片來源:中央社
中央社「一手新聞」 app
iOS App下載Android App下載

本網站之文字、圖片及影音,非經授權,不得轉載、公開播送或公開傳輸及利用。

請繼續下滑閱讀
港大生以AI製成女生裸照 特首籲校方嚴肅處理
12