數發部:台灣AI語料庫 預計2、3個月內釋出首波資料
2025/6/18 12:43(6/18 13:01 更新)

(中央社記者蘇思云台北18日電)台灣打造主權AI訓練語料庫,數發部今天表示,6月開始與各部會盤點各項語言資料,評估是否納入AI訓練語料庫,目前確定客語、原住民語將會放入,同時數發部研議語料庫行動計畫,盼政府機關與民間響應資料共享與活化應用,預計2、3個月內展開第一階段語言資料釋出,屆時包括政府法人或產業,皆可申請使用。
立法院交通委員會今天邀數發部長黃彥男就「推動AI之產業發展政策」進行專題報告,並備質詢。
民進黨立委徐富癸關注,數發部正推動台灣主權AI語料庫,但現在語言資料可能偏重政府文書資料,擔心出現語料偏誤,未來資料庫是否有計畫加入原住民族語言與客語資料等。
黃彥男表示,打造主權AI關鍵在於資料,主權AI語料庫也是未來AI基本法中重要資料治理面向。
數發部資料創新司司長莊明芬指出,語言資料庫將包括文化、歷史、地理等豐富語言資料,6月會找各部會盤點重要語料庫,近期內部也在研擬語料庫行動計畫,後續如果搭配數發部提出的AI語料授權條款,就可以對外釋出。客語、原住民語言的資料,也會納入語料庫。
至於時程規劃,莊明芬表示,目前正在做基本訓練規劃,也同步建置系統中,首要工作是先充實語言資料,預計2到3個月會先把第一階段的語料釋出。(編輯:潘羿菁)1140618
本網站之文字、圖片及影音,非經授權,不得轉載、公開播送或公開傳輸及利用。