想像未來世界的台灣,叫機器人去倒垃圾,它卻去拉一隻雞;想吃花生,它給你一盤馬鈴薯……別說這種情況不可能發生,當人類愈來愈依賴人工智慧,AI成為人們的老師及心靈伴侶,誰來決定AI該學些什麼?誰來當AI老師?
如何讓AI聽懂台灣、看懂台灣,進而教會全世界的人認識台灣,需要的是「AI的老師」,需要有一套教會AI的課程及資料庫。
IMA資訊經理人協會理事長蔡祈岩就表示:「愈早教會AI關於台灣語言及文化的一切愈好,否則未來不只台語、客語,連繁體中文都會變成一種瀕危的語言。」
隱身在台北南區辦公大樓裡,這個成立40多年的單位,匯聚來自四面八方資訊人的意見,彼此激盪、交流,為台灣資訊發展尋找更多可能。
採訪小組在午休時間前來拜訪,因為厲行節約的關係,整層辦公室一片漆黑,只有協會理事長辦公室留一盞燈、在暗處發光,如同數十年來總是為渾沌卻充滿希望的資訊產業指出明路。
近年人工智慧當道,無論軟硬體都以前所未見的速度發展,前景看似無限蓬勃,卻也隱藏許多隱憂,若無「先見之明」,無法早一步解決關鍵性的問題,只怕一切都回不去了。
蔡祈岩想得更遠,「過去十年全世界想要學中文的人,會透過中國的孔子學院,還是其他管道?如果想要理解台灣、想要知道什麼是台灣的人,是透過簡體中文的環境去理解,還是其他管道?未來生長在台灣的人想要了解台灣,他會透過簡體中文資料翻譯成繁體來理解,還是有其他方式?」
蔡祈岩表示,台灣應該要有一個「學院」及課程,教會我們的孩子,什麼是台灣;而全世界對中文及台灣有興趣的人,可以在這裡學習,而不用透過孔子學院或其他地方,「談主權AI或AI主權也是如此。」
IMA資訊經理人協會從去年底發起的Taiwan Tongues計畫,積極建構台灣語言語料庫,不只讓台灣的模型聽得懂台灣話,也希望讓國際的開源的語言模型都能夠聽得懂台灣的語言。
蔡祈岩表示,目前國際的LLM(大型語言模型)對中文的學習絕大部分是以簡體中文語料來訓練,台灣語言語料庫在全球佔比沒有太大影響力,因此當務之急,就是要盡可能去收集我們自己的語料庫,並讓全世界的大型語言模型來學習,才有可能突破簡體中文語境的限制。
過去在政府與學術單位的努力下,台語的語料約莫累積了數百萬字,今年在IMA協會與台語文學作家、吳三連獎得主胡長松的帶頭倡議下,迅速再添500萬字的高品質語料,令人振奮,將逐步朝1000萬字邁進。
胡長松從事台語文學創作多年,獲獎無數,出身清大資訊所碩士的他,同時任職電信公司,本身也是IMA的成員,斜摃身分讓他對AI語言應用的議題十分關心。
胡長松說,近來協會因為收到很多會員的想法,希望訓練AI,但台灣本身似乎缺乏相關的資源,雖然有些公司已經開始在做,也整理了一些資源,但並未開放讓大家使用,主要是碰到授權上的問題。
胡長松說,公家資源像教育部、客委會、中研院等單位都已經累積了一定的語料,協會這邊一開始就是以此為基礎開始發展語料庫,「我們非常希望能在全世界AI的環境裡,讓台灣占有一定的位置,至少絕對不能缺席。」
胡長松表示,且不要說台灣語料不足的問題,除了華語之外,較常被民眾使用的母語如台灣、客語,在語料庫裡也是出奇的少,現在再不趕快補足真的會來不及,所幸透過協會的協助,請作家們貢獻語料,獲得不少迴響。
胡長松笑說,這些本土語言已經住進重症病房了,原住民語更不用說,可能是最重症的一群。也許有人對這樣的現象無感,或是覺得跟AI的發展無關,胡長松表示,「就像我們現在談偏鄉醫療,診間裡老人家和醫生大眼瞪小眼,醫生不見得對偏鄉語言都能掌握,這時如果AI能派上用場,也許能解決不少問題。」
胡長松表示,如果未來要推廣長照機器人,機器人絕對不能只聽得懂國語,也不能只聽簡體中文下指令才能作業,「我們現在不做這件事,後果很難想像。」
蔡祈岩表示,希望透過這個計畫,讓台灣軟體產業在AI這個領域能夠因此更加蓬勃,更多新創團隊跟公司,因為這個計畫而降低門檻,可以做更多AI的投入,最終具備與世界競爭的能力。
蔡祈岩說,他希望台灣人在這個環境裡是感到舒服自在的,此後不管是台灣人自己做的AI,還是全世界做的AI,大家在使用時都不會覺得被壓迫,或只能接受國外硬翻譯過來的東西。
此外,在瀕危語言方面,這個計畫也會累積許多高品質的語文教育素材,讓大家體會到本土語言的美好,「也許會有一種可能,白天有老師教學,AI在授課之外的時間,協助學生自習,甚至和學生合寫一首台文詩,一起領略母語的美。」
蔡祈岩說,協會現在正在接洽全球主要的AI公司,讓他們從這裡學習繁體中文甚至台文,「我們正在號召IMA的會員一起合作,尋找台灣『AI的老師』,所謂『AI的老師』就是教AI的AI,訓練他們更懂台灣。」
「我們的目標是建構一個文字的開源語言模型,但是這個語言模型並不是要讓一般使用者直接來用,而是用來訓練其他AI用;另外也希望做一個語音辨識跟語音合成系統,希望全世界的AI能夠聽得懂台灣人講話,也能夠用台灣人的口氣說話。」