民進黨立委陳培瑜、吳思瑤周二(5/19)召開「文化石油:AI主權建設下的出版內容產業未來」座談會,邀集政府機關、專家學者與文化內容產業,共探政府應如何訂定制度與內容產業對接,並提供實質的預算支持,以確保台灣文化在雲端時代的主權。
陳培瑜示警:國際主流LLM繁中語料僅1%
陳培瑜指出,AI是一台精密運作的機器,而「文化內容」正是驅動這台機器運作的燃料,過去的老報紙、出版品、影視動畫、廣播節目、音樂、表演等,都是AI理解台灣的養分,因此內容產業絕不能在AI浪潮中缺席。
陳培瑜說,然而,當前政府的政策視野尚未將內容產業納入AI發展的關鍵產業。她呼籲,政府未來必須將優質內容的獲取與轉譯機制,實質納入政策規劃、預算編列及法律制定的整體藍圖中。
陳培瑜強調,現今國際主流大語言模型(LLM)高達50%以英文訓練,只有約1%為繁體中文,面臨嚴重的邊緣化危機。雖然數發部與國科會目前以政府公開資料與無償資料建設「主權AI語料庫」,但內容產業所擁有最能代表台灣文化底蘊的珍貴語料,目前皆未納入主權AI訓練語料中。
陳培瑜期待,透過此次座談會邀請產官學共同研商可行的內容回饋、計價機制及加工製作預算,創造國家建設與文化內容產業的雙贏。
TAIDE缺在地文化語料,吳思瑤:恐成沒靈魂空殼
吳思瑤提到,台灣雖為半導體王國,但本地主權AI(TAIDE)若缺乏在地文化語料,恐成為「沒有靈魂的空殼」。她透露,質詢國科會、中研院時發現TAIDE部分評測落後,主因在於核心語料因授權問題尚未納入。
吳思瑤強調「創作有價」,單一創作者難以與科技巨頭議價。她呼籲參考歐盟《AI法案》與「公共出借權」精神,並在現有的制度中,借鏡「公共工程委員會」硬體工程定價機制。
吳思瑤認為,行政院應在「AI新十大建設」中跨部會總動員,由國家出面建立軟體與內容計價機制,完善著作權授權AI的集體管理組織,打造公平的「集體授權與分潤平台」,讓文化產權成為台灣主權AI最強大的後盾。
出版公會盼政府研商授權模式 城邦籲政府界定AI內容使用範圍
中華民國出版商業同業公會全國聯合會理事長吳政鴻指出,希望各大語言模型都能有台灣自己的資料,希望政府部門都能針對出版、雜誌或報紙研商出一個授權模式。另外,因為出版業內部的版權合約中極少有AI相關授權,希望政府部門也可以提供合約做法參考的模式。
城邦媒體集團法務總監邱大山指出,內容產業的型態極其複雜,涵蓋文字、圖片、影像等多重媒介,若要轉化為餵養AI的訓練資料包,必須經過資料清洗、加工及嚴格的品質控管。
由於不同內容業者的商業模式差異甚大,例如採訂閱制的公司對於AI授權態度便相對謹慎,邱大山建議政府應對AI內容的使用範圍做出明確界定,並在制度設計上,依據「製作加工費」與「授權使用費」的不同性質,提供更具彈性的階段性合作方案。
中國歷史論述恐衝擊台灣史觀
城邦媒體協理祝本堯表示,目前各出版或媒體公司內存的數位資料庫,皆難以直接投入AI訓練,政府未來是否會編列專項預算協助產業進行數據加工,且該筆經費究竟是定義為加工製作費,抑或包含授權使用費,皆需進一步釐清。
祝本堯示警,中國的歷史論述極易在社群媒體及演算法的幫助下,與台灣社會多年深耕的史觀分庭抗禮,足見台灣非常迫切需要集結各界力量,攜手完成主權AI的建設。
親子天下示警簡轉繁圖書大量湧入
國立故宮博物院前院長吳密察認為,AI浪潮帶來的法律與產業衝擊極為複雜,對於較商業的內容對價機制,他認為必須優先釐清權責主管機關,才能整合政策、資源與相關責任。
至於台灣的文史資料,吳密察建議立法院教育及文化委員會所主管的政府機關,都應作出具體的時程承諾,針對政府內部的資料研議明確的語料規格,解決各類政府補助、委託案及採購標案的產權與授權問題。
親子天下副總經理林彥傑強調,近年中國圖書大舉進口,申請國家圖書館的ISBN,每年都有大量簡轉繁的紙本、電子、有聲等圖書進到台灣市場,如果台灣要做主權AI,要如何防範中國圖書混淆語料庫?
林彥傑直言,若完全以自由市場機制,中國很容易就能利用大量的出版品淹本土內容,因此建議未來訂定這個政策或法規時必須要訂有防範機制。
此外,因為標案及補助合約中未必有相關授權條款,政府的資料也不一定可以進到主權AI,林彥傑建議未來標案、補助等政府出資的內容可考慮訂有強制授權條款及罰則。
文化部支持合理授權回饋機制 數發部:已搜集12億token
文化部代表回應,支持合理授權及回饋機制,有利於產業長期發展與內容產製。針對產業定型化合約的訴求,文化部期待與各專業與產業共同產出這樣的合約。至於因AI造成的人才衝擊,文化部會在九月份所辦的全國文化會議提出討論。
數發部代表表示,我們必須建設自己的主權AI,並且確保有自己的乾淨語料。數發部已經在去年建置了「主權AI語料庫」,並且分階段進行,目前已經蒐集12億個token。
數發部代表說明,第一屆段先蒐集政府機關資料,第二階段希望民間響應,截至目前為止大概有30多家的民間公司及團體已經使用該語料庫。在授權機制上,數發部與經濟部智慧財產局合作訂定合理授權條款,已與200多個政府部門簽訂釋出資料。至於後續的推動,希望仰賴市場機制,建立合理的授權及回饋機制。
國科會代表說明,不論是電子書、知識庫或任何的文化內容,都需進一步加工處理,才能用於訓練AI。
國科會代表透露,近期已經在規劃透過科技預算,使用工具將非結構化變成結構化的資料,讓更多具有台灣文化背景的資料,成為可用的AI素材,使雲端上的台灣持續被看見,也達成公部門與民間雙贏的局面。
相關新聞:
世界29名超級電腦將上線 RAP平台助攻應用開發 算力中心揭幕 台灣主權AI須軟硬並重