杜聖聰:閱讀Nature &AI的筆記
2026 年 5 月 13 日,Nature 發表了一篇很值得注意的政治科學 X AI 論文:〈State media control influences large language models〉。
這篇研究指出,大型語言模型並不是從一個「中立的網路」學習,而是從早已被政治制度、媒體控制與國家宣傳塑造過的資訊環境中學習。
#研究最重要的發現是:
一個國家的媒體自由度越低、政府對媒體控制越強,AI 在使用該國官方或主要語言回答政治問題時,越容易給出對該政府、領導人或政治制度較友善、較正面的答案。
作者用中國作為重要個案。他們發現,在大型語言模型可能使用的開源訓練語料中,有約 310 萬篇中文文件與中國官方或國家協調媒體內容高度重疊,占中文語料約 1.64%,比例約為中文維基百科的 41 倍。
換句話說,這些官媒敘事不只是留在官網或黨媒平台,而是透過轉載、新聞網站、內容農場、各種網路頁面,被擴散成「#看起來像一般網路資料」的內容。
接著,研究者把這些中國官方或國家協調媒體文本餵給開源模型 Llama-2-13b 做額外訓練。結果發現,模型讀了越多這類文本,就越容易在中國政治、領導人、制度問題上給出親政府的回答。即使只加入 6,400 篇訓練文件,中文 prompt 下模型相對基礎模型已接近 80% 的回答更親政府。
更值得注意的是,這種效果不只出現在簡體中文,也會外溢到繁體中文、日文、韓文等文字或編碼系統較接近的語言。
這件事的關鍵,不在於「AI 公司是不是故意替威權政府宣傳」。這篇文章真正提醒我們的是:AI 的訓練資料本身就不是中立的。
如果一個國家長期控制媒體、壓制異議、放大官方敘事,那麼網路上留下來、被爬蟲抓走、進入模型訓練資料的內容,本來就已經帶有權力結構的痕跡。
最後,這些內容再透過 AI 被包裝成看似客觀、理性、中立的回答。
這其實是一種新的「#宣傳洗白」過程。
過去,宣傳會被看見,因為它來自官方媒體、政府網站、黨報、國營電視台。但在 AI 時代,訊息來源被消失了。使用者看到的不是「某某官媒說」,而是「AI 告訴我」。這使得政治宣傳可能以更溫和、更隱形、更有知識感的方式重新出現。
這篇研究對台灣尤其重要。
因為我們大量使用中文,也大量使用國際大型語言模型。當模型的中文語料受到中國官方敘事影響時,繁體中文使用者也不一定能完全免疫。尤其在兩岸關係、台灣主權、中國政治、香港、新疆、南海、民主與威權等議題上,AI 的回答是否真的中立,值得更嚴格檢視。
未來我們談 AI 素養,不能只談會不會下 prompt,也不能只談 AI 會不會幻覺。我們還必須問:AI 是讀什麼資料長大的?哪些聲音被放大?哪些聲音被消失?哪些政治敘事被訓練成「常識」?
在 AI 影響政治之前,政治其實已經開始影響 AI。
論文:State media control influences large language models
期刊:Nature
出版日期:2026 年 5 月 13 日
連結:https://www.nature.com/articles/s41586-026-10506-7

Copyright © 2022~2026 好好聽文創傳媒股份有限公司 All Rights Reserved.