杜聖聰：閱讀Nature ＆AI的筆記

2026-05-14 13:46 　　鉅聞天下｜作者杜聖聰

2026 年 5 月 13 日，Nature 發表了一篇很值得注意的政治科學 X AI 論文：〈State media control influences large language models〉。

這篇研究指出，大型語言模型並不是從一個「中立的網路」學習，而是從早已被政治制度、媒體控制與國家宣傳塑造過的資訊環境中學習。

#研究最重要的發現是：

一個國家的媒體自由度越低、政府對媒體控制越強，AI 在使用該國官方或主要語言回答政治問題時，越容易給出對該政府、領導人或政治制度較友善、較正面的答案。

作者用中國作為重要個案。他們發現，在大型語言模型可能使用的開源訓練語料中，有約 310 萬篇中文文件與中國官方或國家協調媒體內容高度重疊，占中文語料約 1.64%，比例約為中文維基百科的 41 倍。

換句話說，這些官媒敘事不只是留在官網或黨媒平台，而是透過轉載、新聞網站、內容農場、各種網路頁面，被擴散成「#看起來像一般網路資料」的內容。

接著，研究者把這些中國官方或國家協調媒體文本餵給開源模型 Llama-2-13b 做額外訓練。結果發現，模型讀了越多這類文本，就越容易在中國政治、領導人、制度問題上給出親政府的回答。即使只加入 6,400 篇訓練文件，中文 prompt 下模型相對基礎模型已接近 80% 的回答更親政府。

更值得注意的是，這種效果不只出現在簡體中文，也會外溢到繁體中文、日文、韓文等文字或編碼系統較接近的語言。

這件事的關鍵，不在於「AI 公司是不是故意替威權政府宣傳」。這篇文章真正提醒我們的是：AI 的訓練資料本身就不是中立的。

如果一個國家長期控制媒體、壓制異議、放大官方敘事，那麼網路上留下來、被爬蟲抓走、進入模型訓練資料的內容，本來就已經帶有權力結構的痕跡。

最後，這些內容再透過 AI 被包裝成看似客觀、理性、中立的回答。

這其實是一種新的「#宣傳洗白」過程。

過去，宣傳會被看見，因為它來自官方媒體、政府網站、黨報、國營電視台。但在 AI 時代，訊息來源被消失了。使用者看到的不是「某某官媒說」，而是「AI 告訴我」。這使得政治宣傳可能以更溫和、更隱形、更有知識感的方式重新出現。

這篇研究對台灣尤其重要。

因為我們大量使用中文，也大量使用國際大型語言模型。當模型的中文語料受到中國官方敘事影響時，繁體中文使用者也不一定能完全免疫。尤其在兩岸關係、台灣主權、中國政治、香港、新疆、南海、民主與威權等議題上，AI 的回答是否真的中立，值得更嚴格檢視。

未來我們談 AI 素養，不能只談會不會下 prompt，也不能只談 AI 會不會幻覺。我們還必須問：AI 是讀什麼資料長大的？哪些聲音被放大？哪些聲音被消失？哪些政治敘事被訓練成「常識」？

在 AI 影響政治之前，政治其實已經開始影響 AI。

論文：State media control influences large language models
期刊：Nature
出版日期：2026 年 5 月 13 日

連結：https://www.nature.com/articles/s41586-026-10506-7

＊邀請您下載《鉅聞天下新聞網》App，點我下載 App，或加入Line 好友，每天為您推薦有價值的好新聞。

社群

合作媒體