【專欄】穿越時空的AI史官:誰說歷史只能死記?用大數據與演算法,解密大明王朝三百年的軍事機密!
作者:蔡宗翰研究員(本院人文社會科學研究中心)
前言:當頂尖 AI 遇上大明王朝
如果你是一位歷史學家,面對著堆積如山、甚至汗牛充棟的古籍,你會感到興奮還是絕望?這不僅是歷史學界的難題,也是我們這項研究的起點。
這項研究成果不僅剛登上 2025 年數位人文領域的頂級期刊——牛津大學出版社的《Digital Scholarship in the Humanities (DSH)》,更是一次跨國與跨界強強聯手的結晶。我們非常榮幸能與 Google DeepMind 展開深度合作,不僅獲得對方提供的經費支持以解決算力需求,Google DeepMind 的兩位傑出研究員 Yingtao Tian 與 Bert Chan 更親自參與了我們的研究會議。在多次的討論中,他們以世界頂尖 AI 實驗室的視角,給予我們極具啟發性的見解,讓這項結合歷史與資訊科技的研究能夠突破極限。
以《明實錄》(Ming Shi-Lu)為例,這部記載了從明太祖朱元璋到明思宗朱由檢,橫跨近三百年歷史的皇朝大數據,總字數高達一千六百多萬字。這是什麼概念?如果你每天讀一萬字(相信我,讀沒有標點符號的文言文比讀小說累得多),你需要連續讀上四五年才能讀完一遍,而且讀完後面可能已經忘了前面。
這就是傳統歷史研究的「痛點」。我們渴望從宏觀的角度看清歷史的長河,但人類的閱讀速度與記憶力終究有極限。但是,如果我們能請一位過目不忘、幾分鐘就能讀完千萬字,還能畫出精美地圖的「AI 助手」來幫忙呢?
這正是我們團隊在做的事。我們運用自然語言處理(Natural Language Processing, NLP)技術,訓練人工智慧閱讀古文,將《明實錄》中隱藏的軍事密碼一一解開。今天,我想帶領大家進行一場穿越時空的數據冒險,看看當 Google DeepMind 等級的 AI 視野遇上大明王朝,會擦出什麼樣的火花。
第一章:教電腦「讀懂」文言文的挑戰
在開始冒險之前,我得先介紹一下我們的這位 AI 助手。你可能聽過 ChatGPT 或 Google 的 BERT 模型,它們很聰明,但它們原本是為了讀懂現代語言而設計的。要讓它們讀懂數百年前的「之乎者也」,可不是一件容易的事。
如果你直接搜尋關鍵字,比如「打仗」,你可能會漏掉很多資訊。因為古人寫文章很含蓄,他們可能會說「討」、「伐」、「剿」、「防」、「禦」,甚至用更隱晦的描述。如果只用關鍵字搜尋,就像是用魚網撈水,漏掉的比撈到的還多。
因此,我們採用了一種「半監督式學習(Semi-supervised Learning)」的方法。簡單來說,我們不直接告訴 AI 每一句話是什麼意思(那樣我們得人工標註幾萬條數據,會先累死),而是給它一些「種子(Seeds)」。
就像教小朋友認水果,我們先教它「攻」和「守」這類最核心的軍事詞彙(種子詞),然後利用 BERT 模型強大的上下文理解能力,讓它自己去舉一反三。AI 會發現:「嘿,這個『擊』字常和『攻』出現在類似的語境裡,那它應該也是軍事詞彙!」
透過這種方法(我們稱之為 LOTClass 模型),AI 迅速學會了辨識哪些段落是在講軍事行動,哪些是在講法律、修繕或其他雜事。經過我們的測試,這位 AI 史官的準確率高達近 90%!這意味著,我們終於擁有一把解開《明實錄》軍事大數據的鑰匙。
第二章:歷史的「心電圖」——AI 眼中的戰爭頻率
有了這把鑰匙,我們做的第一件事,就是請 AI 把《明實錄》中所有關於軍事的段落通通找出來,並依照時間軸排列。
我們想驗證一件事:AI 算出來的「軍事文本量」,真的能代表當時的戰爭頻率嗎?
為了驗證,我們將 AI 的運算結果與權威的《中國軍事史·歷代戰爭年表》進行了比對。結果令我們興奮不已!請看下圖:

圖一:AI 提取的《明實錄》軍事段落數量(上)與歷史學界統計的明代戰爭頻率(下)對比圖。可以看到兩者的走勢高度重合。
從圖中我們可以清晰地看到,兩條線的起伏幾乎是同步的。這說明了什麼?說明了歷史記載是誠實的,也說明了我們的 AI 判讀是精準的。當大明王朝烽火連天時,史官筆下的軍事紀錄就會暴增;當天下承平時,這些紀錄就隨之減少。
不過,眼尖的讀者可能發現了,在圖表的最右端(約 1630 年代之後),兩條線分道揚鑣了。藍線(實錄紀錄)下降,而紅線(實際戰爭)卻飆升。這是 AI 失誤了嗎?
不,這反而是一個有趣的歷史證據!這段時期對應的是明朝末年,那是崇禎皇帝的時代。當時內有李自成起義,外有後金(清朝)虎視眈眈,天下大亂。然而,留存下來的《崇禎實錄》相較於前朝,資料量本就殘缺不全,加上當時局勢混亂,史官可能也無暇或無法詳盡記錄每一場敗仗。這「數據的缺口」,恰恰反映了王朝末路的倉皇與無奈。
第三章:大數據下的王朝興衰史
確認了工具的可靠性後,我們進一步將這些數據轉化為「軍事事件比率分佈圖」,這就像是幫大明王朝做了一次長達三百年的「心電圖」。

圖二:明代軍事文獻比率分佈圖。每一個波峰都對應著歷史上重大的軍事危機或擴張時期。
看著這張圖,身為歷史愛好者的你,是否感到熱血沸騰?這不是冷冰冰的數據,這是歷史的呼吸。讓我們來解讀幾個關鍵的「波峰」:
- 開國與靖難(圖中左側的第一個高峰A): 這是朱元璋打天下以及朱棣「靖難之變」的時期。新王朝的建立總是伴隨著鐵與血,數據忠實地記錄了這段開疆闢土的歲月。
- 土木堡之變(1449年左右的高峰C): 明英宗親征瓦剌,結果在土木堡被俘,皇帝變成了肉票,這絕對是明朝前中期最大的軍事危機。數據在此處呈現劇烈的跳升,反映了當時朝廷上下的震動與北京保衛戰的緊張局勢。
- 嘉靖倭亂(1550年代的高峰E): 看到中間那個突起的山峰了嗎?那是東南沿海倭寇最猖獗的時期,名將戚繼光就是活躍在這個時代。與此同時,北方的蒙古俺答汗也在不斷騷擾,形成了「南倭北虜」的局面,讓嘉靖皇帝頭痛不已。
- 萬曆三大征(1600年前後的高峰F): 這是明朝國力的迴光返照。萬曆皇帝雖然幾十年不上朝,但這段時間明軍在寧夏、播州(貴州)以及朝鮮半島(抗日援朝)打了三場大仗。數據的飆升告訴我們,這幾場戰爭雖然勝利,但也極大地消耗了帝國的元氣。
- 王朝的黃昏(最右側的高峰G): 伴隨著「小冰河期」的到來,氣候變冷,糧食減產,農民起義與滿洲鐵騎接踵而至,波峰持續居高不下,直到數據截斷。
透過 AI 的量化分析,這些歷史事件不再只是課本上的名詞,而是變成了可以被測量、被比較的強度指標。
第四章:地圖會說話——從「武將守邊」到「文官帶兵」
除了時間,我們還想看空間。
我們利用「命名實體識別(NER)」技術,將文獻中提到的地名通通抓出來,並結合地理資訊系統(GIS),繪製出了明代軍事活動的「熱力圖(Heatmap)」。

圖三:永樂時期(1402-1424)軍事活動熱力圖。顏色越深代表軍事活動越頻繁。
看這張永樂時期的地圖,你會發現一個明顯的「C型包圍圈」。熱點主要集中在北方邊境(防禦蒙古)以及南方的交阯(今越南北部)。這完美印證了永樂皇帝「天子守國門」的戰略,以及他南征北討的野心。
但更有趣的發現還在後頭。在研究過程中,我們關注了三種關鍵職位:總兵官(Regional Commanders,最高階武將)、巡撫(Grand Coordinators,文官) 與 總督(Supreme Commanders,更高階的文官)。
在明初,打仗主要是武將的事。但隨著時間推移,我們從數據中發現了一個驚人的趨勢。

圖四:明代文獻中「總兵」、「巡撫」、「總督」提及頻率的趨勢圖。注意綠色線(總兵)在成化年間後的下降,以及藍色、橘色線(文官體系)的上升。
請看上圖,在明朝前期(約 1450 年之前),「總兵」的提及率是最高的。但到了中後期,代表文官的「巡撫」和「總督」的提及率開始反超,甚至大幅領先。這就是明代政治史上著名的「以文領武」(文官帶兵)現象的數據鐵證!
【延伸閱讀:文官帶兵的深入解密】
提到「文官帶兵」,除了本文分析的宏觀趨勢外,如果你對這些「文人官員」如何具體轉變身份、掌握軍權感興趣,強烈推薦閱讀我們團隊發表的另一篇論文 MingOfficial。該篇論文發表於 AI 領域頂尖會議 EMNLP 2023,題目為 "MingOfficial: A Ming Official Career Dataset and a Historical Context-Aware Representation Learning Framework"。在該研究中,我們同樣與 Google DeepMind 的 Yingtao Tian 與 Bert Chan 合作,建構了一個包含 9,376 位官員的巨型資料集,並利用圖神經網絡(GNN)分析社會結構。實驗顯示,我們能精準識別出那些「名為文官、實為武將」的特殊身份,F1 分數從 24.6% 飆升至 98.2%。這兩篇論文互為表裡,完美呈現了明代官場的複雜面貌。
回到本篇研究,為了深入探究這個轉折點,我們將目光鎖定在 1440 年代的 「麓川之役」。這是一場發生在雲南邊境(今中緬邊界)的漫長戰爭。我們用三張圖層層遞進,像剝洋蔥一樣還原了當時的指揮體系變革:



圖五、六、七:1440-1449 年間,總兵(上)、總督(中)、總督且負責軍務(下)的活動分布對比。
這三張圖的連續技告訴了我們什麼?
- 第一步(圖五):武將在哪裡?
這張圖顯示的是「總兵官」在整個明朝版圖分布。我們可以看到,在雲南與緬甸交界的麓川戰場(左下角紅框處),有著密集的熱點。這證實了在戰爭期間,傳統武將確實在前線帶兵。 - 第二步(圖六):文官進場了?
這張圖我們改抓「總督」的紀錄。驚人的是,在同樣的雲南戰區,代表文官總督的熱點也浮現了出來。這顯示朝廷不僅派了武將,也將高階文官送往了戰區。 - 第三步(圖七):文官真的在打仗嗎?
為了確認這些文官不是去觀光或考察民情的,我們加上了嚴格的篩選條件:必須是「總督」加上「軍務」或「提督」等指揮作戰的關鍵字。結果顯示,雲南戰區的熱點依然綠得發亮!
這意味著,如王驥這樣的文官總督,是真正手握「尚方寶劍」,掛著「提督軍務」的頭銜在指揮作戰,其實質地位甚至凌駕於武將之上。
這三張圖串連起來,就用視覺化的方式提供了強有力的證據:麓川之役不僅是一場邊境戰爭,更是明代軍事體制轉型的試驗場。 朝廷為了加強中央集權,開始習慣性地派遣文官到前線「總督軍務」,從此確立了文人領兵的政治格局。過去歷史學家需要翻閱無數奏章才能論證的觀點,我們現在用幾張熱力圖,就能直觀且具說服力地呈現出來。
第五章:結論與展望——數位人文的無限可能
這趟穿越時空的數據之旅,是否有讓你對「歷史研究」有了新的想像?
我們利用 NLP 技術挖掘《明實錄》,不僅驗證了已知的歷史常識(如戰爭頻率),更量化了微觀的政治變遷(如文官權力的擴張),並用視覺化的地圖重現了當年的戰略佈局。
當然,這只是開始。我們的 AI 模型雖然強大,但還不是完美的。比如它偶爾會把「修城牆」(防禦工事)和「修宮殿」(土木工程)搞混,這需要我們進一步教導它分辨更細微的語境。此外,目前我們只分析了《明實錄》,未來我們還打算將這套方法應用到《清實錄》,甚至朝鮮的《朝鮮王朝實錄》和越南的《大南實錄》中。
想像一下,當我們把東亞各國的史料大數據串聯起來,我們將能看到一幅多麼壯闊的「東亞戰爭與和平」全景圖!
身為一名在中研院漫步於科研前沿的研究人員,我深深著迷於這種「跨界」的魅力。誰說理科生不懂歷史的浪漫?誰說文科生不能玩轉高科技?當冷靜的演算法遇上溫熱的歷史血肉,我們看見的不僅是過去,更是解讀人類文明的新視角。
歷史不曾遠去,它只是靜靜地躺在數據裡,等待我們去喚醒。
【經費來源與致謝】
本研究得以完成,首先感謝 中央研究院數位文化中心(ASCDC) 的專案支持(計畫編號:AS-ASCDC-114-205)。
特別致謝 Google DeepMind 的 GiG 計畫以及兩位研究員 Yingtao Tian 與 Bert Chan。他們不僅提供關鍵的算力與經費,更在研究過程中給予我們寶貴的技術指導與啟發,讓這項發表於 Oxford DSH 的研究以及我們在 EMNLP 的另一項成果得以順利問世。正是有這些頂尖科技資源的挹注,人文學科的研究才能突破傳統邊界,看見不一樣的風景。
最後,感謝研究團隊的每一位成員:Richard Tzong-Han Tsai、Yu-Sin Liu、You-Jun Chen、Hsin Yi Hsieh 以及 Ya-Chi Chan。是你們的跨領域合作,讓冷僻的史料有了溫度。
(文中圖片與數據分析均引用自本研究團隊發表之學術論文
Richard Tzong-Han Tsai, Yu-Sin Liu, You-Jun Chen, Hsin Yi Hsieh, Ya-Chi Chan, "Digital humanities approach to analyzing the roles and military power of Supreme Commanders and Grand Coordinators in the Ming Dynasty: a computational analysis of Ming Shilu," Digital Scholarship in the Humanities, Volume 40, Issue 3, September 2025, Pages 910–927.
DOI: https://doi.org/10.1093/llc/fqaf024)
首頁