Google DeepMind周三(7/23)發表了可用於分析羅馬時代拉丁銘文的AI模型Aeneas,並透過Predicting the Past網站開放使用;該網站同時也整合了先前推出、用於分析古希臘銘文的模型Ithaca。
在西元前6世紀至西元5世紀的古羅馬時代,人們通常將文字(拉丁文)寫在羊皮紙、莎草紙、蠟板、石頭或金屬上。其中,只有刻在石頭與金屬上的銘文較易保存至今。為了協助歷史學家更有效地解讀、歸屬並修復這些殘缺的文本,Google DeepMind開發出Aeneas——號稱是首個具備「古代銘文脈絡化」能力的AI模型
Aeneas是一個多模態生成神經網路,支援文本與圖像輸入。Google DeepMind團隊首先策畫了一套資料集,整合了羅馬銘文資料庫(Epigraphic Database Roma,EDR)、海德堡銘文資料庫(Epigraphic Database Heidelberg,EDH),以及Clauss-Slaby銘文資料庫(Epigraphic Database Clauss Slaby,EDCS-ELT)。團隊將這些經過清理與統整的紀錄,彙編為一個可供機器操作的資料集,名為拉丁銘文資料集(Latin Epigraphic Dataset,LED),內容涵蓋來自古羅馬世界的17.6萬則拉丁文銘文。
Aeneas模型會先讀取銘文的文字,並利用Transformer技術分析內容;如果銘文有缺字,模型會嘗試補上;若不清楚是哪一年寫的,也會預測其年代;而在判斷銘文的地理來源時,則會同時參考銘文的照片。接著,Aeneas會使用嵌入(embedding)技術,將銘文的內容與背景資訊轉換成一組數值,形成其獨特的「歷史指紋」,並據此從拉丁銘文資料集(LED)中找出最相似的銘文,依相似度排序後,提供學者作為參考依據。
Google DeepMind團隊表示,Aeneas不僅能修復最多10個字元的缺文,其Top-20準確率高達73%,即使缺文長度未知,準確率也仍有58%。使用者除了可透過網頁版與之互動外,也已透過GitHub同步釋出原始碼及資料集。