掘金 人工智能 07月25日 11:08
基于超176k铭文数据,谷歌DeepMind发布Aeneas,首次实现古罗马铭文的任意长度修复
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌 DeepMind 与多所大学合作,在Nature期刊发布了题为「Contextualizing ancient texts with generative neural networks」的研究论文,介绍了其创新的多模态生成式神经网络Aeneas。该模型能够同时处理拉丁铭文的文本和图像信息,突破了AI在文本修复上的长度限制,实现了“任意长度修复”,并能找到包含文化背景等深层关联的“平行文本”。Aeneas在文本修复、地理归因和年代归因方面展现了卓越性能,并被誉为人工智能在历史学科的开端,预示着人文学科与AI深度融合的未来,但同时也引发了对过度依赖AI导致真实性存疑的讨论。

🏛️ **Aeneas模型创新多模态处理能力**:该模型能够同时接收铭文的文本转录和图像信息。通过浅层视觉神经网络处理图像,并与文本特征结合,尤其在地理归因任务上表现出色。这是AI在处理古籍信息时首次整合多种模态数据的重大突破。

✍️ **实现“任意长度修复”的文本还原**:Aeneas模型突破了以往AI仅能修复已知长度文本的限制,首次实现了对任意长度缺失文本的修复能力。这一创新极大地扩展了AI在古籍残缺文本恢复方面的应用潜力,能够更有效地处理碑铭学研究中常见的文本残缺问题。

🔗 **深度关联的“平行文本”检索**:Aeneas的核心能力在于为目标铭文找到最相关的“平行文本”。这种关联不仅限于相似的短语,更深入到文化背景、社会功能等层面,远超传统的字符串匹配,为历史学家提供了更丰富的研究线索和理解视角。

📊 **多任务协同的架构设计**:Aeneas采用多模态生成式神经网络架构,包含输入处理、核心模块(基于Transformer的torso和ResNet-8视觉网络)、任务头(文本修复、地理归因、年代归因)及语境化机制。各部分协同工作,专门针对拉丁铭文的语境化分析进行了优化。

📚 **大规模、标准化的拉丁铭文数据集**:研究团队构建了迄今为止最大规模、机器可操作的拉丁铭文数据集(LED),整合了多个权威数据库。通过严格的数据清洗、格式转换和去重,为Aeneas模型的训练提供了高质量、标准化的语料,奠定了其优异性能的基础。

人类文明早期的全部记忆,都藏匿在了刻痕和文字之中。铭文是最早的文字形式之一,为人们洞察古代文明的思想、语言和历史提供了窗口。从皇帝的政令到奴隶的墓志铭,这些刻在石碑、青铜器上的文字,成为了判定年代、理解文化的直接证据。据估计,每年仍有 1,500 条新的拉丁铭文被发现,但碑铭学的研究却面临着文本残缺、解读障碍、学识局限等诸多困境。

2025 年 7 月 23 日,谷歌 DeepMind  的研究人员联合诺丁汉大学、华威大学等高校在国际顶尖学术期刊 Nature 上发表了题为「Contextualizing ancient texts with generative neural networks」的研究论文。

该研究包含 3 大创新亮点:

模型架构:多模态生成式神经网络 Aeneas

Aeneas 是一个多模态生成式神经网络(multimodal generative neural network), 采用基于 Transformer 的解码器来处理铭文的文本和图像输入,通过一个浅层视觉神经网络处理从拉丁铭文数据集中检索相似的铭文,并按照相关性排序。输入文本由模型的核心部分——「躯干(torso)」处理。

专为拉丁铭文的语境化分析设计的 Aeneas,其架构包括输入处理、核心模块、任务头及语境化机制组成。

输入处理: 输入为铭文的字符序列和 224×224 的灰度图像。其中,字符序列最长 768 字符,用「-」标记已知长度缺失、「#」标记未知长度缺失,以 < 为句首标记;

核心模块: 文本由基于 T5 Transformer 解码器改进的 torso 处理,含 16 层,每层 8 个注意力头,采用相对位置旋转嵌入,图像通过 ResNet-8 视觉网络处理。随后,torso 和视觉网络的输出被导向 heads 的专用神经网络,利用文本处理字符恢复和年代测定任务,每个 heads 都经过定制,以处理 3 个关键的碑铭学任务。

任务头( task head ): 输出端有专门的任务头,分别处理文本修复(含辅助头应对未知长度修复,用束搜索生成假设)、地理归因(结合文本与视觉特征,分类 62 个罗马省份)、年代归因(将日期映射为 160 个离散十年区间),所有任务均附显著性图;

语境化机制: 通过整合 torso 与任务头的中间表示生成历史富集嵌入,基于余弦相似度检索相关平行铭文,辅助历史学家研究。

埃涅阿斯架构对文本转录的处理

以 Aeneas 对短语「Senatus populusque Romanus」的处理过程为例:给定某一铭文的图像及其文本转录(其中长度未知的受损部分用「#」标记)后,Aeneas 会采用 torso 对文本进行处理。 heads 负责字符恢复、年代判定和地理归属(地理归属任务还会整合视觉特征)。 torso 的中间表征会被融合为一个统一的、富含历史信息的嵌入向量,以此从拉丁铭文数据集(LED)中检索相似的铭文,并按相关性排序。

需要注意的是,Aeneas 模型只有地理归属 heads 整合了来自视觉网络的额外输入,文本修复和年代归属任务不使用视觉模态。 恢复任务排除视觉输入是为了防止意外的信息「泄露」,由于文本的部分内容被人工掩盖,且其在图像中的确切位置未知,模型可能会利用视觉线索来推断和恢复隐藏的字符,从而损害任务的完整性。

数据集:可供机器操作的最大规模拉丁铭文数据集

用于训练 Aeneas 模型的语料数据库在研究中称为拉丁铭文数据集 (LED),是迄今为止最大的、机器可操作的拉丁铭文数据集。  LED 数据集的综合语料数据来自 3 个最全面的拉丁铭文数据库:罗马铭文数据库(EDR)、海德堡铭文数据库(EDH)和 Clauss-Slaby 数据库,其中包含从公元前七世纪到公元八世纪的铭文,地理覆盖范围从西部的罗马行省不列颠尼亚(今英国)和卢西塔尼亚(葡萄牙),到东部的埃及和美索不达米亚。为确保整个 LED 数据集的一致性,研究使用 Trismegistos 数据平台中的标识符处理数据中存在的歧义,并应用了一套过滤规则来系统地处理人工注释,实现文本可由机器操作处理。

为获得标准化的元数据,研究将与日期和历史时期相关的所有元数据转换为公元前 800 年至 公元 800 年范围内的数字, 超出此范围的铭文则被排除在外。为提升模型的学习和泛化能力,研究将数据集中的实质性文本内容按照标准,转换为机器可操作的格式:

在转换格式后,研究根据唯一铭文标识符的最后一位数字,将 LED 划分为训练、验证和测试集,从而确保图像在各个子集之间的均匀分布。

研究在实施自动过滤流程后,通过对颜色直方图应用阈值剔除主要由单一纯色组成的图像,利用拉普拉斯矩阵的方差来识别和丢弃模糊图像,并将清理后的图像转换为灰度图,进而从数据集中获取了可用的铭文图像。 LED 数据集共包含 176,861 个铭文,但其中大多数都存在部分损坏,仅有 5% 铭文能产出可用的相应图像。

实验结论/性能

研究人员从任务执行、 Onomastics  基线、语境化机制与研究效率 3 个层面对 Aeneas 模型的性能进行了评估。

任务执行指标

该研究使用文本修复、地理归属和时间归属三方指标组成了评估框架。 其中,研究人员使用人为方法破坏任意长度文本并提交模型生成修复对象;在地理归属任务中则使用标准的 Top-1 和 Top-3 准确率指标来评估性能;对于时间归因,则使用一个可解释的指标来评估预测结果与真实数据之间的时间接近度。

实验显示,Aeneas 的架构提供了多模态功能,能够恢复长度未知的文本序列, 并且能够适应任何古代语言和草纸、铸币等书面媒介,在古代文献研究的语境化过程中捕捉铭文与历史的联系。

Onomastics baseline

Aeneas 模型对 Onomastics 中派生的元数据的自动化评估成为其归因预测能力的关键指标。 由于没有预先编译的罗马专有名词列表,研究团队从专有名词存储库中手动删除了 350 个不代表专有名词的项目, 排除了由于用法歧义而较短或包含非拉丁字符的条目,从而得到一个包含约 38,000 个专有名词的精选列表。

为了增强方法的稳健性,研究识别并筛选了数据集中最常用的单词,使其仅包含完全由精选专有名词列表中的条目组成,随后计算其在训练数据集中的平均时间和地理分布,以便 Aeneas 模型在分析新铭文时利用已处理的专有名词数据来预测新铭文的日期和出处。

Aeneas 模型在该任务的评估方法能够应用于全数据集,并实现了扩展性的提高。

语境化机制与研究效率

研究评估了 Aeneas 模型的语境化机制作为历史研究基础工具的有效性。 23 位来自多元化背景的铭文学家匿名参与了此次评估,根据 3 次铭文任务的执行体验,测评了使用 Aeneas 语境化机制作为研究辅助工具的效率感受:

有专家对「真实性」存疑

「Aeneas 是人工智能在历史学科的开端」,人工智能领域的技术专家 David Galbraith 给出了这样的高度评价。 Aeneas 的突破,不仅是技术层面的进步,更标志着人文学科与 AI 的深度融合。对历史学家而言,它不是代替学者,更多的是成为一个「超级助手」,减少机械劳动,拓展研究视野。同时在 AI 领域,它证明了多模态、语境化模型在处理复杂人文数据时的潜力,为未来发展其它古代语言的研究提供了范本。

Aeneas 仍有局限。面对 Aeneas 的突破性进展进展,另一位人工智能专家产生忧思,「过度依赖 AI 来填补空白,真实性就会存疑」。

诚然,AI 是工具,而非真实的替代者。训练数据中仅 5% 的铭文配有图像,部分地区(如西西里)和时期(如公元前 600 年以前)的铭文数量不足,导致预测精度下降。这些都在警醒我们当前 AI 技术的不成熟性尚存,应当理性抉择它在科研、生活中的占比。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 古籍修复 碑铭学 拉丁铭文 深度学习
相关文章