千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

1,396次阅读
没有评论

铭文、碑刻是过去文明的思想、文化和语言的体现。金石学家破译千年前的密码,需要完成文本修复、时间归因和地域归因三大任务。

主流的研究方式是「字符串匹配」,即凭借记忆或查询语料库匹配字型相似的铭文,这导致了结果的混淆和误判。

为此,DeepMind 和威尼斯福斯卡里大学联合开发了 Ithaca,利用 AI 帮助人类学者破译希腊铭文。

 

作者 | 加零

编辑 | 雪菜、三羊

 

金石学,是研究金石铭文、碑刻和古代铭文的学科,连接着过去文明的思想、文化和语言。目前,学界面临着一个重要问题:如何深入研究和理解这些遗产?

通常意义上,解读铭文碑刻需要金石学家完成以下 3 个基本任务:

  • 文本修复 (text restoration):补充文本中缺失的部分;
  • 时间归因 (chronological attribution):确定铭文写作的时间;
  • 地域归因 (geographical attribution):确定铭文写作的初始地点。

完成这些任务,金石学家需要结合上下文和现有语料库,开展大量比对研究。虽然数字语料库的出现能一定程度减少研究人员的负担,但其采取的字符串匹配方式,往往导致结果的混淆和误判。同时由于年代久远,铭文多有受损和遗失,使得任务愈发复杂。

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

铭文修复图示

而 AI 善于发现并运用复杂的统计模式,对人难以处理的大批量数据进行分析。因此,DeepMind 和威尼斯福斯卡里大学 (Ca’ Foscari University of Venice) 的研究者联合开发了 Ithaca,旨在协助金石学家进行文本修复、时间归因和地域归因的工作。

实验证实,Ithaca 文本修复工作的准确率达到 62%,时间归因误差在 30 年内,地域归因准确率达到 71%,且具有很好的协同性。相关论文已发表于「Nature」。

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

相关成果发表在「Nature」

获取论文:

https://www.nature.com/articles/s41586-022-04448-z

Ithaca 的相关代码已开源在 GitHub 平台,金石学家也可利用公共界面开展研究。

源代码:https://GitHub.com/deepmind/Ithaca

公共界面:https://Ithaca.deepmind.com

 

实验过程

数据集:机器可操作铭文集 I.PHI

研究者们基于帕卡德人文研究所的可搜索希腊铭文公共数据集 PHI 开展研究。

注:PHI 全称 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset

为了便于机器操作,研究者们对 PHI 中的文本进行过滤,为选择的文本分配数字 ID、相应的标注地点和时间信息,最终得到 I.PHI 数据集。

I.PHI 数据集是目前最大的机器可操作铭文数据集,包含 78,608 个铭文

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

I.PHI 数据集示例

算法训练针对 3 大任务开展训练

1. 文本修复:采用交叉熵损失函数,掩盖输入文本的部分内容,训练 Ithaca 模型预测被掩盖的字符;

2. 时间归因:以 10 年为间隔,Ithaca 将公元前后 800 年离散为具有相等概率的时间段,称为目标概率分布。采用 Kullback-Leibler 散度,最小化预测概率分布和目标概率分布之间的差异;

3. 地域归因:使用交叉熵损失函数,将地域区域元数据作为目标标签,应用平滑系数 10% 的标签平滑技术避免过拟合。

基于此,Ithaca 在谷歌云平台上的 128 个 TPU v4 pod 上开展了一周的训练,batch size 为 8,192 篇文本,使用 LAMB 优化器以 3 × 10-4 的学习率优化 Ithaca 参数。

模型结构Ithaca 模型包括 4 部分

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

Ithaca 模型任务处理流程

Ithaca 模型的结构可总结为以下 4 部分:

1. 输入 (Inputs):将输入文本作为字符和单词共同处理,保证 Ithaca 既可以理解单个字符,又可以将其整合为单词进行上下文理解,未知、损坏的单词用特殊符号「unk」替代;

2. 躯干 (Torso):Ithaca 的躯干采用叠加 Transformer 神经网络架构,它使用一种注意力机制 (attention mechanism) 来衡量输入的字符、单词对模型决策过程的影响。

在躯干部分,Ithaca 将输入文本与位置信息结合,标准化处理为一个长度等于输入字符数的序列,这个序列中每个项目是一个 2,048 维的嵌入向量。该序列被传输给 3 个不同的任务 head;

3. 任务头(Task heads):Ithaca 有 3 个不同的任务 head,每个 head 由一个浅前馈神经网络组成,专门处理文本修复、时间归因和地域归因任务。

4. 输出(Outputs):3 个任务 head 分别输出对应结果。

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

Ithaca 输出结果

  • 文本修复:Ithaca 预测了 3 个缺失的字符,同时提供了一套按概率排序的前 20 名解码预测 (上图 a);
  • 地域归因:Ithaca 把输入的文字分为 84 个地区,并用地图和柱状图直观地实现可能的地区预测排名表 (上图 b);
  • 时间归因:为扩大时间归因任务的可解释性,Ithaca 追溯到公元前 800 年到公元 800 年,预测了日期的分类分布,而不是输出一个单一的日期值 (上图 c)。

 

模型训练结果

综合比对Ithaca 具有优越的性能

* 4 个对比机制

1. Ancient historian:人类学者使用训练集来寻找文本的相似之处,与 Ithaca 的结果对比;

2. Ancient historian and Ithaca:Ithaca 为金石学家提供 20 个可能的修复,评估 Ithaca 与人类学者的协同性;

3. Pythia:一个用于文本修复任务的序列到序列递归神经网络 (a sequence-to-sequence recurrent neural network),评价 Ithaca 的文本修复性能;

4. Onomastics:研究人员使用希腊人名在时间和空间上的已知分布,完成一组文本的时间和地域归因,评价 Ithaca 的时间和地域归因性能。

* 3 大评价指标

1. 字符错误率 (CER, character error rate):评价文本修复任务,计算最高预测修复序列和目标序列之间的归一化差异;

2. top-k accuracy:评价文本修复或地域归因任务,计算预测结果中概率最大的前 k 个结果包含正确标签的占比,常用 top 1 准确率;

3. distance metric (Methods):评价时间归因任务,计算预测分布的平均值与真值区间 (ground-truth interval) 之间的年数距离。

* 实验结果

1. 文本修复

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

文本修复任务

a:原始铭文;

b:Rhodes-Osborne 修复后的铭文;

c:Pythia 修复版,与 Rhodes-Osborne 版有 74 处不匹配;

d:Ithaca 修复版,与 Rhodes-Osborne 版有 45 处不匹配;

图中修复正确的部分由绿色表示,错误用红色突出表示。

 

原始铭文 (IG II² 116) 缺失 378 个字符,以 Rhodes-Osborne 在 2003 年完成的修复 (图 b) 为基准,Ithaca 的 CER 为 26.3%,top 1 准确率达到 61.8%。

与金石学家相比,Ithaca 的 CER 低 2.2 倍。Ithaca 的前 20 名预测准确率为78.3%,比 Pythia 高 1.5 倍。

2. 地域归因

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

地域归因任务

地域归因任务中,Ithaca 达到了 70.8% 的 top 1 准确率和 82.1% 的 top 3 准确率。上图表示 Ithaca 将 manumission 铭文正确的归因到了 Delphi 地区。

3. 时间归因

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

时间归因任务

对于时间归因任务,人类专家预测的平均值为 144.4,中位数为 94.5 年,而 Ithaca 的预测与真值区间 (ground-truth interval) 平均差距为 29.3 年,中位数的差距仅为 3 年。

综合 Ithaca 在三项任务中的表现,结果整理如下:

相较于人类专家和 Pythia,Ithaca 在 3 大任务上都展现了优越的性能。

当人类专家与 Ithaca 协同时,达到了 18.3% 的 CER 和 71.7% 的 top 1 准确率,相比金石学家单独开展工作呈现出 3.2 倍和 2.8 倍的改善,相比 Ithaca 独自完成任务也有显著改善,展现了 Ithaca 优越的协同性

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

Ithaca 的实验结果对比

时间归因:Ithaca 解决争议问题

部分铭文的时间归因一直存在争议,传统时间归因采用的 sigma 测年标准 (sigma dating criterion) 无法保证准确,金石学家无法确定这些铭文是在公元前 446/5 年之前还是之后。

如下图的铭文,依照传统方法追溯到公元前 446/5 年,但最近被重新追溯到公元前 424/3 年。

千年密码新解读,DeepMind 开发 Ithaca 破译希腊铭文

一条争议铭文(局部)

这组有争议的铭文存在于 I.PHI 数据集中,Ithaca 的时间归因结果推翻了基于 sigma 测年标准的传统历史解读,与新发现的基础事实平均相差 5 年。

由此证明,Ithaca 可以帮助历史学家缩小日期范围,提高历史事件时间归因的精确度。

 

AI 与人类:1 + 1 > 2 ?

Ithaca 的结果输出部分非常有趣,它并不会输出单一的答案,而是给出多种可能的结果以供研究人员选择。

这值得其他 AI 开发者和使用者借鉴,与其依赖 AI 的输出,不如利用 AI「探路」,排除一些错误答案,拓展自主思考的深度和广度。

将 AI 的计算能力与人类的创造性和深度思考相结合,Ithaca 帮助我们开拓了一种与 AI 携手合作的范式。

未来,我们期待 AI 与人类学者协同并进,实现「1+1 > 2」的目标。

参考文献:

https://www.nature.com/articles/s41586-022-04448-z

https://www.nature.com/articles/d41586-023-03212-1

—— 完 ——

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...