历史文本中的自然语言处理(二)

Reading #1 for the Digging the Past Group, course Language Technology: Research and Development

Reference:

Michael Piotrowski (2012) Natural Language Processing for Historical Texts, chapter 3: Spelling in Historical Texts

第三点就是未知性(uncertainty)。自然语言处理针对数字化的文本,但是大部分的历史文本都不是这种形式,所以首先我们需要将其数字化(digitize),也就是把他们转写(transcribe)到另一种媒介中。转写既可以自动进行(比如使用OCR)也可以人工进行。在下一章中我们会对技术方面进行介绍,现在我们的重点是任何一种转写都需要理解(interpretation)并且可能会留下错误和其他人为因素(artifact)。因此,针对历史文本的自然语言处理永远接触不到“原始的”文本,而是在和这些文本的一些(甚至可能错误的)诠释打交道。

以上是史料的三个特征,但是这些问题的棘手程度和许多因素有关:文本中使用的(一种或者多种)语言、时间跨度、文本的类别(手抄本、印本、书等等)、作者和受众等等。在数字化的过程中出现的问题不仅取决于原文本的一些物理性质、字体(typeface)、书写水平,还和使用的方法有关系,计算语言学家和自然语言分析的研究人员也拿它没办法。接下来,我们会借助一些实例来详细地讨论着三个问题。

3.2.1 拼写差异:历时的拼写变化

图3.2(a)是William Caxton在给自己1490年的译著《Eneydos》写的序言的一部分,我们以此作为一个历时拼写变化的例子。不考虑年代以及和现代语言相比之下的句法差异,一个说英语的人也基本都能理解。即便如此,和现代英语相比,拼写的差异还是比较明显的。可以对文本使用现代的拼写检查来评估这种差异的数量。

从拼写检查的角度来看,整篇序言共有1225个字符(token),其中693个被标记为“已知”(56.6%),532个为“未知”(43.4%)。在476种字型(type)中,146个已知(30.7%),330个未知(69.3%)。虽然并不完全精确,但是我们完全可以认为半数的字符和将近70%的字型已经和现在不一样了。作为对比,我们在现代化的文本上做了同样的实验,在1097个字符和444种字型中,只有15个字符和13种字型被标记为“未知”,比例分别为1.4%和2.9%,而且大部分都是诸如Eneydos,Diodorus,Syculus之类的专有名词(proper name)或者仿古拼写。该文本的开头在图3.2(b)中。

我们还可以使用TreeTagger的词性标注来大概地估量一下贫血差异对自然语言处理的影响。在1352个字符中(该标注器将标点符号单独作为一个字符)有519个被标记为“未知”(占38.4%);在544种字型中有373种被标记为未知(约占68.6%),这个结果和拼写检查的结果保持一致。在现代化的文本上的实验结果分别是1.0%和2.1%(1199个字符,12个位置;472个字型,10个未知)

正如上文所提到的,拼写还与单词组成和分割的定义有关,上面的两种实验都没有考虑到这一点,例如图3.2(a)中“thystorye”一词(the history)。

今天头疼,就先到这儿吧。

(未完待续)

This passage is a translation attempt of the original text, for learning purposes only and is open to any idea exchange and translation modification. All rights reserved.

本文是对英文原文的试译,仅用于学习用途;水平有限,欢迎交流;未经允许,不得转载。

1 Comment

Leave a Reply