18673200000010

第10章当代中国话语语料库的建构问题(2)

基于语料库的分析方法还应用于法律话语的研究。语料库技术主要用于文件（如敲诈信、认罪书）的对比，以确定文件的真伪及作者的身份等。这些相关文件自身可构成语料库供研究者分析，研究者也可通过将相关文件与通用语料库的比较来进行分析。

这方面的一个典型例子是有关Derek Bentley的案子。Derek Bentley于1953年在英国被处以绞刑，罪名是他怂恿年少的同伙Chris Craig开枪杀死警察，证据是羁押期间他签字画押的认罪书。该案子在Bentley死去40年后的1993年重新审理，家人委托着名法律语言学家Malcolm Coulthard对认罪书进行鉴定，以便为死去的亲人洗刷罪名。

上诉起先被内政大臣驳回，但1998年，另一上诉法院推翻了原有的判决，宣布Bentley无罪。1999年内政大臣对Bentley的家人做出赔偿。Bentley的案子之所以能够胜诉，Coulthard教授提供的法律语言学证据功不可没。如前所述，Bentley被处极刑的证据是他签字画押的所谓认罪书，但在当时的庭审中，Bentley否认认罪书是他亲手所为，声称是警方替他所写的。Coulthard（1994）用语言证据证实了这一点。Coulthard通过研究发现了这封所谓认罪书中的两大疑点：一是单词“then”出现的频率反常得高。认罪书共含582个词，该词却出现了11次，成为文本中出现频率排在第八位的词。与之相反，在英语语料库（BoE）的口语子库中，该词的出现频率排在第83位，平均每500个词出现1次。

Coulthard还分析了另外6份陈述材料，其中，3份为其他证人所写，另3份由警察所写，包括与Bentley案子有关的2份陈述。在其他证人所写的含有930词的陈述里，“then”只出现了1次，但在警察的陈述中，该词出现了29次，平均每78个词出现1次。二是Coulthard注意到的另一个异常现象是then出现的位置。在认罪书中，序列“主语＋then”（I then，Chris then）出现的频率反常得高，如“I then”出现了3次，每190个词出现1次。与此形成鲜明对照的是，在一个150万词的英语口语语料库中，同一序列仅出现了9次，每16.5万词才出现1次。在其他证人的陈述中，这一序列未出现，但在警察的陈述中却出现了9次。此外，在英语语料库（BoE）的口语子库中，“then I”出现的频率是“I then”的10倍。据此，Coulthard认为，序列“I then”是警察陈述材料的特点。尽管警方当时否定了Bentley的辩解，宣称认罪书是他的原话，但“then”出现的反常频率及其反常位置使得警方难逃干系。

在庭审过程中，被告陈述的连贯性是测量其陈述可信度的一个重要标准。Szakos和Wang（1999）借助语料库研究了调查过程中法官和罪犯对话的连贯现象。语料是台湾法庭上的口语语料，包括涉及17种罪行的30个刑事案件。研究表明，词频型式及语料中的词语索引可帮助法官找到真相，作出合理判定。

性别话语研究包括女性话语的特征、男女话语的差异、话语中的性别歧视、男女的交际策略差异、性别身份，性别、社会和语言三者的关系等。从现有基于语料库的研究成果来看，主要涉及性别歧视、性别身份、女性话语的特征等。

Kjellmer（1986）比较了布朗语料库（Brown Corpus）和兰开斯特-奥斯陆／卑尔根语料库（LOB）中阳性和阴性代词、词项man／men和woman／women的使用频率，结果发现，两个语料库中的女性词汇的使用频率大大低于男性词汇。有意思的是，女性词汇在虚构类体裁中出现的频率高于知识类体裁。Baranowski（2002）考察了通性代词he，he／she以及表示单数概念的they在一英国英语笔语语料库和一美国英语笔语语料库中的使用情况。研究表明，传统形式不再具有强势地位，人们更多地选用表示单数概念的they。

he／she这样的形式很少使用。

四、与建库有关的几个问题

语料库建设涉及的问题很多，其中，最为核心的是语料库的代表性问题，与代表性紧密相关的是语料库的均衡性和取样问题。这些问题的答案直接影响语料库的质量，而语料库的质量直接影响基于语料库方法研究话语所取得的成果的质量，因此，任何建库者在建库之前都必须认真考虑这些问题。

认为，如果人们基于该语料库所发现的现象也适用于它预期要代表的语言或语言变体，或者说基于该语料库分析所得出的结果可以概括成为整个该语言或语言变体的特征，那么该语料库便具有代表性。对于大多数语料库而言，代表性主要通过语料的均衡性和取样的合理性来实现，即通过按一定比例取样，广泛采集各类常见的重要语篇体裁来实现。值得注意的是，语料库的代表性是个相对概念，要实现百分之百的代表性是做不到的。事实上，代表性“在很大程度上应被看做一种信念”，因为目前还没有一种客观手段来测量语料库的代表性。

前面说过，决定语料库代表性的一大要素是均衡性。那么，什么是均衡性呢？McEnery等认为，均衡性指的是语料库中所包含的语篇体裁的范围。一个均衡性语料库通常所包含的语篇体裁范围广泛，足以代表该语言或语言变体。这意味着，在建库时，为了实现均衡性，建库者应该尽可能广泛地采集各种体裁的语篇。

决定语料库代表性的另一大要素是取样问题。由于人们无法穷尽自然语言，这就决定了取样是建库时所无法逾越的。进行取样，建库者需要考虑的问题很多，如取样的方法、划分语篇体裁的标准、语篇样本的大小、每一语篇体裁中语篇样本的数量等等。研究表明，建设均衡性语料库时，较为理想的取样方法是分层取样法（stratified sampling）。需要注意的是，采集不同类型的语料应采取不同的取样方法：书面语料宜采用分层随机取样法（stratified random sampling），这种方法要求建库者首先将某一语言的语篇体裁进行分类，然后对每一体裁进行随机抽样。对于如何划分语篇的体裁，Biber 等（1998）、McEnery 等（2006）认为应按外部标准而非语言自身的标准来划分。谈到口语语料的取样问题时，顾曰国（2002）指出：“做口语语料库的研究者都知道，完全的随机取样是做不到的；即使做到，也是不可取的。”英国国家语料库的口语子库采取人口取样为主、情景取样为辅的取样策略。北京地区现场即席话语语料库采取的是分层范畴化取样法（stratified domain sampling），即先定取样域，再定取样范畴，然后根据取样范畴聘用录音人去录制现场典型材料。

语篇样本的大小牵涉到应选取完整语篇还是语篇片段，若选取语篇片段，长短应该是多少等问题。具体作何选择同建库的目的关系密切。假如建库者的目的是进行话语研究，那么，选取的语篇样本应该是完整语篇。

每一语篇体裁中语篇样本的数量主要由该体裁内部的变体程度决定。变体越多，所需的样本数量越多。

五、建设当代中国话语语料库的基本构想

在前文中，我们讨论了代表性、均衡性和取样这三个与建库有关的重要问题，本节将介绍我们有关建设当代中国话语语料库的基本设想：

（1）为了全面、动态地揭示当代中国话语的特点，以便世界更好地了解中国，中国更好地走向世界，当代中国话语语料库应该是一个动态通用语料库。

（2）包括书面语和口语两个子库，书面语子库的容量约为5000万汉字，建成之后，应每年增补200万左右新语料。口语子库包括300小时的录音语料和50小时的录像语料，建成之后，应每年增补60小时的录音语料和10小时的录像语料。

（3）按照分层随机抽样法采集书面语料，分层范畴化取样法采集口语语料。

（4）应以外部标准作为划分语篇体裁的标准。

（5）应广泛选取各种体裁的书面语篇入库。每一语篇体裁中语篇样本的数量主要由该体裁内部的变体程度决定。变体越多，所选的样本数量越多。对口语语料而言，我们认为可按照顾曰国（2002）的做法，以工作单位和家庭作为取样域来确定取样范畴。

（6）选取的语篇样本应该是完整语篇。语料来源包括报纸、综合性刊物、专业刊物、图书等。

（7）尽可能多地提供语境，特别是社会语言学信息：书面语料主要包括作者的年龄、性别、受教育程度，语篇写成或出版的时间、地点、读者对象。口语语料主要包括谈话者的年龄、性别、受教育程度、身份、地位、口音，谈话者之间的关系，谈话发生的时间、地点。

（8）语料的时间跨度以五年为宜。

六、当代中国话语语料库的总体架构

本语料库下辖当代中国话语书面语子库和当代中国话语口语子库。

（一）当代中国话语书面语子库的架构该子库涵盖17个语域，15种体裁，具体内容如下：

语域：政治、哲学、经济、科技、法律、社会、教育、新闻、广告、宗教、文学、语言、艺术、军事、体育、卫生、生活。

体裁：小说、散文、诗歌、戏剧、影视、曲艺、纪实、报告文学、传记、论着、演讲、辩论、应用文、会话、独白。

（二）当代中国话语口语子库的架构

中国社会科学院语言所顾曰国研究员主持研制的北京地区现场即席话语语料库为口语语料库建设提供了样板。笔者作为课题组成员参与了该语料库的建构，深切体会到了采取分层范畴化取样法采集口语语料的优越性。我们认为可以借鉴该语料库所确定的取样范畴作为当代中国话语口语子库的架构。具体而言，可包括两个大类约30个小类。

七、小结

本文首先介绍了语料库及其种类，然后探讨了建设和使用语料库的意义，重点论述语料库分析方法在医疗话语、意识形态话语、法律话语、性别话语研究中的作用。文章继而讨论了建设语料库所关涉的三个重要问题，即为语料库的代表性、均衡性和取样问题。文章最后两个部分介绍了我们有关建设当代中国话语语料库的基本构想，提出了当代中国话语语料库的总体架构。

第10章 当代中国话语语料库的建构问题(2)

第10章当代中国话语语料库的建构问题(2)