书城社会科学当代中国话语研究(总第一辑)
18673200000009

第9章 当代中国话语语料库的建构问题(1)

马博森

摘要:语料库具有机读性、自然性和代表性三大基本特征。运用语料库语料及语料库分析方法可研究不同类型的话语,帮助人们进一步认识语言与社会之间的关系。为了系统研究当代中国话语的特征,本文在探讨有关语料库建设中的一些核心问题的基础上,提出了建构当代中国话语语料库的基本设想及总体架构。

关键词:话语研究;当代中国话语语料库;建构

一、导言

研究当代中国社会各个领域的话语实践活动,揭示当代中国话语的表现特征及存在的问题,有助于促进中国更好地走向世界,世界更好地了解中国。进行话语研究,既可采取传统的手工分析方法,也可采用基于语料库的分析方法。两种方法互为补充,有助于人们更深刻地理解和把握话语的运作方式。

采取基于语料库的分析方法,前提是建构语料库;而要采取基于语料库的分析方法研究当代中国话语,一项具有重要意义的基础工作便是建设当代中国话语语料库。

本文探讨我们对建设当代中国话语语料库的基本构想及其总体架构。在展开讨论之前,先介绍语料库及其种类,论述建设和使用语料库的意义,明确语料库建设中涉及的几个核心问题。

二、语料库及其种类

语料库指大量语言材料的集合体。在计算机出现之前,研究者也建有语料库,不过规模较小、范围较窄。概述了这些早期手工语料库在五个方面的应用情况:(1)《圣经》及文学研究;(2)词典编纂;(3)方言研究;(4)语言教学研究;(5)语法研究。随着计算机的出现,语料库通常指以电子形式保存的语言材料,其基本特征包括:机读性(machine‐readability),真实性(authenticity)和代表性(representativeness)。这些特征使得新型语料库具有早期手工语料库所无法比拟的优越性。难怪有语言学家将机读语料库比作语言学研究的望远镜和显微镜,使用它们可使语言学家看得更远,看得更细,从而使他们能够发现更多的语言现象,挖掘出更多的语言事实(Stubbs,1996)。近年来,计算机技术的突飞猛进,使得语料库无论在规模的大小、样本的多样性还是在使用的便捷度方面都发生了巨大的变化。本文所讲的语料库指的便是机读语料库。

在语料库的建设中,由于建库者的目的不同,所收集的语言材料自然也就不同。大致说来,语料库主要包括以下几种:(1)通用语料库(general corpus),亦称参考语料库(reference corpus)、均衡语料库(balanced corpus)或核心语料库(core corpus)。通用语料库由许多不同体裁的语篇构成,建库者的目的在于借助这类语料库来全面描述某一语言或语言变体。世界上第一个根据系统性原则采集样本的机读语料库布朗语料库(Brown Corpus)便属于通用语料库。其他着名的通用语料库还有兰开斯特-奥斯陆/卑尔根语料库(LOB)、英国国家语料库(BNC)等。(2)专用语料库(specialized /special corpus)。

指的是由某一特定类型的语篇构成的语料库,可以是由某一学科的语言材料构成的语料库,如法律话语语料库、新闻话语语料库等;也可以是由某一体裁的语言材料构成的语料库,如学术话语语料库、性别话语语料库等;甚至还可以是由一些特殊类型的语言材料构成的语料库,如计算机手册语料库、药品说明书语料库等。密西根学术英语口语语料库(MICASE)、香港科技大学计算机科学语料库(HKUST Computer Science Corpus)等就属于专用语料库。(3)对应语料库(comparable corpora)。指的是按照相同的取样原则或标准建立的不同语言(如汉语和英语)或者同一语言不同变体(如印度英语和南非英语)的语料库。对应语料库用于进行语言对比或翻译研究,为了保证所对比的语言或语言变体之间具有可比性,对应语料库的取样原则或标准必须统一,因为语言并非整齐划一、静止不变,相反,语言会随着地域、社会、时间、语域等因素的变化而有所不同。国际英语语料库(ICE)是由不同英语变体构成的典型对应语料库。(4)平行语料库(parallel corpora)。通常指由源语语篇以及这些源语语篇的外语译文所构成的语料库,可以是一源一译,也可以是一源多译。此外,平行语料库也可指同时用两种或多种语言生成的语篇(如同时用欧盟的所有官方语言出版的欧盟规章制度)所构成的语料库。业已建成的平行语料库有英语-挪威语平行语料库(English‐Norwegian Parallel Corpus)、北外的汉英平行语料库(PCCE)等。(5)学习者语料库(learner corpus)。指的是由第二语言或外语学习者产出的语篇所构成的语料库,目的在于找出学习者与学习者之间或学习者与母语者之间存在的差异。国际英语学习者语料库(ICLE)就是最着名的学习者语料库之一,该语料库包含多个子语料库,由来自不同语言背景的英语学习者所写的短文构成;其他同类语料库还有剑桥学习者语料库(CLC)、朗文学习者语料库(The Longman Learners-Corpus)、中国英语学习者语料库(CLEC)等。(6)历时语料库(diachronic corpus/historical corpus)。由同一语言在不同历史时期所生成的语篇构成,用于考察语言的发展演变过程。

最着名的英语历时语料库是赫尔辛基语料库(Helsinki corpus),语料为公元8世纪到18世纪之间生成的英语语篇。(7)监控语料库(monitor corpus)。用于追踪某一语言当前变化的语料库。这类语料库属于动态语料库,每年、每月甚至每天都会同比例增加新的内容,因而规模不断增长。建立监控语料库的设想最早由Sinclair(1991)提出,英语语料库(the Bank of English/ BoE)是举世公认的监控语料库,其他还有全球英语监控语料库(the Global English Monitor Corpus)、语言互动及自动化语篇提取分析语料库(AVIATOR)等。

需要说明的是,任何一个语料库都是上述不同类型语料库中许多特征的混合体,如BNC虽属通用语料库,但其中包含有许多专用语料库,虽属共时语料库,但由于语料库的时间跨度达30多年,也可供研究语言历时变化的学者使用。此外,BNC的口语子库还收集了英语作为第二语言的语料。

三、建设及使用语料库的意义

进行话语分析离不开语料。借助语料库语料开展话语研究的优势在于:它能为语言研究提供可靠的量化数据,帮助人们系统了解某些语言特征在该语言中的实际使用频率,促使人们注意到大量与基于直觉所归纳出的规则不一致的例子。语言存在各种变体,如社会变体、地域变体等,要揭示不同语言变体之间的差异,包含不同语言变体的语料库语料是最理想的语料。此外,语料库语料还可用于验证理论假设的正确性与全面性。

McEnery等(2006)总结了借助计算机研究语言的四大优势:加工和处理语料的速度快,便捷程度高;可大大提高语料处理的准确性和一致性;可避免分析者的人为偏见,进一步提高研究结果的可信度;机读性可使语料得到进一步的自动化处理。

语料库语料不仅是研究语言使用不可缺的工具,而且是研究各种社会现实问题的重要资源。从现有成果来看,语料库分析方法已被广泛用于研究医疗话语、意识形态话语、法律话语、性别话语等各种类型的话语。

研究医疗话语,特别是医疗工作者与患者之间交谈的话语,可采取人工话语分析和自动语义分析两种不同的方法。Thomas和Wilson(1996)对两种研究方法进行了系统对比。研究者使用自动语义附码器SEMTAG 对发生在医生和患者之间的交谈语料进行话语层面上的语义分析。具体而言,她们将两位医生与病人交谈时使用的话语分别归入自动语义附码器所设定的语义范畴,检索之后归纳出各自话语的语义特征和语用功能。研究表明:医生甲的话语具有“互动性”,以人际关系为主,非正式;医生乙的话语具有“信息性”,以疾病为中心,专业性强。研究者随后将这种研究所得出的结果与通过传统话语分析所得到的结果加以比较,发现两种方法得出的结论类似,但采用自动语义分析法省时省力。

许多学者应用语料库及语料库技术研究意识形态话语,旨在揭示隐藏在话语表象背后的意识形态,如Teubert(2000)研究了英国欧洲怀疑主义者的语言、语料下载自对欧盟持敌对态度的网站。他的研究重点是那些在话语中作用特别重要、能反映话语特征的“关键词”。在他的语料中,这些关键词分为两类:“诋毁性关键词”(stigma keywords),如bureaucrat,corruption 等,和“赞赏性关键词”(banner keywords),如independence,peace,prosperity 等。Teubert 通过识别反复出现的词汇、短语和搭配来揭示隐藏在欧洲怀疑主义者话语背后的想法,将含而未说的观点明确表达出来:按照欧洲怀疑主义者的观点,在整个欧洲,只有英国是一个拥有真正负责任的政府的民主国家。

Stubbs(1996)认为,如果特定搭配和固定短语在媒体和其他场合被反复使用而又不加分析,那么人们很有可能慢慢来这样思考事物了。如,在英国的教育话语中,由于falling standards 已成为一个固定短语,因而,当人们听到“现在的教育水平比过去差”这样的说法时,不易提出质疑。再如,illegal与immigrant有很强的搭配关系,这种固定短语的存在使得人们不假思索地认为,在某种情况下,从一个国家移民到另一个国家应该受到谴责,继而认为所有移民都是非法的。