第9章文字规范(2)

书签收藏评论目录封面

了就应相约共同遵守。我们编纂字典词书就是要突出规范性。有人会说，除了查考型的，那么，哪部词书不是强调整调规范呢？我们的意思是说要对尚处自然状态的语言有意识地去干预，要在约定俗成的基础上，由语言学家去选择，而不是专家自己创造几个词让人家去“执行”，而是专家对多数人通用并相对稳定了一段时期的新词新语经过慎密比较、参照字频进行审慎筛选。比如，解放前人们管“水泥”又叫“洋灰”、“水门汀”，《现代汉语词典》选用了被多数人接受的并有中国味的“水泥”；当初，专家们曾不赞同使用的诸如“晒太阳”

“吃小灶”“耍态度”“闹情绪”“打扫卫生”等等，不合理么？不规范么？但事实上却用开了，在长期的语言实践中被通过了。这种语言现象告诉我们“干预”的内涵应是“选择”而不是简单地“反对”，试想“出租汽车”受到（TAXI）“的士”的挑战，另如文一点的“唯一一个”“最……之一”等恐怕要在新词典里收入并释义了。“面的”（出租面包车）要不要收？恐怕也挡不住。取“措施”意的，现在多用“举措”恐怕也会“成”而“定”下来的。

无法容忍的文字使用混乱

有人说中国人有法不依，比如典型的例子是行人和骑车人对交通红绿灯的熟视无睹。这种说法过于偏激，至少不能用一个全称“中国人”的概念。

但至少“有中国人”确实是“有法不依”的。举文字使用的例子。“国家语言文字工作委员会”颁发的文字使用规定该是“正宗”的有法律效用的“法”了吧，可是实际的情况却是繁体字愈演愈烈。报纸上的广告满目繁体，这是典型的“有法不依”

更为可悲的是，不少使用繁体字的人根本不懂汉字！除了大家熟知是“皇太後”和洗发水之类的笑话外，还有人竟把异体字当作了的繁体字来使用。我们不能原谅的一个错误是最近的“第三届万宝路杯上海国际足球锦标赛”虹口体育场的会标，从电视上看到，会标除了繁体字外，还使用了两个异体字：一个是（届），另一个是“癧”（杯）。可能是书写设计的人错把异体字当作繁体字了。有些人本来就不会用繁体，也不知道这些体怎么个写法，凑合着查字典，一查，在“届”边上的括号里有一个“字”，在“杯”边上的括号里有一个“癧”，于是就以为这就是“届”和“杯”的繁体字了，结果闹出了笑话。如果这个会标有国际影响的话，这个错误不能原谅！

如果说有法不依给这些人带来了便利和好处，这还好懂，可是为什么这些人偏偏放着好好的简体字不用，硬给自己找“麻烦”呢？真使人看不懂了。以为用繁体字就有面子？就出风头？

就显示有学问？结果呢？常常就丢了面子，出了洋相，显示了无知。

其实老百姓并不喜欢用繁体字，即使是在香港、台湾，人们还是喜欢用简体字，不信你问问来大陆观光的朋友。

我们要用多少汉字

汉字已有五六千年的历史。殷商时代的甲骨文和殷周金文只有2000字左右，东汉末年许慎《说文解字》所收汉字有9353个，而到清代，《康熙字典》收集的汉字已达47035但这并不意味我们现在使用着这么多的汉字。实际上，《康熙字典》中大多数汉字是已经废弃的死字，只是在古代文献中才偶尔见到。现在使用的“活字”有多少呢？6300多个。比起《康熙字典》来，这实在算不得什么，即使这样，我们中间真正认识六七千汉字的人却属凤毛麟角，而对一般人来说，识得常用字、次常用字3500个就够用了。是什么道理呢？这牵涉到汉字的使用频率问题。

当我们读或写一篇一千来字的文章时，我们会现里面有些单字用了五六次乃至十几次，而另有一此单字只用了一次。这次数的多少就是使用频率，使用次数越多，频率越高。现代汉字单字的使用频率相差很大，据《汉字频度表》，频率最高的是“的”字，达4％，就是说人们平均每用一百个汉字，“的”字就要出现4次。而频率低的字，则平均每用一万字还轮不着出现4次。而频率低的字，则平均每用一万字还轮不着出现一次，如“鸬”、“铳”、“诓”等。如果把现代汉字按使用频率由大到小依次排列起来，那么，前20个字在实际使用中占了16.7％，这些字是：的、一、是、在、了、不、和、有、大、这、主、中、人、上、为、们、地、个、用、工。而前163字达50％，前1000字达90％，前2400字达99.9％，前5100个字达99.99％。如果从识字的角度看，当认识了字频高的163字，那么汉字文章中的一半字已认识，识到2400字时，文章中不认识的字只有1％，识到3800个字时，平均每读一千字才会遇到一个生字。

不同的历史时期，汉字单字的频度是不一样的，如近年来，“信息”一词用得比较多，所以“息”字的使用频率要比过去高；不同的专业范围内单字的使用也不一样，如“主”字，在政治理论类里的很高，排在第6位，而在文学艺术类里则排在第89位。在不同的书中，使用单字量及其频率也不一样，有人曾对《骆驼祥子》进行统计，结果发现学会67个汉字的小学生就可以阅读此书的50％，而掌握621个字的人，就可以阅读此书的90％。

了解汉字的使用频率是很有意义的，在识字教育和文字信息处理中，人们常常根据字频的大小对汉字加以分类，使用频率最高的一些字（如上文列举的20个字）称作高频字，其余依次称作常用字、次常用字、罕见字。在学校里，小学生学的一般都是高频字和常用字，中学生才学到一些次常用字和罕见字。而在计算机中，则有所谓的字库，分为两级，第一级都是高频字和常用字；第二级是次常用字和罕见字。容量小而且只处理一般性汉字信息的计算机，只要放入第一级字库就可以正常工作了，容量大而且需要处理专业性信息的计算机则要放入两级字库。

汉字之最

汉字笔画最少的字是：“一”、“乙”。

汉字笔画最多的字是“鼻囊”（nàng），36笔。此字之意思是，表示鼻子不通气，发音不清。

汉字中9笔字最多，占汉字总数的11.1％。

汉字中形声字最多，占东汉许慎《说文解字》收录9535个字中的82％。

汉字中左右结构的字最多，占汉字总数的67％。

汉字中“的”字使用率最高，25个中就要遇到一个。

汉字“部件”以“口”最常见，100个汉字，就要出现20个左右的“口”字。

汉字中读音最多的是“那”字，它有8个不同的读音：nā、nǎ、nà、ně、něi、nèi、nuó、nuò。

汉字中同音字最多的是yì，《现代汉语词典》中读yì的字有103个，《辞海》中有195个。

简化字的来源及简化方法

《汉字简化方案》有深厚的历史基础和群众基础，其来源大致有如下几方面：

（一）古代文物。例如“虫从启云众气”来源于甲骨文和周代金文，“来隐盖”来源于西汉前期的马王堆帛书，“聪献准乱笔”来源于汉代和南北朝时期的碑刻，“车将来临丧岂书当实为门辞时会马张与孙”都见于东晋大书法家王羲之的行书作品，“继尧”见于唐代书法家怀素的草书作品。

（二）一般古籍和文书。例如谷—彀，后後，荐—薦，凭—憑都是古书中常见的通用字，“达复号才夸卷辟顺制朱”见于东汉字书《说文解字》，“断庄”见于唐朝的《干禄字书》，“处独个顾惧”和“担灯对点观画茧刘难乔穷权伤体”分别见于宋代和元人的白话小说。

（三）近现代在群众中流行的。例如“帮惩坟凤邮种”是太平天国使用过的简化字，“拥护”

是流行于解放区的“解放字”“币汇衬购疗标毕灿础邓敌沟舰进猎窍认业艺”都是近现代在各行业或群众中广为流行的。

简化字使用了多种简化方法，主要有：

（一）保留原字轮廓如龟（籮）虑（慮）齐（齋）（二）保留原字特征部分，省略一部或大部：如奋（奮）竞（競）务（務）开（門）习（習）广（廣）（三）改换形体较简的声旁或形旁如辽（遼）邮（郵）远（遠）（四）另造新形声字如惊（驚）护（護）（五）另造新会意字如体（體）尘（麅）（六）用简单符号代繁体的一部分如邓（鄧）区（區）赵（趙）刘（劉）（七）草书楷化如东（東）乐（樂）（八）同音代（包括古代通用字）如谷（穀）困（睏）余（餘）（九）利用古字（1）古代字：虫（蟲）从（從）云（雲）气（氣）（2）古代异体：礼（禮）无（無）尔（爾）（3）废弃字形：亲（西周金文，“榛”本字，作“親”的简化字）。

什么是“汉字编码”？

可以这样说，信息是人脑对客观物质世界的反映。如果用“思想”指称它，那么语言则是对思想的最有效的符号编码。

文字则是对语言的再次编码，它使听觉符号系统转变成视觉符号系统。汉字编码，则是对汉字这种文字的再次编码。汉字为什么要编码才能进入电脑？

文字给语言编码往往从语言表层的最小单位语素，或从语言底层的最小单位音素入手，从而形成语素文字和音素文字两大类。前者如汉字，后者如英语用的拉丁字（字母）。语言中的语素肯定大大多于音素，所以汉字总量比拉丁字多得多。数以十计的音素字，字符非常有限。

进行电脑输入时无需再次编码。汉字则相反。

数以万计的汉字在构成自己的符号时，也是有一种编码方案的。这就是文字学上的“六书”

。汉字既然存在一种“内码”，为什么还要进行汉字编码？

语素文字的特点也决定了它的编码码元不会很少，所以再次编码简化码元的步骤必不可少。

给汉字进行再次编码有哪些途径？一是从汉字字形入手的“形码”；二是返回到语言的层面上去，从语言的角度采用表音字如音素字的方式编码，可以叫“音码”；三是没有整字音形联系的“代码”。

对于听打、想到，音码占绝对优势。音码直接跟活生生的语音有联系，具有直接性，编码规则人为性少，容易掌握而且不会回生。

对于避免单字重码现象，代码占绝对优势。

对于书面语言的输入，形码占优势，因为书面语的输入是可以见形输入，而且形码的单字重码率也较低。

汉字编码不是“误区”

最近报上连篇累牍报道拼音输入与语音输入汉字的智能化软件。如有的传媒报道：汉字编码正走出“战国时代”，说北京隆光威尔新技术公司有人发明的“自通中文低冗余序列输入平台”

软件，“人们无需专门学习，只要会拼音即可实现快速‘想打’”。甚至断言：汉字编码本身就是一种“误区”。言下之意，是过去一百多年来的汉字编码研究，统统都引导用户在“误区”里钻，今后就不再需要编码技术了！有的刊物刊登《万“码”奔腾，“黑马”显威—〈黑马智能输入〉软件问世》；有的传媒以《电脑“全拼”好帮手》为题，报道上海海运学院一副教授研制出“汉字扩展拼音输入码”，说这是“完全解决”了全拼存在的重码多与误码率高的问题；有的传媒还报道美国苹果公司耗资二千五百万美元、费时八年、集聚大批人才开发的语音输入软件，同样把汉字编码说成是学电脑的“拦路虎”，渲染苹果软件一上市，光用话筒不用键盘，就能实现汉语“人机对话”了。

事实果真如此么？否！

科技报道与科普宣传，要实事求是，来不得半点浮夸。

只要对汉字与汉语稍作研究或者具备一点电脑的基本常识，就决不会相信：拼音十智能等于快速正确的汉字输入。也决不会相信：语音输入可以取代汉字编码的键盘输入。

道理很简单。汉字是二维的表意文字，而不是一维的拼音文字。汉字从最简单、最基础的部首字到多笔划的整字，都必具形、音、义三要素，都是一幅图像。汉字有六万个之多，而音节不到五百个，同音重码字平均有上百个之多，多的有数百个。加上汉字汉语的灵活多变，怎么可能用一套软件“完全处理”掉百分之一百的拼音重码率呢？怎么可能用拼音或语音加智能“完全解决”几万个难以识读的冷癖字的正确输入呢？汉字搭配的计算机智通处理，建立在对汉字语法属性与使用频度的数量化分析处理的基础上，然而，中文的大量名词，如当代中国十二亿个人名，一百万个以上的地名、路名，一千万种以上的物名、品名、别名、俗名、简称，往往带有主观随意性，不完全符合汉语规范化的语法。

第9章 文字规范(2)

第9章文字规范(2)