书城教材教辅市场调查与预测(第三版)
15501500000035

第35章 学会数据的转换

数据转换就是将信息录入到计算机的存储设备的过程。这个过程需要一个数据录入装置和一个存储介质。数据录入装置包括计算机终端和个人电脑,用于数据录入的相关存储介质包括磁带、软盘和硬盘。

一、数据转换过程

大多数数据录入通过智能录入系统进行。智能数据录入是指经过编程的数据录入装置或与之相关的计算机对输入的信息进行逻辑检查。数据录入系统能通过编辑避免在数据录入时出现某种类型的错误:录入无效的或太广的编码以及违背跳跃模式。

一般的录入过程是这样的:将有效的、编辑好了的、编好码的调查表交给一个数据处理员。数据处理员坐在个人电脑或电脑终端前,数据录入软件系统已经为有效录入编好了程序。真正的数据录入过程就要开始了。通常,数据会从调查表上直接录入。一般来说,专业市场调查人员不会直接把数据从调查表上转录到电脑编码表上,因为实践证明,在转录过程中会产生大量的错误,而将数据从编码表直接转入数据录入装置和相关存储媒介会更精确有效。

亚特兰大在SDR公司的数据录入

在佐治亚州一个名叫SDR的数据分析研究机构中,安?莫勒20多年来一直负责数据录入工作。安?莫勒从弗吉尼亚州Hollins学院的统计系毕业后,就加入了这家有创造力的公司。借助公司本身获取专利的对调查结果进行电子图表化的软件,SDR公司在市场调查领域中居于领先地位。安?莫勒希望能在这个领域发挥才干。

10年后,安?莫勒在管理项目数据录入需求方面积累了丰富的经验。安?莫勒认为,要在客户预算允许的范围内如期完成调查工作,重要的是避免问卷中出现过多的开放型问题。这些问题出现的情况为:

①问卷中设计了答案“其他”或留出为填写其他详细答案的位置;

②在问卷最后请被调查者写出其他看法或意见。对这样的反馈,不能直接输入数字代码,而必须根据项目分类设计编码,或将反馈内容照原样录入电脑。

“编码是数据录入过程中耗资最大且最主要的部分。”安?莫勒说:“我们读同一文本,对它的编码可能不同。因此,客户与研究机构的项目管理者,必须认真比较问题的结构化的详尽程度和可能引起不一致的编码和记录的个数。如果有太多的答案需要编码,分析过程就会令人厌烦,而且理解详尽答案的花费将是非常之高的。”

“要将结构化与非结构化答案达到合理水平,就必须使问卷中具有标准答案的项目与不具有标准答案项目的比例适当。”安?莫勒说:“在对雇员满意度的调查中,编码或文字录入所需的人力是十分巨大的。一些被访者甚至在问卷中另附纸来表达他们的意见。”

据安?莫勒讲,关于应答编码的发生率,其变化范围是很大的。在估算项目中数据录入部分的花费时,研究机构的项目经理必须把客户预计的应答编码发生率记录于文件中。安?莫勒说:“如果你估算无固定答案的应答发生率为30%,而结果却可能是60%,你就必须找到客户重新评估。我们与客户之间出现麻烦总是由于我们不能于调查完成前正确估计应答编码的发生率。”

二、数据查错

在问卷资料已转换成数据资料存储进计算机后,如果调查人员有能力,可编写专门的程序利用计算机对资料再次进行查错。有很多软件包可以用,最常用的SPSS软件包,用起来较为方便。查错的程序方式有两种:

第一种是检查输入信息的有效性,即对数码的取值范围进行检查,其检查方法就是看资料是否都在问卷及编码手册所规定的取值范围之内。

例如,对性别进行调查的答案只有两个:男、女,编码手册如将男编为0,女编为1,缺失值编为9,则这个变量答案的取值范围只能是0、1、9,不可能出现2、3、4等数码。这类检查便是要把那些超过取值范围的错误找出来。

第二种检查是对数码进行逻辑检查,即检查输入信息相互之间的一致性。逻辑检查主要是检查同一份问卷中,不同问题的答案有无矛盾。

事实上,对回收问卷的浏览相当粗略,只能发现一些非常明显的错误,而大量错误很可能未被发现;同时,数据编码和录入过程中同样不可避免地出现差错,导致最后计算机中程序准备使用的数据中存在一些错误,从而影响分析的准确性。不过,通过相关程序的计算机查错,大量此类错误会被发现,然后可以有针对性地翻阅原始问卷资料进行修改,为下一步分析提供良好的基础。

Burke公司的困惑

Burke公司是专门的调查公司,十分重视在数据分析前进行正确的数据整理工作。问卷回收后会经过全面的检查,如果可能,有缺失值或不合格的问卷会被返还给调查对象填写或修正。数据编码和转换过程则有一套标准的程序,同时使用计算机检查来找出超出范围、逻辑上不合理或极端的答案。

进行数据转录使之符合调查目的十分普通,但公司却发现数据转录即使合理,也可能给调查者制造麻烦。以该公司为客户所做的一项调查为例,该调查的目的是检查新计算机安装中出现的问题。有两个关键问题需要明确:

1.过去30天中有多少新计算机被运到这个修理站?

2.有问题的计算机中有多少需要被整机返回或部分零件返回给卖主?

公司发现几种处理这类数据的转换方法都是值得质疑的。一种就是根据运送机器的数量为返修的数量赋权,生成了返修量占运送量比例的新变量。很明显,如果把这种数据看做“观察值”,那么这些数据加总或平均就忽略了相应数字的基数。

对数据进行一定转换之后,一些统计技术,比如交叉列表的形式也需要加以变化。公司为此研制了特别的软件处理这些问题,并为每个项目制定详细的数据分析策略。在分析调查数据时,公司广泛地使用简单的单元分析技术和多元统计技术,并为特殊情况下的数据分析研制了定制式的软件。