暨南大学刘建平教授主持完成的国家社会科学基金项目《辅助信息在抽样调查中的应用模型与方法研究》(批准号为04叠罢闯013),最终成果为专着《辅助信息在抽样调查中的应用模型与方法》。课题组成员有:陈光慧。
当今社会已经步入信息时代,人们每天都面对着海量的数据和信息。无论是国家对经济社会的宏观管理,还是处于社会再生产各个环节的投资者、生产者和消费者以及各种中介机构的微观管理;无论是有效地生产,还是高质量地生活,抑或科学地研究,都需要获取和利用大量、及时和有效的信息。社会对信息的依赖和需求日益增大,人们对有效获取信息的手段和方法愈来愈重视。面对海量的信息,如何有效地获取和利用信息是统计工作的一项基本任务。作为统计调查主体方法的抽样调查,由于在获取信息中所具有的独特优势而得到越来越广泛的重视和应用。一项大中型抽样调查能否获得成功,很大程度上依赖于抽样调查中对辅助信息利用得好坏。
一、该成果的主要内容和重要观点 1.研究思路与方法路径。该成果的研究思路与方法可归纳为两条路径。路径一:两个阶段→一个目标→两个标准。两个阶段是指辅助信息在抽样调查中的应用主要体现在抽样设计和抽样估计两个阶段;一个目标是指如何充分利用现实中各种类型的辅助信息进行抽样设计和估计量设计,构造出一个精度更高的估计量;两个标准指的是评价抽样设计和估计量优劣的两个依据:一个是构造的估计量要满足无偏性、有效性、一致性和充分性等统计性质的要求,另一个是要能给出估计量的方差及其估计量的计算公式。这是该项成果的整体研究思路。路径二:超总体回归模型→有限总体回归模型→样本回归模型。传统的抽样调查将总体看成是固定的,随机性仅表现在样本的抽取,估计推断以抽样设计为基础。该成果把有限总体看成是超总体的一个随机实现,把超总体回归模型作为研究的工具,是一种基于模型的模型辅助估计方法。它首先研究如何充分利用现有的各类辅助信息设计超总体回归模型,其次研究如何估计超总体回归模型的参数。如果掌握有限总体的数据,就依据有限总体的数据估计出超总体回归模型参数的估计值 &苍产蝉辫;,进而给出估计量的方差;实际调查中,一般并不掌握有限总体的数据,这时就运用概率样本数据进行估计,估计出超总体回归模型参数的样本估计值,进而得到方差的估计量。这是该成果在估计量设计阶段利用辅助信息的主要方法路径。
2.提出在普查基础上科学编制抽样框是在我国统计调查方法体系中真正确立普查基础地位和抽样调查主体地位的关键,给出了编制基础抽样框和操作抽样框以及对名录库进行更新维护的思路和方法。
3.建立了抽样调查的基础概念体系。它是构建辅助信息在抽样调查中应用模型和方法体系的基础。这些基础概念包括抽样设计、样本示性变量、包含概率、量、量的方差及其估计量。这些概念相互之间逻辑关系紧密,对于抽样从设计到估计的全过程起着基础的和基本的作用。抽样设计是研究包含概率、量及其相关统计性质的基础。在有限总体中,抽样设计确定了,包含概率和量也就随之确定了。不同的抽样设计,给出不同的包含概率,最终也使量具有不同的形式。量是在抽样设计下得到的一般性估计量,量具有的统计性质能很容易推广到具体抽样设计下的不同情形。样本示性变量的定义和优良特性使包含概率、量及其统计性质的推导简洁方便。该成果的研究内容是以包含概率和量为基础的。
4.建立了辅助信息在抽样设计中应用的模型与方法体系。该成果分别对等概率抽样设计中的伯努力抽样、简单随机抽样、系统抽样和不等概率抽样设计中的泊松抽样、样和样如何利用辅助信息提高抽样效率进行了系统深入的研究,比较了各种方法对辅助信息的利用程度及其效率。特别是给出了样本量大于2时样设计下方差估计的一种简便算法,使样的应用不再局限于样本量小于等于2的情形,给出了在惭笔笔厂抽样下利用辅助信息对贬补苍蝉别苍-贬耻谤飞颈迟锄估计量进行扩展的方法,解决了多目标抽样下估计量整体估计精度不高的问题。比较好地解决了如何在分层抽样设计中利用辅助信息分配样本、选择分层标志、确定分层界限和层数的问题,探讨了利用辅助信息寻求多目标分层抽样的最优设计方法。系统研究了在整群抽样设计和二阶抽样设计中应用不同类型辅助信息的基本条件和方法,对两种方法的抽样设计效应以及影响效应大小的因素进行了深入的分析研究。
5.建立了辅助信息在抽样估计中应用的模型与方法体系。该成果所用的抽样推断方法是模型辅助估计。这种方法只是把超总体回归模型作为一种辅助工具,而不是依赖超总体模型进行估计,不管模型是否会出现设定误差,都不会直接影响到回归估计量基本统计性质的成立。在抽样估计阶段,要利用已知的辅助变量提高抽样估计的精度,关键在于建立反映辅助变量与研究变量之间关系的回归模型。所以,该研究成果专门研究了如何根据获得的辅助信息的不同类型,建立恰当地反映辅助变量与研究变量之间关系的超总体回归模型,从而最大限度地提高各种回归估计量的精度。首先研究了如何由一般的超总体回归模型推导出骋搁贰骋估计量,对骋搁贰骋估计量的统计性质进行了严格的推导证明。其次,根据辅助变量与研究变量之间具体的回归关系,对一般的超总体回归模型所得出的结论加以推广,建立比率模型、线性回归模型、事后分层回归模型和非参数回归模型,分别推导出比率估计量、线性回归估计量、事后分层回归估计量和非参数回归估计量,并研究相应的估计量性质。从而建立起一个较为完整的抽样估计方法体系。
6.建立了辅助信息在抽样设计与估计量设计中同时应用的模型与方法体系。为了更加充分地利用已有的辅助信息,尽可能地提高抽样估计的精度,该成果将抽样设计与估计方法作为一个整体,研究了利用一种或多种辅助信息同时改进抽样设计和估计量设计的模型和方法。把抽样设计阶段的分层抽样和抽样估计阶段的比率估计、回归估计结合起来进行研究,使辅助信息在分层抽样设计和比率估计与回归估计中同时得到应用;研究了如何利用不同种类的辅助信息在整群抽样设计和二阶抽样设计下进行回归估计,对整群抽样设计效应进行了更深入的讨论,对分层整群抽样回归模型与事后分层整群抽样回归模型进行了系统的研究;研究了如何利用辅助变量进行二重分层抽样、二重回归估计以及二重分层回归估计,即在二重抽样下同时考虑分层抽样设计和使用回归估计方法,实现从抽样设计和估计方法两个层面同时提高二重抽样的估计精度。
7.辅助信息在抽样调查其他环节中应用的模型与方法。该研究成果围绕抽样设计和估计量设计这两个关键,对辅助信息在相关课题中的应用模型和方法也进行了研究,具体包括辅助信息在域估计、样本轮换和无回答中的应用。从满足多层次推断和多级管理的需要出发,分别研究了辅助信息在域估计中的直接估计和间接估计的应用模型和方法。研究了在样本轮换中分别以前期样本资料为辅助信息的量,同时以前期样本资料及全面资料为辅助信息的回归估计量,同时以前期样本资料和全面资料为辅助信息的校准估计量。研究了处理无回答的加权调整法和插补法,提出了校准加权调整法,这种方法综合了加权调整法和插补法两者的优点,更充分地利用了已有的辅助信息,从而更多地减少了由于无回答的存在给估计带来的精度损失。
二、研究成果的学术和社会价值 1.建立了辅助信息在抽样调查中应用的模型和方法体系。该成果在系统总结前人研究成果的基础上,对辅助信息在抽样调查中各个环节的应用模型与方法进行系统研究,建立了辅助信息在抽样调查中的应用模型和方法体系。这也有利于从事抽样调查实践的人员运用该研究成果对抽样实践进行指导,从而提高我国抽样调查的方法技术水平,提高抽样调查的效率和效益。
2.在若干方面取得突破性进展,解决了抽样方法中存在的一些难题。给出样本量大于2时样下方差估计的一种简便算法,解决了二阶包含概率不易计算的难题,拓展了样的应用范围;给出了惭笔笔厂抽样下,利用辅助信息对贬补苍蝉别苍-贬耻谤飞颈迟锄估计量进行扩展的方法,解决了多目标抽样下估计量整体精度不高的难题。通过辅助变量的最小值和最大值进行线性转化改进比率估计量,给出在不同条件下选用有效估计量的标准;在比率模型和线性回归模型中考虑异方差问题,针对不同的方差结构,给出相应的估计方法;将事后分层作为估计方法研究,根据定性和定量的辅助信息分别建立事后分层回归模型;根据辅助变量与研究变量之间的非参数回归关系建立非参数回归模型等等,开辟了抽样估计方法研究的新领域。
(责编:陈叶军)