案例2 全国电视观众抽样调查的样本设计与加权方法 一、背景介绍 我国是世界上人口最多的国家,也拥有世界上数量最大的电视收视群体。全 国电视观众抽样调查是由中央电视台组织的对全国电视观众的大规模的抽样调 查。从1987年开始,每5年进行一次,2002年是第四次调查。电视观众调查的 目的是:准确获取全国电视观众群体规模、构成以及分布情况,获取这些观众的 收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改 进电视频道和栏目、开展电视观众行为研究提供新的依据。 为保证调查的客观、公正和准确,中央电视台将此次调查委托中国科学院数 学与系统科学研究院系统科学所、国家统计局农村调查总队及央视市场调查股份 有限公司等机构共同完成,其中调查的抽样设计及数据的加权处理方法是由笔者 承相的。 本次调查采用分层PPS抽样方法,把全国所有的区、县作为第一级(阶)抽样 单位,并且确定了所有样本区县与居委会、村委会的样本量以及每个居(村委会) 分配的具体样本量,共抽中覆盖全国31个省,自治区,直辖市(港,澳,台除 外)的11950个成人样本,实际回收有效问卷11760份,有效率为98.41%。另 外还附带调查了2042个儿童样本。 为了确保调查数据的准确,中央电视台总编室先后召开了4次专家讨论会相 论证会,对此次调查的问卷内容,抽样设计进行了反复推敲和论证。整个调查活 动从筹备到公布调查结果历时一年。调查的新闻发布会于12月19日上午在中央 电视台举行,并在当天的新闻联播中进行了报道,引起广泛的社会反响,调查取 得良好的社会效果。 本文着重介绍此次调查的样本设计及为估计全国及不同地区目标量的数据 加权方法。2002年调查的抽样方案的设计思想及具体抽样方法与前几次调查有 很大差别。从设计思想上,本次调查的抽样以精确估计全国目标量为重点,而个 考虑省级估计的需要,样本分配更为科学与合理。对第一阶抽样单元即区、县进 行了非常仔细的分层,从而大大地提高于估计的精度:对自我代表层的设立、城 乡区分等具体问题都作了妥善的处理,这次调查的抽样设计是一个科学性强、放
案例 2 一、背景介绍 我国是世界上人口最多的国家,也拥有世界上数量最大的电视收视群体。全 国电视观众抽样调查是由中央电视台组织的对全国电视观众的大规模的抽样调 查。从 1987 年开始,每 5 年进行一次,2002 年是第四次调查。电视观众调查的 目的是:准确获取全国电视观众群体规模、构成以及分布情况,获取这些观众的 收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改 进电视频道和栏目、开展电视观众行为研究提供新的依据。 为保证调查的客观、公正和准确,中央电视台将此次调查委托中国科学院数 学与系统科学研究院系统科学所、国家统计局农村调查总队及央视市场调查股份 有限公司等机构共同完成,其中调查的抽样设计及数据的加权处理方法是由笔者 承担的。 本次调查采用分层 PPS 抽样方法,把全国所有的区、县作为第一级(阶)抽样 单位,并且确定了所有样本区县与居委会、村委会的样本量以及每个居(村委会) 分配的具体样本量,共抽中覆盖全国 31 个省,自治区,直辖市 (港,澳,台除 外)的 11950 个成人样本,实际回收有效问卷 11760 份,有效率为 98.41%。另 外还附带调查了 2042 个儿童样本。 为了确保调查数据的准确,中央电视台总编室先后召开了 4 次专家讨论会相 论证会,对此次调查的问卷内容,抽样设计进行了反复推敲和论证。整个调查活 动从筹备到公布调查结果历时一年。调查的新闻发布会于 12 月 19 日上午在中央 电视台举行,并在当天的新闻联播中进行了报道,引起广泛的社会反响,调查取 得良好的社会效果。 本文着重介绍此次调查的样本设计及为估计全国及不同地区目标量的数据 加权方法。2002 年调查的抽样方案的设计思想及具体抽样方法与前几次调查有 很大差别。从设计思想上,本次调查的抽样以精确估计全国目标量为重点,而个 考虑省级估计的需要,样本分配更为科学与合理。对第一阶抽样单元即区、县进 行了非常仔细的分层,从而大大地提高于估计的精度;对自我代表层的设立、城 乡区分等具体问题都作了妥善的处理,这次调查的抽样设计是一个科学性强、放
率高、操作便利的方案。 二、目标总体、抽样设计的原则及需要考虑的具体问题 1.目标总体 此次调查的目标总体定为全国31个省、自治区、直辖市(港澳台除外)电视 信号覆盖区域内所有城乡家庭户中的13岁以上可视居民以及4~12岁的儿童。 包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会 内居住满6个月或预计居住6个月以上,都包括在内,但不包括住在军营内的现 役军人、集体户及无固定住所的人口。 2.抽样设计的原则 抽样设计按照科学、效率、便利的原则。首先,作为一项全国性抽样调查, 整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代 人性。其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案 设汁应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。第三,方案 必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理, 3.需要考虑的具体问题及相应的处理方法 (1)城乡区分 城市与农村的电视观众的收视习惯与爱好有很大的区别。理所当然地应分别进 行研究,以便于对比。最方便的处理是将他们作为两个研究域进行独立抽样,但 这样做的代价是调查样本点数量大,地域分散,相应的费用也就较高。另一种处 理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在 其后的抽样中再区分城、乡。这样做的优点是样本点相对集中,但数据处理较为 复杂。综合考虑各种因素,本方案采用第二种处理方式。在样本区、县中,以居 委会的数据代表城市:以村委会的数据代表农村。 (②)抽样方案的类型与抽样单元的确定 全国性抽样必须采用利用区域框的多阶抽样,而多阶抽样中设计的关键是各阶 抽样单元的选择,其中尤以第一阶抽样单元最为重要。本项调查除个别直辖市及 大城市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。在 这种情况下,选择区、县作为初级抽样单元最为适宜。因为全国区、县的总数量 很大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。另外对区、县 的分层也可分得更为精细
率高、操作便利的方案。 二、目标总体、抽样设计的原则及需要考虑的具体问题 1.目标总体 此次调查的目标总体定为全国 31 个省、自治区、直辖市(港澳台除外)电视 信号覆盖区域内所有城乡家庭户中的 13 岁以上可视居民以及 4~12 岁的儿童。 包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会 内居住满 6 个月或预计居住 6 个月以上,都包括在内,但不包括住在军营内的现 役军人、集体户及无固定住所的人口。 2.抽样设计的原则 抽样设计按照科学、效率、便利的原则。首先,作为一项全国性抽样调查, 整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代 人性。其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案 设汁应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。第三,方案 必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理, 3.需要考虑的具体问题及相应的处理方法 (1)城乡区分 城市与农村的电视观众的收视习惯与爱好有很大的区别。理所当然地应分别进 行研究,以便于对比。最方便的处理是将他们作为两个研究域进行独立抽样,但 这样做的代价是调查样本点数量大,地域分散,相应的费用也就较高。另一种处 理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在 其后的抽样中再区分城、乡。这样做的优点是样本点相对集中,但数据处理较为 复杂。综合考虑各种因素,本方案采用第二种处理方式。在样本区、县中,以居 委会的数据代表城市;以村委会的数据代表农村。 (2)抽样方案的类型与抽样单元的确定 全国性抽样必须采用利用区域框的多阶抽样,而多阶抽样中设计的关键是各阶 抽样单元的选择,其中尤以第一阶抽样单元最为重要。本项调查除个别直辖市及 大城市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。在 这种情况下,选择区、县作为初级抽样单元最为适宜。因为全国区、县的总数量 很大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。另外对区、县 的分层也可分得更为精细
本抽样方案采用分层五阶抽样。各阶抽样单元确定为: 第一阶抽样:区(地级市以上城市的市辖区)、县(包括县级市等): 第二阶抽样:街道、乡、镇: 第三阶抽样:居委会、村委会: 第四阶抽样:家庭户: 第五阶抽样:个人。 为提高抽样效率,减少抽样误差,在第一阶抽样中对区、县采用按地域及类别 分层。在每一层内前三阶抽样均采用按与人口成正比的不等概率系统抽样PPS 系统抽样),而第四阶抽样采用等概率系统抽样,即等距抽样,第五阶抽样采用 简单随机抽样。 (3)自我代表层的设立 根据主持单位的要求,本次调查需要对北京、上海两个直辖市以及广州、成都、 长沙与西安四个省会城市进行独立分析,因而在处理上将这些城市(包括下辖的 所有区、县)每个都作为单独的一层处理。为方便起见,以下把这样的层称为自 我代表层。考虑到在这样处理后,全国其他区县在分层中的一些具体问题以及各 地的特殊情况,将天津市也作为自我代表层处理。另外,鉴于海南与西藏情况特 殊,因此也将它们作为自我代表层处理。这样自我代表层共有9个。 三、样本区、县的抽选方法 1.全国区、县的调查总体 根据2001年的全国行政区划资料[4],全国(港澳台除外)共有787个市辖区, 此外有5个地级市(湖州、东莞、中山、三亚、嘉峪关)不设市辖区,若将它们每 个都视同一个市辖区,则共有792个区:全国共有1674个县(包括自治县及旗、 自治旗、特区与林区等)、400个县级市,县级行政单位的总数为2074个,这中 间包括福建省的金门县,不能进行调查,因此除金门县以外的所有2865个区、 县(792个区及2073个县)构成此次调查的调查总体。 2.区、县分层 为便于调查后的资料分类汇总及提高精度,应将全国区、县进行分层。分层 叫以按多种标识进行,从理论而言,分层标识应选取与调查指标相关程度较高的 那些变量。在本次调查中也就是应选取与观众收视行为、习惯与爱好等密切相关 的内变量。关于这方面已有一些相应的研究结果,例如观众的年龄、性别、文化
本抽样方案采用分层五阶抽样。各阶抽样单元确定为: 第一阶抽样:区(地级市以上城市的市辖区)、县(包括县级市等); 第二阶抽样:街道、乡、镇; 第三阶抽样:居委会、村委会; 第四阶抽样:家庭户; 第五阶抽样:个人。 为提高抽样效率,减少抽样误差,在第一阶抽样中对区、县采用按地域及类别 分层。在每一层内前三阶抽样均采用按与人口成正比的不等概率系统抽样 PPS 系统抽样),而第四阶抽样采用等概率系统抽样,即等距抽样,第五阶抽样采用 简单随机抽样。 (3)自我代表层的设立 根据主持单位的要求,本次调查需要对北京、上海两个直辖市以及广州、成都、 长沙与西安四个省会城市进行独立分析,因而在处理上将这些城市(包括下辖的 所有区、县)每个都作为单独的一层处理。为方便起见,以下把这样的层称为自 我代表层。考虑到在这样处理后,全国其他区县在分层中的一些具体问题以及各 地的特殊情况,将天津市也作为自我代表层处理。另外,鉴于海南与西藏情况特 殊,因此也将它们作为自我代表层处理。这样自我代表层共有 9 个。 三、样本区、县的抽选方法 1.全国区、县的调查总体 根据2001年的全国行政区划资料[4],全国(港澳台除外)共有787个市辖区, 此外有 5 个地级市(湖州、东莞、中山、三亚、嘉峪关)不设市辖区,若将它们每 个都视同一个市辖区,则共有 792 个区;全国共有 1674 个县(包括自治县及旗、 自治旗、特区与林区等)、400 个县级市,县级行政单位的总数为 2074 个,这中 间包括福建省的金门县,不能进行调查,因此除金门县以外的所有 2865 个区、 县 (792 个区及 2073 个县)构成此次调查的调查总体。 2.区、县分层 为便于调查后的资料分类汇总及提高精度,应将全国区、县进行分层。分层 叫以按多种标识进行,从理论而言,分层标识应选取与调查指标相关程度较高的 那些变量。在本次调查中也就是应选取与观众收视行为、习惯与爱好等密切相关 的内变量。关于这方面已有一些相应的研究结果,例如观众的年龄、性别、文化
程度、职业、居住地的生活习惯与气候等。不过注意到我们不可能按观众的个体 来分类,只能按观众居住的区、县来分类。而对于区、县,许多表示人口特征(除 人口总数)及经济文化发展指标(除所在省的人文发展指数及县的人均GPT)的资 料都无法得到,经过多方研究,我们对区县的分层按以下两种标识进行。 (1)地域 我国幅员广大,各地经济、社会、文化与气候的地域差异极大,而所有这些 因素部与电视观众的收视行为密切相关。我们首先将所有县按所在省(自治区、 直辖市)的地理位置分成3大层14个子层,[各省括号内的数字为它们的人文发 展指数(HumanDevelopmentIndex,简称HDI),在全国的排位,参见本案例的辅 助材料。地域分层如表1。 需要说明的是以上划分的层,还考虑了其他一些因素,各省按联合国制定的 标准计算的人文发展指数仅是考虑因素之一。例如,按人文发展指数,广西(第 19位)实际上可划在第二大层(中部地区),但考虑到国家西部大开发的范围将广 西划入西部地区,我们的划分与它一致,这样便于资料的汇总发布。又如海南省, 根据人文发展指数(第13位)放在第一大层稍为勉强,但是根据它的地理位置以 及它以旅游为主业,也有其特殊性,作为单独一个子层,也划在第一大层。 (2)区、县类别 表1全国区、县的地域分层 大层 所含省、自治区、直辖市 第一大层(东部地区) 子层10:上海(1)人、北京(2入、天津(3)(每个都作为自我代表 层) 子层11:辽宁(5)、山东(9) 子层12:江苏(7)、浙江(6) 子层13:福建(8)、广东(4) 子层14:海南(13)(自我代表层) 第二大层(中部地区) 子层21:黑龙江(10、吉林(12) 子层22:河北(11、河南(18)、山西(16) 子层23:安徽(20)、江西(23) 子层24:湖北(14)、湖南(17) 第三大层(西部地区) 子层31:内蒙古(21)、新疆(15、宁夏(26) 子层32:陕西(25)、甘肃(28)、青海(29)
程度、职业、居住地的生活习惯与气候等。不过注意到我们不可能按观众的个体 来分类,只能按观众居住的区、县来分类。而对于区、县,许多表示人口特征(除 人口总数)及经济文化发展指标(除所在省的人文发展指数及县的人均 GPT)的资 料都无法得到,经过多方研究,我们对区县的分层按以下两种标识进行。 (1)地域 我国幅员广大,各地经济、社会、文化与气候的地域差异极大,而所有这些 因素部与电视观众的收视行为密切相关。我们首先将所有县按所在省(自治区、 直辖市)的地理位置分成 3 大层 14 个子层,[各省括号内的数字为它们的人文发 展指数(HumanDevelopmentlndex,简称 HDl),在全国的排位,参见本案例的辅 助材料。地域分层如表 1。 需要说明的是以上划分的层,还考虑了其他一些因素,各省按联合国制定的 标准计算的人文发展指数仅是考虑因素之一。例如,按人文发展指数,广西 (第 19 位)实际上可划在第二大层(中部地区),但考虑到国家西部大开发的范围将广 西划入西部地区,我们的划分与它一致,这样便于资料的汇总发布。又如海南省, 根据人文发展指数(第 13 位)放在第一大层稍为勉强,但是根据它的地理位置以 及它以旅游为主业,也有其特殊性,作为单独一个子层,也划在第一大层。 (2)区、县类别 表 1 全国区、县的地域分层 大层 所含省、自治区、直辖市 第一大层(东部地区) 子层 10:上海(1)、北京(2)、天津(3)(每个都作为自我代表 层) 子层 11:辽宁(5)、山东(9) 子层 12:江苏(7)、浙江(6) 子层 13:福建(8)、广东(4) 子层 14:海南(13)(自我代表层) 第二大层(中部地区) 子层 21:黑龙江(10)、吉林(12) 子层 22:河北(11)、河南(18)、山西(16) 子层 23:安徽(20)、江西(23) 子层 24:湖北(14)、湖南(17) 第三大层(西部地区) 子层 31:内蒙古(21)、新疆(15)、宁夏(26) 子层 32:陕西(25)、甘肃(28)、青海(29)
子层33:重庆(22入、四川(24) 子层34:广西(19X、云南(27)、贵州(30) 子层35:西藏(31)(自我代表层) 同一大层的各市辖区与所隶属的城市的规模、在城市中的地理位置(市区或 郊区)和居民成分构成(非农业人口占总人口的比例)有较大差异,各县也因经济 文化发达程度有较大差异。我们将各大层中所有的区、县除已划为自我代表层的 以外,(如下称抽样总体)分成一类区,二类区,县级市,一类县,二类县5类, 每类组成1个小层。 全国抽样总体中所有区县共分成11X5二55个小层。其中区的划分标准为 区中非农业人口占总人口的比例,比例高于标准的为一类区,比例低于标准的为 二类区:县的划分标准为人均国内生产总值,高的为一类县,低的为二类县。区 县划分类别的标准在三大层中各不相同,具体标准如下: 区类别的划分标准:东部地区与中部地区:非农人口在总人口中的比例大于 或等于80%为一类区,小于80%为二类区:西部地区:非农人口在总人口中的 比例大于或等于70%为一类区,小于70%为二类区。 县类别的划分标准:东部地区:人均GDP在5000元以上为一类县:5000元 以下为二类县。中部地区:人均GDP在4000元以上为一类县:4000元以下为二 类县。西部地区:人均GDP在3000元以上为一类县:3000元以下为二类县。 3.自我代表层的区、县的构成 根据最新行政区划,自我代表层中各城市及海南省、西藏自治区所辖的区 县的构成情况分别如表2。其中为区划分所需的非农业人口在总人口中所占比例 取自公安部发布的全因区县户籍人口资料。 表2自我代表层的辖区、县构成 类区 类区 直辖市的县及其他县级而 县 总罚 北系市 8 天津市 18 上海市 19 广州市 12 成都市 19
子层 33:重庆(22)、四川(24) 子层 34:广西(19)、云南(27)、贵州(30) 子层 35:西藏(31)(自我代表层) 同一大层的各市辖区与所隶属的城市的规模、在城市中的地理位置(市区或 郊区)和居民成分构成(非农业人口占总人口的比例)有较大差异,各县也因经济 文化发达程度有较大差异。我们将各大层中所有的区、县除已划为自我代表层的 以外,(如下称抽样总体)分成一类区,二类区,县级市,一类县,二类县 5 类, 每类组成 1 个小层。 全国抽样总体中所有区县共分成 11X 5 二 55 个小层。其中区的划分标准为 区中非农业人口占总人口的比例,比例高于标准的为一类区,比例低于标准的为 二类区;县的划分标准为人均国内生产总值,高的为一类县,低的为二类县。区 县划分类别的标准在三大层中各不相同,具体标准如下: 区类别的划分标准:东部地区与中部地区:非农人口在总人口中的比例大于 或等于 80%为一类区,小于 80%为二类区;西部地区:非农人口在总人口中的 比例大于或等于 70%为一类区,小于 70%为二类区。 县类别的划分标准:东部地区:人均 GDP 在 5000 元以上为一类县;5000 元 以下为二类县。中部地区:人均 GDP 在 4000 元以上为一类县;4000 元以下为二 类县。西部地区:人均 GDP 在 3000 元以上为一类县;3000 元以下为二类县。 3.自我代表层的区、县的构成 根据最新行政区划,自我代表层中各城市及海南省、西藏自治区所辖的区、 县的构成情况分别如表 2。其中为区划分所需的非农业人口在总人口中所占比例 取自公安部发布的全国区县户籍人口资料。 表 2 自我代表层的辖区、县构成 一类区 二类区 直辖市的县及其他县级市 县 总计 北京市 8 5 5 - 18 天津市 7 7 4 - 18 上海市 9 7 3 - 19 广州市 5 5 2 - 12 成都市 5 2 4 8 19