像专家一样解读民意调查结果
在拜登退选之前,各种民意调查的结果都表明川普领先拜登,所以川普和川粉那时很喜欢宣扬民意调查的结果有多么好,说我们要赢了。拜登交棒给哈里斯后,哈里斯逐渐反超川普,而且差距越拉越大。现在哈里斯在全国范围内平均领先川普3个点,而且距离还有可能进一步拉大,所以川普和川粉们不再相信民意调查,认为民意调查都是假的。
有不少人并不是川普的支持者,但也觉得美国这么大,3亿人口只抽查了1000人左右,民意调查的结果怎么能相信呢?其实只要有统计学知识,就知道在全国范围内做民意调查应该抽查多少人。首先要设置一个“置信度”,也就是能成立的概率,一般设在95%,也就是调查结果能成立的概率是95%。根据统计学的公式算一下就知道,在全美国进行随机抽查,只需要抽查1000人左右就够了。这样当然会有误差,误差大概是±3%。所以,哈里斯现在领先川普3个点,如果是49%:46%,意思是有95%的概率,结果在52%:43%和46%:49%之间。但是,只有在很理想的状态下才能这么理解。理想的状态指抽查是随机的,而且获得的样本具有代表性,这样得到的民意调查结果才能比较真实地反映全国的民意。
实际生活中没有这么理想的状态,所以除了误差之外还会在统计上发生别的错误。有一种统计错误是“覆盖错误”,指的是抽查的群体跟目标群体不完全重叠。马斯克也在他的推特账号上做“民意调查”,让推特用户都来投票,看是支持哈里斯还是川普。号称有几百万用户投票,支持川普的超过70%,川粉们很喜欢拿这个数字来表明川普获得的支持比哈里斯高得多。而且强调这是好几百万人投票的结果,比只抽查1000人的民意调查准确得多。其实不是这样的。首先,我们不知道推特投票是不是真的代表了具体的人。现在推特上有很多机器人,有可能就是水军在投票,并不能反映推特的真实用户。其次,即使几百万人都是真实的用户,不是水军和机器人,也不能说明问题,因为推特的用户跟美国的选民不重叠。大部分推特用户是国外的,不是美国选民,即使人在美国,也不都是美国公民。而美国的选民大部分不用推特。推特用户跟美国选民不重叠,就是覆盖错误。
即使不是马斯克这种只能当成娱乐的网络投票,科学的民意调查也存在着覆盖错误的问题。比如以前的民意调查是随机抽取电话本里的电话号码打过去,但是列在电话本上的名单跟美国选民的名单未必是重叠的。这是因为那上面的很多电话号码不是美国选民的,而有一些美国选民并没有公布自己的电话号码,这就出现了覆盖错误。现在很多调查是通过电子邮件或通过网站招募来做的,同样存在着这个问题,虽然民意调查时会确认是否登记的选民,但并不能保证回答者就会说真话。
还有一种统计错误叫做“不响应错误”。以前的民意调查都是打电话询问,现在由于垃圾电话太多,大部分人不接陌生电话,或者接了之后听说是民意调查,就说没时间或不愿意做,这就叫做“不响应”。现在完全靠电话做的民意调查还有,但很少,大部分通过网络或发邮件做民意调查,或者在网上刊登广告吸引人来做调查,有的还会给一点奖励。更多的是各种调查方式结合在一起,比如网上和电话相结合。但不管用哪种方式做调查,都存在着“不响应”,因为不管什么方式,大部分人都不会理睬民意调查,大概只有1%的人会接受民意调查。这就出现了一个问题:愿意接受和不愿意接受的人群不一样。相对来说,年轻人比年纪大的人、少数族裔比多数族裔、教育程度比较低的人比教育程度高的人更不愿意接受民意调查,这就导致获得的样本有偏差,调查结果就不具有代表性。
具有代表性的样本必须反映整个人口的分布情况,所以做民意调查的人都会参照人口的分布特征,根据年龄、性别、教育程度、种族、党派、意识形态等指标进行加权调整,现在最多的用到了12个指标。但即使这样,也未必能够获得一个很典型的样本。比如2016年和2020年两次美国大选,民意调查的结果都低估了川普的支持率。人们一开始怀疑川普的支持者不好意思说自己支持川普,于是说了假话,说自己支持第三方或者支持希拉里、拜登,或者说未确定支持谁;后来研究的结果发现,川普的支持者并不害羞。发生偏差的主要原因在于川普的支持者相对比较不愿意接受民意调查,因为他们信不过做民意调查的机构,特别是新闻媒体。很多民意调查都是新闻媒体委托民意调查机构去做的,打电话或者发邮件说,我们是《纽约时报》或者美联社,要做民意调查。以前一听是《纽约时报》、美联社,觉得他们信誉很好,愿意接受民意调查;但川普粉们一听美联社、《纽约时报》,认为是假新闻,就把电话掐了或把邮件删了,有的在掐了或删了之前还先骂一顿。这就导致民意调查获得的样本里,川普的支持者比例偏低,也就导致川普的支持率偏低。这是比较难解决的一个问题,现在虽有各种各样的办法试图对此做出校正(例如询问被调查者上次大选投票给谁),但结果很难说。
美国大选的民意调查跟别的民意调查不一样,还有它的特殊性。首先,它要调查的是人们未来的行为,问的是大选那一天怎么投票,而不是现在的看法。这就存在问题了:人们的行为会发生改变,现在说要投给谁,到时候完全可能发生变化。现在说要投给哈里斯,投票时投给川普;或者现在说要投给川普,投票时却改投给哈里斯或者第三方。现在说自己会投票的,未必到时候就会去投票;现在说不投票的,到时候说不定会去投票。美国的投票率很低,大概三分之一的选民不去投票,而投票率的高低跟民意调查结果的准确性有很大的关系。民意调查的结果会低估了川普的支持率的一个原因就跟投票情况有关,民意调查低估了川普支持者的投票率。
美国大选的民意调查还有一个很特殊的问题,美国总统选举的结果并不由全国的选票决定,而是由各州“选举人票”决定的。做美国全国民意调查的机构非常多,平均下来,各种错误会相互抵消,所以美国全国的民意调查结果相对来比较准确。但是,做州的民意调查的工作量和全国的一样,都要抽查1000人左右,每做一个州就多一倍工作量,做州的民意调查的机构当然少多了,做得也没有全国的那么频繁,结果也就没有全国的准确。
人们都说2016年的民意调查结果错得离谱,以为希拉里会赢,结果是川普赢,所以川粉老拿2016年的民意调查说事,要人们不要相信民意调查的结果。其实,2016年全国范围的民意调查结果相当准确,最后的调查结果希拉里平均领先川普3个点,投票的结果是希拉里领先川普两个点。只不过具体到各州,特别是摇摆州,民意调查的结果比较不准确,导致了预测出现错误。
虽然民意调查的结果并不是那么可靠,但毕竟还是能反映出大选的大致情况及其趋势,除此之外也没有什么更好的办法。所以我们也不能因为民意调查不完美,就觉得民意调查完全没有用,它还有相当大的参考价值。只不过在参考民意调查结果时要注意,它是存在问题的,不能过于相信。现在说哈里斯领先川普3个点,最后的投票结果未必就是领先3个点,要留有余地。如果哈里斯能够领先川普6、7个点 或更多,距离拉得越大,获胜的可能性就越高,就更让人放心她会获胜。
2024.08.29录制
2024.09.16整理