30% 答卷是伪造,美国人却认为对结论影响不大?
记录员在问卷调查中伪造数据并不罕见;但这些伪造的答卷如何影响研究的结论,一直广受争议。一项研究 [1] 认为,即使发生较大规模的答卷伪造,对结论的影响有限,最起码在他们的场景中是这样的。
研究人员参与了 2016 年在委内瑞拉(Venezuela)的一项政治调查。在 1500 份调查答卷中,发现了 650 份有问题的答卷,其中 490 份是伪造的,另外 190 份出现了其他方面的质量问题(诸如记录员宣读问卷的时候出现差错)。随后,研究人员对比了 490 份伪造答卷和真实答卷间的差别。
他们的分析发现,在 113 个问题中,只有少量(13-55 项,取决于所使用的判别标准)问题的均值在伪造答卷和真实答卷间存在显著差异。总体而言,伪造答卷和真实答卷均值的差异在 0.20-0.31 个标准差之间。此外,伪造答卷各项的标准差要小于真实答卷,但两者间的差异,只有 10-52 项(取决于判别的标准)具有显著差异。
研究人员进一步考察了伪造答卷是否会影响统计模型的结论。结果显示,模型的 49 个回归参数中只有 7 个受到影响,而且差异没有统计学上的显著性,只是对参数的 0.95 可信区间产生了影响。
研究还表明,记录员在伪造答卷的时候,更倾向于模仿证实真实答卷,而不是随机选择答卷的选项。伪造了答卷的记录员中,超过 50% 在第一份伪造答卷前进行了至少五份真实答卷的采集。而且,这些伪造答卷的记录员,他们在被停止工作前,平均伪造了 10 份答卷,但平均采集了 21.5 次真实答卷。
研究人员也发现,记录员更倾向于伪造年轻男性的问卷。由于调查要求平衡受访者的性别与年龄,但年轻男性由于外出工作等原因,更难被招募。
值得注意的是,记录员在采集答卷的过程受到多种措施的严格监管,包括但不限于对问卷进行地点的自动记录,设备在过程中随机录音,两名监管人员会在采集后独立听取录音,而且记录员清楚知道这项措施。因此,在对这项研究进行解读时,需要额外关注它的结论是否具有普适性。
Reference