缺失数据的性质与缺失的原因同样重要。统计学家唐纳德·鲁宾和罗德里克·利特尔在其开创性著作中提出了一个分类系统,该系统已成为理解缺失数 印度尼西亚 WhatsApp 号码 据模式的标准。这种类型学至关重要,因为处理缺失数据的适当方法通常取决于导致数据缺失的机制。
完全随机缺失(MCAR):
-
这是最良性的情况,但在实践中往往最不可能发生。 当缺失值的概率完全独立于观察到的数据和未观察到的数据时,数据被视为 MCAR。换句话说,缺失值纯粹是随机事件。例如,如果一份调查问卷的几页内容意外丢失,那么这些页面的缺失数据就是MCAR。这些特定答案的缺失与受访者的性格或他们对其他问题的回答无关。
随机缺失 (MAR):
-
这是一种更常见、更复杂的情况。当某个值缺 方便企业根据不同需求制定个性化内容 失的概率与观察到的数据相关,但与缺失数据本身无关时,数据被视为 MAR。简单来说,我们可以根据数据集中的其他信息来预测“缺失值”。例如,在一项健康研究中,男性回答心理健康问题的可能性可能低于女性。心理健康数据的缺失值并非随机的,而是取决于观察到的“性别”变量。如果我们知道受访者的性别,我们就可以解释这种缺失模式。
非随机缺失(MNAR):
-
这是最有问题的缺失数据类型。当缺失值的概率与缺失值本身相关时,数据被视为MNAR。数据缺失的真正原因在于它本来应该具有的值。例如,收入很高的人可能不太可能在调查中披露其收入。在这种情况下,“收入”变量的缺失值与收入水平直接相关。这种类型的缺失数据是最难处理的,因为我们无法使用观察到的数 手机号码 据来预测缺失值,除非做出强有力的、通常无法检验的假设。
了解缺失数据的特定实例属于哪一类是诊断的关键步骤。这有助于选择合适的插补方法,并避免在分析中引入偏差。