数据处理

无效样本

案例数据

包含量表题、答题时长和缺失值，用于识别直线作答、缺失过多和疑似低质量样本。

文件名	dataprocess_invalid.xlsx
数据用途	无效样本案例数据
变量说明	Q1 到 Q8 为量表题，duration_sec 为答题时长，attention_check 为注意力检验题。

问卷回收后，部分样本存在全选同一分值、缺失比例过高或答题时长异常短的问题，需要先标记再筛选。

无效样本识别通常基于缺失比例、同值比例、注意力题或答题时长等质量规则。

缺失比例

第 i 个样本缺失题项数占总题项数的比例。

同值比例

某个样本中出现最多的同一分值占比。

有效标识

满足质量规则的样本标记为有效。

Q1 到 Q8 为量表题，duration_sec 为答题时长，attention_check 为注意力检验题。

表1 无效样本识别示例

有效标识为 1 的样本进入后续分析，0 可通过筛选样本排除。

重点查看有效样本标识的 0/1 分布，确认被标记样本是否符合预设规则。

无效样本识别后，后续分析应基于有效样本进行，以降低乱填、漏填或异常作答对统计结论的干扰。

无效样本标准需要事先说明，不建议分析后为了改变结果随意调整阈值。