训练数据集本身存在缺陷或偏差,导致基于这些数据训练出来的模型(算法)在决策或预测时也产生了系统性偏见。这些问题主要体现在以下几个方面:
代表性不足(Under-representation):
- 情况:训练数据未能充分代表模型将要应用的真实世界人群或场景。
- 例子:
- 用于训练面部识别系统的数据集中,深肤色人群或女性的图像比例过低。
- 用于训练信用评分模型的贷款申请数据中,来自低收入社区或特定少数族裔群体的样本数量不足。
- 用于训练医疗诊断模型的医学影像数据中,特定年龄段、性别或种族的病例样本缺失。
- 后果:模型对未被充分代表的群体表现不佳(如识别率低、预测不准),甚至可能完全忽略这些群体。
标签偏见(Label Bias):
- 情况:用于训练监督学习模型的“标签”本身带有偏见或不准确。
- 例子:
- 在简历筛选模型的训练数据中,“好员工”的标签可能基于历史招聘决策,而这些决策本身可能受到性别或种族偏见的影响(例如,过去男性经理居多,导致模型认为“经理”职位与男性关联更强)。
- 在内容审核模型的训练数据中,“仇恨言论”或“不当内容”的标签定义可能带有主观性或文化偏见,导致模型过度或不足地标记某些群体或观点。
- 用于预测犯罪风险的模型,其训练标签“再犯率”可能受到执法力度不均衡的影响(例如,某些社区被过度监管)。
- 后果:模型学习了标签中的偏见,并在新预测中复制和放大这些偏见。
历史/系统性偏见嵌入(Embedded Historical/Systemic Bias):
- 情况:训练数据反映了现实世界中存在的、长期的结构性不平等、歧视或偏见。
- 例子:
- 用于预测贷款风险的模型,其训练数据来自过去的贷款记录。如果历史上某些种族或邮政编码地区的人被不公平地拒绝贷款或收取更高利率,模型会将这些群体的风险系数学习得更高,即使他们当前的资质相同。
- 用于招聘的模型,其训练数据是过去成功员工的简历。如果过去招聘中存在性别歧视(如女性更难晋升到高管),模型会学习到不利于女性的特征。
- 后果:模型自动化并延续了社会中的既有偏见和不平等。
数据来源偏差(Sampling Bias):
- 情况:收集数据的方法或来源导致数据不能代表整体。
- 例子:
- 主要从互联网论坛收集的文本数据可能过度代表特定年龄段、兴趣或观点的人群。
- 主要从城市地区收集的环境传感器数据无法反映农村地区的状况。
- 使用志愿者数据(如在线调查)可能偏向于有闲暇时间、有特定动机或掌握数字技术的人群。
- 后果:模型只在数据来源所代表的特定子群体上表现良好,在其他群体上表现不佳。
特征偏见/代理变量(Feature Bias/Proxy Variables):
- 情况:训练数据中包含了与受保护属性(如种族、性别)高度相关或作为其“代理”的特征。
- 例子:
- 邮政编码经常与种族和社会经济地位相关联。一个预测信用风险的模型即使没有直接输入种族信息,但使用了邮政编码,就可能间接地基于种族做出歧视性决策。
- 姓名、语言模式、消费习惯等特征都可能成为性别、种族或宗教的代理变量。
- 后果:模型通过这些代理变量间接地对受保护群体进行歧视。
总结来说,“训练数据”问题是算法偏见的核心源头之一。 如果训练数据在代表性、标签准确性、历史公正性、来源广泛性或特征中立性上存在缺陷,那么训练出来的模型就不可避免地会继承并可能放大这些缺陷,导致对某些群体不公平、不准确或有歧视性的结果。因此,在研究和实践中,识别、评估和缓解训练数据中的偏见是构建公平算法的重要环节。这包括采用更全面的数据收集策略、谨慎处理标签、审查数据中的历史偏见、识别代理变量以及使用各种数据预处理和模型训练技术来减轻偏见。